Regresi Multilinier
Secara statistik, analisis multivariat mengacu pada model statistik yang memiliki 2 atau lebih variabel dependen atau hasil, dan analisis multivariat mengacu pada model statistik di mana terdapat beberapa variabel independen atau respons.
Model multivariabel dapat dianggap sebagai model di mana banyak variabel ditemukan di sisi kanan persamaan model. Jenis model statistik ini dapat digunakan untuk mencoba menilai hubungan antara sejumlah variabel; seseorang dapat menilai hubungan independen sambil menyesuaikan kemungkinan pembaur.
Model regresi linier sederhana memiliki hasil kontinu dan satu prediktor, sedangkan model regresi linier berganda atau multivariabel memiliki hasil kontinu dan beberapa prediktor (kontinu atau kategoris). Model regresi linier multivariabel atau berganda akan berbentuk
$$y = β_0 + β_1 x_1+...+ β_n x_n $$di mana $x_1 , x_2 , ..., x_k$ adalah prediktor dalam model multivariabel.
Regresi multivariat, sebaliknya, mengacu pada pemodelan data yang sering berasal dari studi longitudinal, di mana suatu hasil diukur untuk individu yang sama pada beberapa titik waktu (tindakan berulang), atau pemodelan data bersarang/berkelompok, di mana ada banyak individu di setiap kluster. Model regresi linier multivariat akan memiliki bentuk
$$y_{nxp} = β_0 + β_{nx(k+1)} x_{px(k+1)}$$di mana hubungan antara beberapa variabel dependen (yaitu, $Y_s$) diukur dari beberapa hasil dan satu set variabel prediktor (yaitu, $X_s$) diperhitungkan.
Meskipun beberapa orang mungkin berpendapat bahwa penggunaan multivariate dan multivariable yang dapat dipertukarkan hanyalah semantik, membedakan antara kedua istilah itu penting.
Regresi linier sederhana dapat dengan mudah diperluas untuk mencakup banyak fitur. Ini disebut multipel regresi linier (MLR):
Dataset di bawah ini adalah hasil pengukuran kekuatan tekan beton. Kekuatan tekan beton sangat dipengaruhi oleh komposisi penyusunnya.
https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength
Original Owner and Donor Prof. I-Cheng Yeh Department of Information Management Chung-Hua University, Hsin Chu, Taiwan 30067, R.O.C. e-mail:icyeh '@' chu.edu.tw
Data terdiri dari:
Variabel input terdiri dari:
Variabel outpu ada di kolom ke 9:
Variabel input yang digunakan adalah:
Kolom pada dataset disederhanakan untuk memudahkan pada pembacaan data.
Model linier dari input X dan output Y data di atas dapat dibuat dengan model linear ScikitLearn sebagai berikut
Nilai koefisien dan intersep persamaan yang diperoleh adalah sebagai berikut
Dari nilai koefisien/slope persamaan multivariabel yang diperoleh diketahui bahwa:
mengingat satuan dari masing-masing variabel sudah disetarakan, tidak ada dominasi satu variabel terhadap variabel yang lain.
Dari kurva korelasi masing-masing variabel terhadap kuat tekan beton terlihat bahwa sebenarnya kontribusi masing-masing variabel boleh dikatakan tidaklah benar-benar linier. Walau, ketika kedelapan variabel tadi dikorelasikan bersama-sama memberi korelasi yang nampak linier.
Dalam beberapa kasus karena perbedaan penskalaan data input, seringkali satu atau dua variabel menekan kontribusi variabel yang lain, sehingga penskalaan data input perlu dilakukan sebelum dianalisis.