Regresi Multilinier

Compiled by: Suprapto van Plaosan

Secara statistik, analisis multivariat mengacu pada model statistik yang memiliki 2 atau lebih variabel dependen atau hasil, dan analisis multivariat mengacu pada model statistik di mana terdapat beberapa variabel independen atau respons.

Model multivariabel dapat dianggap sebagai model di mana banyak variabel ditemukan di sisi kanan persamaan model. Jenis model statistik ini dapat digunakan untuk mencoba menilai hubungan antara sejumlah variabel; seseorang dapat menilai hubungan independen sambil menyesuaikan kemungkinan pembaur.

Model regresi linier sederhana memiliki hasil kontinu dan satu prediktor, sedangkan model regresi linier berganda atau multivariabel memiliki hasil kontinu dan beberapa prediktor (kontinu atau kategoris). Model regresi linier multivariabel atau berganda akan berbentuk

$$y = β_0 + β_1 x_1+...+ β_n x_n $$

di mana $x_1 , x_2 , ..., x_k$ adalah prediktor dalam model multivariabel.

Regresi multivariat, sebaliknya, mengacu pada pemodelan data yang sering berasal dari studi longitudinal, di mana suatu hasil diukur untuk individu yang sama pada beberapa titik waktu (tindakan berulang), atau pemodelan data bersarang/berkelompok, di mana ada banyak individu di setiap kluster. Model regresi linier multivariat akan memiliki bentuk

$$y_{nxp} = β_0 + β_{nx(k+1)} x_{px(k+1)}$$

di mana hubungan antara beberapa variabel dependen (yaitu, $Y_s$) diukur dari beberapa hasil dan satu set variabel prediktor (yaitu, $X_s$) diperhitungkan.

Meskipun beberapa orang mungkin berpendapat bahwa penggunaan multivariate dan multivariable yang dapat dipertukarkan hanyalah semantik, membedakan antara kedua istilah itu penting.

Regresi linier sederhana dapat dengan mudah diperluas untuk mencakup banyak fitur. Ini disebut multipel regresi linier (MLR):

$$y = β_0 + β_1 x_1+...+ β_n x_n $$

Dataset yang digunakan dataset kekuatan tekan beton

Dataset di bawah ini adalah hasil pengukuran kekuatan tekan beton. Kekuatan tekan beton sangat dipengaruhi oleh komposisi penyusunnya.

https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength

Original Owner and Donor Prof. I-Cheng Yeh Department of Information Management Chung-Hua University, Hsin Chu, Taiwan 30067, R.O.C. e-mail:icyeh '@' chu.edu.tw

Data terdiri dari:

  • 1030 baris, dengan 8 input variabel dan 1 output variabel.

Variabel input terdiri dari:

  • Cement (component 1) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Blast Furnace Slag (component 2) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Fly Ash (component 3) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Water (component 4) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Superplasticizer (component 5) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Coarse Aggregate (component 6) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Fine Aggregate (component 7) -- quantitative -- kg in a m3 mixture -- Input Variable
  • Age -- quantitative -- Day (1~365) -- Input Variable

Variabel outpu ada di kolom ke 9:

  • Concrete compressive strength -- quantitative -- MPa -- Output Variable
Table 1: Data kuat tekan beton
Cement Blast Furnace Slag Fly Ash Water Superplasticizer Coarse Aggregate Fine Aggregate Age Comp. Strength
540.0 0.0 0.0 162.0 2.5 1040.0 676.0 28 79.986111
540.0 0.0 0.0 162.0 2.5 1055.0 676.0 28 61.887366
332.5 142.5 0.0 228.0 0.0 932.0 594.0 270 40.269535
332.5 142.5 0.0 228.0 0.0 932.0 594.0 365 41.052780
198.6 132.4 0.0 192.0 0.0 978.4 825.5 360 44.296075
266.0 114.0 0.0 228.0 0.0 932.0 670.0 90 47.029847
380.0 95.0 0.0 228.0 0.0 932.0 594.0 365 43.698299
380.0 95.0 0.0 228.0 0.0 932.0 594.0 28 36.447770
266.0 114.0 0.0 228.0 0.0 932.0 670.0 28 45.854291
475.0 0.0 0.0 228.0 0.0 932.0 594.0 28 39.289790

Variabel input yang digunakan adalah:

Table 2: Variabel X untuk memprediksi kuat tekan beton
Cement Blast Furnace Slag Fly Ash Water Superplasticizer Coarse Aggregate Fine Aggregate Age
540.0 0.0 0.0 162.0 2.5 1040.0 676.0 28
540.0 0.0 0.0 162.0 2.5 1055.0 676.0 28
332.5 142.5 0.0 228.0 0.0 932.0 594.0 270
332.5 142.5 0.0 228.0 0.0 932.0 594.0 365
198.6 132.4 0.0 192.0 0.0 978.4 825.5 360

Kolom pada dataset disederhanakan untuk memudahkan pada pembacaan data.

(1030, 8)

Table 4: Variabel Y untuk analisis regresi kuat tekan beton
Comp. Strength
79.986111
61.887366
40.269535
41.052780
44.296075

Model linier dari input X dan output Y data di atas dapat dibuat dengan model linear ScikitLearn sebagai berikut

Figure 5: Kurva regresi data kuat tekan beton

Nilai koefisien dan intersep persamaan yang diperoleh adalah sebagai berikut

Intercept: [-23.16375581]
Koefisien: [[ 0.11978526  0.10384725  0.08794308 -0.1502979   0.29068694  0.01803018
   0.02015446  0.11422562]]

Index(['Cement', 'Blast Furnace Slag', 'Fly Ash', 'Water', 'Superplasticizer',
       'Coarse Aggregate', 'Fine Aggregate', 'Age'],
      dtype='object')

Figure 8: Kurva koefisien/slope untuk masing-masing variabel kuat tekan beton

Dari nilai koefisien/slope persamaan multivariabel yang diperoleh diketahui bahwa:

  • semua variabel yang dipelajari mempengaruhi kekuatan tekan beton
  • tujuh variabel memberi pengaruh positif dan 1 variabel memberi pengaruh negatif
  • kekuatan kompresi beton meningkat seiring meningkatnya jumlah superplastizer, semen, usia, blast furnace slag, fly ash, fine aggregate dan coarse agregate, secara berurutan.
  • jumlah air yang ditambahkan akan menurunkan kekuatan tekan beton

mengingat satuan dari masing-masing variabel sudah disetarakan, tidak ada dominasi satu variabel terhadap variabel yang lain.

Dari kurva korelasi masing-masing variabel terhadap kuat tekan beton terlihat bahwa sebenarnya kontribusi masing-masing variabel boleh dikatakan tidaklah benar-benar linier. Walau, ketika kedelapan variabel tadi dikorelasikan bersama-sama memberi korelasi yang nampak linier.

Dalam beberapa kasus karena perbedaan penskalaan data input, seringkali satu atau dua variabel menekan kontribusi variabel yang lain, sehingga penskalaan data input perlu dilakukan sebelum dianalisis.