Preparasi Data
Dataset Columns:
Indeks massa tubuh (BMI) adalah berat seseorang dalam kilogram dibagi dengan tinggi dalam meter kuadrat.
Indeks massa tubuh (BMI) adalah ukuran lemak tubuh berdasarkan tinggi dan berat badan yang berlaku untuk pria dan wanita dewasa.
Kategori BMI:
Data Gender merupakan data kategori dengan tipe dikotomi. Kita bisa ubah data gender ke dalam kode 0 untuk Female dan 1 untuk Male. Konversi ini berguna untuk pengolahan data berdasarkan Gender.
Dengan konversi ke kategori nominal, gender dapat digunakan untuk pengolahan data, seperti contoh berikut:
Dari 10.000 dataset ada 24 atau 0.0042 data yang mengandung nilai NaN (Not a Number) dan semua berada di kolom Grup-BMI.
Dari deteksi NaN diketahui bahwa nilai NaN muncul ketika nilai BMI = 0. Seharusnya bila nilai BMI = 0 menghasilkan Grup-BMI = kurus. Dengan demikian, data 'NaN' dapat diganti dengan 'Kurus'.
Data Height atau tinggi badan, merupakan data nominal kontinu.
Grafik histogram tinggi badan menunjukan adanya satu puncak dengan kemiringan ke sisi kiri dan kanan yang relatif seimbang.Hal ini menunjukkan bahwa tinggi badan mengikuti bentuk Distribusi Normal.
Standarisasi data tinggi badan menggunakan nilai z-score akan mengubah histogram mengikuti distribusi normal dengan rata-rata = 0
Grafik boxplot data tinggi badan adalah sebagai berikut:
Pencilan dengan nilai lebih kecil dari nilai Q1
Pencilan dengan nilai lebih besar dari nilai Q3
Pencilan dengan nilai lebih kecil dari $ - 3 * \sigma$
Pencilan dengan nilai lebih besar dari $ + 3 * \sigma$