Statistik Deskriptif
Histogram digunakan untuk meringkas data diskrit atau kontinu dan menggambarkannya ke dalam grafik. Histogram memberikan interpretasi visual dari data numerik dengan menunjukkan jumlah titik data yang berada dalam rentang nilai tertentu (disebut "bins").
Sumbu X adalah interval yang menunjukkan skala nilai dalam pengukuran. Sumbu Y menunjukkan berapa kali nilai terjadi dalam interval yang ditetapkan oleh sumbu X. Tinggi batang menunjukkan berapa kali nilai terjadi dalam interval, sedangkan lebar batang menunjukkan interval yang dicakup. Untuk histogram dengan bin yang sama, lebarnya harus sama di semua batang.
Histogram memberikan representasi visual dari distribusi data. Histogram dapat menampilkan sejumlah besar data dan frekuensi nilai data. Median, distribusi data dan pencilan dapat ditentukan dengan histogram.
Distribusi normal:
Dalam distribusi normal, nilai di sisi rata-rata mempunyai frekuensi yang sama baik di sisi kiri maupun di sisi kanan. Parameter distribusinya mengikuti karakteristik distribusi normal.
Histogram di bawah ini menggambarkan histogram 10000 data yang terdistribusi normal dengan nilai rata-rata 0 dan simpangan baku 1.
Distribusi bimodal:
Dalam distribusi bimodal, ada dua puncak dalam satu histogram. Dalam distribusi bimodal, data harus dipisahkan dan dianalisis sebagai distribusi normal terpisah.
Histogram di bawah ini merupakan histogram 20000 data yang terdistribusi normal dengan dua pusat distribusi, yaitu distribusi dengan nilai rata-rata 0 dengan simpangan baku 1 dan distribusi dengan rata-rata 4 dengan simpangan baku 2.
Distribusi miring kanan:
Distribusi miring kanan juga disebut sebagai distribusi miring positif. Dalam distribusi miring kanan, sejumlah besar nilai data terjadi di sisi kiri dengan lebih sedikit nilai data di sisi kanan. Distribusi miring kanan biasanya terjadi ketika data memiliki batas jangkauan di sisi kiri histogram. Misalnya, batas 0.
Histogram di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = 4
Distribusi miring kiri:
Distribusi miring kiri juga disebut distribusi miring negatif. Dalam distribusi miring kiri, sejumlah besar nilai data terjadi di sisi kanan dengan jumlah nilai data yang lebih sedikit di sisi kiri. Distribusi miring kanan biasanya terjadi ketika data memiliki batas rentang di sisi kanan histogram. Misalnya, batas seperti 100.
Histogram di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = -4
Distribusi acak:
Distribusi acak tidak memiliki pola yang jelas dan memiliki beberapa puncak. Dalam histogram distribusi acak, bisa jadi properti data yang berbeda digabungkan. Oleh karena itu, data harus dipisahkan dan dianalisis secara terpisah.
Dalam statistik deskriptif, boxplot adalah metode untuk menggambarkan kelompok data numerik secara grafis melalui kuartilnya. Boxplot mungkin juga memiliki garis yang memanjang dari kotak (whisker) yang menunjukkan variabilitas di luar kuartil atas dan bawah, oleh karena itu istilah box-and-whisker plot dan diagram box-and-whisker. Pencilan dapat diplot sebagai poin individu. Boxplot adalah metode non-parametrik yang menampilkan variasi sampel populasi statistik tanpa membuat asumsi apa pun tentang distribusi statistik yang mendasarinya. Jarak antara bagian-bagian kotak yang berbeda menunjukkan derajat dispersi (penyebaran) dan kemiringan dalam data, dan menunjukkan pencilan. Dari data boxplot memungkinkan untuk memperkirakan secara visual berbagai penduga L, terutama kisaran interkuartil, rentang nilai, q1, q2 dan q3. Plot kotak dapat digambar secara horizontal atau vertikal.
Boxplot di bawah ini menggambarkan 10000 data yang terdistribusi normal dengan nilai rata-rata 0 dan simpangan baku 1.
Dari grafik terlihat sebaran nilai rentang, q1-q2 dan juga pencilan merata di kedua sisi kotak yang menunjukkan bahwa data terdistribusi normal.
Boxplot di bawah ini merupakan 20000 data yang terdistribusi normal dengan dua pusat distribusi, yaitu distribusi dengan nilai rata-rata 0 dengan simpangan baku 1 dan distribusi dengan rata-rata 4 dengan simpangan baku 2.
Grafik boxplot mengambil median gabungan dari data dengan rentang sesuai bata tertinggi dan terendah dari nilai distribusi paling besar dan paling kecil. Jadi visualisasi boxplot tidak dapat memberikan informasi mengenai jumlah distribusi yang ada di dalam data.
Boxplot di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = 4. Terlihat simpangan data ke kanan termasuk juga pencilan yang ada di data
Boxplot di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = -4. Hasil yang sama didapatkan seperti boxplot sebelumnya hanya ekor kurva terkumpul di kiri.
Visualisasi data dapat membantu mempermudah memahami informasi yang terkandung di dalam data. Dalam visualisasi data breast cancer berikut, akan dipelajari penggunaan kurva heatmap, clustermap, kurva sebaran/scatterplot, dan lain-lain yang sesuai.
Data breast cancer yang dipelajari di bagian ini terdiri dari sepuluh variabel uji sebagai input dan variabel hasil diagnosis sebagai output. Data memiliki 568 baris.
Berikut ringkasan jumlah dan jenis data.
Ringkasan jumlah data, nilai rata-rata, simpangan baku dan nilai maksimal-minimal serta quartil data ditampilkan sebagai berikut:
Nilai korelasi antar variabel adalah sebagaimana ditampilkan dalam tabel di bawah ini:
Penampilan data korelasi antar variabel dalam bentuk tabel relatif susah untuk disimpulkan atau diekstrak informasinya. Pengambaran nilai korelasi dalam bentuk heatmap akan membantu pembaca untuk lebih mudah dalam memahami pola nilai korelasi antar variabel.
Hubungan antar variabel dari segi korelasinya juga dapat divisualisasikan dengan lebih ringkas menggunakan clustermap sebagaimana grafik di bawah ini.
Korelasi antar variabel juga dapat divisualisasikan sebagai kurva sebaran untuk dua variabel yang ingin diketahui korelasinya. Sebagaimana Gambar di bawah ini yang menampilkan korelasi antara 'mean area' dengan 'mean radius' dan 'mean perimeter' dengan 'mean radius'.
Kurva sebaran semua variabel berdasarkan hasil diagnosisnya akan sangat memudahkan untuk menyimpulkan pengaruh masing-masing variabel terhadap hasil diagnosis: 'Malignant' - 'Benign'.
Hasil diagnosis menurut nilai rata-rata masing-masing variabel juga akan memberikan informasi mengenai pengaruh variabel terhadap hasil diagnosis.