Statistik Deskriptif

Compiled by: Suprapto van Plaosan

Topik

    • Histogram
    • Boxplot
    • scatterplot
    • kurva batang
    • heatmap
    • clustermap

Histogram

Histogram digunakan untuk meringkas data diskrit atau kontinu dan menggambarkannya ke dalam grafik. Histogram memberikan interpretasi visual dari data numerik dengan menunjukkan jumlah titik data yang berada dalam rentang nilai tertentu (disebut "bins").

Sumbu X adalah interval yang menunjukkan skala nilai dalam pengukuran. Sumbu Y menunjukkan berapa kali nilai terjadi dalam interval yang ditetapkan oleh sumbu X. Tinggi batang menunjukkan berapa kali nilai terjadi dalam interval, sedangkan lebar batang menunjukkan interval yang dicakup. Untuk histogram dengan bin yang sama, lebarnya harus sama di semua batang.

Histogram memberikan representasi visual dari distribusi data. Histogram dapat menampilkan sejumlah besar data dan frekuensi nilai data. Median, distribusi data dan pencilan dapat ditentukan dengan histogram.

Distribusi normal:

Dalam distribusi normal, nilai di sisi rata-rata mempunyai frekuensi yang sama baik di sisi kiri maupun di sisi kanan. Parameter distribusinya mengikuti karakteristik distribusi normal.

Histogram di bawah ini menggambarkan histogram 10000 data yang terdistribusi normal dengan nilai rata-rata 0 dan simpangan baku 1.

Distribusi bimodal:

Dalam distribusi bimodal, ada dua puncak dalam satu histogram. Dalam distribusi bimodal, data harus dipisahkan dan dianalisis sebagai distribusi normal terpisah.

Histogram di bawah ini merupakan histogram 20000 data yang terdistribusi normal dengan dua pusat distribusi, yaitu distribusi dengan nilai rata-rata 0 dengan simpangan baku 1 dan distribusi dengan rata-rata 4 dengan simpangan baku 2.

Distribusi miring kanan:

Distribusi miring kanan juga disebut sebagai distribusi miring positif. Dalam distribusi miring kanan, sejumlah besar nilai data terjadi di sisi kiri dengan lebih sedikit nilai data di sisi kanan. Distribusi miring kanan biasanya terjadi ketika data memiliki batas jangkauan di sisi kiri histogram. Misalnya, batas 0.

Histogram di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = 4

Distribusi miring kiri:

Distribusi miring kiri juga disebut distribusi miring negatif. Dalam distribusi miring kiri, sejumlah besar nilai data terjadi di sisi kanan dengan jumlah nilai data yang lebih sedikit di sisi kiri. Distribusi miring kanan biasanya terjadi ketika data memiliki batas rentang di sisi kanan histogram. Misalnya, batas seperti 100.

Histogram di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = -4

Distribusi acak:

Distribusi acak tidak memiliki pola yang jelas dan memiliki beberapa puncak. Dalam histogram distribusi acak, bisa jadi properti data yang berbeda digabungkan. Oleh karena itu, data harus dipisahkan dan dianalisis secara terpisah.

Boxplot

Dalam statistik deskriptif, boxplot adalah metode untuk menggambarkan kelompok data numerik secara grafis melalui kuartilnya. Boxplot mungkin juga memiliki garis yang memanjang dari kotak (whisker) yang menunjukkan variabilitas di luar kuartil atas dan bawah, oleh karena itu istilah box-and-whisker plot dan diagram box-and-whisker. Pencilan dapat diplot sebagai poin individu. Boxplot adalah metode non-parametrik yang menampilkan variasi sampel populasi statistik tanpa membuat asumsi apa pun tentang distribusi statistik yang mendasarinya. Jarak antara bagian-bagian kotak yang berbeda menunjukkan derajat dispersi (penyebaran) dan kemiringan dalam data, dan menunjukkan pencilan. Dari data boxplot memungkinkan untuk memperkirakan secara visual berbagai penduga L, terutama kisaran interkuartil, rentang nilai, q1, q2 dan q3. Plot kotak dapat digambar secara horizontal atau vertikal.

Boxplot di bawah ini menggambarkan 10000 data yang terdistribusi normal dengan nilai rata-rata 0 dan simpangan baku 1.

Dari grafik terlihat sebaran nilai rentang, q1-q2 dan juga pencilan merata di kedua sisi kotak yang menunjukkan bahwa data terdistribusi normal.

Boxplot di bawah ini merupakan 20000 data yang terdistribusi normal dengan dua pusat distribusi, yaitu distribusi dengan nilai rata-rata 0 dengan simpangan baku 1 dan distribusi dengan rata-rata 4 dengan simpangan baku 2.

Grafik boxplot mengambil median gabungan dari data dengan rentang sesuai bata tertinggi dan terendah dari nilai distribusi paling besar dan paling kecil. Jadi visualisasi boxplot tidak dapat memberikan informasi mengenai jumlah distribusi yang ada di dalam data.

Boxplot di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = 4. Terlihat simpangan data ke kanan termasuk juga pencilan yang ada di data

Boxplot di bawah ini adalah distribusi miring kanan dengan (x - loc) / scale = -4. Hasil yang sama didapatkan seperti boxplot sebelumnya hanya ekor kurva terkumpul di kiri.

Visualisasi data dapat membantu mempermudah memahami informasi yang terkandung di dalam data. Dalam visualisasi data breast cancer berikut, akan dipelajari penggunaan kurva heatmap, clustermap, kurva sebaran/scatterplot, dan lain-lain yang sesuai.

Data breast cancer yang dipelajari di bagian ini terdiri dari sepuluh variabel uji sebagai input dan variabel hasil diagnosis sebagai output. Data memiliki 568 baris.

Breast cancer wisconsin (diagnostic) dataset

mean radius mean texture mean perimeter mean area mean smoothness mean compactness mean concavity mean concave points mean symmetry mean fractal dimension diagnosis
0 17.99 10.38 122.80 1001.0 0.11840 0.27760 0.30010 0.14710 0.2419 0.07871 0
1 20.57 17.77 132.90 1326.0 0.08474 0.07864 0.08690 0.07017 0.1812 0.05667 0
2 19.69 21.25 130.00 1203.0 0.10960 0.15990 0.19740 0.12790 0.2069 0.05999 0
3 11.42 20.38 77.58 386.1 0.14250 0.28390 0.24140 0.10520 0.2597 0.09744 0
4 20.29 14.34 135.10 1297.0 0.10030 0.13280 0.19800 0.10430 0.1809 0.05883 0
5 12.45 15.70 82.57 477.1 0.12780 0.17000 0.15780 0.08089 0.2087 0.07613 0
6 18.25 19.98 119.60 1040.0 0.09463 0.10900 0.11270 0.07400 0.1794 0.05742 0
7 13.71 20.83 90.20 577.9 0.11890 0.16450 0.09366 0.05985 0.2196 0.07451 0
8 13.00 21.82 87.50 519.8 0.12730 0.19320 0.18590 0.09353 0.2350 0.07389 0
9 12.46 24.04 83.97 475.9 0.11860 0.23960 0.22730 0.08543 0.2030 0.08243 0
10 16.02 23.24 102.70 797.8 0.08206 0.06669 0.03299 0.03323 0.1528 0.05697 0
11 15.78 17.89 103.60 781.0 0.09710 0.12920 0.09954 0.06606 0.1842 0.06082 0
12 19.17 24.80 132.40 1123.0 0.09740 0.24580 0.20650 0.11180 0.2397 0.07800 0
13 15.85 23.95 103.70 782.7 0.08401 0.10020 0.09938 0.05364 0.1847 0.05338 0
14 13.73 22.61 93.60 578.3 0.11310 0.22930 0.21280 0.08025 0.2069 0.07682 0
15 14.54 27.54 96.73 658.8 0.11390 0.15950 0.16390 0.07364 0.2303 0.07077 0
16 14.68 20.13 94.74 684.5 0.09867 0.07200 0.07395 0.05259 0.1586 0.05922 0
17 16.13 20.68 108.10 798.8 0.11700 0.20220 0.17220 0.10280 0.2164 0.07356 0
18 19.81 22.15 130.00 1260.0 0.09831 0.10270 0.14790 0.09498 0.1582 0.05395 0
19 13.54 14.36 87.46 566.3 0.09779 0.08129 0.06664 0.04781 0.1885 0.05766 1

Berikut ringkasan jumlah dan jenis data.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   mean radius             569 non-null    float64
 1   mean texture            569 non-null    float64
 2   mean perimeter          569 non-null    float64
 3   mean area               569 non-null    float64
 4   mean smoothness         569 non-null    float64
 5   mean compactness        569 non-null    float64
 6   mean concavity          569 non-null    float64
 7   mean concave points     569 non-null    float64
 8   mean symmetry           569 non-null    float64
 9   mean fractal dimension  569 non-null    float64
 10  diagnosis               569 non-null    int64  
dtypes: float64(10), int64(1)
memory usage: 49.0 KB

Ringkasan jumlah data, nilai rata-rata, simpangan baku dan nilai maksimal-minimal serta quartil data ditampilkan sebagai berikut:

mean radius mean texture mean perimeter mean area mean smoothness mean compactness mean concavity mean concave points mean symmetry mean fractal dimension diagnosis
count 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000 569.000000
mean 14.127292 19.289649 91.969033 654.889104 0.096360 0.104341 0.088799 0.048919 0.181162 0.062798 0.627417
std 3.524049 4.301036 24.298981 351.914129 0.014064 0.052813 0.079720 0.038803 0.027414 0.007060 0.483918
min 6.981000 9.710000 43.790000 143.500000 0.052630 0.019380 0.000000 0.000000 0.106000 0.049960 0.000000
25% 11.700000 16.170000 75.170000 420.300000 0.086370 0.064920 0.029560 0.020310 0.161900 0.057700 0.000000
50% 13.370000 18.840000 86.240000 551.100000 0.095870 0.092630 0.061540 0.033500 0.179200 0.061540 1.000000
75% 15.780000 21.800000 104.100000 782.700000 0.105300 0.130400 0.130700 0.074000 0.195700 0.066120 1.000000
max 28.110000 39.280000 188.500000 2501.000000 0.163400 0.345400 0.426800 0.201200 0.304000 0.097440 1.000000

Nilai korelasi antar variabel adalah sebagaimana ditampilkan dalam tabel di bawah ini:

mean radius mean texture mean perimeter mean area mean smoothness mean compactness mean concavity mean concave points mean symmetry mean fractal dimension diagnosis
mean radius 1.000000 0.323782 0.997855 0.987357 0.170581 0.506124 0.676764 0.822529 0.147741 -0.311631 -0.730029
mean texture 0.323782 1.000000 0.329533 0.321086 -0.023389 0.236702 0.302418 0.293464 0.071401 -0.076437 -0.415185
mean perimeter 0.997855 0.329533 1.000000 0.986507 0.207278 0.556936 0.716136 0.850977 0.183027 -0.261477 -0.742636
mean area 0.987357 0.321086 0.986507 1.000000 0.177028 0.498502 0.685983 0.823269 0.151293 -0.283110 -0.708984
mean smoothness 0.170581 -0.023389 0.207278 0.177028 1.000000 0.659123 0.521984 0.553695 0.557775 0.584792 -0.358560
mean compactness 0.506124 0.236702 0.556936 0.498502 0.659123 1.000000 0.883121 0.831135 0.602641 0.565369 -0.596534
mean concavity 0.676764 0.302418 0.716136 0.685983 0.521984 0.883121 1.000000 0.921391 0.500667 0.336783 -0.696360
mean concave points 0.822529 0.293464 0.850977 0.823269 0.553695 0.831135 0.921391 1.000000 0.462497 0.166917 -0.776614
mean symmetry 0.147741 0.071401 0.183027 0.151293 0.557775 0.602641 0.500667 0.462497 1.000000 0.479921 -0.330499
mean fractal dimension -0.311631 -0.076437 -0.261477 -0.283110 0.584792 0.565369 0.336783 0.166917 0.479921 1.000000 0.012838
diagnosis -0.730029 -0.415185 -0.742636 -0.708984 -0.358560 -0.596534 -0.696360 -0.776614 -0.330499 0.012838 1.000000

Penampilan data korelasi antar variabel dalam bentuk tabel relatif susah untuk disimpulkan atau diekstrak informasinya. Pengambaran nilai korelasi dalam bentuk heatmap akan membantu pembaca untuk lebih mudah dalam memahami pola nilai korelasi antar variabel.

Hubungan antar variabel dari segi korelasinya juga dapat divisualisasikan dengan lebih ringkas menggunakan clustermap sebagaimana grafik di bawah ini.

<Figure size 864x864 with 0 Axes>

Korelasi antar variabel juga dapat divisualisasikan sebagai kurva sebaran untuk dua variabel yang ingin diketahui korelasinya. Sebagaimana Gambar di bawah ini yang menampilkan korelasi antara 'mean area' dengan 'mean radius' dan 'mean perimeter' dengan 'mean radius'.

[<matplotlib.lines.Line2D at 0x7feed96b86d0>]

<matplotlib.collections.PathCollection at 0x7feed9683d90>

Kurva sebaran semua variabel berdasarkan hasil diagnosisnya akan sangat memudahkan untuk menyimpulkan pengaruh masing-masing variabel terhadap hasil diagnosis: 'Malignant' - 'Benign'.

Hasil diagnosis menurut nilai rata-rata masing-masing variabel juga akan memberikan informasi mengenai pengaruh variabel terhadap hasil diagnosis.