Distribusi Normal

Compiled by: Suprapto van Plaosan

Distribusi normal adalah distribusi probabilitas terpenting dalam statistik karena cocok dengan banyak fenomena alam. Misalnya tinggi badan, tekanan darah, kesalahan pengukuran, dan skor IQ mengikuti distribusi normal. Ini juga dikenal sebagai distribusi Gaussian dan kurva lonceng.

Distribusi normal adalah fungsi probabilitas yang menggambarkan bagaimana nilai suatu variabel didistribusikan. Ini adalah distribusi simetris di mana sebagian besar pengamatan mengelompok di sekitar puncak pusat dan probabilitas untuk nilai yang lebih jauh dari mean taper off secara merata di kedua arah. Nilai ekstrim di kedua ekor distribusi juga tidak mungkin.

Parameter Distribusi Normal

Seperti halnya distribusi probabilitas, parameter untuk distribusi normal menentukan bentuk dan probabilitasnya secara keseluruhan. Distribusi normal memiliki dua parameter, mean dan deviasi standar. Distribusi normal tidak hanya memiliki satu bentuk. Sebaliknya, bentuk berubah berdasarkan nilai parameter, seperti yang ditampilkan pada grafik di bawah ini.

Rata-rata

Mean adalah tendensi sentral dari distribusi. Ini menentukan lokasi puncak untuk distribusi normal. Sebagian besar nilai mengelompok di sekitar mean. Pada grafik, mengubah mean akan menggeser seluruh kurva ke kiri atau kanan pada sumbu X.

Deviasi standar

Deviasi standar adalah ukuran variabilitas. Ini mendefinisikan lebar distribusi normal. Standar deviasi menentukan seberapa jauh nilai rata-rata cenderung turun. Ini mewakili jarak yang khas antara pengamatan dan rata-rata.

Pada grafik, mengubah simpangan baku akan memperketat atau menyebarkan lebar distribusi di sepanjang sumbu X. Standar deviasi yang lebih besar menghasilkan distribusi yang lebih tersebar.

Parameter populasi versus perkiraan sampel

Rata-rata dan deviasi standar adalah nilai parameter yang berlaku untuk seluruh populasi. Untuk distribusi normal, ahli statistik menandai parameter dengan menggunakan simbol Yunani μ (mu) untuk mean populasi dan σ (sigma) untuk deviasi standar populasi.

Namun, parameter populasi biasanya tidak diketahui karena secara umum tidak mungkin untuk mengukur seluruh populasi. Namun, sampel acak untuk menghitung estimasi parameter ini dapat digunakan. Ahli statistik merepresentasikan estimasi sampel dari parameter ini menggunakan x̅ untuk mean sampel dan s untuk deviasi standar sampel.

Karakteristik Umum untuk Semua Bentuk Distribusi Normal

Meskipun bentuknya berbeda, semua bentuk distribusi normal memiliki sifat karakteristik sebagai berikut.

  • Semuanya simetris. Distribusi normal tidak dapat memodelkan distribusi miring.
  • Mean, median, dan mode semuanya sama.
  • Separuh dari populasi kurang dari mean dan separuh lebih besar dari mean.
  • Aturan Empiris memungkinkan Anda untuk menentukan proporsi nilai yang berada dalam jarak tertentu dari mean.

Meskipun distribusi normal penting dalam statistik, ini hanyalah salah satu dari banyak distribusi probabilitas, dan tidak cocok untuk semua populasi. Untuk mempelajari cara menentukan apakah distribusi normal memberikan yang terbaik untuk data sampel Anda, baca posting saya tentang Cara Mengidentifikasi Distribusi Data dan Menilai Normalitas: Histogram vs. Plot Probabilitas Normal.

Aturan Empiris untuk Distribusi Normal

Deviasi standar menjadi sangat berharga dalam data yang terdistribusi normal. Deviasi standar dapat digunakan untuk menentukan proporsi nilai yang termasuk dalam sejumlah deviasi standar tertentu dari rata-rata. Misalnya, dalam distribusi normal, 68% pengamatan dalam kisaran +/- 1 standar deviasi dari rata-rata, 95% dalam kisaran +/- 2 standar deviasi dan 99,7% dalam kisaran +/- 3 standar deviasi dari rata-rata. Properti ini adalah bagian dari Aturan Empiris, yang menjelaskan persentase data yang termasuk dalam jumlah tertentu deviasi standar dari mean untuk kurva berbentuk lonceng.

Distribusi Normal Standar dan Skor Standar

Seperti terlihat di atas, distribusi normal memiliki banyak bentuk berbeda tergantung pada nilai parameternya. Namun, distribusi normal standar adalah kasus khusus dari distribusi normal di mana meannya nol dan deviasi standarnya adalah 1. Distribusi ini juga dikenal sebagai distribusi Z.

Nilai pada distribusi normal standar dikenal sebagai skor standar atau skor Z. Skor standar mewakili jumlah deviasi standar di atas atau di bawah rata-rata penurunan observasi tertentu. Misalnya, skor standar 1,5 menunjukkan bahwa observasi adalah 1,5 deviasi standar di atas mean. Di sisi lain, skor negatif mewakili nilai di bawah rata-rata. Rata-rata memiliki skor Z 0.

Standardisasi: Cara Menghitung Nilai Z

Skor standar adalah cara yang bagus untuk memahami di mana pengamatan tertentu berada relatif terhadap keseluruhan distribusi. Mereka juga memungkinkan Anda untuk melakukan pengamatan yang diambil dari populasi yang terdistribusi normal yang memiliki cara dan deviasi standar yang berbeda dan menempatkannya pada skala standar. Skala standar ini memungkinkan Anda untuk membandingkan pengamatan yang sebelumnya akan sulit dilakukan.

Proses ini disebut standardisasi, dan memungkinkan Anda membandingkan pengamatan dan menghitung probabilitas di berbagai populasi. Dengan kata lain, Anda dapat membandingkan apel dengan jeruk. Bukankah statistik itu bagus!

Untuk menstandarkan data Anda, Anda perlu mengubah pengukuran mentah menjadi skor-Z.

Untuk menghitung skor standar observasi, ambil ukuran mentahnya, kurangi meannya, dan bagi dengan deviasi standar. Secara matematis, rumus untuk proses tersebut adalah sebagai berikut:

$$Z = \frac{\mu - {\bar{x}}}{\sigma}$$

X mewakili nilai mentah dari pengukuran yang diinginkan. $\mu$ dan sigma mewakili parameter untuk populasi tempat observasi diambil.

Setelah data dibakukan, data dalam distribusi normal standar. Dengan cara ini, standardisasi memungkinkan untuk membandingkan berbagai jenis pengamatan berdasarkan di mana setiap pengamatan berada dalam distribusinya sendiri.

Skor Standar untuk Perbandingan Tinggi Badan Laki-laki dan Perempuan

Misalkan kita benar-benar ingin membandingkan tinggi badan pelajar pria dengan pelajar wanita. Secara khusus, mari kita bandingkan tingginya. Bayangkan kita memiliki seorang pria dengan tinggi rata-rata 170 cm dan wanita 165 cm.

Jika kita membandingkan nilai-nilai mentahnya, mudah untuk melihat bahwa pria lebih tinggi daripada wanita. Namun, mari kita bandingkan skor standar mereka.

Untuk melakukan ini, kita perlu mengetahui properti distribusi tinggi untuk tinggi pria dan wanita. Asumsikan tinggi badan pria dan wanita mengikuti distribusi normal dengan nilai parameter berikut:

Tinggi manusia $ \ mu $ = 175 $ \ sigma $ = 30 Tinggi wanita $ \ mu $ = 160 $ ​​\ sigma $ = 10

Sekarang kita akan menghitung skor Z:

Z skor pria = (170-175)/30 = -0.16666666666666666
Z skor wanita = (165-160)/10 = 0.5

Z-score untuk pria (-0.1667), yang berarti pria sample memiliki tinggi lebih kecil dari rata-rata pria. Di sisi lain, wanita memiliki Z-score yang positif (0.5). Hal ini berarti tinggi wanita sampel lebih tinggi dari rata-rata. Nilai Z ini dapat digambarkan dalam distribusi normal standar di bawah ini.

Menemukan Area di Bawah Kurva Distribusi Normal

Distribusi normal adalah distribusi probabilitas. Seperti halnya distribusi probabilitas, proporsi area yang berada di bawah kurva antara dua titik pada plot distribusi probabilitas menunjukkan probabilitas suatu nilai akan jatuh dalam interval itu. Untuk mempelajari lebih lanjut tentang properti ini, baca posting saya tentang Memahami Distribusi Probabilitas.

Biasanya, kita menggunakan perangkat lunak statistik untuk mencari area di bawah kurva. Namun, saat Anda bekerja dengan distribusi normal dan mengonversi nilai menjadi skor standar, Anda dapat menghitung area dengan mencari Z-skor dalam Tabel Distribusi Normal Standar.

Karena ada distribusi normal yang berbeda dalam jumlah tak terbatas, penerbit tidak dapat mencetak tabel untuk setiap distribusi. Namun, kita dapat mengubah nilai dari distribusi normal apa pun menjadi skor-Z, lalu menggunakan tabel skor standar untuk menghitung probabilitas.

p_bawah -0.4986501019683699

p_atas 0.2475074624530771

Area Under Curve = p_atas - p_bawah = 0.746157564421447

Distribusi Normal (mean,std): 0 1
Integrasi kurva antara -3 and 0.6666666666666666 -->  0.746157564421447

Alasan Pentingnya Distribusi Normal

Selain semua hal di atas, ada beberapa alasan lain mengapa distribusi normal sangat penting dalam statistik.

  • Beberapa uji hipotesis statistik mengasumsikan bahwa data mengikuti distribusi normal. Namun, seperti yang saya jelaskan dalam posting saya tentang tes parametrik dan nonparametrik, ada lebih dari hanya apakah data didistribusikan secara normal.
  • Regresi linier dan nonlinier keduanya mengasumsikan bahwa residual mengikuti distribusi normal. Pelajari lebih lanjut di posting saya tentang menilai plot sisa.
  • Teorema batas pusat menyatakan bahwa ketika ukuran sampel meningkat, distribusi sampling dari mean mengikuti distribusi normal bahkan ketika distribusi yang mendasari variabel asli tidak normal.

Uji Normalitas Distribusi

0
count 10000.000000
mean -0.017142
std 3.005874
min -11.667463
25% -2.021979
50% -0.021206
75% 1.983338
max 14.970808
Uji Shapiro Wilk,(statistik, p-value): ShapiroResult(statistic=0.9997577667236328, pvalue=0.3080184757709503)

/home/van/anaconda3/lib/python3.8/site-packages/scipy/stats/morestats.py:1681: UserWarning: p-value may not be accurate for N > 5000.
  warnings.warn("p-value may not be accurate for N > 5000.")

Uji Anderson Darling: AndersonResult(statistic=0.20633642909524497, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

Uji Kolmogorov Smirnov: KstestResult(statistic=0.24251880279549665, pvalue=0.0)

Uji Shapiro Wilk,(statistik, p-value): ShapiroResult(statistic=0.9518068432807922, pvalue=0.0)

/home/van/anaconda3/lib/python3.8/site-packages/scipy/stats/morestats.py:1681: UserWarning: p-value may not be accurate for N > 5000.
  warnings.warn("p-value may not be accurate for N > 5000.")

Uji Anderson Darling: AndersonResult(statistic=116.4077188841984, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

Uji Kolmogorov Smirnov: KstestResult(statistic=0.4903796301269321, pvalue=0.0)