Rabu, 30 Mei 2018

Secara umum, statistik dapat digolongkan menjadi dua, yakni statistik deskriptif dan statistik inferensia. Kedua statistik ini tidak dapat dipisahkan antara satu dengan yang lain. Statistika deskriptif adalah kumpulan kegiatan yang mencakup tentang pengumpulan data, pengolahan, dan penyajian data dalam bentuk yang baik, seperti grafik, tabel, dan lain sebagainya. Sedangkan statistik inferensia adalah alat bantu pada statistik yang digunakan untuk mengolah data, menganalisis data, dan menarik kesimpulan populasi berdasarkan sampel. Contoh dari statistik inferensia adalah statistik non-parametrik dan statistik parametrik.



Penggunaan uji statistik non-parametrik atau statistik parametrik didasarkan pada distribusi data yang digunakan. Jika distribusi data yang digunakan berdistribusi normal, maka uji statistik parametrik dapat digunakan. Suatu data dapat dikatakan normal apabila nilai dari rata-ratanya sama dengan nilai modusnya atau mode.

Mengapa asumsi normalitas sering diperlukan dan dipertanyakan? 

Dalam dunia statistik, berbagai macam populasi sering dianggap berdistribusi normal. Oleh karena itu, pengambilan sampel pada statistik juga diasumsikan disekitaran nilai rata-rata dan mode (modus) dari populasi. sehingga sampel yang diambil dapat menggambarkan populasi. Oleh karena itu, asumsi normalitas merupakan hal yang cukup penting untuk dipenuhi.

Dalam beberapa uji statistik parametrik, asumsi normalitas harus terpenuhi. Seperti analisis regresi linear berganda dengan penduga Ordinary Least Square (OLS), yang harus memenuhi asumsi normalitas. Menurut Baltagi (2008 : 98), terpenuhinya asumsi normalitas akan membuat penduga OLS menjadi MVU (minimum variance unbiased). Hal itu menunjukkan bahwa asumsi normalitas cukup penting untuk terpenuhi dalam persamaan regresi. Pada regresi data panel, terlanggarnya asumsi normalitas ini dapat diatasi dengan menggunakan estimator GLS (Generalized Least Square).

Asumsi normalitas tak hanya berlaku untuk variabel dependen (Y) saja, akan tetapi harus terpenuhi untuk seluruh variabel, termasuk variabel X. Akan tetapi, pengujian tidak dilakukan independen, ataupun satu per satu variabel, namun yang diuji normalitasnya adalah error dari persamaan.

Pengujian normalitas data dapat dilakukan dengan beberapa metode seperti: Anderson-Darling test, Kolmogorov-Smirnovtest, Pearson Chi-Square test, Cramer-von Mises test, Shapiro-Wilktest, Fisher’s cumulate test. Beberapa yang sering digunakan adalah Kolmogorov-Smirnov Test, Shapiro-Wilktest, dan Jarque Berra.

Pada kesempatan kali ini, saya akan melakukan uji normalitas terhadap error dari regresi berganda dengan aplikasi R Studio. Beberapa uji normalitas yang akan saya gunakan adalah Kolmogorov Smirnov, Shapiro-Wilktest, dan Jarque Bera Test.

Sebelumnya, persamaan yang saya gunakan adalah sebagai berikut :

Lokasi : Provinsi-provinsi di Indonesia
Tahun : 2016

Variabel Y : Tingkat Pengangguran Terbuka
Variabel X1 : Pertumbuhan Ekonomi (PE)
Variabel X2 : Indeks Pembangunan Manusia (IPM)
Variabel X3 : Upah Minimum Provinsi (UMP)

  1. Jarque Berra Test

  2. Prinsip dasar dari Jarque Berra Test ini adalah untuk menguji apakah skewness dan kurtosis dari data mengikuti distribusi normal.

    Dimana n = jumlah sampel ; k = jumlah dari koefisien variabel independen ; S = nilai skewness dari error ; C = nilai kurtosis dari error.

    Hasil Output Regresi Linear Berganda dengan R Studio

    Gambar diatas merupakan hasil dari regresi linear berganda. Error dari persamaan diataslah yang harus diuji normalitasnya. 

    Syntax dan hasil output dari uji JB test dengan R Studio

    Uji JB Test memiliki hipotesis sebagai berikut :
    H0 (hipotesis nol)           : Error berdistribusi normal
    H1 (hipotesis alternatif)  : Error berdistribusi selain normal

    Berdasarkan hasil output JB Test, didapatkan nilai p-value sebesar 0,621. Jika p-value lebih besar dari alpha (yang biasanya bernilai 0,05 atau 0,1), maka H0 gagal ditolak. Sehingga tidak cukup bukti untuk mengatakan bahwa error berdistribusi selain normal. Kesimpulan yang didapat adalah error dari persamaan berdistribusi normal, dan asumsi normalitas terpenuhi.

    Artikel mengenai normalitas lainnya :

    MENGECEK NORMALITAS DATA DENGAN R PROGRAMMING


Minggu, 27 Mei 2018

Dunia statistik terus mengalami perkembangan, baik dari segi metode pengumpulan data, pengolahan data, hingga kepada metode penghitungan untuk penarika kesimpulannya. Beberapa permasalahan dapat dilakukan dengan data yang diambil pada suatu waktu tertentu pada beberapa amatan, data ini lebih dikenal dengan data cross-section, ataupun data yang diambil pada beberapa periode waktu pada suatu amatan, atau lebih dikenal dengan data time-series. Namun, terkadang data cross-section ataupun data time-series belum mampu menjelaskan permasalahan

Seiring berkembangnya ilmu pengetahuan, maka ditemukan juga jenis data yang merupakan gabungan antar data cross-section dan data time-series, jenis data ini dikenal dengan pooled data atau data panel.

Persamaan pada regresi data panel memiliki bentuk umum seperti berikut :

Yit= β0+ β1X1it + ... + βKXKit
dimana
Yit = variabel dependen / variabel terikat, dimana i = 1 ... N (jumlah amatan), t= 1 ... T (jlh waktu)
β0  = merupakan intercept dari persamaan
β1 = merupakan koefisien dari variabel pertama
   dst

Data panel memiliki beberapa kelebihan jika dibandingkan dengan data cross-section ataupun time series, diantaranya (Baltagi, 2008) :
  1. Data panel akan memberikan informasi dan variasi yang lebih besar, sehingga estimasi parameter akan lebih efisien. Hal ini disebabkan data panel menciptakan degree of freedom yang lebih besar.
  2. Data panel mampu menangkap dan mengontrol heterogenitas individu. Hal tersebut tidak dapat dilakukan oleh data cross section atau data time series.
  3. Data panel lebih mampu menangkap dinamika yang ada pada data. Data panel mampu melihat perbedaan antar individu sekaligus membandingkan kondisi individu yang sama antar waktu.
  4. Data panel lebih baik digunakan untuk mempelajari isu yang dinamis dan kompleks.
Secara umum, terdapat beberapa model yang biasa digunakan pada regresi data panel, yaitu; Pooled Least Square, Fixed Effect, dan Random Effect Model. Hal ini akan dijelaskan pada artikel selanjutnya.