Jumat, 28 Juli 2017

Analisis regresi linear adalah alat analisis yang digunakan untuk mempelajari hubungan antara variabel bebas (dependent variable) dengan variabel tak bebas (independent variable) melalui suatu persamaan. Hubungan tersebut dapat berupa hubungan sebab akibat. Jika variabel tak bebas yang digunakan lebih dari satu, maka disebut analisis regresi linear berganda.

Analisis regresi linear dapat digunakan untuk mengukur seberapa besar suatu variabel mempengaruhi variabel lainnya. Misalnya, kita dapat mengukur seberapa besar pengaruh biaya iklan terhadap penjualan suatu produk. Pada umumnya, semakin besar biaya iklan, maka penjualan produk tersebut tersebut akan semakin tinggi. Pada masalah yang lebih kompleks, misalkan, pemerintah suatu daerah ingin mengetahui variabel apa saja yang mempengaruhi pertumbuhan ekonomi (variabel tak bebas) di daerah tersebut. Maka, dapat dilakukan analisis regresi linear berganda dengan melibatkan variabel tingkat pengangguran, investasi, dan konsumsi masyarakat sebagai variabel bebasnya.

Selain untuk mengukur pengaruh suatu variabel terhadap variabel lain,  persamaan yang terbentuk dari analisis regresi linear dapat kita gunakan untuk melakukan peramalan. Misalnya, melalui persamaan yang terbentuk, kita dapat memprediksi tingkat penjualan dengan biaya iklan tertentu. Secara umum, persamaan regresi berbentuk seperti berikut



dimana, yi merupakan nilai variabel tak bebas, b0 merupakan koefisien konstanta, b1 merupakan koefisien untuk variabel bebas 1 dan epsilon merupakan error dari persamaan.

Variabel Bebas : Variabel yang nilainya ditentukan oleh variabel lain. Diasumsikan bersifat random/stochastic. Contoh dari variabel yang dipengaruhi oleh variabel lain adalah tingkat penjualan.

Variabel tak Bebas : Variabel yang nilainya ditentukan secara bebas (variabel yang diduga mempengaruhi variabel tak bebas). Diasumsikan bersifat fixed/non stochastic. Contoh dari variabel bebas adalah biaya iklan.

Pada persamaan sebelumnya, terdapat dua koefisien (yang disebut juga dengan koefisien regresi), yakni β0 (biasanya disebut sebagai interceptdan β1 (biasa disebut sebagai slope. Nah. Koefisien tersebut merupakan parameter (gambaran populasi) yang diperoleh dari sampel. Metode estimasi yang digunakan untuk mengestimasi kedua koefisien tersebut adalah metode OLS (Ordinary Least Square), dimana prinsip utama dari metode OLS adalah meminimalkan error. Metode estimasi dengan OLS akan dibahas pada artikel selanjutnya.

Kemudian, untuk mencari nilai dari masing-masing koefisien, didapatkan rumus seperti dibawah berikut :

Pada persamaan diatas, Sxy merupakan kovarian dari variabel x (variabel bebas) dan variabel y (variabel tak bebas). Sxx merupakan varians dari variabel x (variabel bebas)
Dimana ȳ merupakan rata-rata dari variabel y (variabel tak bebas), sedangkan x̄ merupakan rata-rata dari variabel  x.  

Pada Analisis Regresi Linear Sederhana, perlu untuk memenuhi beberapa asumsi, agar hasil penghitungan dari parameter tidak bias dan konsisten (artinya dapat menggambarkan populasi secara keseluruhan). Beberapa asumsi yang ada pada regresi linear adalah sebagai berikut ;
  1. Variabel Y merupakan random variabel / bersifat stochastic (mempunyai distribusi tertentu).
  2. Variabel X bersifat fixed atau bukan merupakan random variabel dan tidak mengikuti distribusi tertentu.
  3. Asumsi Linearitas
    Untuk menguji apakah asumsi Linieritas terpenuhi, kita dapat menggunakan plot residual dengan fitted value (predicted value) atau bisa juga dengan plot residual dengan variable independent (John Neter, 1989:118).
  4. Varians dari error adalah tetap (Homoskedastisitas) ; E(εi2)=σ2. Yang dimaksud dengan homoskedastis adalah varians dari parameter tersebut telah efisien sehingga pendugaan paramater tersebut telah memiliki varians yang minimum. 
  5. Kovarian dari error model adalah nol (Non-autokorelasi)  E(εiεj)=0 ; autokorelasi dapat dikatakan hubungan antar objek. Untuk data cross-sectional, asumsi ini dapat diabaikan, namun lebih baik jika dapat dipenuhi.
  6. Error dari persamaan mengikuti distribusi normal; 
  7. Jika pada regresi linear dengan lebih dari satu variabel bebas, maka asumsi lain yang harus dipenuhi adalah asumsi non-multikolinearitas atau tidak adanya hubungan antar variabel bebas.
Jika semua asumsi diatas terpenuhi, maka menurut suatu teorema (Gauss Markov theorem) estimator tersebut akan bersifat BLUE (Best Linear Unbiased Estimator), artinya estimator tersebut dapat digunakan untuk menggambarkan populasi.