python pandas statistik model regresi linear

Python data science telah dilengkapi dengan library statistik yang dapat memudahkan dalam proses analisa data, pada tutorial ini akan mencoba membuat analisa data dengan pendekatan regresi linear berganda.

Sebuah model regresi linear berganda ditulis dengan persamaan sebagai berikut:

Y = α + β1 X1 + β2 X2 + βn Xn + e

Keterangan:
Y = Variabel terikat atau response.
X = Variabel bebas atau predictor.
α = Konstanta.
β = Slope atau Koefisien estimate.

Untuk implementasi kode program dengan python data science anda dapat menggunakan library
numpy dan statmodel. Pada contoh ini menggunakan data pada tutorial sebelumnya di sini, dengan variable bebas
x1 : umur dan x2 : berat badan, dan variable y : temperatur suhu

Apakah variable umur (x1) dan berat badan (x2) mempengaruhi temperatur suhu (Y) secara signifikan ?

import pandas as pd
import numpy as np
import statsmodels.api as sm

data = pd.read_csv("data_sample.csv" )
display(data)

x = data[["umur","berat"]].to_numpy()
y = data["suhu"].to_numpy()

x = sm.add_constant(x)
model = sm.OLS(y, x).fit();
print(model.summary())

Berikut output program penggunaan pustaka statmodel

Persamaan regresi linear menjadi:

Y = α + β1 X1 + β2 X2

Y = 55.23 + 1.38X1 + 0.19X2 , dengan nilai R2 94.1%

Post a Response