Panduan Lengkap Analisis Regresi Linear Berganda dengan SmartstatXL

Analisis regresi linier berganda adalah metode yang digunakan untuk menentukan pengaruh beberapa variabel bebas terhadap satu variabel terikat. Sama seperti analisis regresi linier sederhana, hubungan antara variabel dalam regresi linier berganda bersifat linier. Artinya, perubahan pada variabel-variabel bebas (X) akan diikuti oleh perubahan pada variabel terikat (Y) secara proporsional. Perbedaan utama antara kedua metode ini terletak pada jumlah variabel bebas: dalam regresi linier berganda, ada lebih dari satu variabel bebas. Persamaan model regresi linier berganda dinyatakan sebagai:

Y = β₀ + β₁X₁ + β₂X₂ + ... + β_nX_n + ε

Fitur unggulan analisis regresi linier berganda dengan SmartstatXL meliputi:

Perhitungan data hilang.
Metode Regresi: Enter, Stepwise, Forward Selection, Backward Selection, dan Forward Information Criteria.
Diagnostik Regresi:
- Uji Normalitas, Uji Heteroskedastisitas, dan Plot Residual.
- Transformasi Box-Cox.
- Identifikasi dan penggantian data pencilan secara otomatis.
Transformasi data otomatis.
Output berupa:
Persamaan Regresi.
- Statistik Regresi/Kebaikan Suai: R², R² terkoreksi, Koefisien Korelasi, AIC, AICc, BIC, RMSE, MAE, MPE, MAPE, dan sMAPE.
- Estimasi Koefisien Regresi: Nilai Koefisien, Standard error, t-statistik, p-value, Upper/Lower, dan VIF.
- Anova: Sekuensial dan Parsial.
- Grafik: Grafik 2D dan 3D untuk Permukaan Respons, serta Optimasi (Maksimum dan Minimum).

Contoh Kasus

Terdapat penelitian mengenai pengaruh pupuk dan kompos terhadap beberapa sifat kimia tanah, serapan hara dan hasil. Berikut potongan data dari penelitian tersebut

Pada contoh kasus ini, misalkan kita ingin mengetahui hubungan di antara respons. Variabel respons apa saja yang berpengaruh terhadap Berat Kering Total (g/tanaman). Dengan demikian, beberapa variabel respons dijadikan sebagai prediktor (variabel X: pH H₂O sd. Kejenuhan Al Trans (%)) dan Berat Kering Total (g/tanaman) sebagai respons (variabel Y).

Langkah-langkah Analisis Regresi Linier Berganda

Aktifkan lembar kerja (Sheet) yang akan dianalisis.
Tempatkan kursor pada dataset (untuk membuat dataset, lihat cara Persiapan Data).
Jika sel aktif (Active Cell) tidak berada pada dataset, SmartstatXL akan secara otomatis mencoba menentukan dataset.
Aktifkan Tab SmartstatXL
Klik Menu Regresi > Regresi Linier Berganda.
SmartstatXL akan menampilkan kotak dialog untuk memastikan apakah dataset sudah benar atau belum (biasanya dataset sudah otomatis dipilih dengan benar).
Apabila sudah benar, Klik Tombol Selanjutnya
Selanjutnya akan tampil Kotak Dialog Analisis Regresi. Pilih Variabel Faktor (Independen) dan satu atau lebih Variabel Respons (Dependen). Variabel faktor yang dipilih tergantung pada jenis analisis regresi. Pada contoh kasus ini kita tentukan:
- Model persamaan regresi: Y = β₀ + β₁X₁ + β₂X₂ + ... + β_nX_n
- Tipe Regresi: Regresi Linier Berganda
- Variabel Prediktor: pH H₂O sd. Kejenuhan Al Trans (%)
- Variabel Respons: Berat Kering Total (g/tanaman)
- Metode Regresi: Stepwise
  Selengkapnya bisa dilihat pada tampilan kotak dialog berikut:
Tekan tombol "Selanjutnya"
Pilih output regresi seperti pada tampilan berikut:
Tekan tombol OK untuk membuat outputnya dalam Lembar Output

Hasil Analisis

Informasi Analisis: tipe regresi yang digunakan, metode regresi, respons dan prediktor.

Regresi linier berganda adalah sebuah teknik analisis statistik yang digunakan untuk memprediksi variabel respons berdasarkan dua atau lebih variabel prediktor. Dalam contoh kasus ini, respons yang dimaksud adalah "BERAT KERING TOTAL (g/tan)" dan variabel prediktornya meliputi pH H2O, P Tersedia (mg kg-1), Kejenuhan AL (%), dan sebagainya.

Dari hasil analisis dengan metode stepwise (bertahap), kita dapat melihat bahwa terdapat tiga langkah (steps) yang dilakukan untuk memilih model regresi yang terbaik.

Interpretasi:

Step 1:
- Variabel prediktor "Kejenuhan AL (%)" merupakan variabel pertama yang masuk ke dalam model regresi dan memberikan sumbangan yang signifikan dalam menjelaskan variabilitas dari variabel respons (R² = 0.233).
- Koefisien untuk "Kejenuhan AL (%)" adalah -7.464, artinya untuk setiap kenaikan 1% dalam Kejenuhan AL, berat kering total diperkirakan akan menurun sebesar 7.464 g/tan, dengan semua variabel lainnya tetap konstan.
- Nilai P-Value untuk "Kejenuhan AL (%)" adalah 0.000, yang berarti variabel ini signifikan dalam menjelaskan variabilitas dari "BERAT KERING TOTAL".
Step 2:
- Variabel "pH H2O" ditambahkan ke dalam model, meningkatkan R² menjadi 0.364. Ini berarti kombinasi "Kejenuhan AL (%)" dan "pH H2O" menjelaskan 36.4% dari variabilitas "BERAT KERING TOTAL".
Step 3:
- Variabel "P Tersedia (mg kg^-1)" ditambahkan ke dalam model, meningkatkan R² menjadi 0.422. Ini berarti tiga variabel ini (Kejenuhan AL (%), pH H2O, dan P Tersedia) menjelaskan 42.2% dari variabilitas "BERAT KERING TOTAL".

Dari ketiga langkah tersebut, step 3 terpilih sebagai model terbaik karena memiliki nilai R² tertinggi (42.2%) dan nilai AICc serta BIC yang paling rendah dibandingkan dengan langkah-langkah sebelumnya.Dari 7 variabel prediktor yang dicoba dimasukkan ke dalam model, hanya variabel Kejenuhan Al, pH H₂O, dan P-tersedia yang pengaruhnya signifikan terhadap respons (Berat Kering Total (g/tanaman))

Kesimpulan: Dengan menggunakan metode regresi stepwise, model terbaik untuk memprediksi "BERAT KERING TOTAL" melibatkan tiga variabel prediktor yaitu "Kejenuhan AL (%)", "pH H₂O", dan "P Tersedia (mg kg^-1)". Model ini mampu menjelaskan 42.2% dari variabilitas berat kering total. Variabel "Kejenuhan AL (%)" dan "pH H₂O" memiliki hubungan negatif dengan berat kering total, sementara "P Tersedia (mg kg^-1)" memiliki hubungan positif.

Persamaan Regresi

Interpretasi:

Persamaan Regresi:
- Persamaan regresi yang diperoleh menunjukkan hubungan antara "BERAT KERING TOTAL" (Y) dengan tiga variabel prediktor yaitu "pH H₂O", "P Tersedia (mg kg^-1)", dan "Kejenuhan AL (%)". Persamaan ini bisa diartikan sebagai:
- Intercept 148.8103: Jika semua variabel prediktor bernilai nol, maka perkiraan rata-rata "BERAT KERING TOTAL" adalah 148.8103 g/tan.
- Koefisien -20.2959 untuk "pH H2O": Untuk setiap kenaikan 1 unit pH H_²O, berat kering total diperkirakan akan menurun sebesar 20.2959 g/tan, dengan semua variabel lainnya tetap konstan.
- Koefisien 1.4821 untuk "P Tersedia (mg kg^-1)": Untuk setiap kenaikan 1 mg/kg dalam P Tersedia, berat kering total diperkirakan akan meningkat sebesar 1.4821 g/tan, dengan semua variabel lainnya tetap konstan.
- Koefisien -5.737 untuk "Kejenuhan AL (%)": Untuk setiap kenaikan 1% dalam Kejenuhan AL, berat kering total diperkirakan akan menurun sebesar 5.737 g/tan, dengan semua variabel lainnya tetap konstan.
Nilai R² dan r:
- R² (koefisien determinasi) sebesar 0.422 menunjukkan bahwa model regresi mampu menjelaskan sekitar 42.2% dari variabilitas "BERAT KERING TOTAL". Sementara itu, r (koefisien korelasi) sebesar 0.650 menunjukkan bahwa ada hubungan positif yang moderat antara variabel prediktor yang dipilih dan respons.
Nilai R² Terkoreksi:
- R² terkoreksi sebesar 0.391 menunjukkan bahwa setelah mempertimbangkan jumlah variabel prediktor dalam model, model ini menjelaskan sekitar 39.1% dari variabilitas "BERAT KERING TOTAL".
Uji F:
- Nilai F sebesar 13.635 dengan signifikansi 0.00 menunjukkan bahwa model regresi secara keseluruhan adalah signifikan. Ini berarti setidaknya satu dari variabel prediktor memiliki hubungan signifikan dengan "BERAT KERING TOTAL".

Penulisan dalam Artikel Ilmiah:

Dalam penelitian mengenai pengaruh pupuk dan kompos terhadap beberapa sifat kimia tanah, serapan hara, dan hasil tanaman, ditemukan bahwa variabel "pH H₂O", "P Tersedia (mg kg^-1)", dan "Kejenuhan AL (%)" signifikan mempengaruhi "BERAT KERING TOTAL" dengan persamaan regresi sebagai berikut:

$${\rm{Y}} = 148.8103 - 20.2959 \times {\rm{pH\;H2O}} + 1.4821 \times {\rm{P\;Tersedia\;(mg\;kg - 1)}} - 5.737 \times {\rm{Kejenuhan\;AL\;(\% )}}$$

Model ini menjelaskan sekitar 42.2% dari variabilitas "BERAT KERING TOTAL" (R² = 0.422) dan menunjukkan hubungan positif yang moderat (r = 0.650). Setelah mempertimbangkan jumlah variabel prediktor, R² terkoreksi adalah 0.391. Uji F menunjukkan bahwa model ini signifikan dengan F = 13.635 dan p-value < 0.05.

Dengan demikian, sementara variabel lain mungkin juga mempengaruhi "BERAT KERING TOTAL", tiga variabel ini memiliki hubungan signifikan dan memberikan informasi penting mengenai bagaimana variabel-variabel tersebut mempengaruhi hasil tanaman.

Ketepatan Model (Goodness of Fit)

Diberikan sejumlah statistik yang berkaitan dengan kebaikan suai (goodness-of-fit) dari model regresi. Berikut adalah interpretasi dari masing-masing statistik:

r (Koefisien Korelasi): Nilair sebesar 0.6497 menunjukkan ada hubungan positif yang moderat antara variabel prediktor yang dipilih dengan respons. Semakin mendekati 1, hubungan tersebut semakin kuat.
R² (Koefisien Determinasi): R² sebesar 0.4221 berarti model regresi mampu menjelaskan sekitar 42.21% dari variabilitas dalam data respons.
R² Terkoreksi: R² terkoreksi sebesar 0.3911 mempertimbangkan jumlah variabel prediktor dalam model dan memberikan estimasi yang lebih realistis mengenai seberapa baik model mungkin bekerja pada kumpulan data baru. Model ini menjelaskan sekitar 39.11% dari variabilitas "BERAT KERING TOTAL" setelah penyesuaian.
AIC, AICc, dan BIC: Ini adalah kriteria informasi yang digunakan untuk membandingkan kualitas relatif dari model statistik. Nilai yang lebih rendah menunjukkan model yang lebih baik. AICc adalah koreksi dari AIC yang mempertimbangkan ukuran sampel, dan biasanya lebih akurat jika ukuran sampel relatif kecil.
RMSE (Root Mean Square Error): RMSE sebesar 12.4314 menunjukkan rata-rata kesalahan antara nilai yang diobservasi dan nilai yang diprediksi oleh model. Semakin rendah nilai RMSE, semakin baik modelnya.
MAE (Mean Absolute Error): MAE sebesar 9.6155 adalah rata-rata dari kesalahan absolut antara nilai yang diobservasi dan nilai yang diprediksi. Ini memberikan ukuran seberapa besar kesalahan yang bisa diharapkan dari prediksi model.
MPE (Mean Percentage Error): MPE sebesar -0.0874 mengukur bias dalam prediksi model. Nilai negatif menunjukkan bahwa model cenderung memprediksi respons yang lebih tinggi dari yang sebenarnya.
MAPE (Mean Absolute Percentage Error): MAPE sebesar 0.2379 menunjukkan rata-rata kesalahan relatif antara nilai yang diobservasi dan nilai yang diprediksi. Ini menunjukkan bahwa kesalahan rata-rata dalam prediksi model adalah sekitar 23.79% dari nilai yang sebenarnya.
sMAPE (symmetric Mean Absolute Percentage Error): sMAPE sebesar 0.2060 adalah versi simetris dari MAPE dan sering digunakan karena memiliki sifat yang lebih diinginkan dalam beberapa situasi dibandingkan MAPE. Kesalahan rata-rata dalam prediksi model adalah sekitar 20.60% dari nilai yang sebenarnya.

Penulisan dalam Artikel Ilmiah atau Akademis:

Dalam analisis regresi yang dilakukan, model yang diperoleh menunjukkan kebaikan suai yang memadai. Koefisien korelasi sebesar 0.6497 menandakan hubungan positif yang moderat antara variabel prediktor dan "BERAT KERING TOTAL". Model ini mampu menjelaskan sekitar 42.21% dari variabilitas dalam data respons, dengan R² terkoreksi sebesar 39.11%. Adapun kesalahan prediksi rata-rata dari model ini, berdasarkan RMSE, adalah 12.4314 g/tan. Selain itu, kesalahan rata-rata relatif berdasarkan MAPE adalah sekitar 23.79%, sementara sMAPE menunjukkan kesalahan rata-rata sekitar 20.60%. Keseluruhan statistik ini memberikan gambaran bahwa model regresi memiliki keakuratan yang memadai dalam memprediksi "BERAT KERING TOTAL" berdasarkan variabel prediktor yang dipilih.

Estimasi koefisien regresi, optimasi (nilai maksimum/minimum), dan analisis ragam regresi

Berikut adalah interpretasi dari tabel estimasi koefisien regresi:

Intercept:
- Koefisien intercept adalah 148.810. Ini menunjukkan bahwa jika semua variabel prediktor bernilai nol, maka perkiraan rata-rata "BERAT KERING TOTAL" adalah 148.810 g/tan.
- Dengan T-hitung sebesar 4.011 dan p-value 0.000 (menunjukkan signifikansi pada taraf 1%), intercept ini signifikan secara statistik.
- Interval kepercayaan 95% untuk intercept ini berkisar antara 74.493 hingga 223.127.
pH H2O:
- Koefisien untuk "pH H2O" adalah -20.296, yang berarti untuk setiap kenaikan 1 unit pH H2O, "BERAT KERING TOTAL" diperkirakan akan menurun sebesar 20.296 g/tan, dengan semua variabel lainnya tetap konstan.
- Dengan T-hitung sebesar -3.500 dan p-value 0.001 (menunjukkan signifikansi pada taraf 1%), variabel ini signifikan dalam menjelaskan variabilitas "BERAT KERING TOTAL".
- Interval kepercayaan 95% untuk koefisien ini berkisar antara -31.913 hingga -8.679.
- VIF (Variance Inflation Factor) untuk variabel ini adalah 1.016, yang menunjukkan tidak ada masalah multikolinearitas dengan variabel lain dalam model.
dan seterusnya

Variance Inflation Factor (VIF) adalah sebuah statistik yang digunakan untuk mengukur sejauh mana variabilitas dari suatu variabel prediktor dapat dijelaskan oleh variabel prediktor lainnya dalam suatu model regresi.

Interpretasi VIF:

VIF = 1: Tidak ada multikolinearitas antara variabel prediktor tersebut dengan variabel prediktor lainnya.
1 < VIF < 5: Biasanya dianggap sebagai tingkat multikolinearitas yang dapat diterima.
VIF >= 5: Terdapat indikasi multikolinearitas yang cukup kuat, yang mungkin memerlukan tindakan lebih lanjut.
VIF >= 10: Umumnya dianggap sebagai bukti kuat adanya multikolinearitas. Jika VIF suatu variabel mendekati atau melebihi 10, hal ini menunjukkan bahwa variabel tersebut dijelaskan oleh variabel prediktor lainnya dalam model, dan mungkin perlu dipertimbangkan untuk dihilangkan dari model.

Mengapa VIF Penting?

Multikolinearitas dapat menyebabkan beberapa masalah dalam analisis regresi, seperti:

Koefisien regresi menjadi tidak stabil (kecil perubahan dalam data dapat menyebabkan perubahan besar pada estimasi koefisien).
Standar kesalahan yang diperbesar, yang bisa mengakibatkan koefisien tidak signifikan meskipun variabel tersebut benar-benar penting.
Sulit untuk menentukan variabel mana yang paling berkontribusi terhadap variabilitas respons karena terdapat saling ketergantungan.

Oleh karena itu, jika VIF tinggi, pertimbangkan untuk:

Menghilangkan beberapa variabel yang berkorelasi dari model.
Menggabungkan variabel-variabel yang berkorelasi menjadi satu variabel melalui teknik seperti analisis komponen utama.
Meningkatkan ukuran sampel (dalam beberapa kasus, multikolinearitas mungkin disebabkan oleh ukuran sampel yang kecil).

Penting untuk diingat bahwa VIF hanya mengukur multikolinearitas antara variabel prediktor dan tidak memberikan informasi tentang hubungan antara variabel prediktor dan variabel respons.

Penulisan dalam Artikel Ilmiah atau Akademis:

Hasil analisis regresi menunjukkan bahwa variabel "pH H2O", "P Tersedia (mg kg-1)", dan "Kejenuhan AL (%)" memiliki pengaruh signifikan terhadap "BERAT KERING TOTAL". Secara khusus:

Untuk setiap kenaikan 1 unit pH H2O, "BERAT KERING TOTAL" diperkirakan akan menurun sebesar 20.296 g/tan (p-value = 0.001, CI 95%: -31.913 hingga -8.679).
Untuk setiap kenaikan 1 mg/kg dalam P Tersedia, "BERAT KERING TOTAL" diperkirakan akan meningkat sebesar 1.482 g/tan (p-value = 0.021, CI 95%: 0.230 hingga 2.734).
Untuk setiap kenaikan 1% dalam Kejenuhan AL, "BERAT KERING TOTAL" diperkirakan akan menurun sebesar 5.737 g/tan (p-value = 0.001, CI 95%: -9.027 hingga -2.447).

Analisis VIF menunjukkan tidak ada tanda-tanda multikolinearitas yang signifikan di antara variabel prediktor, dengan semua nilai VIF di bawah batas umum 10. Ini menunjukkan bahwa model regresi yang diperoleh memiliki keandalan yang baik dalam memprediksi "BERAT KERING TOTAL" berdasarkan variabel-variabel yang dipilih.

Tabel Optimasi untuk Mencapai Nilai Respons Maksimum dan Minimum

Berikut interpretasinya untuk tabel tersebut:

Nilai Maksimum:

"BERAT KERING TOTAL" mencapai nilai maksimum sebesar 84.986 g/tan pada kondisi:

pH H2O sebesar 5.070.
P Tersedia (mg kg^-1) sebesar 26.365.
Kejenuhan AL (%) sebesar 0.000.

Dari interpretasi ini, kita dapat mengatakan bahwa kondisi tanah yang optimal untuk mencapai berat kering total maksimum adalah ketika tanah memiliki pH sekitar 5.070, ketersediaan fosfor sekitar 26.365 mg/kg, dan tidak ada kejenuhan aluminium.

Nilai Minimum:

"BERAT KERING TOTAL" mencapai nilai minimum sebesar 9.433 g/tan pada kondisi:

pH H2O sebesar 6.590.
P Tersedia (mg kg^-1) sebesar 12.204.
Kejenuhan AL (%) sebesar 4.134.

Dari interpretasi ini, kita dapat mengatakan bahwa kondisi tanah yang kurang optimal atau kondisi di mana berat kering total mencapai minimum adalah ketika tanah memiliki pH sekitar 6.590, ketersediaan fosfor yang tinggi sekitar 12.204 mg/kg, dan kejenuhan aluminium sebesar 4.134%.

Dengan demikian, informasi ini sangat berguna bagi petani atau peneliti dalam mengoptimalkan kondisi tanah untuk mendapatkan hasil tanaman yang maksimal.

Analisis Ragam (ANOVA)

Diberikan tabel analisis ragam (ANOVA) untuk variabel "BERAT KERING TOTAL (g/tan)". Berikut contoh interpretasinya:

Regresi:

Model regresi memiliki 3 derajat kebebasan (DB) yang menunjukkan ada tiga variabel prediktor.
Jumlah Kuadrat (JK) dari model adalah 6321.2740, yang menunjukkan variabilitas total yang dijelaskan oleh model.
Rata-rata Kuadrat (KT) dari model (JK dibagi dengan DB) adalah 2107.0913.
F-hitung untuk model adalah 13.635 dengan p-value 0.000, yang menunjukkan bahwa model regresi secara keseluruhan adalah signifikan pada taraf 1%.

Analisis ragam menunjukkan bahwa model regresi yang melibatkan pH H2O, P Tersedia (mg kg-1), dan Kejenuhan AL (%) signifikan dalam menjelaskan variabilitas "BERAT KERING TOTAL" dengan F-hitung sebesar 13.635 (p-value < 0.001). Secara spesifik, pH H2O (F-hitung = 12.248, p-value = 0.001), P Tersedia (mg kg-1) (F-hitung = 5.625, p-value = 0.021), dan Kejenuhan AL (%) (F-hitung = 12.199, p-value = 0.001) semuanya memberikan kontribusi signifikan terhadap model. Ini menunjukkan pentingnya ketiga variabel tersebut dalam mempengaruhi "BERAT KERING TOTAL".

Pemeriksaan Asumsi Regresi

Terdapat dua set uji untuk memeriksa asumsi regresi: Uji Homoskedastisitas dan serangkaian Uji Normalitas untuk distribusi residual.

Uji Homoskedastisitas

Uji BPG digunakan untuk mendeteksi heteroskedastisitas dalam model regresi. Heteroskedastisitas terjadi ketika variabilitas dari kesalahan (residual) bukan konstan di seluruh tingkat prediktor.

Dengan χ²-hitung sebesar 2.093 dan p-value sebesar 0.553 (yang lebih besar dari 0.05), kita gagal untuk menolak hipotesis nol. Ini menunjukkan tidak ada bukti kuat yang mendukung adanya heteroskedastisitas. Dengan kata lain, data kita memenuhi asumsi homoskedastisitas.

Uji Normalitas

Uji Normalitas digunakan untuk mengevaluasi apakah residual dari model regresi berdistribusi normal.

Shapiro-Wilk's Test: Dengan statistik 0.979 dan p-value 0.393, kita gagal menolak hipotesis nol bahwa residual berdistribusi normal.
Anderson Darling Test: Dengan statistik 0.355 dan p-value 0.459, kita gagal menolak hipotesis nol bahwa residual berdistribusi normal.
D'Agostino Pearson Test: Dengan statistik 1.266 dan p-value 0.531, kita gagal menolak hipotesis nol bahwa residual berdistribusi normal.
Liliefors Test: Dengan statistik 0.069 dan p-value lebih besar dari 0.20, kita gagal menolak hipotesis nol bahwa residual berdistribusi normal.
Kolmogorov-Smirnov Test: Dengan statistik 0.069 dan p-value lebih besar dari 0.20, kita gagal menolak hipotesis nol bahwa residual berdistribusi normal.

Dari semua Uji Normalitas di atas, kita tidak menemukan bukti yang mendukung pelanggaran asumsi normalitas. Oleh karena itu, kita dapat menyimpulkan bahwa residual dari model regresi berdistribusi normal.

Kesimpulan:

Berdasarkan hasil uji Breusch–Pagan–Godfrey dan Uji Normalitas, model regresi kita memenuhi dua asumsi penting, yaitu homoskedastisitas dan normalitas residual. Ini menunjukkan bahwa model regresi kita valid dan estimasi yang dihasilkan dapat diandalkan.

Plot Residual

Selain uji formal, pemeriksaan asumsi normalitas bisa juga dilakukan secara visual dengan menggunakan plot residual yang disertakan. Pemeriksaan bisa dilakukan dengan menggunakan Normal Probability Plot (Normal P-Plot), Histogram, Plot Residual vs. Predicted.

Normal P-Plot untuk Residual:
- Normal Probability Plot antara nilai residual dengan nilai prediksi atau observasi. Idealnya, titik-titik pada plot ini harus mengikuti garis diagonal lurus. Jika titik-titik menyimpang dari garis diagonal, ini mungkin menunjukkan penyimpangan dari normalitas.
- Fakta bahwa titik-titik hampir mengikuti garis diagonal lurus menunjukkan bahwa residual memiliki distribusi yang mendekati normal di sebagian besar rentang nilai. Ini adalah tanda yang baik dan menunjukkan bahwa asumsi normalitas residual hampir terpenuhi.Namun, keberadaan titik yang menyimpang dari garis diagonal di kedua ujung menunjukkan adanya penyimpangan dari normalitas di ekor distribusi.
- Meskipun ada beberapa penyimpangan dari normalitas, tergantung pada konteks dan tujuan analisis, penyimpangan ini mungkin tidak signifikan. Namun, jika analisis sangat sensitif terhadap asumsi normalitas, kita mungkin perlu mempertimbangkan teknik transformasi atau metode lain untuk memperbaiki penyimpangan ini.
Histogram untuk Residual:
- Histogram harus menunjukkan distribusi yang mendekati bentuk lonceng (distribusi normal). Penyimpangan dari bentuk ini (misalnya, distribusi yang miring atau berbuntut panjang) dapat menunjukkan pelanggaran asumsi normalitas.
Residual vs Predicted:
- Untuk memeriksa homoskedastisitas, titik-titik pada plot ini harus tersebar secara acak di sekitar garis horizontal di 0 tanpa pola tertentu. Jika melihat pola khusus, seperti bentuk corong atau pola berbentuk kurva, ini dapat menunjukkan heteroskedastisitas atau pelanggaran lain dari asumsi regresi.

Mengingat bahwa semua uji formal menunjukkan bahwa residual berdistribusi normal (karena semua nilai p lebih besar dari 0.05), penyimpangan kecil yang pada Normal P-Plot kemungkinan bukan masalah besar.

Dalam praktiknya, analisis regresi seringkali cukup toleran terhadap pelanggaran kecil dari asumsi normalitas, terutama jika ukuran sampel cukup besar. Oleh karena itu, meskipun ada beberapa titik yang menyimpang dari garis diagonal pada Normal P-Plot, jika uji formal menunjukkan normalitas dan kita tidak melihat pelanggaran asumsi lain yang signifikan, model regresi mungkin dianggap cukup valid untuk keperluan analisis.

Transformasi Box-Cox dan Analisis Residual

1. Transformasi Box-Cox

Transformasi Box-Cox digunakan untuk membuat variabel respons (variabel dependen) dalam regresi linier memenuhi asumsi-asumsi analisis regresi, seperti normalitas, homoskedastisitas, dan adanya hubungan linier dengan variabel independen. Dengan mengubah skala variabel respons, transformasi ini berusaha meningkatkan kesesuaian model dan memenuhi asumsi regresi.

Dalam kasus ini:

Nilai λ (Lambda) dari Box-Cox adalah 1.440.
Saran transformasi yang diberikan adalah "No Transformation: Y¹", yang berarti tidak diperlukan transformasi pada variabel respons. Ini sesuai dengan representasi matematis dari transformasi Box-Cox, di mana jika λ=1, maka tidak ada transformasi yang diperlukan.

Mengingat bahwa hasil uji heteroskedastisitas dan normalitas menunjukkan bahwa semua asumsi regresi terpenuhi, saran dari transformasi Box-Cox untuk tidak melakukan transformasi memang masuk akal. Jika model sudah memenuhi asumsi tanpa perlu transformasi, maka lebih baik tidak mengubahnya.

Kesimpulan: Meskipun transformasi Box-Cox sering digunakan untuk memperbaiki pelanggaran asumsi regresi, dalam kasus ini, karena tidak ada pelanggaran asumsi yang ditemukan dan saran dari Box-Cox adalah untuk tidak melakukan transformasi, kita dapat melanjutkan dengan model tanpa perlu transformasi. Model tersebut sudah memenuhi asumsi regresi yang diperlukan dan dianggap valid.

2. Analisis Residual

Berdasarkan informasi yang disajikan dalam tabel analisis residual, tabel tersebut memberikan informasi mengenai seberapa baik model dalam memprediksi data yang sebenarnya dan untuk mengidentifikasi potensi masalah seperti data pencilan (outlier) atau nilai ekstrem.

pH H2O, P Tersedia (mg kg^-1), Kejenuhan AL (%): Ini adalah nilai dari variabel prediktor.
BERAT KERING TOTAL (g/tan): Nilai respons aktual.
Predicted: Nilai yang diprediksi oleh model regresi berdasarkan variabel prediktor.
Residual: Perbedaan antara nilai respons aktual dan nilai yang diprediksi. Residual yang besar menunjukkan bahwa model tidak memprediksi data dengan baik.
Leverage: Mengukur seberapa jauh nilai prediktor dari rata-rata prediktor lainnya. Observasi dengan leverage tinggi mungkin merupakan titik data yang ekstrem di ruang prediktor.
Studentized Residual dan Studentized Deleted Residual: Residual yang telah distandardisasi. Nilai absolut yang besar dari residual ini menunjukkan potensi outlier.
Cooks Distance: Mengukur pengaruh setiap observasi terhadap semua nilai yang diprediksi. Observasi dengan Cook's distance yang tinggi mungkin mempengaruhi model dengan kuat.
DFITS: Statistik ini mengukur seberapa banyak prediksi untuk suatu observasi akan berubah jika observasi tersebut dihapus. Nilai DFITS yang besar menunjukkan bahwa observasi tersebut berbeda dari yang diharapkan berdasarkan model.
Diagnostic: Kolom ini memberi tahu apakah suatu observasi dianggap sebagai outlier atau ekstrem.

Dari tabel tersebut, dapat dinilai kualitas model dan diputuskan apakah perlu mengambil langkah-langkah tambahan, seperti menghapus outlier atau menerapkan transformasi Box-Cox, untuk meningkatkan model.

Jika model menunjukkan gejala pelanggaran asumsi regresi, mengidentifikasi dan menangani outlier atau nilai ekstrem dapat membantu memperbaiki model. Pertimbangkan transformasi Box-Cox jika diperlukan, terutama jika saran sebelumnya dari Box-Cox menunjukkan adanya potensi transformasi.

Kesimpulan

Dari analisis regresi linier berganda yang telah dilakukan, model regresi berhasil dikembangkan untuk memprediksi "BERAT KERING TOTAL (g/tan)" dengan mempertimbangkan variabel-variabel seperti pH H₂O, P Tersedia (mg kg^-1), dan Kejenuhan AL (%). Model ini mampu menjelaskan sekitar 42.2% dari variabilitas dalam BERAT KERING TOTAL. Selain itu, analisis residual menegaskan bahwa model memenuhi asumsi regresi dasar, yaitu homoskedastisitas dan normalitas residual. Meskipun transformasi Box-Cox disarankan, berdasarkan Pemeriksaan Asumsi Regresi, transformasi mungkin tidak diperlukan. Selain itu, beberapa observasi yang dianggap sebagai outlier atau ekstrem telah diidentifikasi dan perlu dipertimbangkan dalam analisis lebih lanjut.

Penulisan Hasil dan Pembahasan dalam Karya Ilmiah

Dalam studi ini, sebuah model regresi telah berhasil dikembangkan untuk memahami hubungan antara "BERAT KERING TOTAL (g/tan)" dan variabel prediktor pH H₂O, P Tersedia (mg kg^-1), serta Kejenuhan AL (%). Persamaan regresi yang dihasilkan adalah:

Y=148.8103−20.2959×pH H₂O+1.4821×P Tersedia−5.737×Kejenuhan AL

Model ini memperlihatkan bahwa sekitar 42.2% dari variabilitas dalam "BERAT KERING TOTAL" dapat dijelaskan oleh variabel-variabel prediktor. Hal ini ditunjukkan oleh koefisien determinasi (R²) yang bernilai 0.422.

Pemeriksaan Asumsi Regresi melalui analisis residual menunjukkan bahwa model memenuhi asumsi dasar regresi. Meskipun ada saran untuk melakukan transformasi Box-Cox, analisis lebih lanjut menunjukkan bahwa transformasi mungkin tidak diperlukan.

Dalam analisis residual, beberapa observasi diidentifikasi sebagai outlier atau memiliki nilai ekstrem. Hal ini perlu dipertimbangkan dalam interpretasi lebih lanjut dari hasil model dan dalam aplikasi praktis model regresi ini.

Sidebar Menu

Main Menu

Cara Melakukan Analisis Regresi Linear Berganda dengan SmartstatXL

Contoh Kasus

Langkah-langkah Analisis Regresi Linier Berganda

Hasil Analisis

Informasi Analisis: tipe regresi yang digunakan, metode regresi, respons dan prediktor.

Persamaan Regresi

Ketepatan Model (Goodness of Fit)

Estimasi koefisien regresi, optimasi (nilai maksimum/minimum), dan analisis ragam regresi

Tabel Optimasi untuk Mencapai Nilai Respons Maksimum dan Minimum

Analisis Ragam (ANOVA)

Pemeriksaan Asumsi Regresi

Uji Homoskedastisitas

Uji Normalitas

Plot Residual

Transformasi Box-Cox dan Analisis Residual

Kesimpulan

Penulisan Hasil dan Pembahasan dalam Karya Ilmiah

Search

Dokumentasi SmartstatXL

Statistik Deskriptif (1)

Panduan Lengkap Analisis Non Parametrik dengan SmartstatXL (10)

Uji-T Student menggunakan SmartstatXL (1)

Analisis Korelasi dan Regresi dengan SmartstatXL (9)

Rancangan Percobaan (17)

Analisis Multivariat (6)

Artikel Lainnya

Artikel Terkait