Sidebar Menu

SmartstatXL menyediakan berbagai jenis analisis regresi untuk memodelkan hubungan antara variabel bebas (independen) dan variabel terikat (dependen). Salah satu jenis analisis yang dapat dilakukan dengan SmartstatXL adalah Regresi Ordinal.

Regresi Ordinal khusus digunakan untuk memodelkan variabel dependen yang bersifat ordinal, yaitu memiliki kategori yang memiliki urutan tertentu. Meskipun merupakan bagian dari analisis regresi, regresi ordinal membedakan dirinya dengan fokus pada variabel terikat ordinal, sementara variabel bebasnya dapat bersifat ordinal, interval, atau rasio.

Dalam konteks statistik, variabel terikat sering juga disebut sebagai respons, variabel endogen, variabel prognostik, atau regresi. Sementara itu, variabel bebas mungkin dikenal sebagai variabel eksogen, variabel prediktor, atau regresor. Sebagai contoh praktis, kita bisa mempertimbangkan peringkat film yang diberikan dalam skala 1 hingga 5.

Fitur Unggulan Analisis Regresi Ordinal di SmartstatXL

SmartstatXL menawarkan berbagai fitur canggih untuk mendukung analisis regresi ordinal, di antaranya:

  1. Diagnostik Regresi:
    • Informasi mengenai data pencilan.
  2. Pengaturan Referensi:
    • Kemampuan untuk menentukan urutan nilai respons sebagai referensi, baik berdasarkan order terendah atau order tertinggi.
  3. Output Analisis:
    • Persamaan Regresi.
    • Statistik Regresi/Kebaikan Suai: R², Cox-Snell R², Nagelkerke R², AIC, AICc, BIC, dan Log Likelihood.
    • Estimasi Koefisien Regresi: Termasuk Nilai Koefisien, Standard error, Wald Stat, p-value, Upper/Lower, dan VIF.
    • Tabel Analisis Devians.
    • Confusion Matrix: Menyajikan Tabel Klasifikasi dan berbagai Metrik terkait.

Contoh Kasus

Penelitian ini bertujuan untuk mengetahui faktor apa saja yang mempengaruhi keputusan mahasiswa tahun ketiga untuk melanjutkan ke sekolah pascasarjana. Mereka ditanya seberapa besar kemungkinan mereka untuk melanjutkan: "tidak mungkin", "mungkin", atau "sangat mungkin". Variabel hasil dari penelitian ini dibagi menjadi tiga kategori berdasarkan jawaban mereka. Selain itu, data mengenai latar belakang pendidikan orang tua, jenis universitas (publik atau swasta), dan Indeks Prestasi Kumulatif (IPK) mahasiswa juga dikumpulkan. Menariknya, peneliti percaya bahwa perbedaan antara ketiga kategori jawaban tersebut tidak seragam. Misalnya, perbedaan antara "tidak mungkin" dan "mungkin" bisa jadi lebih kecil dibandingkan dengan "mungkin" dan "sangat mungkin".

Dalam data ini, ada variabel bernama "apply" yang mencerminkan jawaban mahasiswa dengan kode 0 untuk "tidak mungkin", 1 untuk "mungkin", dan 2 untuk "sangat mungkin". Selain "apply", ada tiga variabel lain yang dijadikan sebagai faktor pendukung dalam analisis: "pared" yang menunjukkan apakah salah satu orang tua memiliki gelar pascasarjana (0 untuk tidak dan 1 untuk ya); "public" yang menandakan jenis universitas (0 untuk swasta dan 1 untuk publik); dan "gpa" yang menunjukkan rata-rata nilai mahasiswa.

Source:https://stats.oarc.ucla.edu/r/dae/ordinal-logistic-regression/

Langkah-langkah Analisis Regresi Ordinal

  1. Aktifkan lembar kerja (Sheet) yang akan dianalisis.
  2. Tempatkan kursor pada dataset (untuk membuat dataset, lihat cara Persiapan Data).
  3. Jika sel aktif (Active Cell) tidak berada pada dataset, SmartstatXL akan secara otomatis mencoba menentukan dataset.
  4. Aktifkan Tab SmartstatXL
  5. Klik Menu Regresi > Regresi Ordinal.

  6. SmartstatXL akan menampilkan kotak dialog untuk memastikan apakah dataset sudah benar atau belum (biasanya dataset sudah otomatis dipilih dengan benar).
  7. Apabila sudah benar, Klik Tombol Selanjutnya
  8. Selanjutnya akan tampil Kotak Dialog Analisis Regresi Ordinal. Pilih Variabel Faktor (Independen) dan satu atau lebih Variabel Respons (Dependen).
  9. Tekan tombol "Selanjutnya"
  10. Pilih output regresi seperti pada tampilan berikut:

    Opsi referensi bisa outcome urutan pertama (terendah) atau urutan terakhir (tertinggi). Pada contoh ini, Outcome terdiri dari 3 level/class, yaitu 0, 1, dan 2. Misalnya dipilih urutan pertama (angka 0 dijadikan referensi)
  11. Tekan tombol OK untuk membuat outputnya dalam Lembar Output

Hasil Analisis

Informasi Analisis: tipe regresi yang digunakan, respons dan prediktor

A screenshot of a computer Description automatically generated

Tipe Analisis: Regresi yang digunakan adalah Regresi Ordinal. Ini berarti variabel respons (atau dependen) memiliki urutan atau kategori yang bisa diurutkan, seperti dalam kasus ini, yaitu "tidak mungkin", "mungkin", dan "sangat mungkin".

Variabel Respons dan Prediktor:

  • Variabel respons adalah "apply", yang mencerminkan keputusan mahasiswa untuk melanjutkan ke sekolah pascasarjana.
  • Variabel prediktor yang digunakan adalah: "pared", "public", dan "gpa".

Persamaan Regresi

A screenshot of a computer Description automatically generated

Dalam regresi logistik ordinal, persamaan regresi menggambarkan log-odds dari kategori respons terhadap kategori acuan. Dalam kasus ini, kategori acuan adalah "tidak mungkin", sementara dua kategori lainnya adalah "mungkin" dan "sangat mungkin".

Berikut persamaan regresi:

  1. Untuk kategori "mungkin": Y=2.2033−1.0477×pared+0.0587×public−0.6157×gpa
  2. Untuk kategori "sangat mungkin": Y=4.2988−1.0477×pared+0.0587×public−0.6157×gpa

Interpretasi Koefisien:

  • pared: Untuk setiap peningkatan satu unit dalam variabel "pared" (misalnya dari tidak memiliki orang tua dengan gelar pascasarjana menjadi memiliki), log-odds dari mahasiswa yang mengatakan "mungkin" atau "sangat mungkin" akan menurun sebesar 1.0477 unit, dengan variabel lainnya tetap.
  • public: Untuk setiap peningkatan satu unit dalam variabel "public" (misalnya dari universitas swasta ke universitas publik), log-odds dari mahasiswa yang mengatakan "mungkin" atau "sangat mungkin" akan meningkat sebesar 0.0587 unit, dengan variabel lainnya tetap.
  • gpa: Untuk setiap peningkatan satu unit dalam variabel "gpa", log-odds dari mahasiswa yang mengatakan "mungkin" atau "sangat mungkin" akan menurun sebesar 0.6157 unit, dengan variabel lainnya tetap.

Statistik Model:

  • R2 adalah 0.033, yang berarti bahwa model ini menjelaskan sekitar 3.3% dari variabilitas dalam data respons.
  • Nilai Chi-Squared adalah 24.180 dengan signifikansi 0.00. Ini menunjukkan bahwa model secara keseluruhan adalah signifikan dalam memprediksi variabel respons.

Dari hasil analisis tersebut, nilai R2 memiliki nilai yang kecil, tetapi Chi-Squared menunjukkan signifikansi. Kedua statistik ini memberikan informasi yang berbeda mengenai model, dan keduanya penting dalam mengevaluasi kualitas dan kecocokan model. Mari kita jelaskan lebih lanjut:

  1. R2 (Koefisien Determinasi):
    • R2 mengukur seberapa baik model regresi menjelaskan variabilitas dalam data respons. Dalam konteks regresi logistik ordinal, ini bisa diartikan sebagai seberapa baik model menjelaskan perubahan dalam probabilitas kategori respons.
    • Nilai R2 yang kecil, seperti 0.033 dalam kasus ini, menunjukkan bahwa model hanya menjelaskan sekitar 3.3% dari variabilitas dalam data respons. Ini berarti masih ada banyak variabilitas yang tidak dijelaskan oleh model, yang mungkin disebabkan oleh faktor-faktor lain yang tidak dimasukkan dalam model atau sifat intrinsik dari data itu sendiri.
  2. Chi-Squared:
    • Uji Chi-Squared dalam konteks regresi logistik mengukur seberapa baik model kita memprediksi variabel respons dibandingkan dengan model tanpa prediktor (model nol).
    • Dalam kasus ini, nilai Chi-Squared yang signifikan menunjukkan bahwa model dengan prediktor ("pared", "public", dan "gpa") lebih baik dalam memprediksi "apply" dibandingkan dengan model tanpa prediktor sama sekali.

Mengapa bisa terjadi perbedaan?

  • Adalah mungkin untuk memiliki model yang memiliki R2 yang relatif kecil tetapi masih signifikan dalam uji Chi-Squared. Ini mungkin berarti bahwa meskipun model kita memberikan peningkatan yang signifikan dibandingkan dengan model tanpa prediktor, model tersebut masih belum menjelaskan sebagian besar variabilitas dalam data respons.
  • Faktor lain yang dapat mempengaruhinya adalah ukuran sampel. Dengan sampel yang besar, mungkin akan mendapatkan signifikansi statistik (seperti yang ditunjukkan oleh uji Chi-Squared) meskipun efek aktualnya mungkin kecil (seperti yang ditunjukkan oleh R2 yang rendah).

Dalam prakteknya, penting untuk mempertimbangkan kedua statistik ini serta konteks penelitian saat mengevaluasi kualitas dan kecocokan model regresi.

Ketepatan Model (Goodness of Fit)

Hasil analisis menunjukkan berbagai metrik kebaikan suai (goodness-of-fit) untuk model regresi. Mari kita jelaskan masing-masing metrik tersebut:

  1. R2 (Pseudo R2): 0.0326
    • Dalam konteks regresi logistik, R2 biasanya disebut Pseudo R2 dan bukanlah kuadrat dari koefisien korelasi seperti dalam regresi linier. Nilai ini menunjukkan seberapa baik model menjelaskan variabilitas dalam data respons. Dalam kasus ini, model menjelaskan sekitar 3.26% dari variabilitas.
  2. Cox-Snell R2: 0.0587
    • Ini adalah salah satu metode untuk menghitung Pseudo R2 dalam regresi logistik. Nilai ini menunjukkan bahwa model menjelaskan sekitar 5.87% dari variabilitas.
  3. Nagelkerke R2: 0.0696
    • Ini adalah adaptasi lain dari R2 untuk regresi logistik dan seringkali memberikan nilai yang lebih tinggi dibandingkan dengan metode lain. Dalam kasus ini, model menjelaskan sekitar 6.96% dari variabilitas.
  4. AIC (Akaike Information Criterion): 727.0249
    • AIC adalah metrik yang mengukur kualitas relatif dari model statistik untuk suatu set data tertentu. Model dengan AIC yang lebih rendah dianggap lebih baik. AIC mempertimbangkan kompleksitas model dan seberapa baik model tersebut menyesuaikan data.
  5. AICc (Akaike Information Criterion with correction): 727.1772
    • Mirip dengan AIC tetapi dengan koreksi untuk ukuran sampel. Biasanya digunakan ketika rasio jumlah observasi dengan jumlah parameter di model mendekati kecil (misalnya kurang dari 40).
  6. BIC (Bayesian Information Criterion): 746.9822
    • Seperti AIC, tetapi memberikan hukuman yang lebih besar untuk model yang lebih kompleks. Model dengan BIC yang lebih rendah dianggap lebih baik.
  7. Log Likelihood: -358.5124
    • Ini mengukur seberapa baik model menyesuaikan data. Semakin tinggi nilai log likelihood, semakin baik model tersebut. Dalam konteks regresi logistik, ini adalah log dari kemungkinan bahwa model yang kita miliki adalah model yang benar untuk data tersebut.

Dari hasil di atas, tampak bahwa ketepatan model regresi relatif rendah berdasarkan nilai R2 dan varian-varian lainnya. Meskipun demikian, AIC dan BIC dapat digunakan untuk membandingkan model ini dengan model alternatif lainnya untuk menentukan mana yang memiliki kebaikan suai terbaik.

Estimasi Koefisien Regresi

A screenshot of a computer Description automatically generated

Berikut interpretasi untuk estimasi koefisien dari model regresi logistik ordinal:

  1. Intercept1:->1 (2.203)
    • Ini adalah konstanta atau intercept untuk kategori "mungkin" dibandingkan dengan "tidak mungkin".
    • Koefisien ini, 2.203, adalah log-odds dari seorang mahasiswa memilih "mungkin" melanjutkan ke pascasarjana dibandingkan dengan "tidak mungkin" ketika semua variabel lainnya bernilai nol.
    • Wald Stat sebesar 7.989 dengan nilai-p sebesar 0.005 menunjukkan bahwa intercept ini signifikan pada level 1%, yang berarti sangat signifikan.
  2. Intercept2:->2 (4.299)
    • Ini adalah konstanta atau intercept untuk kategori "sangat mungkin" dibandingkan dengan "tidak mungkin".
    • Koefisien ini, 4.299, adalah log-odds dari seorang mahasiswa memilih "sangat mungkin" melanjutkan ke pascasarjana dibandingkan dengan "tidak mungkin" ketika semua variabel lainnya bernilai nol.
    • Wald Stat sebesar 28.565 dengan nilai-p kurang dari 0.0001 menunjukkan bahwa intercept ini sangat signifikan pada level 1%.
  3. pared (-1.048)
    • Koefisien negatif ini menunjukkan bahwa jika salah satu orang tua memiliki gelar pascasarjana, log-odds dari seorang mahasiswa memilih "mungkin" atau "sangat mungkin" melanjutkan ke pascasarjana (dibandingkan dengan "tidak mungkin") menurun.
    • Dengan kata lain, kecenderungan untuk melanjutkan studi menjadi lebih rendah jika salah satu orang tua memiliki gelar pascasarjana.
    • Wald Stat sebesar 15.537 dengan nilai-p kurang dari 0.0001 menunjukkan bahwa variabel ini sangat signifikan pada level 1%.
  4. public (0.059)
    • Koefisien positif ini menunjukkan bahwa jika mahasiswa berasal dari universitas publik, log-odds mereka memilih "mungkin" atau "sangat mungkin" melanjutkan ke pascasarjana (dibandingkan dengan "tidak mungkin") sedikit meningkat.
    • Namun, Wald Stat hanya 0.039 dengan nilai-p sebesar 0.844, menunjukkan bahwa variabel ini tidak signifikan.
  5. gpa (-0.616)
    • Koefisien negatif ini menunjukkan bahwa dengan setiap peningkatan 1-unit dalam IPK, log-odds dari seorang mahasiswa memilih "mungkin" atau "sangat mungkin" melanjutkan ke pascasarjana (dibandingkan dengan "tidak mungkin") menurun.
    • Ini mungkin terdengar kontraintuitif, tetapi penting untuk memahami konteks dan variabel lainnya dalam model.
    • Wald Stat sebesar 5.581 dengan nilai-p sebesar 0.018 menunjukkan bahwa variabel ini signifikan pada level 5%.

Dari hasil analisis di atas, dapat disimpulkan bahwa faktor "pared" dan "gpa" memiliki pengaruh signifikan terhadap keputusan mahasiswa untuk melanjutkan ke pascasarjana, sementara faktor "public" tidak signifikan.

Analisis Deviance/Ragam

A screenshot of a computer Description automatically generated

Hasil analisis menunjukkan tabel analisis deviance untuk model regresi logistik ordinal. Deviance adalah ukuran seberapa baik model menyesuaikan data, mirip dengan residu kuadrat dalam regresi linier. Mari kita interpretasikan tabel tersebut:

  1. Regresi:
    • DB (Derajat Bebas) = 4:Ini menunjukkan jumlah prediktor dalam model (termasuk intercept).
    • Deviance = 24.180: Ini mengukur seberapa baik model (dengan prediktor) menyesuaikan data dibandingkan dengan model yang hanya memiliki intercept (tanpa prediktor). Nilai yang lebih rendah menunjukkan kesesuaian yang lebih baik.
    • Nilai-P = 0.000: Ini adalah hasil dari uji deviance yang membandingkan model dengan model yang hanya memiliki intercept. Nilai-p yang sangat rendah (kurang dari 0.01) menunjukkan bahwa model secara signifikan lebih baik daripada model tanpa prediktor.
    • Chi.05 dan Chi.01: Ini adalah nilai kritis dari distribusi chi-kuadrat dengan 4 derajat kebebasan pada level signifikansi 5% dan 1%. Karena deviance dari model (24.180) lebih besar dari kedua nilai ini, ini menunjukkan bahwa model signifikan pada kedua level signifikansi tersebut.
  2. Galat:
    • Ini adalah deviance yang dihasilkan dari model yang hanya memiliki intercept. Dengan kata lain, ini adalah seberapa buruk model jika tidak ada prediktor sama sekali.
    • DB: 395
    • Deviance: 717.0249
  3. Total:
    • Ini adalah jumlah total deviance dari model .
    • DB: 399
    • Deviance: 741.2053

Dari tabel analisis deviance ini, dapat disimpulkan bahwa model regresi memiliki kesesuaian yang signifikan dengan data, dan ada bukti kuat bahwa setidaknya satu prediktor dalam model signifikan dalam menjelaskan variabilitas dalam variabel respons ("apply").

Tabel Klasifikasi (Confussion Matrix)

Tabel Konfusi

A screenshot of a computer Description automatically generated

Hasil analisis tersebut merupakan tabel klasifikasi (atau dikenal juga sebagai confusion matrix) untuk model regresi logistik ordinal. Tabel ini menunjukkan seberapa baik model dalam memprediksi kategori respons berdasarkan data aktual. Mari kita interpretasikan tabel tersebut:

  1. Aktual vs Prediksi untuk kategori 0 ("tidak mungkin"):
    • Dari total 220 responden yang aktualnya berkategori "tidak mungkin", model memprediksi 201 dari mereka dengan benar, sementara 19 lainnya salah diklasifikasikan sebagai kategori "mungkin". Tidak ada yang diklasifikasikan sebagai "sangat mungkin".
    • Akurasi klasifikasi untuk kategori ini adalah 201201+19+0×100%=91.36%201+19+0201×100%=91.36%.
  2. Aktual vs Prediksi untuk kategori 1 ("mungkin"):
    • Dari total 140 responden yang aktualnya berkategori "mungkin", model hanya memprediksi 30 dari mereka dengan benar. Sebanyak 110 responden salah diklasifikasikan sebagai "tidak mungkin" dan tidak ada yang diklasifikasikan sebagai "sangat mungkin".
    • Akurasi klasifikasi untuk kategori ini adalah 30110+30+0×100%=21.43%110+30+030×100%=21.43%.
  3. Aktual vs Prediksi untuk kategori 2 ("sangat mungkin"):
    • Model tidak berhasil memprediksi dengan benar satupun responden yang sebenarnya berkategori "sangat mungkin". Sebanyak 27 responden diklasifikasikan sebagai "tidak mungkin" dan 13 lainnya sebagai "mungkin".
    • Akurasi klasifikasi untuk kategori ini adalah 0.00%.
  4. Persentase keseluruhan yang diklasifikasikan dengan benar:
    • Dari semua responden, model berhasil mengklasifikasikan 57.75% dari mereka dengan benar.

Dari tabel klasifikasi ini, kita dapat melihat bahwa model memiliki kinerja yang baik dalam memprediksi kategori "tidak mungkin", tetapi tidak berhasil dengan baik dalam memprediksi kategori "mungkin" dan "sangat mungkin". Hal ini mungkin menunjukkan bahwa model perlu ditingkatkan atau variabel tambahan mungkin diperlukan untuk meningkatkan kinerja model dalam memprediksi kategori-kategori tersebut.

Metrik klasifikasi lainnya

A screenshot of a computer Description automatically generated

Metrik-metrik ini memberikan gambaran tentang seberapa baik model dalam memprediksi masing-masing kategori.

  1. Recall (Sensitivitas atau True Positive Rate):
    • Menunjukkan proporsi positif yang benar dikenali oleh model dari semua positif aktual.
    • Untuk kategori 0 ("tidak mungkin"), recall adalah 91.36%. Ini berarti model dengan benar mengidentifikasi 91.36% dari semua kasus "tidak mungkin" yang sebenarnya.
    • Untuk kategori 1 ("mungkin"), recall adalah 21.43%. Ini berarti model hanya mengidentifikasi 21.43% dari semua kasus "mungkin" yang sebenarnya.
    • Untuk kategori 2 ("sangat mungkin"), recall adalah 0%. Ini berarti model tidak berhasil mengidentifikasi satupun kasus "sangat mungkin" yang sebenarnya.
  2. Precision (Presisi):
    • Menunjukkan proporsi positif yang dikenali oleh model yang benar-benar adalah positif.
    • Untuk kategori 0, presisi adalah 59.47%. Ini berarti dari semua prediksi "tidak mungkin" yang dibuat oleh model, 59.47% sebenarnya adalah "tidak mungkin".
    • Untuk kategori 1, presisi adalah 48.39%. Ini berarti dari semua prediksi "mungkin" yang dibuat oleh model, 48.39% sebenarnya adalah "mungkin".
    • Untuk kategori 2, tidak ada presisi yang diberikan (ditandai dengan "*") karena model tidak membuat prediksi untuk kategori ini.
  3. F1 Score:
    • Merupakan rata-rata harmonik dari recall dan precision. Memberikan kesimbangan antara recall dan precision.
    • Untuk kategori 0, F1 Score adalah 72.04%.
    • Untuk kategori 1, F1 Score adalah 29.70%.
    • Untuk kategori 2, F1 Score tidak diberikan karena model tidak membuat prediksi untuk kategori ini.

Dari metrik klasifikasi ini, dapat dilihat bahwa model memiliki kinerja yang paling baik untuk kategori "tidak mungkin", namun kinerja untuk kategori "mungkin" dan "sangat mungkin" memerlukan perbaikan.

Tabel Residual dan Pemeriksaan Data Pencilan

Class: 1

Table Description automatically generated

Class: 2

Table Description automatically generated

Hasil tersebutmerupakan potongan tabel untuk dua kelas (1 dan 2) yang berisi beberapa metrik prediksi dan residual. Mari kita jelaskan masing-masing kolom dalam tabel tersebut:

  1. pared, public, gpa:Ini adalah nilai dari prediktor dalam dataset. "pared" menunjukkan apakah salah satu orang tua memiliki gelar pascasarjana atau tidak, "public" menunjukkan jenis universitas (publik atau swasta), dan "gpa" adalah Indeks Prestasi Kumulatif mahasiswa.
  2. apply:Ini adalah nilai aktual dari variabel respons. Dalam kasus ini, nilai dari "apply" menunjukkan apakah mahasiswa memutuskan untuk melanjutkan ke pascasarjana atau tidak, dengan kategori 0 untuk "tidak mungkin", 1 untuk "mungkin", dan 2 untuk "sangat mungkin".
  3. Predicted:Ini adalah nilai prediksi dari model untuk masing-masing observasi. Menunjukkan probabilitas dari masing-masing observasi termasuk dalam kategori tertentu.
  4. Residual:Ini adalah perbedaan antara nilai aktual dan nilai prediksi. Residual memberikan gambaran tentang seberapa besar kesalahan prediksi untuk setiap observasi.
  5. Pearson Residual:Ini adalah residual yang dinormalisasi berdasarkan varians dari prediksi. Pearson residual memberikan ukuran kesalahan relatif dari setiap prediksi.
  6. Deviance Residual:Seperti Pearson residual, tetapi berdasarkan deviance dari model. Deviance residual memberikan gambaran lain tentang seberapa besar kesalahan prediksi untuk setiap observasi.

Dari potongan tabel tersebut:

  • Untuk kelas 1, observasi pertama dengan "pared" 0, "public" 0, dan "gpa" 3.26 sebenarnya berada dalam kategori "sangat mungkin" (apply = 2). Namun, model memprediksi probabilitas sekitar 0.5488 bahwa observasi ini termasuk dalam kategori "mungkin".
  • Untuk kelas 2, observasi pertama dengan "pared" 0, "public" 0, dan "gpa" 3.26 sebenarnya berada dalam kategori "sangat mungkin" (apply = 2). Model memprediksi probabilitas sekitar 0.3593 bahwa observasi ini termasuk dalam kategori "sangat mungkin".

Dengan memeriksa residual, Pearson residual, dan deviance residual, kita dapat menilai seberapa baik model bekerja untuk setiap observasi dan menentukan observasi mana yang mungkin menjadi outlier atau memiliki kesalahan prediksi yang tinggi.

Kesimpulan

  1. Model Regresi: Model regresi ordinal digunakan untuk memprediksi kemungkinan seorang mahasiswa melanjutkan ke pascasarjana berdasarkan beberapa prediktor: latar belakang pendidikan orang tua ("pared"), jenis universitas ("public"), dan Indeks Prestasi Kumulatif ("gpa").
  2. Kebaikan Suai:
    1. Model memiliki Pseudo R2 sebesar 0.0326, yang menunjukkan bahwa model menjelaskan sekitar 3.26% dari variabilitas dalam data respons. Meski demikian, berdasarkan uji Chi-Squared, model ini signifikan dalam menjelaskan variabilitas dalam data.
    2. Metrik kebaikan suai lain seperti Cox-Snell R2 dan Nagelkerke R2 juga menunjukkan bahwa model memiliki kebaikan suai yang relatif rendah.
  3. Estimasi Koefisien:
    1. Variabel "pared" dan "gpa" memiliki pengaruh signifikan terhadap keputusan mahasiswa untuk melanjutkan ke pascasarjana.
    2. Variabel "public", meskipun termasuk dalam model, tidak signifikan dalam mempengaruhi keputusan tersebut.
  4. Kinerja Klasifikasi:
    1. Model memiliki akurasi klasifikasi keseluruhan sebesar 57.75%.
    2. Dalam memprediksi kategori "tidak mungkin", model memiliki recall sebesar 91.36%, namun kinerjanya menurun signifikan untuk kategori "mungkin" dengan recall hanya 21.43%. Untuk kategori "sangat mungkin", model tidak berhasil memprediksi dengan benar satupun observasi.
  5. Analisis Deviance:
    1. Berdasarkan analisis deviance, model regresi memiliki kesesuaian yang signifikan dengan data, menunjukkan keberadaan setidaknya satu prediktor yang signifikan dalam menjelaskan variabilitas dalam variabel respons.
  6. Residual Analysis:
    1. Dari tabel residual untuk kelas 1 dan 2, kita dapat melihat perbedaan antara prediksi model dan observasi aktual. Ini memungkinkan kita untuk menilai seberapa baik model bekerja untuk setiap observasi dan menentukan observasi mana yang mungkin memiliki kesalahan prediksi yang tinggi.

Penulisan Hasil dan Pembahasan dalam Karya Ilmiah

Pada penelitian ini, dilakukan analisis regresi ordinal untuk mengetahui faktor-faktor yang mempengaruhi keputusan mahasiswa tahun ketiga dalam melanjutkan ke pascasarjana. Berdasarkan hasil analisis, ditemukan bahwa variabel latar belakang pendidikan orang tua (pared) dan Indeks Prestasi Kumulatif (gpa) memiliki pengaruh signifikan terhadap keputusan tersebut. Namun, jenis universitas (public) tidak menunjukkan pengaruh yang signifikan.

Meski model menunjukkan signifikansi statistik dalam analisis deviance, kinerja klasifikasinya memerlukan perbaikan. Hal ini terlihat dari akurasi klasifikasi keseluruhan yang hanya mencapai 57.75%. Selain itu, model memiliki kinerja yang baik dalam memprediksi kategori "tidak mungkin", namun kinerjanya menurun signifikan untuk kategori "mungkin" dan "sangat mungkin".

Berdasarkan hasil analisis residual, ditemukan beberapa observasi yang memiliki kesalahan prediksi yang tinggi. Hal ini menunjukkan bahwa mungkin ada faktor-faktor lain yang belum dimasukkan dalam model atau diperlukan pendekatan pemodelan yang berbeda.

Untuk meningkatkan kinerja model, disarankan untuk mempertimbangkan penambahan variabel prediktor lain yang mungkin relevan. Selain itu, teknik validasi silang dan regularisasi dapat diterapkan untuk memastikan robustness dan generalisasi model. Evaluasi lebih lanjut terhadap asumsi model dan analisis residual juga diperlukan untuk memperbaiki area-area tertentu dari model.