Analisis Komponen Utama (PCA, Principal Component Analysis) adalah teknik dalam statistika yang digunakan untuk menggabungkan beberapa variabel yang mungkin berkorelasi menjadi set variabel yang lebih sedikit yang disebut komponen utama. Teknik ini sering digunakan dalam pengurangan dimensi, yaitu, mencoba untuk mengurangi jumlah variabel yang digunakan dalam analisis.
Dalam konteks pengurangan dimensi, PCA mencoba untuk menjaga sebanyak mungkin informasi dari data asli. Ini dilakukan dengan mencari dimensi baru (yaitu, kombinasi dari variabel asli) yang memaksimalkan varians dari data asli.
Dalam praktiknya, PCA dapat membantu mengekstrak informasi yang berguna dari data berdimensi tinggi dengan mengurangi tingkat kebisingan dan redundansi. Ini dapat membantu dalam berbagai aplikasi, mulai dari pengenalan wajah hingga analisis genetika.
Contoh Kasus
Berikut adalah salah satu contoh kasus yang sering digunakan dalam Analisis Komponen Utama (PCA), kasus set data Iris. Set data ini merupakan set data multivariat yang diperkenalkan oleh ahli statistik dan biologi Ronald Fisher dalam artikelnya pada tahun 1936. Set data ini sangat populer dalam berbagai bidang, termasuk Machine Learning dan Statistika.
Set data Iris berisi 150 sampel dari tiga spesies iris (Iris setosa, Iris virginica, dan Iris versicolor). Empat fitur diukur dari setiap sampel: panjang dan lebar sepal, serta panjang dan lebar petal.
Iris Dataset: Originally published at UCI Machine Learning Repository
Iris Dataset, this small dataset from 1936 is often used for testing out machine learning algorithms and visualizations. The Iris data set is a classification dataset that contains three classes of 50 instances each, where each class refers to a type of iris plant. The three classes in the Iris dataset are: Setosa, Versicolor, Virginica. Each row of the table represents an iris flower, including its species and dimensions of its botanical parts, sepal length, sepal width, petal length and petal width (in centimeters).
Author: R.A. Fisher (1936)
Source: UCI Machine Learning Repository
Langkah-langkah Analisis Komponen Utama (PCA):
- Aktifkan lembar kerja (Sheet) yang akan dianalisis.
- Tempatkan kursor pada Dataset (untuk membuat Dataset, lihat cara Persiapan Data).
- Apabila sel aktif (Active Cell) tidak berada pada Dataset, SmartstatXL otomatis akan mencoba menentukan Dataset secara otomatis.
- Aktifkan Tab SmartstatXL
- Klik Menu Multivariate > Analisis Komponen Utama.
- SmartstatXL akan menampilkan kotak dialog untuk memastikan apakah dataset sudah benar atau belum (biasanya alamat sel dataset sudah otomatis dipilih dengan benar).
- Apabila sudah benar, Klik Tombol Selanjutnya
- Selanjutnya akan tampil Kotak Dialog Analisis Komponen Utama:
- Pilih Variabel, Metode Analisis dan Metode Ekstrak serta label untuk untuk biplot (opsional). Pada contoh kasus ini kita tentukan:
- Variabel: Sepal length, Sepal width, Petal length, dan Petal width
- Metode Analisis: Korelasi
- Metode Ekstrak: Berdasarkan Eigenvalue
- Label: Species
Selengkapnya bisa dilihat pada tampilan kotak dialog berikut:
Metode Analisis
Analisis berdasarkan kovarian biasanya digunakan ketika unit dari variabel yang diamati adalah sama atau ketika skala absolut variabel-variabel tersebut penting. Sebaliknya, analisis berdasarkan korelasi digunakan ketika unit dari variabel yang diamati berbeda atau ketika kita hanya tertarik pada hubungan antara variabel, bukan perbedaan absolutnya.
Metode Ekstrak
Dalam Analisis Komponen Utama (PCA), metode ekstraksi komponen biasanya melibatkan mencari vektor eigen dan nilai eigen dari matriks kovariansi atau korelasi. Nilai eigen ini menggambarkan jumlah varians yang dijelaskan oleh masing-masing komponen utama, dan vektor eigen menggambarkan berapa banyak variabel asli yang berkontribusi pada komponen utama tersebut.
Berikut adalah dua pendekatan umum dalam menentukan berapa banyak komponen atau faktor yang harus diekstrak:
- Berdasarkan Nilai Eigenvalue: Pendekatan ini, yang juga dikenal sebagai "kaidah eigenvalue satu" atau "Kaiser criterion", menyarankan bahwa kita hanya harus menyimpan komponen utama yang memiliki nilai eigen lebih besar dari 1. Ini didasarkan pada ide bahwa komponen utama harus menjelaskan varians lebih banyak daripada variabel asli rata-rata.
- Berdasarkan Banyaknya Komponen Tetap: Pendekatan ini melibatkan penentuan jumlah komponen atau faktor yang akan dipertahankan berdasarkan pengetahuan sebelumnya atau tujuan analisis. Misalnya, jika tujuan analisis adalah untuk mengurangi dimensi data menjadi dua atau tiga untuk tujuan visualisasi, maka kita mungkin memilih untuk mempertahankan hanya dua atau tiga komponen utama.
Kedua pendekatan ini memiliki kelebihan dan kekurangan. Pendekatan berdasarkan nilai eigen adalah aturan umum yang biasa digunakan, tetapi mungkin tidak selalu menghasilkan jumlah komponen yang paling sesuai untuk tujuan analisis. Pendekatan berdasarkan jumlah komponen tetap mungkin memerlukan pengetahuan lebih banyak tentang data dan tujuan analisis. Oleh karena itu, pilihan pendekatan terbaik mungkin akan bergantung pada konteks analisis.
- Tekan tab "Keluaran (Output)"
- Pilih output Analisis Komponen Utama seperti pada tampilan berikut dengan menekan tombol Pilih Semua:
- Tekan tombol OK untuk membuat outputnya dalam Lembar Output
Hasil Analisis
Berikut Output Analisis Komponen Utama:
Informasi Analisis Komponen Utama.
Uji Kaiser-Meyer-Olkin (KMO)
KMO adalah ukuran yang menunjukkan sejauh mana data cocok untuk Analisis Komponen Utama. Nilainya berkisar antara 0 dan 1. Nilai KMO yang tinggi (dekat dengan 1) menunjukkan bahwa pola korelasi antara variabel cukup bagus untuk Analisis Komponen Utama. Nilai KMO yang rendah (di bawah 0,5) menunjukkan bahwa pola korelasi antara variabel mungkin tidak cocok untuk PCA.
Dalam kasus ini, nilai KMO adalah 0.536, yang menunjukkan bahwa data cukup baik untuk Analisis Komponen Utama. Namun, nilai ini agak rendah dan bisa dianggap sub-optimal, karena biasanya nilai KMO lebih dari 0,6 dianggap mendukung PCA.
Uji Bartlett's Test of Sphericity
Uji ini memeriksa hipotesis bahwa variabel asli saling bebas atau tidak berkorelasi dalam populasi; dengan kata lain, matriks korelasi populasi adalah matriks identitas. Nilai Chi-Square yang tinggi relatif terhadap derajat kebebasan dan signifikansi kurang dari 0,05 biasanya menunjukkan bahwa uji ini signifikan, yaitu, data kemungkinan besar berkorelasi, dan oleh karena itu cocok untuk PCA.
Dalam kasus ini, nilai Chi-Square dari uji Bartlett adalah 706.361 dengan 6 derajat kebebasan dan signifikansi (p-value) adalah 0.000, jauh lebih rendah dari 0.05. Ini berarti bahwa ada bukti kuat bahwa variabel berkorelasi dan oleh karena itu cocok untuk PCA.
Jadi, berdasarkan kedua uji ini, data dari set data Iris cukup cocok untuk PCA, meski nilai KMO agak rendah dan bisa dianggap sub-optimal.
Tabel Matriks Korelasi
Tabel-tabel tersebut menunjukkan berbagai informasi tentang hubungan antara variabel dalam set data Anda:
Tabel Matriks Korelasi
Matriks korelasi ini menunjukkan hubungan antara setiap pasangan variabel. Nilainya berkisar dari -1 sampai 1, di mana -1 berarti korelasi negatif sempurna, 1 berarti korelasi positif sempurna, dan 0 berarti tidak ada korelasi. Dalam matriks ini, kita dapat melihat bahwa sepal length berkorelasi kuat dengan petal length (0.872) dan petal width (0.818). Dengan kata lain, sepal yang lebih panjang cenderung memiliki petal yang lebih panjang dan lebar. Korelasi antara sepal width dan petal length (-0.421) serta petal width (-0.357) adalah negatif, menunjukkan bahwa sepal yang lebih lebar cenderung memiliki petal yang lebih pendek dan sempit. Korelasi yang paling kuat terlihat antara petal length dan petal width (0.963), yang berarti bahwa panjang dan lebar petal sangat berkorelasi.
Tabel Reproduksi Matriks Korelasi
Tabel ini menghasilkan estimasi dari matriks korelasi asli berdasarkan komponen utama yang diekstrak. Dalam tabel ini, setiap angka mewakili perkiraan nilai korelasi berdasarkan komponen utama.
Tabel Error Matriks Korelasi
Tabel ini menunjukkan perbedaan antara matriks korelasi asli dan reproduksi, yang dapat memberi tahu kita sejauh mana model PCA kita dapat mereproduksi korelasi asli. Nilai yang lebih rendah menunjukkan bahwa model kita melakukan pekerjaan yang baik dalam mereproduksi korelasi asli. Dalam kasus ini, tampaknya errornya relatif kecil, yang menunjukkan bahwa model PCA melakukan pekerjaan yang cukup baik.
Eigenvalue dan Screeplot
Tabel "Ragam Total yang Bisa Dijelaskan" atau "Total Variance Explained" adalah output penting dari analisis komponen utama. Tabel ini menunjukkan seberapa banyak informasi (dalam hal varians) yang dijelaskan oleh masing-masing komponen utama.
- Komponen utama pertama (baris pertama) memiliki eigenvalue 2.911 dan menjelaskan 72.8% dari total varians dalam data. Ini berarti bahwa satu komponen utama pertama ini merangkum hampir 73% dari informasi dalam set data asli.
- Komponen utama kedua (baris kedua) memiliki eigenvalue 0.921 dan menjelaskan 23% dari total varians. Jadi, jika kita menggabungkan dua komponen utama pertama, mereka akan menjelaskan hampir 96% (72.8% + 23%) dari total varians.
- Komponen utama ketiga (baris ketiga) memiliki eigenvalue 0.147 dan menjelaskan 3.7% dari total varians. Jadi, jika kita menggabungkan tiga komponen utama pertama, mereka akan menjelaskan hampir 99.5% (72.8% + 23% + 3.7%) dari total varians.
- Komponen utama keempat (baris keempat) memiliki eigenvalue 0.021 dan menjelaskan 0.5% dari total varians. Jika kita menggabungkan semua empat komponen utama, mereka akan menjelaskan 100% dari total varians, yang berarti mereka merangkum semua informasi dalam set data asli.
Berdasarkan tabel tersebut dan Screeplot, kita dapat melihat bahwa dua komponen utama pertama menjelaskan hampir semua varians dalam data. Oleh karena itu, kita mungkin dapat mereduksi data kita ke dua dimensi dengan mempertahankan hampir semua informasi asli.
Pada bahasan berikutnya, kita akan merubah metode estraksi berdasarkan banyaknya komponen tetap, 2 komponen, seperti ditampilkan pada kotak dialog berikut.
Tabel Egigenvector
Tabel tersebut menunjukkan eigenvector untuk setiap komponen utama. Eigenvector adalah vektor yang hanya berubah oleh skalar ketika transformasi linear diterapkan. Dalam konteks PCA, mereka adalah arah di mana variabilitas data maksimal.
Setiap kolom mewakili suatu komponen utama (PC1, PC2, PC3, PC4) dan setiap baris mewakili variabel asli (Sepal length, Sepal width, Petal length, Petal width). Nilai-nilai ini menunjukkan berapa banyak setiap variabel memberikan kontribusi terhadap komponen utama. Ini juga dikenal sebagai loadings.
Misalnya, untuk komponen utama pertama (PC1), Sepal length, Petal length, dan Petal width memberikan kontribusi positif yang signifikan (0.522, 0.581, dan 0.566), sedangkan Sepal width memberikan kontribusi negatif (-0.263). Ini berarti bahwa PC1 mungkin mewakili ukuran umum dari bunga iris, karena ketiga variabel tersebut berkorelasi positif dengan PC1.
Untuk komponen utama kedua (PC2), Sepal width adalah kontributor terbesar (0.926), dan variabel lainnya memberikan kontribusi yang lebih kecil. Ini berarti bahwa PC2 mungkin mewakili karakteristik yang lebih spesifik yang berhubungan dengan lebar sepal.
Nilai-nilai ini dapat digunakan untuk merumuskan setiap komponen utama dalam bentuk persamaan linier dari variabel asli. Misalnya, PC1 dapat dirumuskan sebagai:
PC1 = 0.522*(Sepal length) - 0.263*(Sepal width) + 0.581*(Petal length) + 0.566*(Petal width)
Secara keseluruhan, interpretasi dari tabel eigenvector ini akan bergantung pada konteks data dan tujuan analisis Anda.
Komponen Loading
Tabel ini menunjukkan nilai loading komponen dan komunalitas untuk setiap variabel.
Komponen Loading
Loadings adalah korelasi antara variabel asli dan komponen utama. Nilai loading menunjukkan berapa banyak variabel asli berkontribusi terhadap setiap komponen utama. Loadings dapat positif atau negatif, menunjukkan arah hubungan antara variabel asli dan komponen utama.
Dalam tabel ini, kita dapat melihat bahwa Sepal length, Petal length, dan Petal width memiliki loading positif yang sangat tinggi pada PC1, yang berarti variabel-variabel ini sangat berkorelasi dengan komponen utama pertama. Sepal width, di sisi lain, memiliki loading negatif pada PC1, yang berarti ini berlawanan dengan PC1. Pada PC2, Sepal width memiliki loading positif yang sangat tinggi, yang berarti sangat berkorelasi dengan komponen utama kedua.
Komunalitas
Komunalitas adalah proporsi varians dalam variabel asli yang dijelaskan oleh komponen utama. Dengan kata lain, ini adalah jumlah varians yang bisa dijelaskan oleh semua komponen utama. Dalam tabel ini, kita dapat melihat bahwa semua variabel memiliki nilai komunalitas yang sangat tinggi (lebih dari 0,9), yang berarti bahwa hampir semua varians dalam variabel-variabel ini bisa dijelaskan oleh dua komponen utama pertama.
Varians yang Dijelaskan
Baris 'Expl. Variance' menunjukkan jumlah varians yang dijelaskan oleh setiap komponen utama. Nilai ini sama dengan eigenvalue dari setiap komponen utama, yang telah kita bahas sebelumnya.
Baris '% Variance' dan '% Cum. Variance' menunjukkan proporsi total varians yang dijelaskan oleh setiap komponen utama dan proporsi kumulatif varians yang dijelaskan oleh semua komponen utama hingga titik tersebut. Dalam tabel ini, kita dapat melihat bahwa PC1 menjelaskan 72,8% dari total varians dan PC1 dan PC2 bersama-sama menjelaskan 95,8% dari total varians.
Tabel Kontribusi Variabel
Tabel ini menunjukkan sejauh mana setiap variabel asli memberikan kontribusi terhadap variabilitas komponen utama yang telah diidentifikasi (PC1 dan PC2 dalam hal ini).
Nilai dalam tabel mewakili proporsi (dalam bentuk persentase) dari variabilitas total masing-masing komponen utama yang dikaitkan dengan variabel asli tertentu. Misalnya, Sepal length berkontribusi terhadap 27.3% dari variabilitas total dalam PC1 dan 13.9% dari variabilitas total dalam PC2.
Sepal width berkontribusi terhadap 6.9% dari variabilitas total dalam PC1 dan 85.7% dari variabilitas total dalam PC2. Dengan kata lain, perubahan dalam Sepal width adalah faktor utama dalam variasi yang tercakup oleh PC2.
Petal length dan Petal width memberikan kontribusi yang signifikan terhadap PC1 (33.8% dan 32.0% masing-masing), tetapi hampir tidak memberikan kontribusi terhadap PC2.
Secara umum, tabel ini memberikan gambaran tentang seberapa penting setiap variabel dalam menjelaskan komponen utama. Hal ini berguna untuk memahami apa yang mewakili setiap komponen utama dan bagaimana variabel asli berkontribusi terhadap struktur data multidimensi yang lebih rendah.
Tabel Komponen Loading dan Tabel Kontribusi Variabel keduanya menggambarkan hubungan antara variabel asli dan komponen utama, tetapi mereka melakukannya dalam cara yang sedikit berbeda dan memberikan informasi yang berbeda. Tabel Komponen Loading menunjukkan korelasi antara variabel asli dan komponen utama, atau dengan kata lain, seberapa besar pengaruh setiap variabel pada setiap komponen utama. Nilai loading dapat diinterpretasikan seperti koefisien dalam analisis regresi, menunjukkan kekuatan dan arah hubungan antara variabel dan komponen. Nilai ini penting untuk menginterpretasikan makna dari komponen utama. Tabel Kontribusi Variabel di sisi lain, menunjukkan seberapa besar setiap variabel berkontribusi pada variabilitas total yang dijelaskan oleh setiap komponen utama. Jadi, sementara loading menggambarkan kekuatan dan arah hubungan antara variabel dan komponen, tabel kontribusi menunjukkan sejauh mana setiap variabel berkontribusi terhadap variabilitas dalam setiap komponen.
Singkatnya, loading menggambarkan hubungan antara variabel dan komponen, sedangkan kontribusi menggambarkan sejauh mana setiap variabel berkontribusi terhadap variabilitas dalam komponen. Kedua tabel ini memberikan pandangan yang berbeda tentang data dan keduanya penting untuk interpretasi yang tepat dari hasil analisis komponen utama.
Plot Loading dan Biplot
Plot Loading
Plot loading adalah visualisasi dari komponen loading yang kita bicarakan sebelumnya. Plot loading menunjukkan berapa banyak setiap variabel asli berkontribusi pada komponen utama. Pada sumbu horizontal, kita memiliki PC1 yang menjelaskan 72.77% dari varians total, dan pada sumbu vertikal, kita memiliki PC2 yang menjelaskan 23.03% dari varians total.
Pada kuadran I, kita memiliki Petal Length, Petal Width, dan Sepal Length. Ini berarti ketiga variabel ini memiliki loading positif pada PC1 dan PC2, yang berarti mereka berkorelasi positif dengan PC1 dan PC2.
Pada kuadran II, kita memiliki Sepal Width. Ini berarti Sepal Width memiliki loading negatif pada PC1 dan loading positif pada PC2, yang berarti Sepal Width berkorelasi negatif dengan PC1 dan positif dengan PC2.
Biplot
Biplot adalah ekstensi dari plot loading, di mana data observasi juga ditampilkan dalam ruang dimensi yang lebih rendah. Biplot digunakan untuk visualisasi dari data multivariat, di mana baik variabel asli (dalam bentuk vektor) dan pengamatan individu ditampilkan.
Dalam hal ini, selain loading untuk masing-masing variabel (sama seperti yang ditampilkan dalam plot loading), sebaran data observasi juga ditampilkan. Masing-masing titik pada plot mewakili satu pengamatan (dalam hal ini, satu bunga iris), dan posisi relatif dari titik-titik tersebut mencerminkan hubungan antara pengamatan tersebut dalam ruang dimensi yang lebih rendah yang dihasilkan oleh PCA. Biplot dapat membantu kita memahami bagaimana pengamatan berhubungan satu sama lain berdasarkan variabel asli, dan bagaimana variabel-variabel tersebut berkontribusi terhadap komponen utama.
Setosa:
Bunga iris dari jenis setosa tampaknya bergerombol di kuadran II dan III, sekitar plot loading untuk Sepal Width. Hal ini menunjukkan bahwa karakteristik Setosa sangat berkorelasi dengan lebar sepal. Karena mereka berada di sisi negatif sumbu PC1, ini menunjukkan bahwa Setosa cenderung memiliki nilai yang lebih rendah untuk panjang kelopak, lebar kelopak, dan panjang sepal dibandingkan dengan jenis iris lainnya.
Versicolor:
Sebaran data Versicolor terbentang di kuadran I, III, dan IV. Meskipun sebarannya lebih luas, tetapi secara umum lebih dekat ke panjang kelopak, lebar kelopak, dan panjang sepal (kuadran I dan IV) dibandingkan dengan lebar sepal (kuadran III). Ini menunjukkan bahwa karakteristik Versicolor lebih berkorelasi dengan panjang dan lebar kelopak serta panjang sepal dibandingkan dengan lebar sepal.
Virginica:
Sebaran data Virginica terbentang di kuadran I dan IV, dan tampaknya lebih ke arah positif dari sumbu x (PC1) dibandingkan dengan Versicolor. Ini menunjukkan bahwa Virginica cenderung memiliki nilai yang lebih tinggi untuk panjang kelopak, lebar kelopak, dan panjang sepal dibandingkan dengan jenis iris lainnya.
Secara umum, ini menunjukkan bahwa ada perbedaan signifikan antara jenis iris berdasarkan panjang dan lebar kelopak dan sepal. Fakta bahwa jenis berbeda bergerak ke arah yang berbeda pada plot menunjukkan bahwa mereka dapat dibedakan berdasarkan variabel ini. Ini juga menunjukkan keberhasilan PCA dalam mengurangi dimensi data sedemikian rupa sehingga perbedaan antara kelompok dapat dilihat secara visual.
Tabel Koefisien Skor Komponen
Tabel Koefisien Skor Komponen ini menunjukkan bagaimana skor untuk masing-masing komponen utama (dalam hal ini, PC1 dan PC2) dihitung dari variabel asli.
Nilai pada tabel ini adalah koefisien regresi dari masing-masing variabel asli pada komponen utama, yang berarti mereka menunjukkan berapa banyak perubahan dalam komponen utama yang diharapkan per unit perubahan dalam variabel asli, asumsikan semua variabel lainnya tetap. Misalnya, untuk PC1, setiap peningkatan 1-unit dalam Sepal length akan menghasilkan peningkatan sebesar 0.306 dalam nilai PC1, asumsikan semua variabel lainnya tetap. Sementara itu, setiap peningkatan 1-unit dalam Sepal width akan menghasilkan penurunan sebesar 0.154 dalam nilai PC1, asumsikan semua variabel lainnya tetap. Begitu juga untuk PC2, setiap peningkatan 1-unit dalam Sepal length akan menghasilkan peningkatan sebesar 0.388 dalam nilai PC2, asumsikan semua variabel lainnya tetap. Dan seterusnya.
Secara umum, Tabel Koefisien Skor Komponen ini memberikan ringkasan tentang bagaimana variabel asli berkontribusi terhadap masing-masing komponen utama dan bagaimana skor komponen utama dihitung dari variabel asli.
Tabel Skor Komponen
Tabel Skor Komponen ini berisi skor dari setiap pengamatan untuk setiap komponen utama. Dalam hal ini, kita melihat skor untuk PC1 dan PC2.
Skor komponen utama adalah nilai yang dihitung untuk setiap pengamatan pada komponen utama. Skor ini ditemukan dengan mengalikan setiap nilai variabel oleh bobot yang relevan (seperti yang ditemukan dalam tabel koefisien skor komponen) dan menjumlahkannya. Setiap baris dalam tabel skor komponen mewakili satu pengamatan (dalam hal ini, satu bunga iris) dan menunjukkan bagaimana pengamatan tersebut diposisikan relatif terhadap setiap komponen utama. Misalnya, pengamatan pertama memiliki skor -1.323 untuk PC1 dan 0.525 untuk PC2. Skor ini penting karena mereka memberikan cara untuk memvisualisasikan data multivariat dalam ruang berdimensi lebih rendah. Misalnya, kita dapat menggunakan skor ini untuk membuat biplot, seperti yang Anda sebutkan sebelumnya.
Mengingat posisi skor komponen utama dalam plot dua dimensi membantu kita memahami bagaimana pengamatan berhubungan satu sama lain berdasarkan variabel asli dan bagaimana variabel-variabel tersebut berkontribusi terhadap komponen utama. Skor ini juga dapat digunakan dalam analisis lanjutan, seperti pengelompokan atau klasifikasi.
Tabel Koordinat Komponen Pengamatan
Tabel Koordinat Komponen Pengamatan ini berisi nilai yang sama dengan tabel Skor Komponen yang sebelumnya Anda berikan. Nilai-nilai ini adalah proyeksi dari setiap pengamatan pada setiap komponen utama, dalam hal ini PC1 dan PC2.
Setiap baris dalam tabel ini mewakili satu pengamatan (dalam hal ini, satu bunga iris), dan menunjukkan bagaimana pengamatan tersebut diposisikan relatif terhadap setiap komponen utama. Misalnya, pengamatan pertama memiliki koordinat -2.257 untuk PC1 dan 0.504 untuk PC2. Ini berarti bahwa pengamatan ini diproyeksikan ke titik ini dalam ruang yang dibuat oleh komponen utama. Koordinat ini penting karena mereka memungkinkan kita untuk memvisualisasikan data multivariat dalam ruang berdimensi lebih rendah, seperti yang ditunjukkan oleh biplot. Dengan memahami di mana setiap pengamatan berada dalam ruang ini, kita bisa mendapatkan pemahaman yang lebih baik tentang bagaimana pengamatan berhubungan satu sama lain dan bagaimana mereka berhubungan dengan setiap komponen utama.
Menggunakan koordinat ini, kita bisa melihat bahwa beberapa jenis bunga iris, seperti yang Anda sebutkan sebelumnya, lebih berkorelasi dengan beberapa variabel dibandingkan dengan yang lain, dan bahwa mereka dapat dibedakan berdasarkan variabel ini dalam ruang yang lebih rendah.
Kesimpulan
Dari hasil analisis komponen utama pada data bunga Iris, beberapa kesimpulan penting dapat ditarik sebagai berikut:
- Komponen Utama: Analisis menunjukkan bahwa 95.8% dari variasi dalam data dapat dijelaskan oleh dua komponen utama pertama (PC1 dan PC2). PC1 menjelaskan 72.8% variasi dan PC2 menjelaskan 23% variasi. Komponen-komponen ini memberikan cara yang baik untuk merangkum informasi dalam data, yang semula ada empat variabel (panjang sepal, lebar sepal, panjang petal, dan lebar petal), menjadi dua variabel baru tanpa kehilangan banyak informasi.
- Kontribusi Variabel: Variabel panjang petal dan lebar petal memberikan kontribusi terbesar terhadap PC1, sedangkan lebar sepal memberikan kontribusi terbesar terhadap PC2. Oleh karena itu, panjang dan lebar petal dan lebar sepal adalah variabel yang paling informatif untuk membedakan antara jenis-jenis bunga Iris.
- Koordinat Komponen Pengamatan: Dari tabel koordinat komponen pengamatan dan biplot, kita dapat melihat bahwa setosa cenderung memiliki nilai PC2 yang lebih tinggi, sementara versicolor dan virginica cenderung memiliki nilai PC1 yang lebih tinggi. Hal ini menunjukkan bahwa PC1 dan PC2 dapat digunakan untuk membedakan dengan baik antara setosa dan dua jenis Iris lainnya.
- Biplot: Dari biplot, kita dapat melihat bahwa setosa cenderung bergerak di sekitar plot loading untuk lebar sepal. Sementara itu, versicolor dan virginica cenderung bergerak lebih ke arah kanan (x positif) dan lebih dekat ke plot loading panjang petal, lebar petal, dan panjang sepal. Ini memberikan pemahaman yang lebih baik tentang bagaimana pengamatan berhubungan satu sama lain dan bagaimana mereka berhubungan dengan setiap komponen utama.
Secara keseluruhan, PCA adalah metode yang efektif untuk merangkum dan memahami data multivariat, dan hasilnya menunjukkan bahwa itu dapat digunakan dengan sukses untuk menganalisis dan memahami data bunga Iris.