Pada halaman ini akan dibahas mengenai Analisis Komponen Utama (Principal Component Analysis). Semua informasi ini kami rangkum dari berbagai sumber. Semoga memberikan faedah bagi kita semua.
Analisis Komponen Utama (Principal Component Analysis) adalah analisis multivariate yang mentransformasi variabel-variabel asal yang saling berkorelasi menjadi variabel-variabel baru yang tidak saling berkorelasi dengan mereduksi sejumlah variabel tersebut sehingga mempunyai dimensi yang lebih kecil namun dapat menerangkan sebagian besar keragaman variabel aslinya.
Banyaknya komponen utama yang terbentuk sama dengan banyaknya variabel asli. Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria persentase keragaman data yang diterangkan oleh beberapa komponen utama pertama. Apabila beberapa komponen utama pertama telah menerangkan lebih dari 75% keragaman data asli, maka analisis cukup dilakukan sampai dengan komponen utama tersebut.
Bila komponen utama diturunkan dari populasi multivariat normal dengan random vektor X = (X1, X2,… , Xp) dan vektor rata-rata μ = (μ1, μ2, … , μp) dan matriks kovarians Σ dengan akar ciri (eigenvalue) yaitu λ1 ≥ λ2 ≥ ⋯ ≥ λp ≥ 0 didapat kombinasi linier komponen utama yaitu sebagai berikut.
Maka Var(Yi ) = ei'Σei dan Cov(Yi,Yk ) = ei'Σei dimana i,k = 1, 2, ... , p.
Syarat untuk membentuk komponen utama yang merupakan kombinasi linear dari variabel X agar mempunyai varian maksimum adalah dengan memilih vektor ciri (eigen vector) yaitu e = (e1, e2, …, ep) sedemikian hingga Var(Yi) = ei'Σei maksimum dan ei'ei = 1.
Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi yang sama dengan akar ciri dari Σ. Akar ciri dari matriks ragam peragam Σ merupakan varian dari komponen utama Y, sehingga matriks ragam peragam dari Y adalah:
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh komponen utama yaitu:
Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil komponen yang mampu menerangkan bagian terbesar keragaman data. Apabila komponen utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman total yang bisa diterangkan oleh komponen utama ke-i adalah:
Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi ini dilakukan terhadap data yang satuan pengamatannya tidak sama. Bila variabel yang diamati ukurannya pada skala dengan perbedaan yang sangat lebar atau satuan ukurannya tidak sama, maka variabel tersebut perlu dibakukan (standardized).
Variabel baku (Z) didapat dari transformasi terhadap variabel asal dalam matriks berikut:
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah (αii)1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri yang didapat melalui matriks korelasi variabel asal ρ. Untuk mencari akar ciri dan menentukan vektor pembobotnya sama seperti pada matriks Σ. Sementara trace matriks korelasi ρ akan sama dengan jumlah p variabel yang dipakai.
Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari satu.
Banyaknya komponen utama yang terbentuk sama dengan banyaknya variabel asli. Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria persentase keragaman data yang diterangkan oleh beberapa komponen utama pertama. Apabila beberapa komponen utama pertama telah menerangkan lebih dari 75% keragaman data asli, maka analisis cukup dilakukan sampai dengan komponen utama tersebut.
Bila komponen utama diturunkan dari populasi multivariat normal dengan random vektor X = (X1, X2,… , Xp) dan vektor rata-rata μ = (μ1, μ2, … , μp) dan matriks kovarians Σ dengan akar ciri (eigenvalue) yaitu λ1 ≥ λ2 ≥ ⋯ ≥ λp ≥ 0 didapat kombinasi linier komponen utama yaitu sebagai berikut.
Maka Var(Yi ) = ei'Σei dan Cov(Yi,Yk ) = ei'Σei dimana i,k = 1, 2, ... , p.
Syarat untuk membentuk komponen utama yang merupakan kombinasi linear dari variabel X agar mempunyai varian maksimum adalah dengan memilih vektor ciri (eigen vector) yaitu e = (e1, e2, …, ep) sedemikian hingga Var(Yi) = ei'Σei maksimum dan ei'ei = 1.
- Komponen utama pertama adalah kombinasi linear e1'X yang memaksimumkan Var(e1'X) dengan syarat e1'e1 = 1.
- Komponen utama kedua adalah kombinasi linear e2'X yang memaksimumkan Var(e2'X) dengan syarat e2'e2 = 1.
- Komponen utama ke-i adalah kombinasi linear ei'X yang memaksimumkan Var(ei'X) dengan syarat ei'ek = 1 dan Cov(ei'ek)=0 untuk k < 1.
Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi yang sama dengan akar ciri dari Σ. Akar ciri dari matriks ragam peragam Σ merupakan varian dari komponen utama Y, sehingga matriks ragam peragam dari Y adalah:
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh komponen utama yaitu:
Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil komponen yang mampu menerangkan bagian terbesar keragaman data. Apabila komponen utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman total yang bisa diterangkan oleh komponen utama ke-i adalah:
Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi ini dilakukan terhadap data yang satuan pengamatannya tidak sama. Bila variabel yang diamati ukurannya pada skala dengan perbedaan yang sangat lebar atau satuan ukurannya tidak sama, maka variabel tersebut perlu dibakukan (standardized).
Variabel baku (Z) didapat dari transformasi terhadap variabel asal dalam matriks berikut:
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah (αii)1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri yang didapat melalui matriks korelasi variabel asal ρ. Untuk mencari akar ciri dan menentukan vektor pembobotnya sama seperti pada matriks Σ. Sementara trace matriks korelasi ρ akan sama dengan jumlah p variabel yang dipakai.
Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari satu.
Tidak ada komentar:
Posting Komentar