Project description
# Title: PCA of Cisanti Area
# Data: PKM Project in Cisanti Area, Bandung
# Area: Northern Bandung
# Team leader: Arif Susanto
# Code and analysis: Dasapta Erwin Irawan
# Data acq: Aditya Pratama, ..., ... (to be added)
# Software: R
# Package used: pcamethods, cluster, readxl
# Keyword: multivariate statistics, cluster analysis, principal component analysis
Dalam blog post ini saya mencoba menceritakan secara singkat teknik mengklasifikasi mata air berdasarkan data kualitas airnya. Software R akan digunakan dalam analisis ini, dengan teknik:
- Principal component analysis (PCA)
- Cluster analysis (CA)
Data set: data set ini berasal dari riset PKM tahun 2015 yang diketuai oleh Arif Susanto dari KK Geologi ITB. Data set kita berukuran 7 x 33 (7 baris dan 33 kolom).
Package yang diperlukan:
Sebenarnya fungsi standar telah ada dalam R, yaitu:
- PCA:
princomp()
atauprcomp()
, gunanya untuk mengekstrak variabel (component) berpengaruh dalam suatu data set dengan jumlah variabel yang sangat banyak. Fungsi ini akan mengelompokkan variabel menjadi lebih ringkas, misal: bila semua kita punya 33 variabel, maka nantinya akan dapat menjadi dua atau tiga kelompok variabel yang disebut PC (principal component) - Cluster:
kmeans()
danhclust()
, gunanya untuk menguji kemiripan sampel berdasarkan perhitungan Euclidean distance dan mengelompokkannya dalam sebuah dendogram.
Namun demikian dalam kesempatan ini saya akan menggunakan package:
pcamethods
yang ditulis oleh Wolfram Stacklies, Henning Redestig, dan Kevin Wright. linkcluster
yang ditulis oleh Friedrich Leisch dan Bettina Gruen link
Tahapannya akan saya jelaskan lebih rinci besok ya per blok kode. Data set juga akan segera tersedia setelah publikasi diterbitkan. Sekarang saya tampilkan saja tiga grafik sebagai hasil utamanya.
Terimakasih sudah berkunjung.
follow @dasaptaerwin (www.twitter.com/dasaptaerwin)