Data is not the new oil, but it’s the new soil (David McCandless, TedTalks)
Anda sudah pernah lihat video Mas David McCandless di Youtube? Kalau belum lihat ya. Mampir juga nonton video gurunya, Hans Rosling.
Data juga dapat mengungkap hal-hal yang tersembunyi di balik suatu fenomena yang kita hadapi. Tapi data dalam bentuk tabel kurang cepat memberi gambaran apa yang terjadi, karena itulah kita perlu visualisasi.
Untuk para geologiwan, peta geologi adalah hanya salah satu saja bentuk visualisasi. Peta ini mentransformasi tabel jurus dan kemiringan batuan, jenis batuan, dll menjadi zonasi batuan, penampang lapisan batuan, garis sesar, lipatan dll, ke dalam selembar kertas.
Berikut ini adalah contoh lain dari visualisasi yang bisa kita lakukan untuk mengungkap sesuatu yang sebelumnya tidak terlihat. Saya menggunakan “R” dan “mtcars” data set. Data set ini adalah salah satu saja dari data set yang sudah menyatu di dalam distribusi R. Data ini diekstraksi dari Majalah “Motor Trend” tahun 1974 yang terbit di AS. Isinya adalah 10 variabel spesifikasi dari 32 merek mobil buatan tahun 1973 – 1974 Motor Trend US magazine. Spesifikasi variabel atau parameter spesifikasi yang ada dalam data ini adalah:
mpg | Miles/(US) gallon di Indonesia dibaca sebagai km per liter BBM | |
cyl | Number of cylinders jumlah silinder | |
disp | Displacement (cu.in.) di Indonesia mengenalnya sebagai cc | |
hp | Gross horsepower tenaga kuda | |
drat | Rear axle ratio di Indonesia dikenal sebagai rasio gear | |
wt | Weight (lb/1000) berat kendaraan | |
qsec | 1/4 mile time waktu yang diperlukan dari diam hingga 0.25 mil | |
vs | V/S ada yang tahu ini apa? | |
am | Transmission transmisis matik atau manual | |
gear | Number of forward gears jumlah gigi maju | |
carb | Number of carburetors jumlah karburator |
Data ini pertama kali dianalisis oleh Henderson and Velleman (1981) dalam papernya Building multiple regression models interactively. Biometrics, 37, 391–411.
Ada yang masih menggunakan Ms Excel? Anda mungkin akan berpikir ulang.
Saya akan menggunakan R dalam membuat beberapa visualisasi dalam bentuk grafik sebagai berikut.
Dengan perintah “pairs(mtcars, main = “mtcars data”)” anda sudah bisa mendapatkan grafik matriks korelasi seperti di bawah ini. Coba anda lihat, banyak yang bilang keiritan mobil (mpg) hanya ditentukan oleh cc. Karena itu kalau di Indonesia harga mobil bekas ber-cc besar akan “jatuh bebas” dibandingkan yang ber-cc kecil.
Coba kita lihat grafik 1 di bawah ini sebagian saja. Tarik garis diagonal yang ada tulisan “mpg”, “cyl” dst, dan pilih setengah saja, apakah anda ingin lihat setelah segitiga yang atas atau yang bawah. They’re all the same. Let’s just choose the lower part.
Anda lihat pola titik-titik data yang membentuk garis lurus atau mirip garis lurus (berarah diagonal), dan ada pula yang acak. Pola yang pertama menunjukkan adanya korelasi antara kedua parameter dan pola yang kedua memperlihatkan korelasi yang sangat kecil atau bahkan tidak berkorelasi sama sekali.
Pola yang membentuk keteraturan diagonal dengan mpg adalah:
- mpg ~ disp (cc) -> keiritan dengan cc
- mpg ~ hp -> keiritan dengan tenaga kuda
Korelasi yang relatif lebih lemah terlihat antara:
- mpg ~ drat -> keiritan dengan rasio gear
- mpg ~ wt -> keiritan dengan berat kendaraan
Korelasi yang lebih lemah (tapi ada) adalah antara:
- mpg ~ qsec -> keiritan denga waktu yang diperlukan dari diam hingga menempuh 0.25 mil
Dari sini terlihat bahwa keiritan mobil anda bukan hanya ditentukan oleh besar kecilnya cc, tapi juga dengan gaya mengemudi anda (diwakili variabel qsec).
Gambar 1 Correlation matrix BW
Kalau anda senang warna, maka dengan satu baris perintah “corrgram(mtcars)” anda bisa membuat grafik sejenis di bawah ini.
Gambar 2 Correlation matrix berwarna
Grafik pada Gambar 3 berikut ini juga dibuat hanya dengan sebaris perintah “heatmap(as.matrix(mtcars))”. Juga dapat dilihat hirarki pengelompokkannya dalam bentuk garis. Yang menarik adalah:
- bagaimana merk-merk Jepang mengelompok dengan merk Eropa, sementara merk Amerika membentuk kelompok sendiri (kecuali Dodge Challenger, AMC Javelin, Hornet, dan Valiant). Saya akan bahas di lain waktu.
- Corolla dan Civic sekelompok dengan Ferrari Dino dan Fiat, Mazda dengan Merc 280 berada pada kamar yang sama, serta Corona, Datsun di dalam ruangan yang sama dengan Porsche.
Sangat menarik bukan. Yang seperti ini sangat bisa diterapkan di geologi juga.
Gambar 3 Heatmap dan PCA
Yang menarik lagi grafik pada Gambar 4 berikut ini. Ada yang bisa menjelaskan? Saya akan bahas di lain waktu, atau sekaligus saya harus alih profesi jadi wartawan tabloid “Otomotif”.
Masih mau pakai Excel?
🙂
Gambar 4 Analisis mpg ~ disp (cc) ~ cyl