Category Archives: Data Analysis

Memvisualisasikan sitasi

How to cite this post

Irawan, D. and Priyambodho, A. (2016). Memvisualkan rujukan: Analisis bibliometrik riset air tanah Jakarta, Figshare repository, doi: 10.6084/m9.figshare.3275953.

This post will be formally published as open access papers in Indonesian Journal of Geosciences

Irawan, D. and Priyambodho, A. (2016). Visualising Groundwater Research in Jakarta: a bibliometric of 1987-2016 scholarly documents. Indonesian Journal of Geosciences.

Daftar pustaka cenderung membosankan

Daftar pustaka adalah satu-satunya bagian dari suatu dokumen ilmiah yang mungkin mendapat perhatian yang paling rendah. Dibuatnya selalu yang paling akhir, betul begitu? Akibatnya sering terjadi kesalahan dalam rujukan dalam teks maupun saat membuat daftar rujukannya.

Semestinya tidak demikian. Justru daftar pustaka adalah bagian paling awal dibuat saat kita membuat karya ilmiah. Mengapa bisa begitu? Jelas harus begitu, karena pada tiap tahapan kita pasti akan mencari referensi. Kegiatan mencari rujukan atau referensi inilah pada dasarnya kita sedang membuat Daftar Pustaka.

Telaah bibliometric

Istilah bibliometric study mungkin masih jadi hal baru di Indonesia. Saya belum pernah menemukan judul makalah yang mengandung kata-kata tersebut. Oleh karenanya akan menarik bila saya mengaplikasikan teknik ini untuk bidang ilmu saya, hidrogeologi.

Berikut ini adalah definisi bibliometric study atau sering disetarakan dengan istilah scientometric. Berikut adalah definisinya menurut Wikipedia bibliometric dan scientometric:

Bibliometrics is statistical analysis of written publications, such as books or articles.

Scientometrics is the study of measuring and analysing science, technology and innovation. Major research issues include the measurement of impact, reference sets of articles to investigate the impact of journals and institutes, understanding of scientific citations, mapping scientific fields and the production of indicators for use in policy and management contexts.

Beberapa hari ini saya sedang intensif mengevaluasi referensi tentang air tanah Jakarta, berkaitan dengan joint authorship dengan seorang rekan yang sedang menuntut ilmu di Delft University Belanda. Visualisasi referensi/sitasi sangat penting untuk dapat mengevaluasi jumlah dokumen, intensitas penulis, serta keterkaitan antar penulis. Salah satu hasil visualisasinya dengan http://www.vosviewer.com/ (Van Eck and Waltman, 2010) adalah sebagai berikut. Terlihat bahwa justru penulis luar negeri lebih banyak dibanding penulis dalam negeri untuk makalah hasil pencarian dengan kata kunci “Groundwater Jakarta”. Literature review bisa jadi menarik.

Bagaimana kami melakukannya

Bagian ini akan ditambahkan. Pada dasarnya kami menggunakan piranti sebagai berikut:

  • database saintifik: Google Scholar, Crossref, dan Scopus (hanya dapat digunakan di dalam jaringan ITB)
  • aplikasi reference manager: Zotero yang dilengkapi plug in Paper Machine.
  • aplikasi berbasis Java Vosviewer dari www.vosviewer.com. Sebuah perkakas yang dibuat oleh tim dari University of Leiden.

Kami menggunakan kata kunci “groundwater Jakarta” pada masing-masing database saintifik. Kata kunci tersebut berada di judul, abstrak, dan kata kunci. Data publikasi yang didapatkan diunduh citation info-nya dengan memasukkan data paper dan referensinya. Metadata paper kemudian disimpan sebagai RIS file. File RIS tersebut kemudian diimpor ke dalam aplikasi Vosviewer.

Beberapa makalah yang menginspirasi blog post ini adalah sebagai berikut:

  • Leeds University Library (2014) dan Thomson Reuters (2016) telah menerbitkan buku tentang panduan bibliometrik.
  • Ziegler, B. (2016) menyampaikan contoh analisis bibliometrik untuk bidang energi terbarukan.
  • Fang, Y. (2004) dan Scwartz dan Ibaraki (2001) menulis tentang contoh analisis bibliometrik di bidang hidrogeologi, serta Zhai et al. (2015) menulis tentang kemajuan pendidikan sains air tanah di Cina melalui analisis bibliometrik
  • Van Eck and Waltman (2009, 2011, 20113, 2014) sebagai pembuat aplikasi Vosviewer menyampaikan manual book dan pemanfaatannya untuk keperluan mengekstraksi jejaring saintifik, pemetaan topik riset, serta visualisasi rujukan.

 

Inilah beberapa hasilnya

Gambar peta densitas di bawah ini adalah hasil analisis yang memperhitungkan seluruh paper, baik yang berhubungan (kaitan sitasi), maupun yang tidak berhubungan (tidak berkaitan sitasi). Makin merah makin rapat, dan makin hijau makin jarang. Dalam gambar tersebut akan ada 47 cluster paper bila disortasi berdasarkan kata kuncinya. Terlalu ruwet bukan. Tapi beginilah kondisi makalah ilmiah, di dalam negeri (lihat nama-nama penulis dari Indonesia) dan di luar negeri sekalipun (lihat nama-nama penulis dari Jepang dll). Berikut bila ditampilkan dengan cara lain, yaitu dengan menampilkan nodes nama penulis.

Screen Shot 2016-04-30 at 5.31.38 AM

Screen Shot 2016-04-30 at 5.37.13 AM

Gambar 1 Visualisasi density map dan nodes para penulis skenario 1

Selanjutnya bila kita saring dengan kriteria paper yang memiliki hubungan sitasi, maka jumlah cluster berubah drastis menjadi hanya lima seperti pada dua gambar di bawah ini. Cluster paper berdasarkan topik (kata kunci) yang terdeteksi terdiri dari (lihat gambar paling bawah):

  1. fenomena termal air tanah (urban heat island)
  2. kualitas air di daerah urban (urban water quality)
  3. interaksi air sungai dan air tanah di daerah aluvial (groundwater-river water interaction)
  4. pemompaan air tanah (groundwater pumping)
  5. penurunan muka tanah (land subsidence)

Screen Shot 2016-04-30 at 5.41.26 AM

Screen Shot 2016-04-21 at 10.51.26 AM

 

 

 

 

 

 

 

 

Gambar 2 Visualisasi density map dan nodes para penulis skenario 2

FullSizeRender

 

 

 

 

 

Gambar 3 Skema tematik penulis

exwordcloud1

Gambar 4 Contoh word cloud hasil analisis Zotero-PaperMachines. Kata-kata dengan ukuran besar berarti memiliki frekuensi tertinggi.

keterkaitanKata

Gambar 5 Contoh keterkaitan kata kunci hasil analisis Zotero-PaperMachines. Anak panah yang tebal menunjukkan frekuensi keterkaitan hubungan kata yang lebih besar dari yang lain.

Daftar pustaka

  1. Van Eck, N.J. and Waltman, L. (2010). Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics, 84(2), 523-538, [online] Available at: http://link.springer.com/article/10.1007%2Fs11192-009-0146-3 [Accessed 1 May 2016].
  2. Van Eck, N.J. and Waltman, L. (2010).Text mining and visualization using VOSviewer, ArXiv preprint:1109.2058, [online] Available at: http://arxiv.org/abs/1109.2058v1.
  3. Van Eck, N.J. and Waltman, L. (2013). VOSviewer manual book, [online] Available at: http://www.vosviewer.com/documentation/Manual_VOSviewer_1.6.1.pdf.
  4. Zahedi, Z. and Van Eck, N.J. (2014). Visualizing readership activity of Mendeley users using VOSviewer, Figshare reposity, [online] Available at:Visualizing readership activity of Mendeley users using VOSviewer. In altmetrics14: Expanding impacts and metrics, Workshop at Web Science Conference.
  5. Eck, N. J. P. and Waltman, L. (2009). VOSviewer: A computer program for bibliometric mapping (No. ERS-2009-005-LIS). ERIM Report Series Research in Management.
  6. Leeds University Library (2014), Bibliometrics: an overview, [online] Available at: https://library.leeds.ac.uk/downloads/file/265/bibliometrics_an_overview, [Accessed: 1 May 2016].
  7. Ziegler, B. (2016). Methods for Bibliometric Analysis of Research: Renewable Energy Case Study. [online] MIT library. Available at: http://web.mit.edu/smadnick/www/wp/2009-10.pdf [Accessed 4 May 2016].
  8. Thomson Reuters: publications. (2016). WHITEPAPER USING BIBLIOMETRICS: A guide to evaluating research performance with citation data. [online] Available at: http://ip-science.thomsonreuters.com/m/pdfs/325133_thomson.pdf [Accessed 4 May 2016].
  9. Fang, Y. (2004). Scientific research impact and data mining applications in hydrogeology. The Ohio State University. [online] Available at: http://dl.acm.org/citation.cfm?id=1048351 [Accessed 4 May 2016].
  10. Schwartz, F. and Ibaraki, M. (2001). Hydrogeological Research: Beginning of the End or End of the Beginning?. Ground Water, 39(4), pp.492-498.
  11. ZHAI Yuan-zheng, JIANG Shi-jie, TENG Yan-guo, WANG Jin-sheng, GU Hong-biao, XIE Liang, YIN Zhi-hua (2015). Thirty years (1984-2014) of groundwater science teaching and research in China: A dissertation-based bibliometric survey. (2016). Journal of Groundwater Science and Engineering, [online] 3(3), pp.222-237. Available at: http://gwse.iheg.org.cn/EN/abstract/abstract190.shtml [Accessed 4 May 2016].
  12. Zotero Team (2014). Zotero: a Citation Manager [Computer software]. Available at: http://zotero.org.
  13. Guldi, J. and Roberson, C.J. (2011), Paper Machines: Plugin to Zotero [Computer software]. Available at: http://papermachines.org/.

 

 

Who needs Ms Word anyway …

Kita sudah terlalu lama dikendalikan oleh format binary yang dikuasai oleh Microsoft. Akibatnya sering terjadi masalah ketidakcocokan versi dokumen dengan versi MsW nya. Biasanya file yang dibuat dengan versi MsW lebih lama akan tidak 100% kompatibel dengan MsW versi baru. Jalan keluarnya kita diminta menyimpan file dengan format “doc” yang berlaku umum untuk semua versi MsW.
 
Bagus … memang. Tapi akibatnya: file ukurannya jadi membesar tidak karuan dan beberapa fungsi masih juga tidak kompatibel.
 
Karena itu, selain karena banyak alasan lainnya, orang matematika akan akrab dengan LaTeX. Ini adalah file berjenis teks yang isinya adalah karya tulis kita dilengkapi beberapa simbol yang hanya dimengerti oleh mesin _typesetter_ LaTeX. Mesin ini harus diinstalasi secara terpisah. Dengan perintah-perintah itu mesin LaTeX mencetak dokumen menjadi file pdf yang cantik.
Karena itu, John Gruber seorang programmer mengembangkan markup language “Markdown”. Ia menyederhanakan berbagai perintah LaTeX agar dapat lebih mudah dipahami pemakai yang bukan programmer dan bukan ahli matematika.
Format inilah yang sedang saya pakai untuk mengerjakan PR Bab 1 dari Prana Ugi, dosen statistika muda dari USU dan sekaligus pengguna R.
multiMarkdown

 

Laci bukan data repository: tulisan ringkas mengenai pentingnya open data

Mungkin sedikit norak ya. Tapi kaget jg saat tweet tentang open data repository direspon oleh seorang peneliti dari CERN.
Silahkan memantau komunikasinya diakun @dasaptaerwin.
—-
Selain masalah asuransi yg sedang hangat (padahal sebenarnya biasanya saja dan akibat kurang nanya), di grup lain jg sdg ramai masalah university data repository.

Menurut grup itu semua data riset yang public domain (bukan hanya laporannya ya) dapat disimpan secara aman, mudah diakses dan yang lebih penting citeable (karena punya DOI). Data riset yang dibiayai oleh negara sudah selayaknya dapat dipakai ulang (dianalisis ulang) oleh pihak lain, mengundang kolaborasi, penulisan paper-paper ilmiah baru dan pada akhirnya (walaupun tidak instan) citation index akan meningkat.
Repositori data riset yg terbuka (open data) memang belum populer di Indonesia, karena “laci” masih jadi repository yg paling disukai. Seperti janji kemarin berikut blog post tentang hal ini.
—-

What is data repository?

Menurut Google Translate, definisi “repository” adalah:

– a place, building, or receptacle where things are or may be stored: “a deep repository for nuclear waste”.
– a place in which something, especially a natural resource, has accumulated or where it is found in significant quantities: “accessible repositories of water”
– in COMPUTING, a central location in which data is stored and managed:”the metadata will be aggregated in a repository”.

Menurut saya definisi yang paling sesuai adalah yang ke-3.

Is data citeable?

Dari beberapa peneliti LN yang saya tanya, baik secara personal maupun dari fasilitas Q&A ResearchGate dan Quora, jawabannya adalah “ya, data dapat disitasi”, karena data sebagaimana halnya makalah lengkap juga merupakan hasil olah pikir saintifik. Dalam era open data dan open science, data harus memiliki aksesibilitas dan visibilitas yang tinggi. Ada dua artikel menarik yang dapat saya bagi:

How can we make our data citeable?

Secara konvensional, apapun yang tersedia online dapat disitasi selama ada lamat rujukan yang jelas. Namun perkembangan saat ini, penggunaan kode digital object identifier (DOI) sudah makin meluas, termasuk untuk dataset. Dengan DOI maka obyek yang kita sitasi, apapun itu, tidak akan tertukar dengan obyek yang lain. Kerena DOI adalah kode unik. Jadi saat ini sudah sangat jamak penggunaan (assigning) DOI untuk file data yang telah diunggah. DOI pertamakali digunakan 10 tahun yang lalu (baca tautan ini).

Anda bisa langsung mencoba membuat akun di Figshare.com. Spasi penyimpanan 1 Gb didapatkan gratis bila anda mendaftar. Lumayan besar lho itu.

Setelah mendaftar, maka anda akan masuk ke layar “home” seperti ini.

Screen Shot 2016-01-22 at 8.43.24 PM

 

 

 

 

Tautan ini adalah contoh dataset saya yang diunggah di Figshare. Coba anda copy-paste ke perambah.

https://figshare.com/s/6f06642fdfd7d3779554

Bila diakses maka akan muncul layar seperti ini.

Screen Shot 2016-01-22 at 8.41.57 PM

 

 

 

 

 

 

Why we should make data accessible?

Pertanyaan bagus. Setidaknya ada dua pertimbangan:

  • Pertimbangan substansial: Bila data tersedia secara bebas dan dapat dianalisis ulang, maka makin banyak orang yang menguji validitas data dan validitas analisis. Bila ini terjadi ada dua kemungkinan dampaknya: hasil analisis kita akan didukung oleh hasil analisis orang lain, yang kedua, mungkin juga hasil pemikiran kita direvisi oleh orang lain. Bila jenis yang kedua terjadi, apakah ini akan mengurangi nilai saintifik makalah kita? Jawabannya “tentu tidak”. Karena dunia saintifik adalah dunia yang obyektif, maka dokumen analisis kita tetap (yang telah dipublikasikan) akan tetap terekam dalam khasanah ilmiah, walaupun hasilnya diperbaiki oleh peneliti lainnya.
  • Pertimbangan ekonomis: Bila orang lain dapat menggunakan ulang (reuse) data kita, maka biaya yang dikeluarkan untuk mengambil data tersebut akan memiliki benefit yang berlipat. Kemudian pada akhirnya nilai ekonomisnya akan terus bertambah.

Layanan data hosting?

Beberapa contoh perusahaan atau organisasi yang menyelenggarakan free data hosting di repositorinya:

Data repository dalam bentuk lain:

  • Researchgate: ini sebenarnya adalah media sosial saintifik. Mereka memberikan opsi unggah “dataset” selain opsi “full paper”. Anda dapat secara langsung menawarkan kolaborasi dengan data yang anda unggah.
  • ArXiv, BiorXiv, PeerJ pre-print repository: situs ini adalah repositori preprint yaitu makalah yang sedang atau baru akan disubmit ke jurnal atau konferensi. Di dalam pdf dokumen yang anda unggah, anda dapat menyertakan dataset yang berkaitan. Dalam abstrak yang diunggah anda dapat memberikan penjelasan bahwa dalam dokumen juga disertakan kumpulan data mentah.

Seperti halnya Google Scholar, Crossref atau Scopus yang mengindeks karya tulis, ternyata ada pula organisasi yang mengindeks repositori data online, yaitu:

Datacite
Re3data

Choosing license?

Hal paling akhir yang perlu dilakukan adalah memilih lisensi berkas yang kita unggah ke Figshare atau ke repositori data manapun. Yang paling umum digunakan komunitas open science adalah lisensi Creative Commons (CC). Lisensi yang paling umum adalah:

  • CC-BY: anda hanya boleh merujuk, menggunakan ulang, menganalisis ulang, memodifikasi dokumen kita dengan syarat menyebutkan sumbernya atau,
  • CC-BY-SA: sama dengan ketentuan di atas, ditambah keharusan dokumen turunan untuk dibagikan dengan lisensi yang sama, Share Alike (SA), dengan dokumen milik kita.

Kondisi di ITB?

Situs Digital Library ITB  sebenarnya dapat jadi awal format open data di ITB (mungkin di Indonesia). Sedikit prasyaratnya adalah bahwa data dalam segala format harus disubmit secara terpisah. Tidak menyatu dengan file docx atau pdf yang biasa diminta oleh prodi kepada mahasiswa yang telah lulus sidang sebagai salah satu syarat wisuda.

Output riset yang dapat diunggah adalah:

  • laporan: format docx atau pdf
  • slide presentasi: format ppt atau pdf
  • data: format xls, csv, txt dll. Kondisi saat ini data umumnya menyatu (embedded) ke dalam dokumen teks.

Ketiga jenis output riset tersebut harus dapat diunggah secara terpisah. Selanjutnya perlu dipasang DOI generator terhadap dokumen-dokumen yang diunggah.

Penutup

Dari uraian singkat di atas, maka data adalah output riset yang potensial untuk dikembangkan. Syaratnya harus tersedia secara mudah (visibilitas tinggi) dan dapat diunduh dalam format yang paling umum dipakai (bukan pdf). Dengan dibukanya akses data, maka peluang untuk menghasilkan publikasi-publikasi turunan akan terbuka lebar. Kolaborasi dengan peneliti lain (DN dan LN) juga dapat dibangun dengan lebih mudah.

Harapannya, di masa mendatang “laci” bukan lagi repositori yg paling disukai.

Follow @dasaptaerwin

Mengklasifikasi mata air dengan R

Project description

# Title: PCA of Cisanti Area
# Data: PKM Project in Cisanti Area, Bandung
# Area: Northern Bandung
# Team leader: Arif Susanto
# Code and analysis: Dasapta Erwin Irawan
# Data acq: Aditya Pratama, ..., ... (to be added)
# Software: R
# Package used: pcamethods, cluster, readxl
# Keyword: multivariate statistics, cluster analysis, principal component analysis

Dalam blog post ini saya mencoba menceritakan secara singkat teknik mengklasifikasi mata air berdasarkan data kualitas airnya. Software R akan digunakan dalam analisis ini, dengan teknik:

  1. Principal component analysis (PCA)
  2. Cluster analysis (CA)

Data set: data set ini berasal dari riset PKM tahun 2015 yang diketuai oleh Arif Susanto dari KK Geologi ITB. Data set kita berukuran 7 x 33 (7 baris dan 33 kolom).

Package yang diperlukan:

Sebenarnya fungsi standar telah ada dalam R, yaitu:

  1. PCA: princomp() atau prcomp(), gunanya untuk mengekstrak variabel (component) berpengaruh dalam suatu data set dengan jumlah variabel yang sangat banyak. Fungsi ini akan mengelompokkan variabel menjadi lebih ringkas, misal: bila semua kita punya 33 variabel, maka nantinya akan dapat menjadi dua atau tiga kelompok variabel yang disebut PC (principal component)
  2. Cluster: kmeans() dan hclust(), gunanya untuk menguji kemiripan sampel berdasarkan perhitungan Euclidean distance dan mengelompokkannya dalam sebuah dendogram.

Namun demikian dalam kesempatan ini saya akan menggunakan package:

  1. pcamethods yang ditulis oleh Wolfram Stacklies, Henning Redestig, dan Kevin Wright. link
  2. cluster yang ditulis oleh Friedrich Leisch dan Bettina Gruen link

Tahapannya akan saya jelaskan lebih rinci besok ya per blok kode. Data set juga akan segera tersedia setelah publikasi diterbitkan. Sekarang saya tampilkan saja tiga grafik sebagai hasil utamanya.

Terimakasih sudah berkunjung.

follow @dasaptaerwin (www.twitter.com/dasaptaerwin)


 

Depsy: software “impact factor”

Saat ini jam 2 pagi, pertama kali saya melihat tweet tentang Depsy di time line (lini masa, kalau di Indonesiakan). Tidak tahan saya untuk meluangkan waktu 15 menit untuk menulis tentang platform open source tersebut. Berikut beberapa pointers penting mengenai Depsy:

  • Sebagian besar riset akan memerlukan piranti lunak (software) khusus yang berkaitan langsung dengan risetnya, misal: SPSS atau Stata (statistik), ArcGIS (geosains), R (untuk berbagai keperluan). Namun tidak banyak (sebagian besar) lupa untuk merujuknya dalam berbagai produk saintifiknya, misal:
    • makalah ilmiah, berapa banyak geologiwan yang menyebut piranti lunak ArcGIS dalam Daftar Pustakanya?
    • piranti lunak turunan, beberapa piranti lunak diturunkan dan dikembangkan kemampuannya menjadi piranti lunak lain, misal R packages (saya belum bisa menyebut contoh yang lain). Kalau yang ini sudah dijembatani dengan platform Github
    • dll.
  • Pendek kata pengembang piranti lunak merasa produknya "low impact" atau kalaupun piranti lunak hasil kerjanya memiliki dampak tinggi (high impact), tetap saja tidak ada perangkat (tool) yang mengukurnya.
  • Depsy hadir sebagai solusinya. Ia seperti Google Scholar atau Crossref nya untuk urusan piranti lunak. Beberapa impact indicators yang diukurnya meliputi (baca juga Depsy measurement methods):
    • citations: sebanyak apa piranti lunak tersebut dirujuk di dalam makalah ilmiah. Biasanya yang ditulis dalam Daftar Pustaka adalah tutorial atau manual book nya. 
    • downloads: sesering apa piranti lunak tersebut diunduh dari repository resminya, misal untuk R packages menggunakan hitungan dari server CRAN
    • dependency pagerank: kekerapan website resmi piranti lunak disebutkan dalam berbagai karya ilmiah atau situs lain.
    • usage by other projects: seberapa banyak proyek piranti lunak lain yang menggunakan sebagai kecil, sebagian besar, atau seluruhnya sebagai dasar pembangunannya.

Berikut ini adalah contoh hasil perhitungan Depsy untuk Forecast R package yang ditulis oleh Prof. Rob J. Hyndman dari Monash University (on twitter).

Ch 7: Analisis (Menulis–ilmiah–itu menyenangkan)

Blogpost ini akan sedikit lompat dari yang kemarin. Sekarang kita coba langsung ke Bab Analisis dalam proyek buku selanjutnya (WTF: (scientific) Writing is Totally Fun).

Sebagai ahli kebumian,  output utama kita biasanya peta, tapi sejalan dengan perkembangan teknik analisis spasial, (geo)statistik, dll, maka presentasi data dalam bentuk tabel dan grafik (chart) juga memegang peranan penting, terutama bagi pembaca awam (tidak punya latar belakang ilmu kebumian). Mereka juga akan mencermati angka-angka yang tertera dalam tabel dan grafik.

Berikut ini sebuah rujukan ringkas dari Dinas Statistik UK yang straight forward mengenai penyajian data. Beberapa catatan sangat penting untuk dicermati, misalnya:

  • di mana meletakkan variabel dan lokasi pengukuran (atau sampel),
  • bagaimana mengurutkan dan membandingkan data dalam tabel,
  • pentingnya memberikan anotasi garis pada grafik, misalnya untuk memperlihatkan batas ambang.

Saya akan coba sarikan dengan memperhatikan sumber lainnya dan pengalaman (pendapat) pribadi saya dalam blogpost berikutnya.

Screen Shot 2015-07-10 at 05.40.40

(dipinjam dari: http://style.ons.gov.uk/category/data-visualisation/)

1st Circular: Indonesia R Meet Up

  

Karena ternyata sudah banyak yang “terungkap” sebagai Pengguna R (pada tahap beginners hingga advanced), sudah saatnya merancang acara R meet up. Contohnya seperti ini: http://r-users-group.meetup.com/.

Komunitas Indonesia R User akan menyelenggarakan Indonesia R Meet Up yang pertama, dengan tema R 4 All.

TORnya sebagai berikut:

  • Siapa saja yang boleh hadir: semua yang berminat dan join R user group.
  • Siapa saja yang boleh mengirimkan abstrak: pengguna R (tidak ada batasan kompetensi), dan harus join R user group.
  • Apa saja yang boleh dipresentasikan: semua topik asal menggunakan R.

Topik sementara ini hanya dibagi dua: 

  1. Natural sciences (termasuk kedokteran, kesehatan)
  2. Social sciences (termasuk ekonomi)

  • Bagaimana format abstrak: 200 kata, ada max 5 kata kunci, menggandung latar belakang, metode, hasil, kesimpulan, rekomendasi. Kode R disampaikan sebagai lampiran.
  • Dikirim ke mana: di post di Wall R User Group.

Masukan-masukan terhadap penyelenggaraan acara agar dapat ditulis di kolom komentar.

Terimakasih.

3rd Workshop: Introduction to R

Cover

Alhamdulillah

Acara 3rd Intro to R telah selesai dilaksanakan, sekitar 50 peserta telah hadir. Ada Pak Adi Pancoro Biologi 🙂

Mohon maaf atas segala kekurangan. Lain kali akan lebih rapih lagi, karena sambungan internet kurang lancar untuk instalasi package dll. Namun minimum para peserta telah memahami cara instalasi dan beberapa dasar operasi R.

Slide akan segera tersedia di SlideShare, kode lengkap akan diunggah ke Github.

Pada kesempatan berikutnya akan diadakan workshop R tematik: basic stats, multivariable analysis, exploratory data analysis, plotting, dll.

Terimakasih atas minat peserta yang tinggi. Terimakasih pula untuk Perpustakaan ITB, Bapak Mahmudin, dan para pustakawan Mas Yoka Adam cs. Semoga tidak kapok jadi host.

Unduh slide format pdf: 20150526-IntroR-Text

Slide format ioslide dapat dilihat di: Rpubs

Unduh data dan code di: GoogleDrive

Data is the new soil

Data is not the new oil, but it’s the new soil (David McCandless, TedTalks)
Anda sudah pernah lihat video Mas David McCandless di Youtube? Kalau belum lihat ya. Mampir juga nonton video gurunya, Hans Rosling.
Data juga dapat mengungkap hal-hal yang tersembunyi di balik suatu fenomena yang kita hadapi. Tapi data dalam bentuk tabel kurang cepat memberi gambaran apa yang terjadi, karena itulah kita perlu visualisasi.
Untuk para geologiwan, peta geologi adalah hanya salah satu saja bentuk visualisasi. Peta ini mentransformasi tabel jurus dan kemiringan batuan, jenis batuan, dll menjadi zonasi batuan, penampang lapisan batuan, garis sesar, lipatan dll, ke dalam selembar kertas.
Berikut ini adalah contoh lain dari visualisasi yang bisa kita lakukan untuk mengungkap sesuatu yang sebelumnya tidak terlihat. Saya menggunakan “R” dan “mtcars” data set. Data set ini adalah salah satu saja dari data set yang sudah menyatu di dalam distribusi R. Data ini diekstraksi dari Majalah “Motor Trend” tahun 1974 yang terbit di AS. Isinya adalah 10 variabel spesifikasi dari 32 merek mobil buatan tahun 1973 – 1974 Motor Trend US magazine. Spesifikasi variabel atau parameter spesifikasi yang ada dalam data ini adalah:
mpg Miles/(US) gallon              di Indonesia dibaca sebagai km per liter BBM
cyl Number of cylinders         jumlah silinder
disp Displacement (cu.in.)        di Indonesia mengenalnya sebagai cc
hp Gross horsepower             tenaga kuda
drat Rear axle ratio                   di Indonesia dikenal sebagai rasio gear
wt Weight (lb/1000)              berat kendaraan
qsec 1/4 mile time                      waktu yang diperlukan dari diam hingga 0.25 mil
vs V/S                                     ada yang tahu ini apa?
am Transmission                      transmisis matik atau manual
gear Number of forward gears  jumlah gigi maju
carb Number of carburetors      jumlah karburator
Data ini pertama kali dianalisis oleh Henderson and Velleman (1981) dalam papernya Building multiple regression models interactively. Biometrics, 37, 391–411.
Ada yang masih menggunakan Ms Excel? Anda mungkin akan berpikir ulang.
Saya akan menggunakan R dalam membuat beberapa visualisasi dalam bentuk grafik sebagai berikut.
Dengan perintah “pairs(mtcars, main = “mtcars data”)” anda sudah bisa mendapatkan grafik matriks korelasi seperti di bawah ini. Coba anda lihat, banyak yang bilang keiritan mobil (mpg) hanya ditentukan oleh cc. Karena itu kalau di Indonesia harga mobil bekas ber-cc besar akan “jatuh bebas” dibandingkan yang ber-cc kecil.
Coba kita lihat grafik 1 di bawah ini sebagian saja. Tarik garis diagonal yang ada tulisan “mpg”, “cyl” dst, dan pilih setengah saja, apakah anda ingin lihat setelah segitiga yang atas atau yang bawah. They’re all the same. Let’s just choose the lower part.
Anda lihat pola titik-titik data yang membentuk garis lurus atau mirip garis lurus (berarah diagonal), dan ada pula yang acak. Pola yang pertama menunjukkan adanya korelasi antara kedua parameter dan pola yang kedua memperlihatkan korelasi yang sangat kecil atau bahkan tidak berkorelasi sama sekali.
Pola yang membentuk keteraturan diagonal dengan mpg adalah:
  • mpg ~ disp (cc) -> keiritan dengan cc
  • mpg ~ hp -> keiritan dengan tenaga kuda
Korelasi yang relatif lebih lemah terlihat antara:
  • mpg ~ drat -> keiritan dengan rasio gear
  • mpg ~ wt -> keiritan dengan berat kendaraan
Korelasi yang lebih lemah (tapi ada) adalah antara:
  • mpg ~ qsec -> keiritan denga waktu yang diperlukan dari diam hingga menempuh 0.25 mil
Dari sini terlihat bahwa keiritan mobil anda bukan hanya ditentukan oleh besar kecilnya cc, tapi juga dengan gaya mengemudi anda (diwakili variabel qsec).
image
Gambar 1 Correlation matrix BW
Kalau anda senang warna, maka dengan satu baris perintah “corrgram(mtcars)” anda bisa membuat grafik sejenis di bawah ini.
mtcarscorrgram2
Gambar 2 Correlation matrix berwarna
Grafik pada Gambar 3 berikut ini juga dibuat hanya dengan sebaris perintah “heatmap(as.matrix(mtcars))”. Juga dapat dilihat hirarki pengelompokkannya dalam bentuk garis. Yang menarik adalah:
  • bagaimana merk-merk Jepang mengelompok dengan merk Eropa, sementara merk Amerika membentuk kelompok sendiri (kecuali Dodge Challenger, AMC Javelin, Hornet, dan Valiant). Saya akan bahas di lain waktu.
  • Corolla dan Civic sekelompok dengan Ferrari Dino dan Fiat, Mazda dengan Merc 280 berada pada kamar yang sama, serta Corona, Datsun di dalam ruangan yang sama dengan Porsche.
Sangat menarik bukan. Yang seperti ini sangat bisa diterapkan di geologi juga.
IMG_0020
Gambar 3 Heatmap dan PCA
Yang menarik lagi grafik pada Gambar 4 berikut ini. Ada yang bisa menjelaskan? Saya akan bahas di lain waktu, atau sekaligus saya harus alih profesi jadi wartawan tabloid “Otomotif”.
Masih mau pakai Excel?
🙂
image
Gambar 4 Analisis mpg ~ disp (cc) ~ cyl