Tentang data paper

Dua hari lalu saya hadir di acara Halal bi Halal ITB. Sambil menunggu penceramah naik mimbar, Prof. Dr. H. Mahmud, M.Si., Rektor UIN Sunan Gunung Djati, saya bercakap dengan beberapa dosen dan mengenalkan tipe makalah baru, data paper.

Apa lagi ini?

Bagi ibu dan bapak yang mendapatkan dana riset Dikti pasti familiar dengan kewajiban menuliskan laporan perkembangan dan laporan penggunaan dana menggunakan platform Simlitabmas. Bila kita melakukan mengisi laporan tersebut, pada dasarnya kita mempublikasikan hasil riset yang masih awal (early research outcome). Hanya saja platformnya masih tertutup, laporan tersebut tidak dapat dicari via mesin pencari misalnya.

Bila dirunut ke belakang lagi, proposalnya pun sebenarnya telah diunggah dengan cara yang sama. Pada tahun 2016, lebih canggih lagi (menurut saya), platform Simlitabmas yang baru telah memungkinkan agar metadata riset tersimpan secara sistematis. Dengan cara ini, maka data pengusul riset (nama pertama, kedua, dst), afiliasinya, dll dapat dicari dengan mudah di server Simlitabmas. Ini akan lain bila nama-nama pengusul, teks, tabel dll, menyatu dalam file pdf atau docx.

Upaya Dikti ini sebenarnya sudah sejalan dengan tren saat ini untuk mempublikasikan setiap langkah dalam riset.

Apa lagi metadata ini? Kita bicarakan pada kesempatan lain. Kalau saya lupa. Mohon diingatkan.

Kembali ke data paper. Data paper sebenarnya adalah paper/makalah yang merupakan cover letter dari tabel data mentah yang ada di halaman belakangnya. Paper tipe ini muncul atas beberapa tuntutan dunia, yakni:

  • peneliti memerlukan data yang terbuka dan siap direproduksi atau direplikasi (reproducibility and replication). Seringkali kita menemukan data yang bahkan untuk diplot ulang saja susah. Harus didigitasi ulang dsb. Buat orang dengan mata minus berat seperti saya, ini jadi kendala besar. Peneliti memiliki kepentingan untuk memverifikasi dan mengkonfirmasi proses riset yang dilakukan oleh peneliti sebelumnya, bahkan terhadap datanya. Pertanyaan yang biasa kita temui berkaitan dengan data adalah: data diambil di mana, kapan, bagaimana caranya, bagaimana cara mengujinya di laboratorium dst.
  • dunia riset memiliki dana yang terbatas. Bila data mentah riset dapat tersedia secara online, dapat diunduh dari dirujuk, dan dianalisis dari sudut pandang yang lain, maka jutaan rupiah dapat dihemat.
  • dunia riset ingin terus mendorong terjadinya good research practices melalui keterbukaan terhadap data dan pemrosesannya.

Bila data telah dipublikasikan menjadi data paper, maka data dapat disitasi secara formal seperti halnya dokumen skolar lainnya, misal buku, makalah dalam jurnal, atau makalah dalam seminar. Terlihat mudah, tapi kenyataannya tidak.

Pihak editor mereview makalah dengan menguji validitas data dengan pertanyaan, “apakah data dapat direproduksi dengan baik?” Berawal dari koordinat data, harus dapat diplot ulang oleh mereka. Kita harus bolak-nalik mengkonfirmasi lokasi titik sumur apakah sudah benar atau ada yang masih meleset. Berikutnya, masing-masing parameter yang diukur di lapangan dan di laboratorium harus benar proses pengambilan dan pengujiannya di laboratorium. Kita diminta melihat kembali standar pengujian air dari US-EPA atau standar lain yang berlaku di Indonesia (dalam hal ini SNI). Dan seterusnya dan seterusnya.

Menarik bukan.

Mengapa data harus dirujuk? Berikut saya cuplikan rujukan dari USGS.

Data citation is important for a number of reasons.

  • First, citing datasets gives the researcher proper credit and serves as recognition of scholarly effort. It also gives credit to data stewards and repositories who manage the data presumably for the long term. Data citation also creates accountability for creators and stewards of the dataset and reduces the danger of plagiarism once the dataset itself has been properly cited.

  • Second, data citation allows others to more easily locate and access a researcher’s dataset for the purposes of replicating or verifying their results, which is good scientific practice. Additionally, easy location and access can facilitate discovery and encourage possible reuse of the dataset.

  • Lastly, the practice of data citation creates a formalized system of recognition and reward to data producers as a citable contribution to the scientific community. Data citation allows the impact of the dataset to be easily tracked through publications that cite the dataset. This system of citing data formally in publications can increase the transparency of data production as well as encourage the production of more high quality datasets.

Apakah ada contohnya?

Alhamdulillah ada, tadi malam, saya dan Pak Thomas (Dosen Geologi Undip) baru menerima ‘acceptance letter’ dari Journal Earth System Science Data terbitan Copernicus Publishing yang berafiliasi dengan European Geosciences Union (EGU). Abstraknya kira-kira seperti ini.

Screen Shot 2016-07-23 at 9.10.25 AM

 

 

 

 

 

Beberapa contoh best practice dari USGS adalah sebagai berikut:

  • Engott, J.A., 2015, Mean annual water-budget components for the Island of Oahu, Hawaii, for average climate conditions, 1978-2007 rainfall and 2010 land cover: U.S. Geological Survey Data Release, http://dx.doi.org/10.5066/F7XP72ZX.
  • Catchings, R.D. Strayer, L.M. Goldman, M.R. Criley, C.J. Garcia, S.H. Sickler, R.R. Catchings, M.K. Chan, J.H. Gordon, L. Haefner, S. Blair, L. Gandhok, G. and Johnson, M., 2015, 2013 East Bay Seismic Experiment (EBSE)–implosion data, Hayward, Calif.: U.S. Geological Survey Data Release, http://dx.doi.org/10.5066/F7BR8Q75.
  • Zwally, H.J., R. Schutz, C. Bentley, J. Bufton, T. Herring, J. Minster, J. Spinhirne, and R. Thomas. 2003. GLAS/ICESat L1A Global Altimetry Data V018, 15 October to 18 November 2003. National Snow and Ice Data Center. dataset accessed 2011-07-21 at doi: http://dx.doi.org/10.3334/NSIDC/gla01.

About the author

My current focus is how to provide the hydrostratigraphy of volcanic aquifers in Bandung area. The research is based on environmental isotope measurement in groundwater and morphometry. My work consists of hydrochemical measurements. I am using multivariate statistical methods to provides more quantitative foundation for the analysis and more insight into the groundwater behavior, especially its interaction with surface water. I use open source apps like R and Python to do the job. In my spare time, I also have a side project to promote open science in Indonesia's research workflow. One of my current focus is promoting INARxiv, as the first preprint server of Indonesia (osf.io/preprints/inarxiv) and serving as ORCID and OSF (osf.io) ambassador. Research interest: Hydrochemistry, multivariate analysis, and R programming. Blog: dasaptaerwin.net, derwinirawan.wordpress.com. (https://orcid.org/0000-0002-1526-0863)