Laci bukan data repository: tulisan ringkas mengenai pentingnya open data

Author:

Mungkin sedikit norak ya. Tapi kaget jg saat tweet tentang open data repository direspon oleh seorang peneliti dari CERN.
Silahkan memantau komunikasinya diakun @dasaptaerwin.
—-
Selain masalah asuransi yg sedang hangat (padahal sebenarnya biasanya saja dan akibat kurang nanya), di grup lain jg sdg ramai masalah university data repository.

Menurut grup itu semua data riset yang public domain (bukan hanya laporannya ya) dapat disimpan secara aman, mudah diakses dan yang lebih penting citeable (karena punya DOI). Data riset yang dibiayai oleh negara sudah selayaknya dapat dipakai ulang (dianalisis ulang) oleh pihak lain, mengundang kolaborasi, penulisan paper-paper ilmiah baru dan pada akhirnya (walaupun tidak instan) citation index akan meningkat.
Repositori data riset yg terbuka (open data) memang belum populer di Indonesia, karena “laci” masih jadi repository yg paling disukai. Seperti janji kemarin berikut blog post tentang hal ini.
—-

What is data repository?

Menurut Google Translate, definisi “repository” adalah:

– a place, building, or receptacle where things are or may be stored: “a deep repository for nuclear waste”.
– a place in which something, especially a natural resource, has accumulated or where it is found in significant quantities: “accessible repositories of water”
– in COMPUTING, a central location in which data is stored and managed:”the metadata will be aggregated in a repository”.

Menurut saya definisi yang paling sesuai adalah yang ke-3.

Is data citeable?

Dari beberapa peneliti LN yang saya tanya, baik secara personal maupun dari fasilitas Q&A ResearchGate dan Quora, jawabannya adalah “ya, data dapat disitasi”, karena data sebagaimana halnya makalah lengkap juga merupakan hasil olah pikir saintifik. Dalam era open data dan open science, data harus memiliki aksesibilitas dan visibilitas yang tinggi. Ada dua artikel menarik yang dapat saya bagi:

How can we make our data citeable?

Secara konvensional, apapun yang tersedia online dapat disitasi selama ada lamat rujukan yang jelas. Namun perkembangan saat ini, penggunaan kode digital object identifier (DOI) sudah makin meluas, termasuk untuk dataset. Dengan DOI maka obyek yang kita sitasi, apapun itu, tidak akan tertukar dengan obyek yang lain. Kerena DOI adalah kode unik. Jadi saat ini sudah sangat jamak penggunaan (assigning) DOI untuk file data yang telah diunggah. DOI pertamakali digunakan 10 tahun yang lalu (baca tautan ini).

Anda bisa langsung mencoba membuat akun di Figshare.com. Spasi penyimpanan 1 Gb didapatkan gratis bila anda mendaftar. Lumayan besar lho itu.

Setelah mendaftar, maka anda akan masuk ke layar “home” seperti ini.

Screen Shot 2016-01-22 at 8.43.24 PM

 

 

 

 

Tautan ini adalah contoh dataset saya yang diunggah di Figshare. Coba anda copy-paste ke perambah.

https://figshare.com/s/6f06642fdfd7d3779554

Bila diakses maka akan muncul layar seperti ini.

Screen Shot 2016-01-22 at 8.41.57 PM

 

 

 

 

 

 

Why we should make data accessible?

Pertanyaan bagus. Setidaknya ada dua pertimbangan:

  • Pertimbangan substansial: Bila data tersedia secara bebas dan dapat dianalisis ulang, maka makin banyak orang yang menguji validitas data dan validitas analisis. Bila ini terjadi ada dua kemungkinan dampaknya: hasil analisis kita akan didukung oleh hasil analisis orang lain, yang kedua, mungkin juga hasil pemikiran kita direvisi oleh orang lain. Bila jenis yang kedua terjadi, apakah ini akan mengurangi nilai saintifik makalah kita? Jawabannya “tentu tidak”. Karena dunia saintifik adalah dunia yang obyektif, maka dokumen analisis kita tetap (yang telah dipublikasikan) akan tetap terekam dalam khasanah ilmiah, walaupun hasilnya diperbaiki oleh peneliti lainnya.
  • Pertimbangan ekonomis: Bila orang lain dapat menggunakan ulang (reuse) data kita, maka biaya yang dikeluarkan untuk mengambil data tersebut akan memiliki benefit yang berlipat. Kemudian pada akhirnya nilai ekonomisnya akan terus bertambah.

Layanan data hosting?

Beberapa contoh perusahaan atau organisasi yang menyelenggarakan free data hosting di repositorinya:

Data repository dalam bentuk lain:

  • Researchgate: ini sebenarnya adalah media sosial saintifik. Mereka memberikan opsi unggah “dataset” selain opsi “full paper”. Anda dapat secara langsung menawarkan kolaborasi dengan data yang anda unggah.
  • ArXiv, BiorXiv, PeerJ pre-print repository: situs ini adalah repositori preprint yaitu makalah yang sedang atau baru akan disubmit ke jurnal atau konferensi. Di dalam pdf dokumen yang anda unggah, anda dapat menyertakan dataset yang berkaitan. Dalam abstrak yang diunggah anda dapat memberikan penjelasan bahwa dalam dokumen juga disertakan kumpulan data mentah.

Seperti halnya Google Scholar, Crossref atau Scopus yang mengindeks karya tulis, ternyata ada pula organisasi yang mengindeks repositori data online, yaitu:

Datacite
Re3data

Choosing license?

Hal paling akhir yang perlu dilakukan adalah memilih lisensi berkas yang kita unggah ke Figshare atau ke repositori data manapun. Yang paling umum digunakan komunitas open science adalah lisensi Creative Commons (CC). Lisensi yang paling umum adalah:

  • CC-BY: anda hanya boleh merujuk, menggunakan ulang, menganalisis ulang, memodifikasi dokumen kita dengan syarat menyebutkan sumbernya atau,
  • CC-BY-SA: sama dengan ketentuan di atas, ditambah keharusan dokumen turunan untuk dibagikan dengan lisensi yang sama, Share Alike (SA), dengan dokumen milik kita.

Kondisi di ITB?

Situs Digital Library ITB  sebenarnya dapat jadi awal format open data di ITB (mungkin di Indonesia). Sedikit prasyaratnya adalah bahwa data dalam segala format harus disubmit secara terpisah. Tidak menyatu dengan file docx atau pdf yang biasa diminta oleh prodi kepada mahasiswa yang telah lulus sidang sebagai salah satu syarat wisuda.

Output riset yang dapat diunggah adalah:

  • laporan: format docx atau pdf
  • slide presentasi: format ppt atau pdf
  • data: format xls, csv, txt dll. Kondisi saat ini data umumnya menyatu (embedded) ke dalam dokumen teks.

Ketiga jenis output riset tersebut harus dapat diunggah secara terpisah. Selanjutnya perlu dipasang DOI generator terhadap dokumen-dokumen yang diunggah.

Penutup

Dari uraian singkat di atas, maka data adalah output riset yang potensial untuk dikembangkan. Syaratnya harus tersedia secara mudah (visibilitas tinggi) dan dapat diunduh dalam format yang paling umum dipakai (bukan pdf). Dengan dibukanya akses data, maka peluang untuk menghasilkan publikasi-publikasi turunan akan terbuka lebar. Kolaborasi dengan peneliti lain (DN dan LN) juga dapat dibangun dengan lebih mudah.

Harapannya, di masa mendatang “laci” bukan lagi repositori yg paling disukai.

Follow @dasaptaerwin