Ten things in dataset preparation
oleh: Dasapta Erwin Irawan, Institut Teknologi Bandung
22 Oktober 2014
- Data harus benar (Put in correct data)
- Kolom berisi parameter/variable (Columns are for parameters/variables)
- Baris berisi sampel/lokasi pengukuran (Rows are for samples/observations)
- Berikan kolom
nomor urut
(Use a manual row number) - Berikan identitas yang bersistem (Use a systematic identity)
- Jumlah kolom boleh banyak (Use as many columns as you need)
- Nama kolom pendek tapi jelas (Use short-clear headers)
- Jangan melakukan
merge row
ataumerge column
(Don’t merge) - Jangan menambahkan judul tabel (Don’t add table title)
- Berikan keterangan identitas kolom (Make an explanation sheet)
(pdf is available at Academia.edu)
Tools: spreadsheets (LibreOffice, Microsoft Office)
Data harus benar (Put in correct data)
Put in the correct data, even if it contains “NA”.
Tidak hanya informasi yang dimasukkan harus benar tapi juga berarti luas. Salah satunya adalah untuk format numerik. Cek lagi jangan sampai isi kolom yang dimaksudkan sebagai “numerik” ternyata terbaca oleh Excel sebagai “text”. Cara mudah: buat kolom baru di sebelah kanan atau kiri dari kolom yang akan anda verifikasi. Di kolom yang baru ketik rumus “=1*(kolom X)“. (Kolom X) adalah baris yang sama pada kolom yang akan anda verifikasi. Kemudian copy-paste
rumus itu ke bawah. Lihat apakah semua baris pada kolom yang baru mengandung hasil perkalian, ataukan ada yang”error“. Baris yang”error” biasanya karena angka pada kolom yang anda periksa terbaca sebagai teks oleh Excel.
Kolom berisi parameter/variable (Columns are for parameters/variables)
Each column means one variable.
Kolom dalam tabel data merupakan parameter atau variabel yang anda ukur di lapangan, misal: temp, TDS, koordinat X, koordinat Y dll.
Baris berisi sampel/lokasi pengukuran (Rows are for samples/observations)
Each row means one sample or observation.
Baris dalam tabel data merupakan sampel atau lokasi pengukuran. Andaikan anda punya 10 lokasi sumur yang diukur, maka tabel anda akan memiliki 10 baris, yang masing-masing berisi satu lokasi sumur. Baris pertama berisi column header
.
Berikan kolom nomor urut (Use a manual row number)
This point won’t be doable if you have thousand of lines. But if you have, you wouldn’t use spreadsheet in the analysis.
Kolom nomor urut diperlukan agar pembaca tahu dengan cepat berapa jumlah sampel anda. Excel tidak bisa memberikan nomor urut secara otomatis. Jumlah sampel akan selalu minus satu baris. Kalau anda lihat baris pertama dalam Excel akan selalu berisi column header. Ini berbeda dengan kalau anda menggunakan aplikasi statistik, seperti SPSS atau Stata. Column header tidak dihitung sebagai baris data.
Berikan identitas yang bersistem (Use a systematic identity)
Develop your own system. Avoid to combine alphabets and numerics for identity.
Tidak ada yang agak menjengkelkan
(maaf agak vulgar karena memang begitu adanya) saat melihat kode lokasi tanpa tahu artinya apa. Misal SG-1, SW-2, dll. Akan lebih baik kalau menggunakan konsensus nomor saja. Sebagai contoh: kalau anda punya tiga jenis data (sumur, sungai, mata air), maka anda gunakan kode angka no 1-10 untuk sumur, 20-30 untuk sungai, 40-50 untuk mata air. Gunakan perbedaan angka yang ekstrim supaya mudah mengenali. Atau anda bisa menggunakan sistem digit satu dan digit dua, contoh: semua sampek bernomor awal 1 untuk sumur, 2 untuk sungai, dan 3 untuk mata air. Jadi sampel bernomor 11 sampai 110 untuk sumur, 21 – 210 untuk sungai, 31-310 untuk mata air.
Jumlah kolom boleh banyak (Use as many column as you need)
One column is for one variable. So you can use as many column as you need to describe you observation.
Anda tidak hidup di jaman aplikasi spreadsheet
Lotus 123 yang hanya bisa menangani kolom kurang dari 100 buah. Saat ini aplikasi spreadsheet
sudah bisa menangani ribuan kolom. Jadi jangan terlalu irit dalam membuat kolom. Contoh: anda bisa menambahkan kolom berisi “jenis mata air=depresi/rekahan dll”, “cuaca=cerah/hujan dll”, “litologi=pasir/lempung”, “strike and dip” dll. Yang penting adalah sebanyak mungkin informasi yang anda ukur dan rekam di suatu lokasi observasi bisa anda terjemahkan dalam tabel data anda. Gunanya untuk apa? Banyak sekali. Salah satunya untuk keperluan filtering data.
Nama kolom pendek tapi jelas (Use short-clear headers)
Ini berkaitan dengan no 2 dan 6. Nama kolom atau column header
harus bisa masuk dalam satu baris. Untuk itu jangan terlalu panjang. Bisa disingkat saja kalau panjang. Yang terpenting, dilarang membuat nama kolom sampai menggunakan merge row
atau merge column
.
Jangan melakukan merge row
atau merge column
(Don’t merge)
Columns or rows merging must be avoided if you are planning to apply some sortings or filterings on the data.
Ini berkaitan dengan beberapa no di atas. Merge
akan mengacaukan proses filtering
, sorting
, dan manipulasi data lainnya. Kalau perlu bisa menambahkan kolom saja, jangan menggabungkan dua kolom. Proses merge
bisa dilakukan saat kita menyajikan tabel di dalam teks.
Jangan menambahkan judul tabel (Don’t add table title)
Table titles should be put in the text, not in the worksheet. Instead, put the title in the worksheet tab.
Jangan anda menambahkan judul tabel di bagian baris teratas. Tidak ada gunanya. Anda bisa memberi judul tabel di bagian sheet tab
di masing-masing lembar kerja. Judul tabel juga bisa anda berikan saat tabel sudah masuk ke teks. Ini bisa mengacaukan
analisis.
Berikan keterangan identitas kolom (Make an explanation sheet)
Remember the point of using short and clear headers, the column width will be you boundary. To solve that, generally you can make an explanation sheet to describe each of the columns you made: what you’ve measured, what was the terms and conditions when you took the measurements, etc.
Buat worksheet khusus pada file yang sama, berisi keterangan tentang setiap kolom yang anda buat. Misal: “TDS27” = data pengukuran TDS pada suhu 27 oC. Kalau anda punya 10 kolom mungkin tidak perlu, tapi kalau anda perlu 30, 40, 50 dst, di sinilah pentingnya Lembar Penjelasan (Explanation Sheet).
The following is a snapshot of a data set.