INFORMASI membanjir di era digital. Media massa berhadapan dengan platform media sosial atau media personal. Seakan setiap orang dapat menjadi narasumber dan jurnalis. Semakin demokratis sekaligus anarkis. Sisi positipnya informasi tak dimonopoli elit politik, pemodal, atau kelompok tertentu. Dari semua untuk semua. Tentu ada kelemahannya kala berita dusta tanpa data berseliweran dimana-mana.
Tak jarang sebuah akun di media sosial lebih dikenal daripada sebuah situs media massa. Tingkat penetrasinya dapat dilihat seketika. Semua berkat teknologi digital yang memiliki kemampuan machine learning dan deep learning. Pengaruh para influencer yang bermain di ranah media sosial dapat dilacak dari analisis atas big data yang mampu dilakukan oleh algoritma yang makin canggih. Generasi milenial mungkin tak mengenal lagi istilah oplah surat kabar yang tergantikan oleh data view, share, dan engagement yang dipaparkan oleh dan atas suatu kabar di platform digital.
Wajar bila ada sebagian orang yang gelisah atas goyahnya rambu-rambu jurnalisme dihantam berita palsu. Mereka masih berharap pada media massa mainstream atau media massa premium untuk menegakkan etika dalam pemberitaan atau publikasi informasi. Setidaknya publik atau konsumen berita dapat mengkonfirmasi isu-isu kritis kepada sumber-sumber yang valid dan terverifikasi.
Di sisi lain publik juga sering curiga terhadap netralitas media massa mainstream dalam penyajian berbagai isu terutama terkait politik dan bisnis. Sumber informasi alternatif menjadi rujukan banyak orang. Titik temu paling obyektif tentu ada pada data.
Maka muncullah harapan untuk membangun jurnalisme data sebagai koridor untuk membangun pers yang sehat mengimbangi gelombang informasi media sosial di platform digital. Ada yang mengatakan, data journalism adalah penciptaan berita dengan pemanfaatan big data. Ada pula yang berpendapat, jurnalisme data merupakan pemanfaatan software pengolahan data. Dalam software itu, data dianalisis dan divisualisasikan.
Definisi yang kedua mirip dengan yang dituliskan Nicolas Kayser-Bril, jurnalis data dari Eropa. Dalam Data Journalism, bersama timnya, ia menjelaskan dua tingkat pemrosesan data dalam jurnalisme, yakni: analisis data hingga menjadi jelas (memberikan sense) penyajian data untuk audiens atau pembaca.
Data dapat mendorong atau mendukung cerita, dan dapat berasal dari satu atau beberapa sumber, biasanya dalam format kumpulan data. Data sebuah cerita mungkin sudah ada atau akan dikumpulkan secara khusus untuk mendukung cerita tersebut.
Beberapa jenis sumber data tertentu mungkin menawarkan peluang unik. Misalnya, kumpulan data yang diterbitkan secara teratur mungkin diantisipasi dengan kode pemrosesan berdasarkan publikasi sebelumnya dan mengarah pada perputaran cerita yang lebih cepat setelah ketersediaannya.
Kita dapat mengenali jenis sumber data berikut umumnya di balik cerita data, terlepas dari format data tertentu. Setidaknya ada 6 jenis data sebagaimana dipaparkan berikut ini.
#1. Published (Diterbitkan): Data yang dipublikasikan secara resmi dan teratur, biasanya oleh badan yang bertanggung jawab atas pengumpulan dan distribusinya (misalnya, Kantor Statistik Nasional).
#2. Collected (Dikumpulkan): Data yang dikumpulkan dan dikumpulkan, dengan cara manual atau otomatis, oleh badan jurnalistik, dalam bentuk survei dan metode penelitian lainnya (misalnya, mengumpulkan tweet tertentu dan acara jejaring sosial lainnya secara otomatis ke dalam spreadsheet saat terjadi).
#3. Scrapped (Disisihkan): Data yang tersedia secara online (biasanya di situs web) tetapi tidak secara langsung dalam bentuk yang dapat digunakan, dan oleh karena itu ‘dipilah’ oleh sebuah proses otomatis. Ini adalah kasus khusus pengumpulan data, tetapi karena itu umum dan signifikan, itu layak untuk berdiri sendiri (misalnya mengumpulkan informasi produk dan ketersediaan dari pasar online, atau mengambil tabel dari file PDF).
#4. Hacked (Diretas): Data yang diperoleh dengan menggunakan analisis lanjutan, pengawasan, dan metode intensif pengetahuan komputasi lainnya dari sumber yang tersedia dan dilindungi (misalnya, pemantauan jaringan blockchain untuk peristiwa yang tidak biasa).
#5. Leaked (Bocor): Data yang disediakan oleh tindakan whistleblowing atau bentuk pengungkapan lainnya (mis.Wikileaks).
#6. API: Data yang diperoleh dengan menggunakan Antarmuka Pemrograman Aplikasi yang disediakan (atau ditemukan terungkap) oleh pemegang informasi (misalnya Tweet menggunakan hashtag tertentu dari waktu ke waktu, menggunakan Twitter API).
Berbagai jenis sumber data ini memberi gambaran bagaimana data dalam jurnalisme di era digital semakin menantang dan beragam sumbernya. Validasi dan verifikasi atas data tentu menjadi proses penting alias nyawa dalam jurnalisme data.