Big Data di Perguruan Tinggi (Bagian 3)

Perangkat lunak yang handal akan selalu berdampingan dengan dukungan infrastruktur yang handal. Betapa besarnya yang ada saat ini baik data tak terstruktur maupun data yang tidak terstruktur tidak hanya sebatas ukuran kapasitas media penyimpanan yang perlu jadi pertimbangan. Tentunya ada strategi dalam menyusun mekanisme bagaimana data yang begitu banyak tersebut dapat dikelola oleh perangkat komputasi yang hebat. Perangkat keras yang hebat meliputi kecepatan processornya, arsitektur jaringan, dan sebagainya- dan sebagainya. Tidak mungkin big data berjalan sementara arsitektur sistem berjalan sama seperti manajemen data tradisional. Pastinya perlu adanya keselarasan antara kemampuan pengguna, perangkat dan proses. Masih sangat sulit untuk membayangkan baru sampai belajar No SQL menggunakan mongoDB pertanyaan muncul lagi. Seberapa besar software management data NoSQL tersebut bisa mengolahnya?. Tentunya harus didukung oleh sistem lain, apakah itu framework atau bahkan peralatan atau perangkat khusus lain.

Hadoop

Sambil berjalan menelusuri solusi Big Data dari para perusahaan besar, muncul istilah baru yaitu hadoop. Apa lagi nih ? hadoop. Sebuah sistem dengan maskot gajah. Googlingpun sudah dilakukan tapi saya masih bingung.

Kata wiki hadoop itu software framework yang digunakan untuk proses distribusi media penyimpanan dan distribusi pemrosesan data dengan skala besar dalam komputer kluster. Masih bingung? Sama saya juga masih bingung. Kita coba terjemahkan perkata. Software framework? Berarti software ini tidak sembarangan digunakan. Jangan berharap jika kita memanfaatkan software framework, jika diinstall terus aplikasi bisa digunakan end user seperti aplikasi konsol phpmyadmin, mssql management studio. Software framework pastinya software yang menyediakan library atau kumpulan objek dan fungsi untuk digunakan oleh software lain. Jadi posisi software framework membuat lapisan atau layer baru.

Bagaimana cara kerja hadoop? saya mendapatkan referensi menarik terkait haddop di youtube, https://www.youtube.com/watch?v=FHVuRxJpiwI. Data tidak disimpan pada satu tempat. Kenapa? dengan disimpan disebar dibeberapa komputer berarti ketika kita melakukan pencarian data, yang melakukan proses pencarian tidak hanya dilakukan satu komputer melainkan banyak komputer. Tentunya data-data yang disimpan di tiap komputer (node) berbeda-beda. Dengan diproses oleh tiga komputer berarti dapat menghasilkan hasil pencarian yang jauh lebih banyak sekaligus cepat. Selain itu ketika melakukan proses pencarian data hadoop ikut membantu melakukan proses penyederhanaan untuk mengelompokan hasil pencarian yang selanjutnya akan melakukan update ke tiap node, kemudian proses tersebut dikenal dengan istilah map reduce.

Jujur saja untuk mempraktekan hadoop ini saya belum mencobanya, ini jadi pr buat saya. Saya lanjut menjelaskan sesuai referensi yang sama dari youtube tersebut. Lalu bagai mana hadoop ini digunakan?, sudah cukup banyak perangkat atau tools yang memanfaatkan hadoop, RHadoop untuk analisis statistik data, Mahout , untuk NoSQL ada Hive dan Pig dan lain-lain, semuanya belum saya coba.

Secara teori bagi saya sudah mulai cukup jelas, soal dasar-dasar hadoop, Hadoop sebenarnya merupakan salah satu teknologi yang menambah isu big data semakin berkembang. Haddop begitu cepat terkenal karena bersifat opensource. Apache sang pengembang hadoop patut berbangga teknologinya banyak diadopsi para pengguna big data.

Big data sudah terlihat membesar, lalu sebenarnya kapan kita harus implementasi big data? perlu tidak kita beralih ke big data? apa manajemen database lama harus kita tinggalkan?

bersambung..