• Sample Page
  • Archives
  • Categories
  • SAS dan Hadoop -1

    2021 - 02.03

    Hadoop

    Hadoop adalah salah satu software open-source dari Apache yang di rancang untuk pemrograman secara kluster, bermanfaat untuk distribusi data dan memproses data berukuran besar atau big data. Jadi efisiensi dari pada memproses data menggunakan satu komputer, pemrosesan bisa digunakan beberapa komputer yang sudah terinstall hadoop. Penganalisisan data bisa dilakukan menggunakan data terdistribusi pada komputer yang telah terinstall hadoop, menghasilkan proses yang lebih efisien.

    Kluster Hadoop terdiri dari ‘NameNode’, backup dari ‘NameNode’, dan beberapa node berisi data. Masing-masing node pada kluster memiliki memory, CPU, dan disk storage. Node pada kluster dapat ditambah kurangi sesuai kebutuhan.

     

    Ada tiga komponen utama pada Hadoop yaitu, HDFS, Yarn, dan MapReduce. Komponen tersebut akan memproses pembacaan, penulisan, dan pemrosesan data secara otomatis. Berarti programmer dapat menulis progrram untuk mengolah data pada satu komputer dan terdistribusi melalui Hadoop.

    Hadoop memiliki beberapa fitur utama yang membuatnya sangat menarik sebagai bagian dari solusi teknologi big data. Misalnya: sistem Hadoop mudah untuk digunakan, open-source, dan penyimpanan yang terdistribusi, menyebabkan biaya untuk operasional yang rendah. Data tereplikasi di beberapa node untuk membuatnya toleran terhadap kesalahan. Hadoop mendukung pemrosesan paralel, cocok untuk melakukan analisis pada volume data yang sangat besar. Dan Hadoop mudah diskalakan. Ini diskalakan dengan baik untuk menangani sejumlah besar data, dan mudah diperluas dengan menambahkan lebih banyak node penyimpanan ke dalam kluster.

    SAS memiliki poin integrasi yang membuat penggunaan Hadoop tidak terlalu asing. Pernyataan LIBNAME, prosedur SAS, dan transformasi Data Integration Studio adalah beberapa contoh integrasi SAS yang dapat digunakan untuk berinteraksi dengan Hadoop.

    HDFS

    Ada tiga modul inti pada Hadoop:

    • Hadoop Distributed File System, atau HDFS adalah sistem file virtual yang digunakan untuk mendistribusikan file di seluruh kluster Hadoop.
    • YARN adalah sistem yang menangani permintaan pekerjaan, meluncurkan pekerjaan atau menempatkan permintaan pekerjaan dalam antrian, dan mengalokasikan penggunaan sumber daya dalam klaster.
    • MapReduce adalah modul yang menyelesaikan pemrosesan data paralel terdistribusi dalam HDFS.

    Setiap file dalam HDFS didistribusikan di seluruh node data Hadoop dalam bentuk blok. NameNode berisi informasi tentang di mana data berada di setiap DataNode. Meskipun tidak digambarkan dalam diagram, data direplikasi dalam HDFS untuk mendukung toleransi kesalahan. Secara default, setiap blok file dalam HDFS direplikasi pada tiga node data lainnya. Jika ada DataNode yang down, data cadangan tersedia untuk digunakan.

    Salah satu cara pengguna dapat berinteraksi dengan HDFS adalah dengan mengirimkan perintah sistem file Hadoop dari prompt perintah Linux.

    Contoh dari HDFS commands:

    Map Reduce

    Jika HDFS mengotomatiskan proses penyimpanan data terdistribusi, maka sistem MapReduce mengotomatiskan pemrosesan terdistribusi. Untuk setiap proses, sistem MapReduce mengoordinasikan serangkaian tugas yang dijalankan secara paralel di seluruh kluster. Proses MapReduce terjadi dalam tiga tahap: map, shuffle dan sort, dan reduce. Setiap proses melakukan operasi tertentu. Pada tahapan map menginisiasi pembacaan blok data dalam HDFS. Tahapan map juga menyelesaikan operasi perbaris data termasuk memfilter baris atau menghitung kolom baru dalam baris. Tahapan shuffle dan sort digunakan untuk mengurutkan dan mengelompokkan baris pada data yang diperlukan. Terakhir, tahapreduce digunakan untuk melakukan penghitungan akhir, termasuk menghitung statistik ringkasan dalam grup. Pada tahap reduce juga menulis hasil akhir data dalam bentuk HDFS.

    Convolutional Neural Network pada Natural Language Processing

    2021 - 01.26

    Apa itu NLP

    Natural Language Processing (NLP) adalah salah satu cabang dari kecerdasan buatan (Artificial Intellegence) yang memproses bahasa alami manusia, atau bahasa yang digunakan manusia dalam berkomunikasi agar dapat berinteraksi dengan mesin dan dipahami oleh mesin.

    Bahasa manusia yang diproses berbentuk teks atau dokumen yang akan diproses oleh mesin untuk dapat memahami dan berinteraksi dengan manusia.

    NLP dapat dilakukan dengan berbagai cara, salah satunya menggunakan metode algoritma neural network

    Apa itu CNN?

    Convolutional Neural Network adalah salah satu jenis neural network dengan konsep konvolusi, yaitu sebuah matrix yang akan meng extraksi fitur dari matrix input.

    Convolution with 3×3 Filter. Source: http://deeplearning.stanford.edu/wiki/index.php/Feature_extraction_using_convolution

    Sehingga hasil dari matriks konvolusi merupakan fitur penting dari input yang lebih sederhana.

    CNN merupakan kumpulan neuron konvolusi yang berlapis dengan penambahan fungsi aktivasi non-linear seperti ReLU atau tanh. Lapisan konvolusi saling terhubung satu sama lain, jumlah lapisan konvolusi pada model dapat disesuaikan sesuai kebutuhan pada data. Penerapan CNN biasa dilakukan pada gambar dengan input matrix merupakan nilai piksel pada gambar.

    Ada dua aspek dari perhitungan algoritma ini yang perlu diperhatikan: Location Invariance dan Compositionality. Contohnya pada kasus pengklasifikasian gambar dengan tujuan mengklasifikasikan apakah ada gajah dalam sebuah gambar atau tidak. Dalam praktiknya, penggabungan juga memberi invariansi untuk terjemahan, rotasi, dan penskalaan. Aspek kunci kedua adalah komposisi (lokal). Setiap filter menyusun patch lokal dari fitur tingkat yang lebih rendah menjadi representasi tingkat yang lebih tinggi. Itulah mengapa CNN sangat kuat dalam Computer Vision. CNN dapat menganalisi data tepi dari piksel, bentuk dari tepi, dan objek yang lebih kompleks dari gambar yang dipelajari.

    CNN pada NLP

    Pada natural language processing dimana data yang diproses adalah teks atau dokumen. Nilai matrix dari input pengganti piksel pada gambar adalah data karakter pada teks atau dokumen.

    Jika pada gambar ada nilai piksel berdasarkan nilai rgb atau b/w maka pada nlp perlu dilakukan encode karakter untuk merubah karakter menjadi nilai vektor matrix yang merepresentasikan karakter tersebut, secara sederhana untuk membuat mesin mengerti bahwa karakter ‘A’ direpresentasikan berbentuk nilai vektor. Proses tersebut dapat disebut juga pembobotan data atau word embedding.

    Pembobotan data dapat dilakukan dengan menggunakan library pada python Word2Vec atau Glove. Bisa juga menggunakan metode one-hot vector. Hasil representasi vektor dari data itulah yang akan menjadi matrix input untuk dilakukan proses konvolusi menggunakan metode CNN.

     

    source : http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/

     

    2019 - 04.20

    I realized how today we can’t live peacefully when we turned of the internet

    Random

    2019 - 03.13

    These days weren’t really good…
    I feel like I’m immersed in my lazy habits
    I used to be good at several things when I was young, just a bit of effort I can do anything good, I never have a problem studying since I don’t want to be the first place too, but now I think everything is different, I’m not what I used to be or just this world getting harder
    I realized that it was very difficult to be a good person, sometimes I thought ‘do I have to be a good person to survive?’
    I found a quote that really represents how I live, it said,
    ‘I didn’t even ask to be born, so why do I have to study hard then choose carrier just to be survived’
    When I read it, I think like ‘OMG, it’s really me’ lol
    But I still believe, this life is worth to live
    *I’m not good at English, still learning XD

    Neo Bank

    2019 - 03.13

    Neo Bank is a bank with a different system

    Got curious?

    https://drive.google.com/open?id=1ilBzaD8NRR7suyNjCPaS2t4TY-2201r6

    What to do with this blog

    2019 - 02.22

    I made this blog just for the fulfillment of an assignment, and I wonder what can I do after that

    I always have a problem with expressing myself, since I’m an introvert person and not have much social interaction in my life

    So, I guess I’ll try to use this blog and writing anything that come through my mind

    miss home

    2018 - 12.24

    hi, well i have been stuck in some problem with my internship’s project
    So, i randomly read my browsing history and found this blog that i made for one of my favorite subject in fourth semester
    Maybe write something could refresh my mind and give me some idea to solve this annoying problem

    So, this semester break i have no chance to back home because of my internship schedule 🙁
    even that i have friends in here with the same problem, still it feels lonely, because i only have a chance once per semester, and i want to celebrate my lil sister seventeen birthday, very sad because of that. I realized that in the future i may not have many opportunities to visit my family

    Hello world!

    2018 - 05.19

    Selamat datang di Blog Universitas Padjadjaran. Ini adalah artikel pertama Anda.