PENGERTIAN
Dilansir dari AWS, Hadoop adalah framework open source yang sangat efektif untuk menyimpan dataset dalam jumlah yang sangat besar. Selain menyimpan, framework ini tentunya juga bisa memproses data mulai dari ukuran gigabyte hingga petabyte secara efisien.
Hadoop merupakan sebuah tools framework yang dibuat oleh Google dan Apache Software Foundation yang dikhususkan untuk mempermudah pekerjaan yang terkait dengan Big Data Analytics. Hadoop bisa mengatasi segala permasalahan pengolahan Big Data yang masih dilakukan secara konvensional.
Sebelumnya, pengolahan Big Data seringkali bermasalah saat data yang diolah bersifat heterogen, seperti structured data, semi-structured data, dan unstructured data. Karena Big Data sangat penting bagi perusahaan, dibutuhkan pula pengolahan yang lebih efektif dan efisien.
Framework Hadoop hadir dan memungkinkan pengolahan data lebih banyak, menyimpan data heterogen dan mempercepat proses pengolahannya.
FITUR
Dalam Hadoop, terdapat empat modul utama yakni HDFS, YARN, MapReduce, dan Hadoop Common, berikut penjelasannya:
- Hadoop Distributed File System (HDFS) merupakan sistem yang terdistribusi dan beroperasi di hardware standar maupun low-end.
- Yet Another Resource Negotiator (YARN) merupakan sistem yang mengatur dan memonitor cluster node dan resource usage.
- MapReduce marupakan framework yang membantu program untu melakukan komputasi data secara parallel
- Hadoop Common merupakan penyedia library Java yang dapat digunakan oleh semua modul
Hadoop bekerja dengan mendistribusi dataset dalam jumlah besar ke beberapa mesin berbeda, untuk kemudian data-data ini diproses di waktu yang bersamaan.
HDFS digunakan untuk menyimpan data dan MapReduce memproses data tersebut, sementara itu YARN berfungsi untuk membagi tugas.
Dalam implementasinya, Hadoop memiliki ekosistem berupa berbagai tool dan aplikasi yang bisa membantu pengumpulan, penyimpanan, analisis, dan pengolahan Big Data.
Beberapa tools tersebut diantaranya:
- Spark
Spark merupakan processing system yang terdistribusi dan bersifat open source, dimama tools ini digunakan untuk melakukan batch processing, streamimg analytics, machine learning, graph database, dan ad hoc query.
- Presto
Seperti halnya Spark, Presto juga salah satu software yang bersifat open source. Presto sendiri meupakan SQL query engine terdistribusi yang digunakan untuk analisis data ad hoc low-latency.
Dengan Presto inilah, kita dapat memproses data dari sumber yang berbeda-beda, termasuk HDFS dan Amazon S3.
- Hive
Hive digunakan untuk MapReduce dengan interface SQL, sehingga tool ini cocok untuk analisis data dalam jumlah yang besar.
- HBase
HBase adalah database yang digunakan Amazon S3 dan HDFS. Tool ini dibuat untuk memproses table dengan baris dalam jumlah yang sangat banyak.
Dilansir dari Data Bricks, Selain keempat software tersebut, masih ada juga software lain yakni Apache, Impala, Pig, Zookeeper, Sqoop, dan Oozie.
LAYANAN
Layanan kami diperuntukan bagi yang ingin mendapatkan manfaat dari programming language tanpa ribet.
- Mulai dari program,
- Aplikasi,
- Tugas,
- Data science,
- Web app yang kompleks,
- dan lain-lain semua dalam satu layanan.
LANGKAH PENGERJAAN PROJECT
- Diskusi pekerjaan
- Diskusi Harga
- Order
- Pekerjaan dalam proses
- Review hasil
- Selesai















Reviews
There are no reviews yet.