what-to-know-about-hadoop



มารู้จัก Hadoop เครื่องมือเซเลปในโลกของ Big data


Share this article

ถ้าพูดถึง Big data เครื่องมือที่จะถูกพูดถึงเป็นอันดับต้นๆในตอนนี้คงไม่พ้น Hadoop แต่เรามีความเข้าใจเกี่ยวเครื่องมือตัวนี้มากน้อยขนาดไหนกัน? ดังนั้นเราจะมาทำความเข้าใจเจ้า Hadoop แบบฉบับเข้าใจง่าย

Hadoop คือ ซอฟท์แวร์ประเภท open source ที่จัดทำขึ้นเพื่อเป็นแพลตฟอร์มในการจัดเก็บข้อมูล ซึ่งมีกรอบการทำงานเพื่อใช้ในการจัดเก็บข้อมูลและประมวลผลข้อมูลที่มีขนาดใหญ่มากๆ ที่เราเรียกกันว่า Big Data ซึ่งเจ้าตัว Hadoop เนี่ยก็สามารถปรับขยาย ยืดหยุ่น เพื่อรองรับข้อมูลที่มีจำนวนมากมายมหาศาลได้ ทั้งนี้ก็เพราะมันมีการกระบวนการประมวลผลที่แข็งแกร่งมากซึ่งเป็นผลมาจากการประมวลผลข้อมูลแบบกระจายผ่านเครื่องคอมพิวเตอร์ที่ถูกจัดอยู่ในรูปแบบ Cluster อันนำไปสู่ความสามารถในการรองรับข้อมูลที่ไม่จำกัดแถมยังมีความน่าเชื่อถือสูงอีกด้วย

ประวัติความเป็นมาของ Hadoop ต้องย้อนกลับไปในปี 2006 หลังจากที่ World Wide Web เติบโตจนถึงจุดที่การใช้งานอินเตอร์เน็ตมีการขยายวงกว้างออกไปเรื่อยๆ ผู้ค้นค้นหาข้อมูลต่างๆพอๆกับที่มีการป้อนคอนเท้นท์และข้อมูลเข้าไป ในปีนั้นเองที่ Google เริ่มมีการทำงานเกี่ยวกับการจัดเก็บข้อมูลและการประมวลผลข้อมูล Yahoo และทีมผู้พัฒนาซอฟท์แวร์จึงได้มีการเริ่มต้นพัฒนา Hadoop ขึ้น ซึ่งชื่อนี้มีที่มาจากชื่อของเล่นของลูกชายหัวหน้าทีมผู้พัฒนานั้นเอง จากนั้นในปี 2008, Yahoo ก็ได้ปล่อย Hadoop ออกสู่สาธารณชนในฐานะ open-source project ต่อมา Hadoop จึงตกอยู่ภายใต้การดูแลขององค์กรที่ไม่แสวงหาผลกำไรอย่าง Apache Software Foundation (ASF) อย่างที่เห็นในปัจจุบัน

ในส่วนของการทำงาน โครงสร้างของ Hadoop จะเป็นแบบ Cluster โดยแบ่งออกเป็น 2 ส่วนคือ Master server และ Slave server ซึ่งมีการทำงานหลักๆอยู่ 3 ส่วนด้วยกัน ได้แก่

  1. Cluster management
  2. Storage
  3. Processing

Hadoop มีดียังไง?

1. ความสามารถในการรองรับการจัดเก็บข้อมูลขนาดใหญ่มากๆทุกประเภทได้อย่างรวดเร็ว –  ด้วยปริมาณข้อมูลในปัจจุบันที่เพิ่มขึ้นอย่างต่อเนื่อง โดยเฉพาะจากแหล่งอย่างโซเชี่ยลมีเดีย และ Internet of Things (IoT) คุณสมบัติข้อนี้ของ Hadoop จึงสำคัญมาก

2. พลังแห่งการประมวลผล – ด้วยรูปแบบการประมวลผลที่รวดเร็วจากการทำงานแบบ Cluster จึงทำให้ Hadoop กลายเป็นแพลตฟอร์มที่เป็นที่นิยมอย่างกว้างขวางในปัจจุบัน

3. มีระบบรองรับความผิดพลาด – ด้วยการทำงานแบบ Cluster เมื่อ node ใด node หนึ่งพังลง งานที่มีการทำอยู่ในระบบจะถูกส่งไปยัง node อื่นทันทีเพื่อให้เกิดความต่อเนื่อง รวมถึงระบบเองยังมีการทำก็อปปี้ข้อมูลเก็บไว้แบบอัตโนมัติหลายชุดอีกด้วย

4. ความยืดหยุ่นในการใช้งาน – Hadoop แตกต่างจากระบบฐานข้อมูลดั้งเดิม ที่ต้องมีการแยกประเภทของข้อมูลคร่าวๆก่อนการจัดเก็บ สำหรับ Hadoop เราจะเก็นข้อมูลประเภทไหนก็ได้ มากเท่าไหร่ก็ได้ทันที โดยไม่ต้องมีการแยกประเภทล่วงหน้าแถมยังสามารถเลือกได้อีกว่าจะเอาไปใช้งานด้านใด

5. ต้นทุนต่ำ – เพราะเป็นแพลตฟอร์มแบบ open-source จึงสามารถนำมาใช้งานได้ฟรี!

6. ความสามารถในการขยายการรองรับข้อมูลได้ไม่สิ้นสุด – แค่เพิ่ม node เข้าไปก็สามารถรองรับการจัดเก็บข้อมูลไปได้เรื่อยๆตามแต่เราต้องการ

เครื่องมือที่สามารถทำงานร่วมกันกับ Hadoop ได้

  • Spark
  • NoSQL
  • Pig
  • Samza
  • Hive
  • Cascading
  • etc.

อย่างที่เรารู้กันว่าในปัจจุบันการเติบโตของข้อมูลนั้นมีมากขึ้นเรื่อยๆและไม่มีทีท่าว่าจะหยุด ในปัจจุบันแค่เฉพาะข้อมูลที่เป็นสาธารณะแค่เว็บเดียวอย่าง wikipedia ก็มีข้อมูลมากมายมหาศาลแล้ว ในอนาคต Hadoop จึงจะยังคงมีบทบาทสำคัญในโลกของ Big Data ไม่ต่างจากในปัจจุบัน

Cr. sas.com, buzzle.com, blog.westmonroepartners.com, xoomtrainings.com, cuelogic.com

READ  Big Data คืออะไร ทำไมถึงเรียก Big Data?

ลงทะเบียนรับข่าวสาร

ไม่พลาดทุกการอัพเดทจาก Big Data Experience Center

Big Data Experience Center (BX)

ชั้น 14 อาคาร Knowledge Exchange Center (KX)
110/1 ถนนกรุงธนบุรี, แขวงบางลำภูล่าง เขตคลองสาน กรุงเทพฯ 10600
อีเมล์: [email protected]