what-to-know-about-hadoop



มารู้จัก Hadoop เครื่องมือเซเลปในโลกของ Big data


Share this article

ถ้าพูดถึง Big data เครื่องมือที่จะถูกพูดถึงเป็นอันดับต้นๆในตอนนี้คงไม่พ้น Hadoop แต่เรามีความเข้าใจเกี่ยวเครื่องมือตัวนี้มากน้อยขนาดไหนกัน? ดังนั้นเราจะมาทำความเข้าใจเจ้า Hadoop แบบฉบับเข้าใจง่าย

Hadoop คือ ซอฟท์แวร์ประเภท open source ที่จัดทำขึ้นเพื่อเป็นแพลตฟอร์มในการจัดเก็บข้อมูล ซึ่งมีกรอบการทำงานเพื่อใช้ในการจัดเก็บข้อมูลและประมวลผลข้อมูลที่มีขนาดใหญ่มากๆ ที่เราเรียกกันว่า Big Data ซึ่งเจ้าตัว Hadoop เนี่ยก็สามารถปรับขยาย ยืดหยุ่น เพื่อรองรับข้อมูลที่มีจำนวนมากมายมหาศาลได้ ทั้งนี้ก็เพราะมันมีการกระบวนการประมวลผลที่แข็งแกร่งมากซึ่งเป็นผลมาจากการประมวลผลข้อมูลแบบกระจายผ่านเครื่องคอมพิวเตอร์ที่ถูกจัดอยู่ในรูปแบบ Cluster อันนำไปสู่ความสามารถในการรองรับข้อมูลที่ไม่จำกัดแถมยังมีความน่าเชื่อถือสูงอีกด้วย

ประวัติความเป็นมาของ Hadoop ต้องย้อนกลับไปในปี 2006 หลังจากที่ World Wide Web เติบโตจนถึงจุดที่การใช้งานอินเตอร์เน็ตมีการขยายวงกว้างออกไปเรื่อยๆ ผู้ค้นค้นหาข้อมูลต่างๆพอๆกับที่มีการป้อนคอนเท้นท์และข้อมูลเข้าไป ในปีนั้นเองที่ Google เริ่มมีการทำงานเกี่ยวกับการจัดเก็บข้อมูลและการประมวลผลข้อมูล Yahoo และทีมผู้พัฒนาซอฟท์แวร์จึงได้มีการเริ่มต้นพัฒนา Hadoop ขึ้น ซึ่งชื่อนี้มีที่มาจากชื่อของเล่นของลูกชายหัวหน้าทีมผู้พัฒนานั้นเอง จากนั้นในปี 2008, Yahoo ก็ได้ปล่อย Hadoop ออกสู่สาธารณชนในฐานะ open-source project ต่อมา Hadoop จึงตกอยู่ภายใต้การดูแลขององค์กรที่ไม่แสวงหาผลกำไรอย่าง Apache Software Foundation (ASF) อย่างที่เห็นในปัจจุบัน

ในส่วนของการทำงาน โครงสร้างของ Hadoop จะเป็นแบบ Cluster โดยแบ่งออกเป็น 2 ส่วนคือ Master server และ Slave server ซึ่งมีการทำงานหลักๆอยู่ 3 ส่วนด้วยกัน ได้แก่

  1. Cluster management
  2. Storage
  3. Processing

Hadoop มีดียังไง?

1. ความสามารถในการรองรับการจัดเก็บข้อมูลขนาดใหญ่มากๆทุกประเภทได้อย่างรวดเร็ว –  ด้วยปริมาณข้อมูลในปัจจุบันที่เพิ่มขึ้นอย่างต่อเนื่อง โดยเฉพาะจากแหล่งอย่างโซเชี่ยลมีเดีย และ Internet of Things (IoT) คุณสมบัติข้อนี้ของ Hadoop จึงสำคัญมาก

2. พลังแห่งการประมวลผล – ด้วยรูปแบบการประมวลผลที่รวดเร็วจากการทำงานแบบ Cluster จึงทำให้ Hadoop กลายเป็นแพลตฟอร์มที่เป็นที่นิยมอย่างกว้างขวางในปัจจุบัน

3. มีระบบรองรับความผิดพลาด – ด้วยการทำงานแบบ Cluster เมื่อ node ใด node หนึ่งพังลง งานที่มีการทำอยู่ในระบบจะถูกส่งไปยัง node อื่นทันทีเพื่อให้เกิดความต่อเนื่อง รวมถึงระบบเองยังมีการทำก็อปปี้ข้อมูลเก็บไว้แบบอัตโนมัติหลายชุดอีกด้วย

4. ความยืดหยุ่นในการใช้งาน – Hadoop แตกต่างจากระบบฐานข้อมูลดั้งเดิม ที่ต้องมีการแยกประเภทของข้อมูลคร่าวๆก่อนการจัดเก็บ สำหรับ Hadoop เราจะเก็นข้อมูลประเภทไหนก็ได้ มากเท่าไหร่ก็ได้ทันที โดยไม่ต้องมีการแยกประเภทล่วงหน้าแถมยังสามารถเลือกได้อีกว่าจะเอาไปใช้งานด้านใด

5. ต้นทุนต่ำ – เพราะเป็นแพลตฟอร์มแบบ open-source จึงสามารถนำมาใช้งานได้ฟรี!

6. ความสามารถในการขยายการรองรับข้อมูลได้ไม่สิ้นสุด – แค่เพิ่ม node เข้าไปก็สามารถรองรับการจัดเก็บข้อมูลไปได้เรื่อยๆตามแต่เราต้องการ

เครื่องมือที่สามารถทำงานร่วมกันกับ Hadoop ได้

  • Spark
  • NoSQL
  • Pig
  • Samza
  • Hive
  • Cascading
  • etc.

อย่างที่เรารู้กันว่าในปัจจุบันการเติบโตของข้อมูลนั้นมีมากขึ้นเรื่อยๆและไม่มีทีท่าว่าจะหยุด ในปัจจุบันแค่เฉพาะข้อมูลที่เป็นสาธารณะแค่เว็บเดียวอย่าง wikipedia ก็มีข้อมูลมากมายมหาศาลแล้ว ในอนาคต Hadoop จึงจะยังคงมีบทบาทสำคัญในโลกของ Big Data ไม่ต่างจากในปัจจุบัน

Cr. sas.com, buzzle.com, blog.westmonroepartners.com, xoomtrainings.com, cuelogic.com

READ  5 วิถีแบบ Big Data ที่ช่วยทำให้ชีวิตของเรา...ง่าย ขึ้น

ลงทะเบียนรับข่าวสาร

ไม่พลาดทุกการอัพเดทจาก Big Data Experience Center

Big Data Experience Center (BX)

ชั้น 14 อาคาร Knowledge Exchange Center (KX)
110/1 ถนนกรุงธนบุรี, แขวงบางลำภูล่าง เขตคลองสาน กรุงเทพฯ 10600
อีเมล์: [email protected]