ความแตกต่างระหว่างหมูกับไฮฟ์? ทำไมถึงมีทั้งคู่? [ปิด]


256

ภูมิหลังของฉัน - อายุ 4 สัปดาห์ในโลก Hadoop ตบเบา ๆ ใน Hive, Pig และ Hadoop โดยใช้ Hadoop VM ของ Cloudera อ่านกระดาษของ Google บน Map-Reduce และ GFS ( ลิงก์ PDF )

ฉันเข้าใจ-

  • ภาษาของหมู Pig Latin เป็นการเปลี่ยนจาก (เหมาะสมกับวิธีที่โปรแกรมเมอร์คิด) SQL เช่นเดียวกับรูปแบบการประกาศของการเขียนโปรแกรมและภาษาแบบสอบถามของ Hive นั้นคล้ายกับ SQL

  • หมูนั่งอยู่ด้านบนของ Hadoop และในหลักการก็สามารถนั่งบนนางดาด ฉันอาจจะผิด แต่ Hive นั้นอยู่คู่กับ Hadoop อย่างใกล้ชิด

  • คำสั่ง Pig Latin และ Hive ทั้งคู่รวบรวมแผนที่และลดงาน

คำถามของฉัน - อะไรคือเป้าหมายของการมีทั้งคู่เมื่อหนึ่ง (หมูพูด) สามารถตอบสนองวัตถุประสงค์ มันเป็นเพียงเพราะหมูได้รับการประกาศโดย Yahoo! และไฮฟ์โดย Facebook?


24
ไฮฟ์ใช้สำหรับข้อมูลที่มีโครงสร้าง Pig สำหรับข้อมูลที่ไม่มีโครงสร้าง
โปรแกรมเมอร์ที่ตายแล้ว

คำตอบ:


151

ลองดูโพสต์นี้จาก Alan Gates สถาปนิกของ Pig ที่ Yahoo! ซึ่งเปรียบเทียบว่าเมื่อใดจะใช้ SQL เช่น Hive แทนที่จะเป็น Pig เขาสร้างกรณีที่น่าเชื่อถืออย่างมากเกี่ยวกับประโยชน์ของภาษาขั้นตอนเช่น Pig (เทียบกับ SQL ที่ประกาศไว้) และยูทิลิตี้สำหรับนักออกแบบดาต้าโฟลว์


Alan ยังมีบทความที่พูดถึง Hive เป็นพิเศษเช่นเดียวกับ j03m ที่แชร์ด้านล่าง สิ่งดีๆจากเขา!
Dolan Antenucci

14
ไฮฟ์ใช้สำหรับข้อมูลที่มีโครงสร้าง Pig สำหรับข้อมูลที่ไม่มีโครงสร้าง
โปรแกรมเมอร์ที่เสียชีวิต

7
ฉันสับสน คุณหมายถึงพูดว่า "[... ] ประโยชน์ของภาษาที่ใช้ในขั้นตอนเช่นหมู" หรือไม่? เพราะบทความอ้างซ้ำ ๆ ว่า "Pig Latin เป็นขั้นตอน"
Matt Fenwick

4
ฉันไม่แน่ใจว่าเป็นเรื่องชั่วคราวหรือไม่ แต่ดูเหมือนว่าบทความจะหายไป คุณสามารถอัพเดทลิงค์ได้หรือไม่ (ฉันหามันไม่เจอด้วยการค้นหาด่วน)
Peter Klipfel

1
Alan Gates โพสต์อยู่ที่นี่ .. โปรดเข้าไปที่ .. developer.yahoo.com/blogs/hadoop/…
Mr.Chowdary

57

Hive ได้รับการออกแบบมาเพื่อดึงดูดชุมชนที่คุ้นเคยกับ SQL ปรัชญาของมันคือเราไม่ต้องการภาษาสคริปต์อีกภาษาหนึ่ง ไฮฟ์สนับสนุนการแม็พและลดการแปลงสคริปต์ในภาษาของตัวเลือกของผู้ใช้ (ซึ่งสามารถฝังใน SQL clauses) มันถูกใช้อย่างกว้างขวางใน Facebook โดยนักวิเคราะห์ที่คุ้นเคยกับ SQL รวมถึงการเขียนโปรแกรม data miners ใน Python ความพยายามในการใช้งานร่วมกันของ SQL ใน Pig ได้ถูกยกเลิก AFAIK ดังนั้นความแตกต่างระหว่างสองโครงการจึงมีความชัดเจนมาก

การสนับสนุนไวยากรณ์ SQL ยังหมายถึงความเป็นไปได้ที่จะรวมเข้ากับเครื่องมือ BI ที่มีอยู่เช่น Microstrategy Hive มีโปรแกรมควบคุม ODBC / JDBC (กำลังดำเนินการอยู่) ซึ่งจะช่วยให้สิ่งนี้เกิดขึ้นในอนาคตอันใกล้ นอกจากนี้ยังเริ่มเพิ่มการสนับสนุนสำหรับดัชนีซึ่งควรอนุญาตการสนับสนุนการสืบค้นแบบเจาะลึกที่พบได้ทั่วไปในสภาพแวดล้อมเช่นนั้น

ในที่สุด - นี่ไม่เกี่ยวข้องกับคำถามโดยตรง - Hive เป็นกรอบการทำงานสำหรับการสอบถามการวิเคราะห์ ในขณะที่การใช้งานที่โดดเด่นของมันคือการสืบค้นไฟล์แฟลต แต่ก็ไม่มีเหตุผลใดที่มันไม่สามารถสืบค้นร้านค้าอื่น ๆ ได้ ปัจจุบัน Hive สามารถใช้เพื่อค้นหาข้อมูลที่เก็บใน Hbase (ซึ่งเป็นที่เก็บคีย์ - ค่าเช่นที่พบใน guts ของ RDBMS ส่วนใหญ่) และโครงการ HadoopDB ใช้ Hive เพื่อสอบถาม RDBMS แบบรวม


37

ฉันพบสิ่งนี้มีประโยชน์มากที่สุด (แม้ว่าจะเป็นปีเก่า) - http://yahoohadoop.tumblr.com/post/98256601751/pig-and-hive-at-yahoo

โดยเฉพาะพูดถึงเกี่ยวกับ Pig vs Hive และเวลาและสถานที่ที่พวกเขาทำงานที่ Yahoo ฉันพบสิ่งนี้ลึกซึ้งมาก หมายเหตุที่น่าสนใจ:

เมื่อมีการเปลี่ยนแปลง / อัพเดทชุดข้อมูลเพิ่มเติม:

การเข้าร่วมกับข้อมูลที่เพิ่มขึ้นใหม่และการใช้ผลลัพธ์ร่วมกับผลลัพธ์จากการเข้าร่วมแบบเต็มก่อนหน้านั้นเป็นวิธีที่ถูกต้อง ขั้นตอนนี้ใช้เวลาเพียงไม่กี่นาที การดำเนินการฐานข้อมูลมาตรฐานสามารถดำเนินการในลักษณะที่เพิ่มขึ้นนี้ใน Pig Latin ทำให้ Pig เป็นเครื่องมือที่ดีสำหรับกรณีการใช้งานนี้

เมื่อใช้เครื่องมืออื่นผ่านการสตรีม:

การผสานรวมกับการสตรีมมิ่งทำให้นักวิจัยสามารถใช้สคริปต์ Perl หรือ Python ที่พวกเขาดีบั๊กแล้วในชุดข้อมูลขนาดเล็กและรันกับชุดข้อมูลขนาดใหญ่

เมื่อใช้ Hive สำหรับการทำคลังข้อมูล:

ในทั้งสองกรณีโมเดลเชิงสัมพันธ์และ SQL นั้นเหมาะสมที่สุด ที่จริงแล้วคลังข้อมูลนั้นเป็นหนึ่งในกรณีการใช้งานหลักของ SQL ตลอดประวัติศาสตร์ที่ผ่านมา มีโครงสร้างที่ถูกต้องเพื่อรองรับประเภทของแบบสอบถามและเครื่องมือที่นักวิเคราะห์ต้องการใช้ และมีการใช้งานโดยทั้งเครื่องมือและผู้ใช้ในฟิลด์แล้ว

โครงการย่อย Hadoop Hive จัดเตรียมอินเตอร์เฟส SQL และโมเดลเชิงสัมพันธ์สำหรับ Hadoop ทีม Hive เริ่มทำงานเพื่อรวมเข้ากับเครื่องมือ BI ผ่านอินเทอร์เฟซเช่น ODBC


1
+1 ดีมากที่จะเห็นการเปรียบเทียบจาก Yahoo ซึ่งเป็นจากสิ่งที่ฉันเข้าใจผู้สร้างดั้งเดิมของ Pig หรืออย่างน้อยก็เป็นผู้สนับสนุนที่ยิ่งใหญ่มาก แก้ไข: จาก Jakob ด้านบนฉันเห็นว่าผู้แต่ง (Alan Gates) เป็น Pig Architect ที่ Yahoo - แบ่งปันดีมาก :)
Dolan Antenucci

3
ลิงค์ตาย ผมคิดว่า URL ที่ถูกต้องในขณะนี้คือhttps://developer.yahoo.com/blogs/hadoop/pig-hive-yahoo-464.html
agarie

1
ลิงก์ที่อัปเดตต่อไป
j03m


ไม่พบลิงก์ 2 รายการที่แบ่งปันด้านบน
Keshav Pradeep Ramanath

28

ดูที่การเปรียบเทียบPig Vs Hiveในเปลือกถั่วจากบทความ "dezyre"

Hiveดีกว่าPIGใน: พาร์ติชันเซิร์ฟเวอร์ส่วนต่อประสานเว็บ & การสนับสนุน JDBC / ODBC

ความแตกต่างบางประการ:

  1. Hiveดีที่สุดสำหรับโครงสร้างข้อมูล & PIGดีที่สุดสำหรับข้อมูลกึ่งโครงสร้าง

  2. Hiveใช้สำหรับการรายงาน & PIGสำหรับการเขียนโปรแกรม

  3. Hiveใช้เป็นSQL & PIG ที่เปิดเผยเป็นภาษาที่ใช้ในการดำเนินการ

  4. Hiveรองรับพาร์ติชัน & PIGไม่ได้

  5. Hiveสามารถเริ่มต้นเซิร์ฟเวอร์ที่ใช้ตัวเลือกประหยัดและPIGไม่สามารถทำได้

  6. Hiveกำหนดตารางล่วงหน้า ( schema ) + เก็บข้อมูล schema ในฐานข้อมูล & PIGไม่มีข้อมูลเมตาเฉพาะของฐานข้อมูล

  7. ไฮฟ์ไม่สนับสนุนรว์แต่หมูไม่ แก้ไข: Hive รองรับ Avro ระบุ serde เป็น org.apache.hadoop.hive.serde2.avro

  8. PigยังรองรับคุณสมบัติCOGROUPเพิ่มเติมสำหรับการทำการรวมภายนอก แต่กลุ่มไม่ได้ แต่ทั้งHive & PIGสามารถเข้าร่วมเรียงลำดับและจัดเรียงได้แบบไดนามิก


17

ฉันเชื่อว่าคำตอบที่แท้จริงสำหรับคำถามของคุณคือพวกเขา / เป็นโครงการอิสระและไม่มีเป้าหมายการประสานงานจากส่วนกลาง พวกเขาอยู่ในพื้นที่ที่แตกต่างกันในช่วงต้นและมีการทับซ้อนกับเวลาที่ทั้งสองโครงการขยายตัว

ถอดความจากหนังสือ Hadoop O'Reilly:

Pig: ภาษา dataflow และสภาพแวดล้อมสำหรับการสำรวจชุดข้อมูลที่มีขนาดใหญ่มาก

Hive: คลังข้อมูลแบบกระจาย


22
Hive ไม่เหมือน RDBMS มันประมวลผลไฟล์แบนเช่นเดียวกับหมู พวกเขาทั้งคู่ทำสิ่งเดียวกัน ดูเครื่องมือเพิ่มประสิทธิภาพที่ใช้เมื่อรวบรวมงานเนื่องจากเป็นความแตกต่างที่แท้จริงมากที่สุด
Steve Severance

12

คุณสามารถบรรลุผลลัพธ์ที่คล้ายกันด้วยการค้นหาหมู / รัง ความแตกต่างที่สำคัญอยู่ภายในแนวทางในการทำความเข้าใจ / เขียน / สร้างแบบสอบถาม

หมูมีแนวโน้มที่จะสร้างการไหลของข้อมูล: ขั้นตอนเล็ก ๆ ที่ในแต่ละการประมวลผลของ
คุณ Hive ให้คุณใช้ภาษา SQL ในการทำงานกับข้อมูลของคุณดังนั้นการแปลงจาก RDBMS นั้นง่ายกว่ามาก ด้วย SQL)

นอกจากนี้ยังเป็นที่น่าสังเกตว่าสำหรับ Hive คุณสามารถใช้อินเทอร์เฟซที่ดีในการทำงานกับข้อมูลนี้ (Beeswax สำหรับ HUE หรือ Hive เว็บอินเตอร์เฟส) และมันยังช่วยให้คุณทราบข้อมูลเกี่ยวกับข้อมูลของคุณ (schema ฯลฯ ) ซึ่งเป็นประโยชน์ ข้อมูลกลางเกี่ยวกับข้อมูลของคุณ

ฉันใช้ทั้ง Hive และ Pig สำหรับการสืบค้นที่แตกต่างกัน (ฉันใช้สิ่งที่ฉันสามารถเขียนแบบสอบถามได้เร็วขึ้น / ง่ายขึ้นฉันใช้วิธีนี้โดยส่วนใหญ่เป็นการค้นหาแบบเฉพาะกิจ) - พวกเขาสามารถใช้ข้อมูลเดียวกันเป็นอินพุตได้ แต่ตอนนี้ฉันทำงานผ่าน Beeswax เป็นจำนวนมาก


12

Pig อนุญาตให้โหลดข้อมูลและรหัสผู้ใช้ ณ จุดใดก็ได้ในไปป์ไลน์ สิ่งนี้มีความสำคัญอย่างยิ่งหากข้อมูลนั้นเป็นข้อมูลสตรีมมิ่งเช่นข้อมูลจากดาวเทียมหรือเครื่องมือ

Hive ซึ่งใช้ RDBMS ต้องการข้อมูลที่จะนำเข้าก่อน (หรือโหลด) และหลังจากนั้นสามารถทำงานได้ ดังนั้นหากคุณใช้ Hive ในการสตรีมข้อมูลคุณจะต้องทำการเติมถัง (หรือไฟล์) และใช้กลุ่มบนที่ฝากข้อมูลเต็มถังในขณะที่ใช้ที่เก็บข้อมูลอื่น ๆ เพื่อเก็บข้อมูลที่เพิ่งมาถึง

หมูยังใช้การประเมินแบบขี้เกียจ มันช่วยให้การเขียนโปรแกรมง่ายขึ้นและสามารถใช้ในการวิเคราะห์ข้อมูลในรูปแบบต่าง ๆ ที่มีอิสระมากกว่าใน SQL เช่นภาษาเช่น Hive ดังนั้นหากคุณต้องการวิเคราะห์เมทริกซ์หรือรูปแบบในข้อมูลที่ไม่มีโครงสร้างบางอย่างและต้องการทำการคำนวณที่น่าสนใจกับ Pig คุณสามารถไปได้ไกลพอสมควรในขณะที่ใช้ Hive คุณต้องมีอย่างอื่นที่จะเล่นกับผลลัพธ์

หมูจะเร็วกว่าในการนำเข้าข้อมูล แต่ช้ากว่าในการดำเนินการจริงกว่าภาษาที่เป็นมิตรของ RDBMS เช่น Hive

หมูเหมาะกับการขนานและมันอาจมีข้อได้เปรียบสำหรับระบบที่ชุดข้อมูลมีขนาดใหญ่มากเช่นในระบบที่คุณมีความกังวลเกี่ยวกับปริมาณงานของผลลัพธ์มากกว่าเวลาแฝง (เวลาที่จะได้รับผลตัวเลขใด ๆ )


10

Hive Vs Pig-

Hive เป็นอินเทอร์เฟซ SQL ที่ช่วยให้ผู้ใช้ที่มีความเข้าใจใน sql หรือเครื่องมืออื่น ๆ เช่น Tableu / Microstrategy / เครื่องมือหรือภาษาอื่น ๆ ที่มีอินเตอร์เฟส sql ..

PIG นั้นเหมือนไปป์ไลน์ ETL ด้วยคำสั่งทีละขั้นตอนเช่นการประกาศตัวแปรวนลูปการวนซ้ำประโยคคำสั่งแบบมีเงื่อนไขเป็นต้น

ฉันชอบเขียนสคริปต์ Pig มากกว่ากลุ่ม QL เมื่อฉันต้องการเขียนตรรกะทีละขั้นตอนที่ซับซ้อน เมื่อฉันรู้สึกสะดวกสบายที่จะเขียน sql เดี่ยวสำหรับดึงข้อมูลที่ฉันต้องการฉันใช้ Hive สำหรับรังผึ้งคุณจะต้องกำหนดตารางก่อนทำการสอบถาม (เช่นเดียวกับใน RDBMS)

วัตถุประสงค์ของทั้งสองนั้นแตกต่างกัน แต่ภายใต้ประทุนทั้งสองทำเหมือนกันแปลงเป็นแผนที่ลดโปรแกรมนอกจากนี้ชุมชนโอเพนซอร์ส Apache ก็เพิ่มคุณสมบัติมากขึ้นเรื่อย ๆ ให้กับทั้งสองโครงการ


8

อ่านความแตกต่างระหว่าง PIG และ HIVE ในลิงค์นี้

http://www.aptibook.com/Articles/Pig-and-hive-advantages-disadvantages-features

ทุกด้านจะได้รับ หากคุณสับสนในการเลือกคุณจะต้องเห็นหน้าเว็บนั้น


2
บทความที่ดี แต่คุณควรสรุปไว้ในคำตอบ: meta.stackexchange.com/questions/8231/…
Gruber

7
  1. Pig-latin เป็นลักษณะการไหลของข้อมูลเหมาะสำหรับวิศวกรซอฟต์แวร์มากกว่า ในขณะที่ sql เหมาะสำหรับคนวิเคราะห์ที่คุ้นเคยกับ sql สำหรับงานที่ซับซ้อนคุณต้องสร้างตารางชั่วคราวเพื่อจัดเก็บข้อมูลขั้นกลางด้วยตนเอง แต่ไม่จำเป็นสำหรับหมู

  2. Pig-latin เหมาะสำหรับโครงสร้างข้อมูลที่ซับซ้อน (เช่นกราฟขนาดเล็ก) มีโครงสร้างข้อมูลเป็นหมูเรียกว่า DataBag ซึ่งเป็นชุดของ Tuple บางครั้งคุณจำเป็นต้องคำนวณตัวชี้วัดที่เกี่ยวข้องกับหลายสิ่งอันดับ (มีการเชื่อมโยงที่ซ่อนอยู่ระหว่างสิ่งอันดับในกรณีนี้ฉันจะเรียกมันว่ากราฟ) ในกรณีนี้มันเป็นเรื่องง่ายมากที่จะเขียน UDF เพื่อคำนวณตัวชี้วัดที่เกี่ยวข้องกับหลาย tuples แน่นอนมันสามารถทำได้ในรัง แต่มันไม่สะดวกอย่างที่มันเป็นหมู

  3. การเขียน UDF ในหมูนั้นง่ายกว่าในความคิดของฉัน

  4. Pig ไม่มีการรองรับข้อมูลเมตา (หรือเป็นทางเลือกในอนาคตอาจรวมแคตตาล็อก) Hive มีข้อมูลเมตาของตารางเก็บไว้ในฐานข้อมูล

  5. คุณสามารถแก้จุดบกพร่องสคริปต์หมูในสภาพแวดล้อมท้องถิ่น แต่มันยากสำหรับรังที่จะทำเช่นนั้น เหตุผลคือจุดที่ 3 คุณต้องตั้งค่าเมตาดาต้าไฮฟ์ในสภาพแวดล้อมท้องถิ่นของคุณใช้เวลานานมาก




4

จากลิงค์: http://www.aptibook.com/discuss-technical?uid=tech-hive4&question=What-kind-of-datawarehouse-application-is-suitable-for-Hive ?

ไฮฟ์ไม่ได้เป็นฐานข้อมูลแบบเต็ม ข้อ จำกัด และข้อ จำกัด ในการออกแบบของ Hadoop และ HDFS กำหนดข้อ จำกัด เกี่ยวกับสิ่งที่ Hive สามารถทำได้

ไฮฟ์เหมาะสมที่สุดสำหรับแอพพลิเคชันคลังข้อมูลที่ไหน

1) การวิเคราะห์ข้อมูลที่ค่อนข้างคงที่

2) ไม่จำเป็นต้องใช้เวลาตอบสนองที่รวดเร็วและ

3) เมื่อข้อมูลไม่เปลี่ยนแปลงอย่างรวดเร็ว

ไฮฟ์ไม่ได้จัดเตรียมฟีเจอร์สำคัญที่จำเป็นสำหรับ OLTP การประมวลผลธุรกรรมออนไลน์ มันใกล้เคียงกับการเป็นเครื่องมือ OLAP, การประมวลผลการวิเคราะห์ออนไลน์ ดังนั้น Hive จึงเหมาะที่สุดสำหรับแอปพลิเคชั่นคลังข้อมูลซึ่งมีการบำรุงรักษาและการขุดชุดข้อมูลขนาดใหญ่เพื่อรับข้อมูลเชิงลึกรายงานและอื่น ๆ


4

ในคำพูดที่เรียบง่าย Pig เป็นแพลตฟอร์มระดับสูงสำหรับการสร้างโปรแกรม MapReduce ที่ใช้กับ Hadoop โดยใช้สคริปต์ของหมูเราจะประมวลผลข้อมูลจำนวนมากในรูปแบบที่ต้องการ

เมื่อข้อมูลที่ประมวลผลได้รับข้อมูลที่ประมวลผลนี้จะถูกเก็บไว้ใน HDFS เพื่อการประมวลผลในภายหลังเพื่อให้ได้ผลลัพธ์ที่ต้องการ

ด้านบนของข้อมูลประมวลผลที่เก็บไว้เราจะใช้คำสั่ง HIVE SQL เพื่อให้ได้ผลลัพธ์ที่ต้องการภายในคำสั่ง hive sql นี้จะเรียกใช้โปรแกรม MAP ลด


นี่ไม่ใช่การเพิ่มฐานความรู้ที่มีความหมายจริงๆ ลองเพิ่มข้อมูลเพิ่มเติม
agconti

4

หากต้องการให้ภาพรวมระดับสูงของทั้งสองอย่างสั้น ๆ :

1) หมูเป็นพีชคณิตเชิงสัมพันธ์มากกว่าฮาดัด

2) ไฮฟ์คือ SQL ที่ใช้บนฮาพุด (หนึ่งระดับเหนือหมู)


การเปรียบเทียบพีชคณิตมีความน่าสนใจ
Ravindra babu

3

HIVE สามารถทำสิ่งใดได้บ้างใน PIG

การแบ่งพาร์ติชันสามารถทำได้โดยใช้ HIVE แต่ไม่ใช่ใน PIG มันเป็นวิธีการข้ามเอาต์พุต

PIG สามารถทำอะไรได้บ้างใน HIVE

การอ้างอิงตำแหน่ง - แม้เมื่อคุณไม่มีชื่อฟิลด์เราสามารถอ้างอิงโดยใช้ตำแหน่งเช่น $ 0 - สำหรับฟิลด์แรก $ 1 สำหรับวินาทีและอื่น ๆ

และความแตกต่างพื้นฐานอีกอย่างหนึ่งคือ PIG ไม่ต้องการสกีมาเพื่อเขียนค่า แต่ HIVE ต้องการสกีมา

คุณสามารถเชื่อมต่อจากแอปพลิเคชันภายนอกใด ๆ กับ HIVE โดยใช้ JDBC และอื่น ๆ แต่ไม่ใช่กับ PIG

หมายเหตุ: ทั้งสองทำงานที่ด้านบนของ HDFS (ระบบไฟล์แบบกระจาย hadoop) และคำสั่งจะถูกแปลงเป็นโปรแกรมลดแผนที่


3

เมื่อเราใช้Hadoopในความหมายก็หมายความว่าเรากำลังพยายามประมวลผลข้อมูลขนาดใหญ่เป้าหมายสุดท้ายของการประมวลผลข้อมูลคือการสร้างเนื้อหา / รายงานออกมา

ดังนั้นภายในประกอบด้วย 2 กิจกรรมหลัก:

1) กำลังโหลดการประมวลผลข้อมูล

2) สร้างเนื้อหาและใช้สำหรับการรายงาน / อื่น ๆ

การโหลด / การประมวลผลข้อมูล -> หมูน่าจะมีประโยชน์

สิ่งนี้ช่วยในฐานะ ETL (เราสามารถดำเนินการ etl โดยใช้สคริปต์หมู)

เมื่อประมวลผลแล้วเราสามารถใช้กลุ่มเพื่อสร้างรายงานตามผลการประมวลผล

ไฮฟ์:มันสร้างขึ้นบน hdfs สำหรับการประมวลผลคลังสินค้า

เราสามารถสร้างรายงานเฉพาะกิจได้อย่างง่ายดายโดยใช้ไฮฟ์จากเนื้อหาที่ประมวลผลที่สร้างจากหมู


1

หมูกินอะไรก็ได้! หมายความว่ามันสามารถใช้ข้อมูลที่ไม่มีโครงสร้าง

ไฮฟ์ต้องใช้สคีมา


1

Pig มีประโยชน์สำหรับ ETL ของปริมาณงานที่พูดกันโดยทั่วไป เช่นชุดของการแปลงที่คุณต้องทำกับข้อมูลของคุณทุกวัน

ไฮฟ์ส่องเมื่อคุณต้องการเรียกใช้แบบสอบถามแบบเฉพาะกิจหรือเพียงแค่ต้องการสำรวจข้อมูล บางครั้งมันสามารถทำหน้าที่เป็นอินเทอร์เฟซสำหรับเลเยอร์การสร้างภาพของคุณ (Tableau / Qlikview)

ทั้งสองมีความสำคัญและตอบสนองวัตถุประสงค์ที่แตกต่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.