ปาร์เก้กับ ORC เทียบกับ ORC ด้วย Snappy

Question 1

ฉันกำลังทำการทดสอบรูปแบบการจัดเก็บข้อมูลที่มีอยู่ใน Hive และใช้ Parquet และ ORC เป็นตัวเลือกหลัก ฉันรวม ORC หนึ่งครั้งด้วยการบีบอัดเริ่มต้นและอีกครั้งกับ Snappy

ฉันได้อ่านเอกสารหลายฉบับที่ระบุว่าปาร์เก้มีความซับซ้อนด้านเวลา / พื้นที่ดีกว่าเมื่อเทียบกับ ORC แต่การทดสอบของฉันตรงข้ามกับเอกสารที่ฉันทำ

ติดตามรายละเอียดข้อมูลของฉัน

Table A- Text File Format- 2.5GB

Table B - ORC - 652MB

Table C - ORC with Snappy - 802MB

Table D - Parquet - 1.9 GB

ปาร์เก้แย่ที่สุดเท่าที่การบีบอัดสำหรับโต๊ะของฉันเกี่ยวข้อง

การทดสอบของฉันกับตารางด้านบนให้ผลลัพธ์ดังต่อไปนี้

การดำเนินการนับแถว

Text Format Cumulative CPU - 123.33 sec

Parquet Format Cumulative CPU - 204.92 sec

ORC Format Cumulative CPU - 119.99 sec 

ORC with SNAPPY Cumulative CPU - 107.05 sec

ผลรวมของการดำเนินการคอลัมน์

Text Format Cumulative CPU - 127.85 sec   

Parquet Format Cumulative CPU - 255.2 sec   

ORC Format Cumulative CPU - 120.48 sec   

ORC with SNAPPY Cumulative CPU - 98.27 sec

ค่าเฉลี่ยของการดำเนินการคอลัมน์

Text Format Cumulative CPU - 128.79 sec

Parquet Format Cumulative CPU - 211.73 sec    

ORC Format Cumulative CPU - 165.5 sec   

ORC with SNAPPY Cumulative CPU - 135.45 sec

การเลือก 4 คอลัมน์จากช่วงที่กำหนดโดยใช้ where clause

Text Format Cumulative CPU -  72.48 sec 

Parquet Format Cumulative CPU - 136.4 sec       

ORC Format Cumulative CPU - 96.63 sec 

ORC with SNAPPY Cumulative CPU - 82.05 sec

หมายความว่า ORC เร็วกว่า Parquet หรือไม่? หรือมีบางอย่างที่ฉันสามารถทำได้เพื่อให้ทำงานได้ดีขึ้นกับเวลาตอบสนองของแบบสอบถามและอัตราส่วนการบีบอัด?

ขอบคุณ!

Question 2

ฉันจะบอกว่าทั้งสองรูปแบบนี้มีข้อดีในตัวเอง

ปาร์เก้อาจจะดีกว่าถ้าคุณมีข้อมูลที่ซ้อนกันมากเพราะมันเก็บองค์ประกอบต่างๆไว้เป็นต้นไม้เหมือนกับที่Google Dremelทำ ( ดูที่นี่ )
Apache ORC อาจดีกว่าถ้าโครงสร้างไฟล์ของคุณแบน

และเท่าที่ฉันรู้ว่าไม้ปาร์เก้ยังไม่รองรับ Indexes ORC มาพร้อมกับดัชนีน้ำหนักเบาและตั้งแต่ Hive 0.14 จึงมี Bloom Filter เพิ่มเติมซึ่งอาจเป็นประโยชน์ในการตอบสนองการสืบค้นที่ดีขึ้นโดยเฉพาะอย่างยิ่งเมื่อต้องรวมการดำเนินการ

การบีบอัดเริ่มต้นของ Parquet คือ SNAPPY ตาราง A - B - C และ D ถือชุดข้อมูลเดียวกันหรือไม่ ถ้าใช่ดูเหมือนว่าจะมีอะไรบางอย่างที่น่าสนใจเมื่อบีบอัดเป็น 1.9 GB เท่านั้น

Question 3

คุณเห็นสิ่งนี้เนื่องจาก:

Hive มีเครื่องอ่าน ORC แบบเวกเตอร์ แต่ไม่มีเครื่องอ่านไม้ปาร์เก้แบบเวกเตอร์
Spark มีเครื่องอ่านไม้ปาร์เก้แบบเวกเตอร์และไม่มีเครื่องอ่าน ORC แบบเวกเตอร์
Spark ทำงานได้ดีที่สุดกับไม้ปาร์เก้รังผึ้งทำงานได้ดีที่สุดกับ ORC

ฉันเห็นความแตกต่างที่คล้ายกันเมื่อใช้ ORC และ Parquet กับ Spark

Vectorization หมายความว่าแถวต่างๆจะถูกถอดรหัสเป็นแบตช์ปรับปรุงพื้นที่หน่วยความจำและการใช้แคชอย่างมาก

(ถูกต้องตาม Hive 2.0 และ Spark 2.1)

Question 4

ทั้งไม้ปาร์เก้และ ORC มีข้อดีและข้อเสียในตัวเอง แต่ผมก็พยายามที่จะทำตามกฎง่ายๆของหัวแม่มือ - "วิธีที่ซ้อนกันเป็นข้อมูลของคุณและจำนวนคอลัมน์จะมี" หากคุณติดตามGoogle Dremelคุณจะพบว่าไม้ปาร์เก้ถูกออกแบบมาอย่างไร พวกเขาใช้โครงสร้างแบบต้นไม้ลำดับชั้นในการจัดเก็บข้อมูล ยิ่งทำรังลึกลงไปในต้นไม้

แต่ORCได้รับการออกแบบมาสำหรับที่เก็บไฟล์แบบแบน ดังนั้นหากข้อมูลของคุณแบนโดยมีคอลัมน์น้อยลงคุณสามารถใช้ ORC ได้มิฉะนั้นไม้ปาร์เก้จะดีสำหรับคุณ การบีบอัดข้อมูลแบบแบนทำงานได้อย่างน่าอัศจรรย์ใน ORC

เราทำการเปรียบเทียบกับไฟล์ที่แบนขนาดใหญ่ขึ้นแปลงเป็นจุดประกาย Dataframe และจัดเก็บไว้ในรูปแบบไม้ปาร์เก้และ ORC ในS3และทำการค้นหาด้วย ** Redshift-Spectrum **

Size of the file in parquet: ~7.5 GB and took 7 minutes to write
Size of the file in ORC: ~7.1. GB and took 6 minutes to write
Query seems faster in ORC files.

เร็ว ๆ นี้เราจะทำการเปรียบเทียบสำหรับข้อมูลที่ซ้อนกันและอัปเดตผลลัพธ์ที่นี่

Question 5

เราได้ทำการเปรียบเทียบเปรียบเทียบรูปแบบไฟล์ต่างๆ (Avro, JSON, ORC และ Parquet) ในกรณีการใช้งานที่แตกต่างกัน

https://www.slideshare.net/oom65/file-format-benchmarks-avro-json-orc-parquet

ข้อมูลทั้งหมดนี้เปิดเผยต่อสาธารณะและโค้ดมาตรฐานเป็นโอเพ่นซอร์สทั้งหมดที่:

https://github.com/apache/orc/tree/branch-1.4/java/bench

Question 6

ทั้งสองคนมีข้อดีของพวกเขา เราใช้ Parquet ในที่ทำงานร่วมกับ Hive และ Impala แต่เพียงต้องการชี้ให้เห็นข้อดีบางประการของ ORC เหนือ Parquet: ในระหว่างการสืบค้นที่ดำเนินการเป็นเวลานานเมื่อ Hive สอบถามตาราง ORC GC ถูกเรียกบ่อยน้อยกว่า 10 เท่าครั้งไม่บ่อย อาจไม่มีอะไรสำหรับหลาย ๆ โครงการ แต่อาจสำคัญสำหรับคนอื่น ๆ

ORC ยังใช้เวลาน้อยกว่ามากเมื่อคุณต้องการเลือกเพียงไม่กี่คอลัมน์จากตาราง คำค้นหาอื่น ๆ โดยเฉพาะอย่างยิ่งเมื่อใช้การรวมยังใช้เวลาน้อยลงเนื่องจากการดำเนินการสืบค้นแบบเวกเตอร์ซึ่งไม่สามารถใช้ได้กับ Parquet

นอกจากนี้การบีบอัด ORC บางครั้งก็สุ่มเล็กน้อยในขณะที่การบีบอัดไม้ปาร์เก้มีความสม่ำเสมอมากกว่า ดูเหมือนว่าเมื่อตาราง ORC มีคอลัมน์ตัวเลขจำนวนมาก - มันจะไม่บีบอัดด้วย มีผลต่อการบีบอัด zlib และ snappy