คำถามติดแท็ก parquet

3
ข้อดีข้อเสียของรูปแบบไม้ปาร์เก้คืออะไรเมื่อเทียบกับรูปแบบอื่น ๆ ?
ลักษณะของ Apache Parquet คือ: Self-อธิบาย รูปแบบคอลัมน์ ภาษาอิสระ เมื่อเปรียบเทียบกับ Avro, Sequence Files, RC File เป็นต้นฉันต้องการภาพรวมของรูปแบบ ฉันได้อ่านแล้ว: วิธีที่ Impala ทำงานกับรูปแบบไฟล์ Hadoopจะให้ข้อมูลเชิงลึกเกี่ยวกับรูปแบบ แต่ฉันต้องการทราบว่าการเข้าถึงข้อมูลและการจัดเก็บข้อมูลทำได้อย่างไรในแต่ละรูปแบบเหล่านี้ ไม้ปาร์เก้มีข้อได้เปรียบเหนือคนอื่นอย่างไร?
137 file  hadoop  hdfs  avro  parquet 

1
อะไรคือความแตกต่างระหว่างขนนกและไม้ปาร์เก้?
ทั้งสองเป็นรูปแบบการจัดเก็บคอลัมน์ (ดิสก์ -)สำหรับใช้ในระบบวิเคราะห์ข้อมูล ทั้งสองอย่างรวมอยู่ในApache Arrow ( แพ็คเกจpyarrowสำหรับ python) และได้รับการออกแบบให้สอดคล้องกับArrowเป็นเลเยอร์การวิเคราะห์ในหน่วยความจำแบบคอลัมน์ ทั้งสองรูปแบบแตกต่างกันอย่างไร? คุณควรชอบขนนกเมื่อทำงานกับหมีแพนด้าเมื่อเป็นไปได้หรือไม่? อะไรคือกรณีการใช้งานที่ขนนกเหมาะสมกว่าไม้ปาร์เก้และในทางกลับกัน? ภาคผนวก ฉันพบคำแนะนำบางอย่างที่นี่https://github.com/wesm/feather/issues/188แต่เนื่องจากโครงการนี้อายุยังน้อยอาจล้าสมัยไปบ้าง ไม่ใช่การทดสอบความเร็วที่จริงจังเพราะฉันแค่ทิ้งและโหลด Dataframe ทั้งหมด แต่เพื่อให้คุณประทับใจหากคุณไม่เคยได้ยินเกี่ยวกับรูปแบบมาก่อน: # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], …

7
Avro เทียบกับปาร์เก้
ฉันวางแผนที่จะใช้รูปแบบไฟล์ hadoop รูปแบบหนึ่งสำหรับโครงการที่เกี่ยวข้องกับ hadoop ของฉัน ฉันเข้าใจว่าไม้ปาร์เก้มีประสิทธิภาพสำหรับการสืบค้นตามคอลัมน์และ avro สำหรับการสแกนแบบเต็มหรือเมื่อเราต้องการข้อมูลคอลัมน์ทั้งหมด! ก่อนที่ฉันจะดำเนินการต่อและเลือกรูปแบบไฟล์ฉันต้องการทำความเข้าใจว่าอะไรคือข้อเสีย / ข้อเสียของรูปแบบอื่น ใครช่วยอธิบายให้เข้าใจง่ายๆหน่อย
92 hadoop  avro  parquet 

5
ปาร์เก้กับ ORC เทียบกับ ORC ด้วย Snappy
ฉันกำลังทำการทดสอบรูปแบบการจัดเก็บข้อมูลที่มีอยู่ใน Hive และใช้ Parquet และ ORC เป็นตัวเลือกหลัก ฉันรวม ORC หนึ่งครั้งด้วยการบีบอัดเริ่มต้นและอีกครั้งกับ Snappy ฉันได้อ่านเอกสารหลายฉบับที่ระบุว่าปาร์เก้มีความซับซ้อนด้านเวลา / พื้นที่ดีกว่าเมื่อเทียบกับ ORC แต่การทดสอบของฉันตรงข้ามกับเอกสารที่ฉันทำ ติดตามรายละเอียดข้อมูลของฉัน Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB ปาร์เก้แย่ที่สุดเท่าที่การบีบอัดสำหรับโต๊ะของฉันเกี่ยวข้อง การทดสอบของฉันกับตารางด้านบนให้ผลลัพธ์ดังต่อไปนี้ การดำเนินการนับแถว Text Format Cumulative …
88 hadoop  hive  parquet  snappy  orc 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.