คำถามติดแท็ก pyarrow

1
อะไรคือความแตกต่างระหว่างขนนกและไม้ปาร์เก้?
ทั้งสองเป็นรูปแบบการจัดเก็บคอลัมน์ (ดิสก์ -)สำหรับใช้ในระบบวิเคราะห์ข้อมูล ทั้งสองอย่างรวมอยู่ในApache Arrow ( แพ็คเกจpyarrowสำหรับ python) และได้รับการออกแบบให้สอดคล้องกับArrowเป็นเลเยอร์การวิเคราะห์ในหน่วยความจำแบบคอลัมน์ ทั้งสองรูปแบบแตกต่างกันอย่างไร? คุณควรชอบขนนกเมื่อทำงานกับหมีแพนด้าเมื่อเป็นไปได้หรือไม่? อะไรคือกรณีการใช้งานที่ขนนกเหมาะสมกว่าไม้ปาร์เก้และในทางกลับกัน? ภาคผนวก ฉันพบคำแนะนำบางอย่างที่นี่https://github.com/wesm/feather/issues/188แต่เนื่องจากโครงการนี้อายุยังน้อยอาจล้าสมัยไปบ้าง ไม่ใช่การทดสอบความเร็วที่จริงจังเพราะฉันแค่ทิ้งและโหลด Dataframe ทั้งหมด แต่เพื่อให้คุณประทับใจหากคุณไม่เคยได้ยินเกี่ยวกับรูปแบบมาก่อน: # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], …

1
pandasUDF และ pyarrow 0.15.0
ฉันเพิ่งเริ่มรับข้อผิดพลาดพวงของจำนวนpysparkงานที่ทำงานบนกลุ่ม EMR ข้อผิดพลาดคือ java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... พวกเขาดูเหมือนจะเกิดขึ้นในการapplyทำงานของซีรีส์แพนด้า การเปลี่ยนแปลงเดียวที่ฉันพบคือpyarrowการอัปเดตในวันเสาร์ (05/10/2019) การทดสอบดูเหมือนจะทำงานกับ 0.14.1 ดังนั้นคำถามของฉันคือถ้าใครรู้ว่านี่เป็นข้อผิดพลาดใน pyarrow ที่ปรับปรุงใหม่หรือมีการเปลี่ยนแปลงที่สำคัญที่จะทำให้ pandasUDF ยากที่จะใช้ในอนาคตหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.