การเขียนโปรแกรม pyspark

3

วิธีแก้ไขข้อผิดพลาด 'TypeError: จำเป็นต้องใช้จำนวนเต็ม (มีชนิดเป็นไบต์)' เมื่อพยายามเรียกใช้ pyspark หลังจากติดตั้ง spark 2.4.4

ฉันติดตั้ง OpenJDK 13.0.1 และ python 3.8 และ spark 2.4.4 แล้ว คำแนะนำในการทดสอบการติดตั้งคือการรัน \ bin \ pyspark จากรูทของการติดตั้ง spark ฉันไม่แน่ใจว่าฉันพลาดขั้นตอนหนึ่งในการติดตั้งประกายไฟหรือไม่เช่นการตั้งค่าตัวแปรสภาพแวดล้อมบางอย่าง แต่ฉันไม่พบคำแนะนำโดยละเอียดเพิ่มเติมอีก ฉันสามารถรัน python interpreter บนเครื่องของฉันดังนั้นฉันมั่นใจว่ามันถูกติดตั้งอย่างถูกต้องและการรัน "java -version" ให้การตอบสนองที่คาดหวังดังนั้นฉันไม่คิดว่าปัญหาจะเกิดขึ้นกับทั้งคู่ ฉันได้รับการติดตามสแต็กของข้อผิดพลาดจาก cloudpickly.py: Traceback (most recent call last): File "C:\software\spark-2.4.4-bin-hadoop2.7\bin\..\python\pyspark\shell.py", line 31, in <module> from pyspark import SparkConf File "C:\software\spark-2.4.4-bin-hadoop2.7\python\pyspark\__init__.py", line 51, in <module> from …

16 apache-spark pyspark

1

pandasUDF และ pyarrow 0.15.0

ฉันเพิ่งเริ่มรับข้อผิดพลาดพวงของจำนวนpysparkงานที่ทำงานบนกลุ่ม EMR ข้อผิดพลาดคือ java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... พวกเขาดูเหมือนจะเกิดขึ้นในการapplyทำงานของซีรีส์แพนด้า การเปลี่ยนแปลงเดียวที่ฉันพบคือpyarrowการอัปเดตในวันเสาร์ (05/10/2019) การทดสอบดูเหมือนจะทำงานกับ 0.14.1 ดังนั้นคำถามของฉันคือถ้าใครรู้ว่านี่เป็นข้อผิดพลาดใน pyarrow ที่ปรับปรุงใหม่หรือมีการเปลี่ยนแปลงที่สำคัญที่จะทำให้ pandasUDF ยากที่จะใช้ในอนาคตหรือไม่

12 pandas apache-spark pyspark pyarrow

1

Apache Spark: ผลกระทบของการแบ่งพาร์ติชันใหม่การเรียงลำดับและการแคชกับการเข้าร่วม

ฉันกำลังสำรวจพฤติกรรมของ Spark เมื่อเข้าร่วมโต๊ะกับตัวเอง ฉันกำลังใช้ Databricks สถานการณ์จำลองของฉันคือ: อ่านตารางภายนอกเป็น dataframe A (ไฟล์อ้างอิงอยู่ในรูปแบบของเดลต้า) กำหนด dataframe B เป็น dataframe A โดยเลือกคอลัมน์บางคอลัมน์เท่านั้น เข้าร่วม dataframes A และ B ในคอลัมน์ 1 และคอลัมน์ 2 (ใช่มันไม่สมเหตุสมผลมากนักฉันแค่ทดลองทำความเข้าใจกลไกพื้นฐานของ Spark) a = spark.read.table("table") \ .select("column1", "column2", "column3", "column4") \ .withColumn("columnA", lower((concat(col("column4"), lit("_"), col("column5"))))) b = a.select("column1", "column2", "columnA") c= a.join(b, how="left", on …

10 apache-spark pyspark bigdata azure-databricks delta-lake

คำถามติดแท็ก pyspark