การเขียนโปรแกรม apache-spark

19

นี่เป็นสำเนาคำถามของคนอื่นในฟอรัมอื่นที่ไม่เคยมีคำตอบฉันจึงคิดว่าจะถามที่นี่ซ้ำเพราะฉันมีปัญหาเดียวกัน (ดูhttp://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) ฉันติดตั้ง Spark อย่างถูกต้องบนเครื่องของฉันและสามารถเรียกใช้โปรแกรม python ด้วยโมดูล pyspark ได้โดยไม่มีข้อผิดพลาดเมื่อใช้. /bin/pyspark เป็นล่ามหลามของฉัน อย่างไรก็ตามเมื่อฉันพยายามเรียกใช้ Python shell ปกติเมื่อฉันพยายามนำเข้าโมดูล pyspark ฉันได้รับข้อผิดพลาดนี้: from pyspark import SparkContext และมันบอกว่า "No module named pyspark". ฉันจะแก้ไขปัญหานี้ได้อย่างไร? มีตัวแปรสภาพแวดล้อมที่ฉันต้องตั้งให้ชี้ Python ไปที่ส่วนหัว / ไลบรารี pyspark / ฯลฯ หรือไม่ หากการติดตั้ง spark ของฉันคือ / spark / ฉันต้องรวมเส้นทาง pyspark ไว้ด้วย? หรือโปรแกรม pyspark สามารถเรียกใช้จากล่าม pyspark …

111 python apache-spark pyspark

12

โหลดไฟล์ CSV ด้วย Spark

ฉันเพิ่งเริ่มใช้ Spark และฉันกำลังพยายามอ่านข้อมูล CSV จากไฟล์ด้วย Spark นี่คือสิ่งที่ฉันกำลังทำ: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() ฉันคาดว่าการโทรนี้จะให้รายการสองคอลัมน์แรกของไฟล์ของฉัน แต่ฉันได้รับข้อผิดพลาดนี้: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range แม้ว่าไฟล์ CSV ของฉันจะมีมากกว่าหนึ่งคอลัมน์

110 python csv apache-spark pyspark

8

วิธีการเขียนทับไดเร็กทอรีเอาต์พุตใน spark

ฉันมีแอปพลิเคชั่นสตรีมประกายไฟซึ่งสร้างชุดข้อมูลสำหรับทุกนาที ฉันต้องการบันทึก / เขียนทับผลลัพธ์ของข้อมูลที่ประมวลผล เมื่อฉันพยายามเขียนทับชุดข้อมูล org.apache.hadoop.mapred.FileAlreadyExistsException หยุดการดำเนินการ ฉันตั้งค่าคุณสมบัติ Spark set("spark.files.overwrite","true")แต่ไม่มีโชค จะเขียนทับหรือลบไฟล์จาก spark ได้อย่างไร?

109 apache-spark

9

แปลงคอลัมน์ Spark DataFrame เป็นรายการ python

ฉันทำงานกับ dataframe ที่มีสองคอลัมน์ mvv และ count +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | ฉันต้องการได้รับสองรายการที่มีค่า mvv และค่าการนับ สิ่งที่ต้องการ mvv = [1,2,3,4] count = [5,9,3,1] ดังนั้นฉันลองใช้รหัสต่อไปนี้: บรรทัดแรกควรส่งคืนรายการไพ ธ อนของแถว ฉันต้องการเห็นค่าแรก: mvv_list = mvv_count_df.select('mvv').collect() firstvalue = mvv_list[0].getInt(0) …

109 python apache-spark pyspark spark-dataframe

13

เขียนไฟล์ CSV ไฟล์เดียวโดยใช้ spark-csv

ฉันใช้https://github.com/databricks/spark-csvฉันพยายามเขียน CSV เดียว แต่ไม่สามารถทำได้มันกำลังสร้างโฟลเดอร์ ต้องการฟังก์ชัน Scala ซึ่งจะใช้พารามิเตอร์เช่นเส้นทางและชื่อไฟล์และเขียนไฟล์ CSV นั้น

108 scala csv apache-spark spark-csv

5

โปรแกรม Spark Kill Running

ฉันมีแอปพลิเคชัน Spark ที่ใช้งานอยู่ซึ่งมันครอบครองแกนทั้งหมดโดยที่แอปพลิเคชันอื่น ๆ ของฉันจะไม่ได้รับการจัดสรรทรัพยากรใด ๆ ฉันทำการวิจัยอย่างรวดเร็วและมีคนแนะนำให้ใช้ YARN kill หรือ / bin / spark-class เพื่อฆ่าคำสั่ง อย่างไรก็ตามฉันใช้เวอร์ชัน CDH และ / bin / spark-class ไม่มีอยู่เลยแอปพลิเคชัน YARN kill ก็ไม่ทำงานเช่นกัน ใครสามารถกับฉันด้วยสิ่งนี้?

105 apache-spark yarn pyspark

14

จะตรวจสอบได้อย่างไรว่า spark dataframe ว่างเปล่า

ตอนนี้ฉันต้องใช้df.count > 0เพื่อตรวจสอบว่าDataFrameว่างหรือไม่ แต่มันไม่มีประสิทธิภาพ มีวิธีไหนที่ดีกว่านี้ไหม? ขอบคุณ. PS: ฉันต้องการตรวจสอบว่าว่างหรือไม่เพื่อที่ฉันจะบันทึกเฉพาะDataFrameถ้ามันไม่ว่าง

105 apache-spark apache-spark-sql

10

กรองคอลัมน์ดาต้าเฟรมของ Pyspark ด้วยค่าไม่มี

ฉันกำลังพยายามกรองดาต้าเฟรม PySpark ที่มีNoneค่าเป็นแถว: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] และฉันสามารถกรองได้อย่างถูกต้องด้วยค่าสตริง: df[df.dt_mvmt == '2016-03-31'] # some results here แต่สิ่งนี้ล้มเหลว: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 แต่มีค่าแน่นอนในแต่ละประเภท เกิดอะไรขึ้น?

105 python apache-spark dataframe pyspark apache-spark-sql

5

วิธีเปลี่ยนคอลัมน์ Dataframe จาก String type เป็น Double type ใน pyspark

ฉันมี dataframe ที่มีคอลัมน์เป็น String ฉันต้องการเปลี่ยนประเภทคอลัมน์เป็นประเภท Double ใน PySpark ต่อไปนี้เป็นวิธีที่ฉันทำ: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) แค่อยากรู้ว่านี่เป็นวิธีที่ถูกต้องหรือไม่ในขณะที่ทำงานผ่าน Logistic Regression ฉันได้รับข้อผิดพลาดบางอย่างดังนั้นฉันจึงสงสัยว่านี่เป็นสาเหตุของปัญหาหรือไม่

102 python apache-spark dataframe pyspark apache-spark-sql

14

วิธีโหลดไฟล์ในเครื่องใน sc.textFile แทน HDFS

ฉันกำลังติดตามบทแนะนำการจุดประกายที่ยอดเยี่ยม ดังนั้นฉันพยายามที่ 46m: 00s เพื่อโหลดREADME.mdแต่ล้มเหลวในสิ่งที่ฉันทำคือ: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556 14/12/04 12:11:14 INFO storage.MemoryStore: Block broadcast_0 stored as values in memory …

100 scala apache-spark

9

จะสร้าง DataFrame ที่ว่างเปล่าด้วยสคีมาที่ระบุได้อย่างไร?

ฉันต้องการสร้างDataFrameด้วยสคีมาที่ระบุใน Scala ฉันได้พยายามใช้การอ่าน JSON (ฉันหมายถึงการอ่านไฟล์เปล่า) แต่ฉันไม่คิดว่านั่นเป็นแนวทางปฏิบัติที่ดีที่สุด

100 scala apache-spark dataframe apache-spark-sql

5

Apache Spark: วิธีใช้ pyspark กับ Python 3

ฉันสร้าง Spark 1.4 จากต้นแบบการพัฒนา GH และงานสร้างก็ผ่านไปได้ด้วยดี แต่เมื่อฉันทำbin/pysparkฉันได้รับ Python 2.7.9 เวอร์ชัน ฉันจะเปลี่ยนสิ่งนี้ได้อย่างไร?

95 python python-3.x apache-spark

10

จะตั้งค่า Spark บน Windows ได้อย่างไร?

ฉันกำลังพยายามติดตั้ง Apache Spark บน Windows หลังจากค้นหาเล็กน้อยฉันเข้าใจว่าโหมดสแตนด์อโลนคือสิ่งที่ฉันต้องการ ฉันดาวน์โหลดไบนารีใดเพื่อเรียกใช้ Apache spark ใน windows ฉันเห็นการแจกแจงด้วย hadoop และ cdh ที่หน้าดาวน์โหลด spark ฉันไม่มีข้อมูลอ้างอิงในเว็บเกี่ยวกับเรื่องนี้ คำแนะนำทีละขั้นตอนนี้ขอขอบคุณอย่างสูง

93 windows apache-spark

16

จุดประกาย - ข้อผิดพลาด“ ต้องตั้งค่า URL หลักในการกำหนดค่าของคุณ” เมื่อส่งแอป

ฉันมีแอป Spark ที่ทำงานโดยไม่มีปัญหาในโหมดโลคัล แต่มีปัญหาบางอย่างเมื่อส่งไปยังคลัสเตอร์ Spark ข้อความแสดงข้อผิดพลาดมีดังนี้: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) at org.apache.spark.scheduler.Task.run(Task.scala:89) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745) Caused by: …

93 scala apache-spark

2

ตัวเลขบนแถบความคืบหน้าหมายถึงอะไรใน spark-shell?

ใน spark-shell ของฉันรายการด้านล่างหมายความว่าอย่างไรเมื่อฉันเรียกใช้ฟังก์ชัน [Stage7:===========> (14174 + 5) / 62500]

93 apache-spark

คำถามติดแท็ก apache-spark