คำถามติดแท็ก rdd

15
ความแตกต่างระหว่าง DataFrame ชุดข้อมูลและ RDD ใน Spark
ฉันแค่สงสัยว่าอะไรคือความแตกต่างระหว่างRDDและDataFrame (Spark 2.0.0 DataFrame เป็นเพียงนามแฝงประเภทสำหรับDataset[Row])ใน Apache Spark? คุณสามารถแปลงหนึ่งเป็นอื่นได้หรือไม่

13
Spark - แบ่งพาร์ติชั่น () vs coalesce ()
อ้างอิงจาก Learning Spark โปรดทราบว่าการแบ่งส่วนข้อมูลของคุณเป็นการดำเนินการที่ค่อนข้างแพง Spark ยังมีเวอร์ชันที่repartition()เรียกว่าออพติไมซ์coalesce()ที่ช่วยให้หลีกเลี่ยงการเคลื่อนย้ายข้อมูล แต่ถ้าคุณลดจำนวนพาร์ติชัน RDD สิ่งหนึ่งที่ฉันได้รับคือมีrepartition()จำนวนพาร์ติชันสามารถเพิ่ม / ลดได้ แต่ด้วยcoalesce()จำนวนพาร์ติชันสามารถลดลงได้เท่านั้น หากพาร์ติชั่นนั้นถูกกระจายไปทั่วเครื่องหลายเครื่องและcoalesce()ทำงานอยู่มันจะหลีกเลี่ยงการเคลื่อนย้ายข้อมูลได้อย่างไร?


2
ประสิทธิภาพการจุดประกายสำหรับ Scala vs Python
ฉันชอบ Python มากกว่า Scala แต่เนื่องจาก Spark เขียนขึ้นโดยกำเนิดในภาษา Scala ฉันคาดว่ารหัสของฉันจะทำงานได้เร็วขึ้นใน Scala มากกว่ารุ่น Python ด้วยเหตุผลที่ชัดเจน ด้วยสมมติฐานดังกล่าวฉันคิดว่าเรียนรู้และเขียนรุ่น Scala ของโค้ด preprocessing ที่ใช้กันทั่วไปสำหรับข้อมูล 1 GB บางส่วน ข้อมูลจะถูกหยิบมาจากการแข่งขันใน Springleaf Kaggle เพียงเพื่อให้ภาพรวมของข้อมูล (มันมีขนาด 1,936 และ 145232 แถว) ข้อมูลประกอบด้วยประเภทต่างๆเช่น int, float, string, boolean ฉันใช้ 6 คอร์จาก 8 สำหรับการประมวลผล Spark; นั่นเป็นเหตุผลที่ฉันใช้minPartitions=6เพื่อให้ทุกแกนมีบางอย่างที่ต้องดำเนินการ รหัสสกาล่า val input = sc.textFile("train.csv", minPartitions=6) val input2 …

5
(เพราะเหตุใด) เราต้องเรียกแคชหรือคงอยู่กับ RDD
เมื่อชุดข้อมูลที่กระจายแบบยืดหยุ่น (RDD) ถูกสร้างขึ้นจากไฟล์ข้อความหรือการรวบรวม (หรือจาก RDD อื่น) เราจำเป็นต้องเรียก "แคช" หรือ "คงอยู่" เพื่อเก็บข้อมูล RDD ไว้ในหน่วยความจำอย่างชัดเจนหรือไม่ หรือข้อมูล RDD ถูกจัดเก็บในลักษณะกระจายในหน่วยความจำโดยค่าเริ่มต้นหรือไม่? val textFile = sc.textFile("/user/emp.txt") ตามความเข้าใจของฉันหลังจากขั้นตอนข้างต้น textFile เป็น RDD และมีอยู่ใน / บางส่วนของหน่วยความจำของโหนด ถ้าเป็นเช่นนั้นทำไมเราต้องเรียก "แคช" หรือ "คงอยู่" ใน textFile RDD?
171 scala  apache-spark  rdd 

11
วิธีการแปลงวัตถุ rdd เป็น dataframe ใน spark
ฉันจะแปลง RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) เป็น Dataframe org.apache.spark.sql.DataFrameได้อย่างไร ผมแปลง dataframe เพื่อ RDD .rddใช้ หลังจากการประมวลผลฉันต้องการมันกลับมาใน dataframe ฉันจะทำสิ่งนี้ได้อย่างไร

3
Apache Spark: map vs mapPartitions?
อะไรคือความแตกต่างระหว่างRDD mapและmapPartitionsวิธีการ? และflatMapประพฤติชอบmapหรือmapPartitionsไม่? ขอบคุณ (แก้ไข) คืออะไรคือความแตกต่าง (ทั้งในเชิงความหมายหรือในแง่ของการดำเนินการ) ระหว่าง def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) }, preservesPartitioning = true) } และ: def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.