วิธีการเขียนทับไดเร็กทอรีเอาต์พุตใน spark

Question 1

ฉันมีแอปพลิเคชั่นสตรีมประกายไฟซึ่งสร้างชุดข้อมูลสำหรับทุกนาที ฉันต้องการบันทึก / เขียนทับผลลัพธ์ของข้อมูลที่ประมวลผล

เมื่อฉันพยายามเขียนทับชุดข้อมูล org.apache.hadoop.mapred.FileAlreadyExistsException หยุดการดำเนินการ

ฉันตั้งค่าคุณสมบัติ Spark set("spark.files.overwrite","true")แต่ไม่มีโชค

จะเขียนทับหรือลบไฟล์จาก spark ได้อย่างไร?

Question 2

UPDATE: แนะนำให้ใช้รวมทั้งสิ่งที่ชอบDataframes... .write.mode(SaveMode.Overwrite) ...

แมงดาแฮนดี้:

implicit class PimpedStringRDD(rdd: RDD[String]) {
    def write(p: String)(implicit ss: SparkSession): Unit = {
      import ss.implicits._
      rdd.toDF().as[String].write.mode(SaveMode.Overwrite).text(p)
    }
  }

สำหรับรุ่นเก่าลอง

yourSparkConf.set("spark.hadoop.validateOutputSpecs", "false")
val sc = SparkContext(yourSparkConf)

ใน 1.1.0 คุณสามารถตั้งค่า conf โดยใช้ spark-submit script พร้อมแฟล็ก --conf

คำเตือน (เวอร์ชันเก่ากว่า): ตามที่ @piggybox มีข้อบกพร่องใน Spark ซึ่งจะเขียนทับเฉพาะไฟล์ที่ต้องใช้ในการเขียนpart-ไฟล์เท่านั้นไฟล์อื่น ๆ จะไม่ถูกลบออก

Question 3

เนื่องจากdf.save(path, source, mode)เลิกใช้งาน ( http://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.DataFrame )

ใช้โดยdf.write.format(source).mode("overwrite").save(path)
ที่ df.write คือ DataFrameWriter

'source' ได้ ("com.databricks.spark.avro" | "parquet" | "json")

Question 4

เอกสารประกอบสำหรับพารามิเตอร์spark.files.overwriteระบุว่า: "จะเขียนทับไฟล์ที่เพิ่มเข้ามาSparkContext.addFile()เมื่อมีไฟล์เป้าหมายอยู่หรือไม่และเนื้อหาในไฟล์ไม่ตรงกับแหล่งที่มา" ดังนั้นจึงไม่มีผลกับเมธอด saveAsTextFiles

คุณสามารถทำได้ก่อนบันทึกไฟล์:

val hadoopConf = new org.apache.hadoop.conf.Configuration()
val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://localhost:9000"), hadoopConf)
try { hdfs.delete(new org.apache.hadoop.fs.Path(filepath), true) } catch { case _ : Throwable => { } }

Aas อธิบายที่นี่: http://apache-spark-user-list.1001560.n3.nabble.com/How-can-I-make-Spark-1-0-saveAsTextFile-to-overwrite-existing-file-td6696 html

Question 5

จากเอกสารคู่มือ pyspark.sql.DataFrame.save (ปัจจุบันอยู่ที่ 1.3.1) คุณสามารถระบุmode='overwrite'เมื่อบันทึก DataFrame:

myDataFrame.save(path='myPath', source='parquet', mode='overwrite')

ฉันได้ตรวจสอบแล้วว่าสิ่งนี้จะลบไฟล์พาร์ติชันที่เหลือ ดังนั้นถ้าคุณเคยพูด 10 พาร์ติชัน / ไฟล์ แต่เดิมเขียนทับโฟลเดอร์ด้วย DataFrame ที่มีเพียง 6 พาร์ติชันโฟลเดอร์ผลลัพธ์จะมีพาร์ติชัน / ไฟล์ 6 พาร์ติชั่น

ดูเอกสาร Spark SQLสำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกโหมด

Question 6

df.write.mode('overwrite').parquet("/output/folder/path")ใช้งานได้หากคุณต้องการเขียนทับไฟล์ปาร์เก้โดยใช้ python นี่คือจุดประกาย 1.6.2 API อาจแตกต่างกันในเวอร์ชันหลัง ๆ

Question 7

  val jobName = "WordCount";
  //overwrite the output directory in spark  set("spark.hadoop.validateOutputSpecs", "false")
  val conf = new 
  SparkConf().setAppName(jobName).set("spark.hadoop.validateOutputSpecs", "false");
  val sc = new SparkContext(conf)

Question 8

ฟังก์ชันบันทึกเวอร์ชันที่โอเวอร์โหลดนี้ใช้ได้กับฉัน:

yourDF.save (outputPath, org.apache.spark.sql.SaveMode.valueOf ("เขียนทับ"))

ตัวอย่างด้านบนจะเขียนทับโฟลเดอร์ที่มีอยู่ savemode สามารถใช้พารามิเตอร์เหล่านี้ได้เช่นกัน ( https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html ):

Append : Append mode หมายความว่าเมื่อบันทึก DataFrame ลงในแหล่งข้อมูลหากมีข้อมูล / ตารางอยู่แล้วเนื้อหาของ DataFrame จะถูกผนวกเข้ากับข้อมูลที่มีอยู่

ErrorIfExists : โหมด ErrorIfExists หมายความว่าเมื่อบันทึก DataFrame ไปยังแหล่งข้อมูลหากมีข้อมูลอยู่แล้วคาดว่าจะมีข้อยกเว้นเกิดขึ้น

ละเว้น : โหมดไม่สนใจหมายความว่าเมื่อบันทึก DataFrame ลงในแหล่งข้อมูลหากมีข้อมูลอยู่แล้วการดำเนินการบันทึกคาดว่าจะไม่บันทึกเนื้อหาของ DataFrame และจะไม่เปลี่ยนแปลงข้อมูลที่มีอยู่

Question 9

หากคุณยินดีที่จะใช้รูปแบบผลลัพธ์ที่กำหนดเองคุณจะสามารถรับพฤติกรรมที่ต้องการด้วย RDD ได้เช่นกัน

ดูคลาสต่อไปนี้: FileOutputFormat , FileOutputCommitter

ในรูปแบบไฟล์เอาต์พุตคุณมีเมธอดชื่อ checkOutputSpecs ซึ่งกำลังตรวจสอบว่ามีไดเร็กทอรีเอาต์พุตอยู่หรือไม่ ใน FileOutputCommitter คุณมีคอมมิตซึ่งมักจะถ่ายโอนข้อมูลจากไดเร็กทอรีชั่วคราวไปยังตำแหน่งสุดท้าย

ฉันยังไม่สามารถตรวจสอบได้ (จะทำทันทีที่ฉันมีเวลาว่างไม่กี่นาที) แต่ในทางทฤษฎี: ถ้าฉันขยาย FileOutputFormat และแทนที่ checkOutputSpecs เป็นวิธีการที่ไม่ทิ้งข้อยกเว้นในไดเรกทอรีที่มีอยู่แล้วและปรับ วิธีการกระทำของคอมมิทเตอร์เอาต์พุตที่กำหนดเองของฉันเพื่อดำเนินการตามตรรกะที่ฉันต้องการ (เช่นแทนที่ไฟล์บางไฟล์ต่อท้ายไฟล์อื่น ๆ ) มากกว่าที่ฉันอาจจะสามารถบรรลุพฤติกรรมที่ต้องการด้วย RDD ได้เช่นกัน

รูปแบบผลลัพธ์จะถูกส่งไปยัง: saveAsNewAPIHadoopFile (ซึ่งเป็นวิธีการที่เรียกว่า saveAsTextFile เพื่อบันทึกไฟล์จริงๆ) และคอมมิตเตอร์เอาต์พุตถูกกำหนดค่าที่ระดับแอ็พพลิเคชัน