จาก Spark UI ของฉัน ข้ามไปหมายความว่าอย่างไร
คำตอบ:
โดยทั่วไปหมายความว่ามีการดึงข้อมูลจากแคชและไม่จำเป็นต้องดำเนินการซ้ำในขั้นตอนที่กำหนด สอดคล้องกับ DAG ของคุณซึ่งแสดงให้เห็นว่าด่านต่อไปต้องใช้การสับ ( reduceByKey
) เมื่อใดก็ตามที่มีการสับที่เกี่ยวข้อง Spark จะแคชข้อมูลที่สร้างขึ้นโดยอัตโนมัติ :
Shuffle ยังสร้างไฟล์กลางจำนวนมากบนดิสก์ ตั้งแต่ Spark 1.3 ไฟล์เหล่านี้จะถูกเก็บรักษาไว้จนกว่าจะไม่มีการใช้ RDD ที่เกี่ยวข้องอีกต่อไปและจะถูกเก็บรวบรวมขยะ สิ่งนี้ทำได้โดยไม่จำเป็นต้องสร้างไฟล์แบบสุ่มใหม่หากมีการคำนวณเชื้อสายใหม่