“ Stage Skipped” หมายความว่าอย่างไรใน UI ของเว็บ Apache Spark


คำตอบ:


124

โดยทั่วไปหมายความว่ามีการดึงข้อมูลจากแคชและไม่จำเป็นต้องดำเนินการซ้ำในขั้นตอนที่กำหนด สอดคล้องกับ DAG ของคุณซึ่งแสดงให้เห็นว่าด่านต่อไปต้องใช้การสับ ( reduceByKey) เมื่อใดก็ตามที่มีการสับที่เกี่ยวข้อง Spark จะแคชข้อมูลที่สร้างขึ้นโดยอัตโนมัติ :

Shuffle ยังสร้างไฟล์กลางจำนวนมากบนดิสก์ ตั้งแต่ Spark 1.3 ไฟล์เหล่านี้จะถูกเก็บรักษาไว้จนกว่าจะไม่มีการใช้ RDD ที่เกี่ยวข้องอีกต่อไปและจะถูกเก็บรวบรวมขยะ สิ่งนี้ทำได้โดยไม่จำเป็นต้องสร้างไฟล์แบบสุ่มใหม่หากมีการคำนวณเชื้อสายใหม่


23
คำตอบที่ดี หากคุณต้องการที่จะหาวิธีการเพิ่มเติมเกี่ยวกับความหมายของ "ข้าม" และ "รอดำเนินการ" ขั้นตอนในเว็บ UI ตรวจสอบgithub.com/apache/spark/pull/3009ขอดึงแรกที่นำแนวคิดเหล่านี้ PR นั้นเป็นสิ่งที่น่าสนใจเช่นกันหากคุณอยากรู้ว่าขั้นตอนที่ข้าม / รอดำเนินการโต้ตอบกับแถบความคืบหน้าระดับงานอย่างไร
Josh Rosen

1
หากฉันทำตามอย่างถูกต้อง Spark จะข้ามสิ่งเหล่านี้หมายความว่าไม่เกิดขึ้นและสามารถลบออกจากรหัสทั้งหมดด้วยกัน? หรือรหัสมีประสิทธิภาพมากกับแคชดังนั้นปล่อยไว้? @ zero323
SparkleGoat

1
@SparkleGoat ไม่ได้หมายความว่าขั้นตอนเหล่านี้ได้รับการประเมินมาก่อนและผลลัพธ์จะพร้อมใช้งานโดยไม่ต้องดำเนินการซ้ำ
10465355 กล่าวว่า Reinstate Monica

คำถามอื่นการแคชและการข้ามขั้นตอนสามารถทำให้ข้อมูลผลลัพธ์แตกต่างกันได้หรือไม่
SparkleGoat

1
@SparkleGoat ไม่มีการแคช (และข้ามไปเพราะเหตุนี้) เป็นการเพิ่มประสิทธิภาพประกายไฟภายในและไม่เปลี่ยนแปลงข้อมูลเอาต์พุต แต่อย่างใด
Ravi Sanwal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.