2
ประสิทธิภาพการจุดประกายสำหรับ Scala vs Python
ฉันชอบ Python มากกว่า Scala แต่เนื่องจาก Spark เขียนขึ้นโดยกำเนิดในภาษา Scala ฉันคาดว่ารหัสของฉันจะทำงานได้เร็วขึ้นใน Scala มากกว่ารุ่น Python ด้วยเหตุผลที่ชัดเจน ด้วยสมมติฐานดังกล่าวฉันคิดว่าเรียนรู้และเขียนรุ่น Scala ของโค้ด preprocessing ที่ใช้กันทั่วไปสำหรับข้อมูล 1 GB บางส่วน ข้อมูลจะถูกหยิบมาจากการแข่งขันใน Springleaf Kaggle เพียงเพื่อให้ภาพรวมของข้อมูล (มันมีขนาด 1,936 และ 145232 แถว) ข้อมูลประกอบด้วยประเภทต่างๆเช่น int, float, string, boolean ฉันใช้ 6 คอร์จาก 8 สำหรับการประมวลผล Spark; นั่นเป็นเหตุผลที่ฉันใช้minPartitions=6เพื่อให้ทุกแกนมีบางอย่างที่ต้องดำเนินการ รหัสสกาล่า val input = sc.textFile("train.csv", minPartitions=6) val input2 …