4
มีวิธีที่ตรงไปตรงมาในการรัน pandas.DataFrame.isin แบบขนานหรือไม่?
ฉันมีโปรแกรมการสร้างแบบจำลองและการให้คะแนนที่ใช้ประโยชน์จากDataFrame.isinฟังก์ชั่นของหมีแพนด้าอย่างหนักโดยค้นหาจากรายการบันทึกของ Facebook "ชอบ" ของผู้ใช้แต่ละคนสำหรับแต่ละหน้าไม่กี่พันหน้า นี่คือส่วนที่ใช้เวลานานที่สุดของโปรแกรมมากกว่าการสร้างแบบจำลองหรือให้คะแนนชิ้นส่วนเพียงเพราะมันทำงานบนแกนเดียวเท่านั้นในขณะที่ส่วนที่เหลือทำงานบนสองสามโหลพร้อมกัน แม้ว่าฉันจะรู้ว่าฉันสามารถแบ่งดาต้าเฟรมออกเป็นชิ้น ๆ และดำเนินการแบบขนานได้เองมีวิธีที่ตรงไปตรงมาในการทำสิ่งนั้นโดยอัตโนมัติหรือไม่? กล่าวอีกนัยหนึ่งมีแพ็คเกจประเภทใดบ้างที่จะรับรู้ว่าฉันกำลังใช้งานที่ได้รับมอบหมายอย่างง่ายดายและแจกจ่ายโดยอัตโนมัติหรือไม่ บางทีนั่นอาจจะขอมากเกินไป แต่ฉันก็รู้สึกประหลาดใจมากพอในอดีตโดยสิ่งที่มีอยู่ใน Python ดังนั้นฉันคิดว่ามันคุ้มค่าที่จะถาม ข้อเสนอแนะอื่น ๆ เกี่ยวกับวิธีการนี้อาจสำเร็จ (แม้ว่าจะไม่ใช่แพ็คเกจยูนิคอร์นเวทมนตร์) ก็จะได้รับการชื่นชมเช่นกัน ส่วนใหญ่เพียงแค่พยายามหาวิธีกำจัด 15-20 นาทีต่อการวิ่งโดยไม่ต้องใช้เวลาพอสมควรในการเข้ารหัสโซลูชัน