การแข่งขัน Kaggle เพิ่งชนะโดยบังเอิญหรือไม่?


12

การแข่งขัน Kaggle กำหนดอันดับสุดท้ายตามชุดการทดสอบที่จัดขึ้น

ชุดการทดสอบที่จัดขึ้นค้างไว้เป็นตัวอย่าง; มันอาจไม่ได้เป็นตัวแทนของประชากรที่ถูกจำลอง เนื่องจากการส่งแต่ละครั้งเป็นเหมือนสมมติฐานอัลกอริทึมที่ชนะการแข่งขันอาจมีเพียงแค่โอกาสโดยรวมเท่านั้นที่จบลงด้วยการจับคู่ชุดทดสอบที่ดีกว่าชุดทดสอบอื่น ๆ กล่าวอีกนัยหนึ่งหากเลือกชุดทดสอบที่แตกต่างกันและการแข่งขันซ้ำการจัดอันดับจะยังคงเหมือนเดิมหรือไม่

สำหรับ บริษัท ที่ให้การสนับสนุนสิ่งนี้ไม่สำคัญเลย (อาจส่ง 20 อันดับแรกจะปรับปรุงพื้นฐานของพวกเขา) ถึงแม้ว่าแดกดันพวกเขาอาจจบลงด้วยการใช้รูปแบบอันดับแรกที่เลวร้ายยิ่งกว่าห้าอันดับแรก แต่สำหรับผู้เข้าร่วมการแข่งขันดูเหมือนว่า Kaggle เป็นเกมแห่งโอกาสในท้ายที่สุดโชคไม่จำเป็นต้องสะดุดในการแก้ปัญหาที่ถูกต้องมันจำเป็นต้องสะดุดกับชุดทดสอบที่ตรงกับชุดทดสอบ!

เป็นไปได้หรือไม่ที่จะเปลี่ยนการแข่งขันเพื่อให้ทีมชั้นนำทั้งหมดที่ไม่สามารถชนะได้อย่างมีนัยสำคัญ? หรือในกลุ่มนี้แบบจำลองที่มีราคาต่ำสุดหรือราคาถูกที่สุดสามารถชนะได้หรือไม่


1
บางคนใช้การทดสอบชุดที่ซ่อนไว้เพื่อสำรองค่าการทดสอบจริง สิ่งนี้ทำให้พวกเขาสามารถปรับให้พอดีกับผลลัพธ์ การค้างชำระป้องกันสิ่งนี้ ความคิดเห็นส่วนตัวของฉันคือความแตกต่างระหว่างการพักกับผู้ที่ไม่ได้ถือของเกี่ยวกับการกำจัดคนขี้โกง
EngrStudent

1
แน่นอนข้อมูลการทดสอบควรจะถูกจัดขึ้นจากผู้เข้าร่วม แต่ฉันสงสัยว่าการมีชุดทดสอบค้างไว้หนึ่งชุดจะทำให้ผลการแข่งขัน (สำหรับทีมอันดับต้นๆ ) นั้นขึ้นอยู่กับโอกาสหรือไม่ X
0

คะแนนถ่วงน้ำหนัก ระบบที่ยอดเยี่ยมจะมีประสิทธิภาพสูงกว่าขยะทุกครั้ง การบรรทุกรถบรรทุกล้มเหลวเป็นอย่างมากจนคนสุดท้ายกลายเป็นคนแรก คำสั่งซื้อในท้องที่อาจมี 10 ขั้นตอนในการจัดลำดับหรือน้อยกว่าเมื่อมีผู้เข้าร่วมนับพันอาจเปลี่ยนแปลงหากมีการสุ่มใหม่อีกครั้ง คุณสามารถทำการทดลองเชิงตัวเลขเพื่อแสดงสิ่งนี้
EngrStudent

2
จากมุมมองของ บริษัท ผู้สนับสนุนพวกเขาไม่ได้ถูกบังคับให้ใช้โมเดลที่ชนะจริง ถ้าฉันจำได้อย่างถูกต้องโมเดลที่ชนะการท้าทาย netflix ก็ไม่เคยถูกนำมาใช้ พวกเขาสามารถนำผู้สมัครที่มีความน่าเชื่อถือมาเป็นนางแบบที่ดีที่สุดและทดสอบพวกเขาต่อไป
David Ernst

คำตอบ:


12

ใช่เหตุผลของคุณถูกต้อง หากเลือกชุดทดสอบอื่นและการแข่งขันซ้ำการจัดอันดับจะเปลี่ยนไปแน่นอน ลองพิจารณาตัวอย่างต่อไปนี้ รายการทั้งหมดในการแข่งขัน Kaggle ด้วยฉลากไบนารีเพียงแค่คาดเดาแบบสุ่ม (และพูดอย่างอิสระ) เพื่อทำนายผลลัพธ์ของพวกเขา โดยบังเอิญคนใดคนหนึ่งจะเห็นด้วยกับการค้างชำระมากกว่าคนอื่น ๆ แม้ว่าจะไม่มีการคาดการณ์เกิดขึ้น

ในขณะที่สิ่งนี้ถูกประดิษฐ์ขึ้นเล็กน้อยเราสามารถเห็นความแปรปรวนในแต่ละโมเดลของการส่งผลงานซึ่งหมายความว่าการใช้รายการดังกล่าวจำนวนมากย่อมเป็นสิ่งที่เหมาะสมกับเสียงของชุดที่จัดไว้ สิ่งนี้บอกเราว่า (ขึ้นอยู่กับความแปรปรวนของแต่ละโมเดล) โมเดลบน -N อาจจะทำให้เหมือนกัน นี่คือสวนของเส้นทางการฟอร์กยกเว้น "นักวิจัย" นั้นไม่เหมือนกัน (แต่นั่นไม่สำคัญ)

เป็นไปได้ไหมที่จะเปลี่ยนการแข่งขันเพื่อให้ทุกทีมที่ไม่สามารถแยกความแตกต่างทางสถิติจากประสิทธิภาพสูงสุดในการชนะเซตทดสอบ

จริง

  • วิธีการหนึ่ง (ใช้การไม่ได้ตามที่เป็น) จะอธิบายความแปรปรวนของแบบจำลองที่กำหนดในแต่ละรายการอย่างชัดเจนซึ่งจะให้ CI แก่เราเกี่ยวกับประสิทธิภาพการทำงานของพวกเขา
  • อีกวิธีหนึ่งซึ่งอาจต้องใช้การคำนวณจำนวนมากคือการบูต CI ในประสิทธิภาพของการรอสายโดยการเปิดเผยการฝึกอบรมและการทดสอบ API ให้กับทุกรุ่น

คำตอบที่ดี คุณสามารถอธิบายรายละเอียดเกี่ยวกับวิธีการนำไปใช้ทั้งสองวิธี
0

1
เป็นเรื่องที่น่าสนใจ: โมเดลที่ดีที่สุดอาจไม่ใช่ทีมที่ชนะ
0

1
การหาค่าความแปรปรวนอย่างชัดเจนไม่สามารถทำได้หากไม่มีการแจกแจงข้อมูล (ฉันพูดถึงเพียงเพราะอธิบายทฤษฎี) กระดาษนี้จะอธิบายวิธีการต่าง ๆ (และที่พวกเขาล้มเหลว) สำหรับการประเมินความถูกต้องรวมถึง bootstrap และการตรวจสอบข้าม อย่างไรก็ตามในบริบทนี้เราไม่ได้ทำ CV สำหรับการเลือกแบบจำลองในชุดการฝึกอบรม แต่ต่างจากในบทความนี้ แต่สำหรับ "คะแนน" ที่แข็งแกร่งในชุดข้อมูลการฝึกอบรมและการทดสอบแบบรวม
VF1

บางทีสองรอบดีกว่าสำหรับการประเมินผู้ชนะที่แข็งแกร่ง ครั้งแรกที่เอาที่เลวร้ายที่สุด 99% และรอบที่สองอีกครั้งประมาณการการจัดอันดับเพื่อ "ขัด" คำสั่ง
EngrStudent

1
หากต้องการเพิ่มความคิดเห็นที่นี่ลองดูบทความนี้โดยผู้ชนะการแข่งขัน NCAA March Madness Kaggle ในปี 2014 เลื่อนลงไปที่ส่วนที่ 4 "การศึกษาเชิงจำลอง" ตามที่ซิมของพวกเขาถ้าแบบจำลองความน่าจะเป็นที่คาดการณ์สำหรับการแข่งขันแต่ละอันในความเป็นจริงแล้วเป็นสถานะที่แท้จริงของธรรมชาติ
klumbard

3

การแข่งขันประเภทอื่นใน Kaggle ไม่มีองค์ประกอบโอกาส ตัวอย่างเช่นStolen's Stolenหนึ่งอันนี้

มันเป็นปัญหาการปรับให้เหมาะสมแบบแยกส่วนและยังไม่มีบอร์ดผู้นำส่วนตัว สิ่งที่คุณเห็นในกระดานผู้นำสาธารณะคือผลลัพธ์สุดท้าย

เมื่อเปรียบเทียบกับการเรียนรู้แบบมีผู้สอนที่เริ่มต้นได้ง่ายสำหรับคนจำนวนมากการแข่งขันประเภทนี้ยิ่งยากในธรรมชาติมากขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.