ดูเหมือนว่าเป็นจริงซึ่งกลุ่มผู้เรียนนำไปสู่ผลลัพธ์ที่ดีที่สุดเท่าที่จะเป็นไปได้ - และมันกลายเป็นสิ่งที่หายากมากเช่นสำหรับรุ่นเดียวที่ชนะการแข่งขันเช่น Kaggle มีคำอธิบายทางทฤษฎีว่าทำไมชุดตระการตาจึงมีประสิทธิภาพ
ดูเหมือนว่าเป็นจริงซึ่งกลุ่มผู้เรียนนำไปสู่ผลลัพธ์ที่ดีที่สุดเท่าที่จะเป็นไปได้ - และมันกลายเป็นสิ่งที่หายากมากเช่นสำหรับรุ่นเดียวที่ชนะการแข่งขันเช่น Kaggle มีคำอธิบายทางทฤษฎีว่าทำไมชุดตระการตาจึงมีประสิทธิภาพ
คำตอบ:
สำหรับรูปแบบเฉพาะที่คุณป้อนข้อมูลให้เลือกคุณสมบัติเลือกพารามิเตอร์หลายมิติและอื่น ๆ เปรียบเทียบกับความเป็นจริงมันทำให้เกิดข้อผิดพลาดสามประเภท:
ตระการตาเฉลี่ยจำนวนรุ่นเหล่านี้ อคติเนื่องจากการสุ่มตัวอย่างอคติจะไม่ได้รับการแก้ไขด้วยเหตุผลที่ชัดเจนมันสามารถแก้ไขอคติความซับซ้อนของแบบจำลองบางส่วนได้ โดยเฉพาะอย่างยิ่งรุ่นที่มีความสัมพันธ์ต่ำทำให้เกิดข้อผิดพลาดที่แตกต่างกันมากในพื้นที่นี้บางรุ่นทำงานได้ดีในบางส่วนของพื้นที่คุณลักษณะ คุณจะสามารถลดความแปรปรวนนี้ได้เล็กน้อยโดยเฉลี่ย นี่คือเหตุผลที่ตระการตาส่องแสง
คำตอบที่เลือกนั้นยอดเยี่ยม แต่ฉันต้องการเพิ่มสองสิ่ง:
มีทฤษฎีพื้นฐานของการพยากรณ์ที่ดีที่สุดถ้าเราหมายถึงการทำนายเหตุการณ์ต่อไปในลำดับบนพื้นฐานของความรู้เกี่ยวกับเหตุการณ์ก่อนหน้า การคาดการณ์ของโซโลมอนอฟฟ์ (โซโลมอนอฟฟ์ 1964) นั้นเหมาะสมที่สุดในหลาย ๆ ด้านรวมถึงมัน“ จะเรียนรู้ที่จะทำนายลำดับการคำนวณใด ๆ ได้อย่างถูกต้องด้วยจำนวนข้อมูลขั้นต่ำที่แน่นอนเท่านั้น” (Hutter, Legg & Vitanyi 2007) ตัวทำนาย Solomonoff ทำการชั่งน้ำหนักโปรแกรมทั้งหมดที่เข้ากันได้กับข้อมูลที่มีอยู่ตามความซับซ้อนของโปรแกรม Kolmogorov และความน่าจะเป็นที่โปรแกรมกำหนดให้กับข้อมูลโดยการรวม Epicurean (“ รักษาทฤษฎีทั้งหมด”) และ ปรัชญาของ Ockham (“ ชอบทฤษฎีที่เรียบง่าย”) ในกรอบแนวคิดแบบเบย์
คุณสมบัติการเพิ่มประสิทธิภาพของการทำนาย Solomonoff อธิบายการค้นพบที่แข็งแกร่งที่คุณอ้างถึง: ค่าเฉลี่ยมากกว่าแบบจำลองแหล่งที่มาหรือผู้เชี่ยวชาญช่วยปรับปรุงการคาดการณ์ วิธีการต่าง ๆ ที่เห็นในทางปฏิบัตินั้นสามารถนำมาใช้เป็นแนวทางในการคำนวณเพื่อประมาณ Solomonoff - และ MML (Wallace 2005) สำรวจความสัมพันธ์อย่างชัดเจนแม้ว่าจะไม่ใช่
วอลเลซ (2548) ตั้งข้อสังเกตว่าตัวทำนายโซโลมอนอฟไม่ได้เป็นตัวเงิน - มันเก็บตัวอย่างที่ไม่มีที่สิ้นสุด - แต่พลังการทำนายส่วนใหญ่ย่อมตกอยู่ในโมเดลที่ค่อนข้างเล็ก ในบางโดเมนแบบจำลองที่ดีที่สุดเพียงอย่างเดียว (หรือตระกูลของแบบจำลองที่แยกไม่ออกได้เกือบ) อาจอธิบายได้ว่าเป็นส่วนใหญ่ของพลังการทำนายและมีประสิทธิภาพที่เหนือกว่าตระการตาทั่วไป แต่ในโดเมนที่ซับซ้อนที่มีทฤษฎีน้อยมาก ดังนั้นค่าเฉลี่ยผู้สมัครที่มีเหตุผลควรปรับปรุงการทำนาย ในการชนะรางวัล Netflix ทีมของ Bellkor ได้รวมโมเดลกว่า 450 แบบ (Koren 2009)
โดยทั่วไปแล้วมนุษย์จะแสวงหาคำอธิบายที่ดีเพียงคำเดียว: ในโดเมน "ทฤษฎีระดับสูง" เช่นฟิสิกส์สิ่งเหล่านี้ใช้ได้ดี แน่นอนถ้าพวกเขาจับการเปลี่ยนแปลงสาเหตุพื้นฐานพวกเขาควรจะเอาชนะได้เกือบ แต่ในกรณีที่ทฤษฎีที่มีอยู่นั้นไม่เหมาะสมกับปรากฏการณ์ (เช่นคำแนะนำภาพยนตร์หรือภูมิศาสตร์การเมือง) รุ่นเดียวจะมีประสิทธิภาพต่ำกว่า: ทั้งหมดไม่สมบูรณ์ดังนั้นจึงไม่มีใครควรครอง ดังนั้นการให้ความสำคัญกับวงดนตรี (สำหรับการเรียนรู้ของเครื่อง) และภูมิปัญญาของฝูงชน (สำหรับผู้เชี่ยวชาญ) และความสำเร็จของโปรแกรมเช่น IARPA ACE และโครงการพิเศษเพื่อการตัดสินใจที่ดี (Tetlock & Gardiner 2015)