การทำนาย 'เกณฑ์ทอง' เพื่อตัดสินความสามารถของนักสถิติหรือไม่?

ฉันอ่านโมเดลเชิงเส้นตำราเรียนของ Faraway ที่มี R (รุ่นที่ 1) เมื่อสุดสัปดาห์ที่แล้ว Faraway มีบทที่เรียกว่า "กลยุทธ์เชิงสถิติและความไม่แน่นอนของแบบจำลอง" เขาอธิบาย (หน้า 158) ว่าเขาสร้างข้อมูลปลอมโดยใช้แบบจำลองที่ซับซ้อนมากจากนั้นเขาขอให้นักเรียนทำแบบจำลองข้อมูลและเปรียบเทียบผลลัพธ์ที่ทำนายของนักเรียนเทียบกับผลการอ่าน น่าเสียดายที่นักเรียนส่วนใหญ่ติดตั้งข้อมูลการทดสอบมากเกินไปและให้ค่าที่ทำนายไว้ทั้งหมด เพื่ออธิบายปรากฏการณ์นี้เขาเขียนสิ่งที่น่าประทับใจสำหรับฉัน:

"เหตุผลที่แบบจำลองแตกต่างกันมากคือนักเรียนใช้วิธีการต่าง ๆ ตามลำดับที่แตกต่างกันบางคนเลือกการเปลี่ยนแปลงก่อนที่จะเปลี่ยนรูปแบบและวิธีอื่น ๆ ตรงกันข้ามบางวิธีทำซ้ำหลังจากเปลี่ยนรูปแบบและคนอื่นไม่ได้ นักเรียนหลายคนใช้และไม่พบสิ่งผิดปกติอย่างชัดเจนกับสิ่งที่พวกเขาทำนักเรียนคนหนึ่งทำผิดในการคำนวณค่าของเขาหรือเธอ แต่ก็ไม่มีอะไรผิดปกติในส่วนที่เหลือประสิทธิภาพของงานมอบหมายนี้ไม่ได้แสดงให้เห็น ความสัมพันธ์ใด ๆ กับสิ่งนั้นในการสอบ "

ฉันได้รับการศึกษาว่าความแม่นยำในการทำนายแบบจำลองนั้นเป็น 'เกณฑ์ทองคำ' สำหรับเราในการเลือกประสิทธิภาพของแบบจำลองที่ดีที่สุด ถ้าฉันไม่เข้าใจผิดนี่เป็นวิธียอดนิยมที่ใช้ในการแข่งขัน Kaggle แต่ที่นี่ Faraway ได้สังเกตเห็นบางอย่างของธรรมชาติที่แตกต่างกันซึ่งการทำนายแบบจำลองนั้นไม่สามารถทำได้ด้วยความสามารถของนักสถิติที่เกี่ยวข้อง กล่าวอีกนัยหนึ่งว่าเราสามารถสร้างแบบจำลองที่ดีที่สุดในแง่ของพลังการทำนายได้หรือไม่นั้นไม่ได้ตัดสินจากประสบการณ์ของเรา แต่จะถูกกำหนดโดย 'ความไม่แน่นอนของโมเดล' (โชคไม่ดี?) คำถามของฉันคือ: สิ่งนี้เป็นจริงในการวิเคราะห์ข้อมูลในชีวิตจริงเช่นกัน? หรือฉันสับสนกับสิ่งที่พื้นฐานมาก ๆ เพราะถ้าสิ่งนี้เป็นจริงแล้วความหมายของการวิเคราะห์ข้อมูลจริงนั้นยิ่งใหญ่: โดยไม่ทราบว่า "แบบจำลองของจริง" ที่อยู่เบื้องหลังข้อมูลนั้นไม่มีความแตกต่างที่สำคัญระหว่างงานที่ทำโดยนักสถิติที่มีประสบการณ์ / ไม่มีประสบการณ์: ทั้งคู่ ข้อมูลการฝึกอบรมที่มีอยู่

predictive-models modeling interpretation

— Bombyx mori
แหล่งที่มา

+1 คำถามที่ดี หากต้องการเสนออีกมุมหนึ่งให้นักวิเคราะห์คนหนึ่งรู้ว่าโหมดจริง - จากนั้นการคาดการณ์ของเธอก็อาจแย่เช่นกัน! ดังนั้นแม้จะรู้โมเดลจริงคุณก็จะเห็นสิ่งนี้ สิ่งสำคัญอาจเป็น Haggerty และ Srivinasans 1991 การสังเกตใน Psychometrika ว่า "การฝึกฝน [... ] ของการสรุปว่าแบบจำลองที่มีความแม่นยำในการทำนายสูงกว่าคือ" truer "ไม่ใช่การอนุมานที่ถูกต้อง"

— Momo

ฉันยังไม่ได้ดูหนังสือ แต่ "การเลือกตัวแปร" & "การแปลง" ส่งเสียงระฆังเตือนแล้ว ดูอัลกอริทึมสำหรับการเลือกอัตโนมัติรูปแบบและลักษณะของความสัมพันธ์ระหว่างการทำนายและขึ้นอยู่ในการถดถอย ฉันจะไม่พูดคุยเกี่ยวกับการสอบของนักเรียนสถิติด้วยความสามารถในการทำงานจริงของนักสถิติ

— Scortchi - Reinstate Monica

ข้อมูลที่ได้รับจาก Faraway นี้ดูเหมือนจะเป็นเรื่องเล็ก ๆ น้อย ๆ ที่จะใช้เป็นพื้นฐานสำหรับหลักการทั่วไปที่ครอบคลุมเกี่ยวกับสาขาสถิติ ฉันไม่ต้องการสร้างแบบจำลองเกี่ยวกับการสร้างแบบจำลองการทำนายตามตัวอย่างที่ไม่สามารถทำซ้ำได้ อาจเป็นไปได้ว่าพวกเขาเป็นคนเลือกโดยเจตนาหรือไม่

— rolando2

ข้อสรุปที่ถูกต้องตามหลักเหตุผลข้อหนึ่งที่สามารถได้รับจากเรื่องเล็ก ๆ น้อยนี้ก็คือว่าไม่มีนักเรียนคนใดใน Faraway ที่มีทักษะที่จำเป็นในการทำแบบทดสอบทำนายผลของเขา เป็นการยากที่จะทำการเชื่อมต่อใด ๆ ระหว่างผลลัพธ์และการคาดเดาของคุณเกี่ยวกับการทำงานของนักสถิติที่มีประสบการณ์

— whuber

@ โฮเบอร์: ฉันไม่คิดอย่างนั้น ฉันเห็นด้วยกับนักเรียน 28 คนที่ค่อนข้างเล็ก แต่ฉันคิดว่าการสังเกตที่แท้จริงมีนัยยะสำคัญ หาก Faraway ได้สร้างแบบจำลองที่แท้จริงและเขาไปทำงานกับนักเรียนหลายคนไม่สามารถหาข้อผิดพลาดร้ายแรงใด ๆ ได้ แต่การคาดการณ์นั้นก็แยกออกจากสิ่งที่พวกเขาควรจะเป็น จากนั้นสิ่งนี้จะพูดถึงบางสิ่งเกี่ยวกับ 'ความไม่แน่นอนของแบบจำลอง' ที่เกี่ยวข้องอย่างน้อยที่สุดก็ต้องมีงานที่ทำโดยนักวิเคราะห์แยกต่างหากเพื่อเปรียบเทียบความแตกต่าง ฉันคิดว่ามันค่อนข้างน่าตกใจสำหรับฉัน

— Bombyx mori

คำตอบ:

ฉันถามอาจารย์ในแผนกของฉันเกี่ยวกับเรื่องนี้ เขาพูดอย่างตรงไปตรงมาเขาไม่แปลกใจเลย เขาแนะนำวิธีต่อไปนี้เพื่อดูสิ่งนี้: สิ่งที่ Faraway ทำเพียงการทดลองครั้งเดียวและไม่น่าแปลกใจที่ผลลัพธ์ปรากฏว่าไม่มีความสัมพันธ์กับเกรดสุดท้าย แต่ถ้า Faraway ทำซ้ำ 'การทดลอง' 100 ครั้งกับนักเรียนกลุ่มเดียวกันเขามั่นใจว่านักเรียนเรียนรู้สถิติที่ดีขึ้นจะทำงานได้ดีเช่นเดียวกับช่วงความมั่นใจ ดังนั้นในความเห็นของเขาประสบการณ์ไม่สำคัญมันเป็นเพียงการทดลองทางสังคมครั้งเดียวที่ไม่สามารถแสดงได้เพราะความไม่แน่นอนของแบบจำลอง

— Bombyx mori
แหล่งที่มา

ฉันพบข้อแก้ตัวที่เฮฮา ฉันคิดว่านี่เป็นเหตุผลที่ทำให้สถิติถูกแทนที่ด้วย (หรือสร้างตราสินค้าใหม่) "วิทยาศาสตร์ข้อมูล" ผู้คนเริ่มตระหนักว่าสถิติในขณะที่การเรียนการสอนในมหาวิทยาลัยนั้นไม่ดีในการทำนายและโมเดลที่ไม่มีอำนาจการทำนายจะไร้ประโยชน์

— Flounderer

@Flounderer: ฉันคิดว่านี่ไม่ใช่ข้อแก้ตัวจริง ๆ และสิ่งที่คุณเขียนอาจเชื่อมต่อกับกรณีนี้ไม่ได้ ครั้งแรกในชีวิตจริงที่หนึ่งมีทั้งชุดทดสอบและชุดฝึกอบรมซึ่งแตกต่างจากในกรณีของ Faraway มีชุดฝึกอบรมเพียงชุดเดียวเท่านั้น ประการที่สองถ้าคุณดูที่โมเดลของ Faraway เป็นแบบไม่เป็นเชิงเส้นสูงซึ่งวิธีการถดถอยนั้นทำได้ไม่ดีนัก ดังนั้นแบบจำลองเชิงเส้นทั้งหมดเป็นเพียงการคาดเดาป่า คุณธรรมของการทดลองคือ "แบบจำลองทั้งหมดผิด" แทนที่จะเป็น "สถิติตามการสอนในมหาวิทยาลัยนั้นไม่ดีในการทำนาย"

— Bombyx mori

@Flounderer: กล่าวอีกนัยหนึ่งฉันเชื่อว่าถ้าฉัน (หรือใครก็ตามที่อยู่ในฟอรั่ม) อยู่ในตำแหน่งของนักเรียน Faraway เมื่อยี่สิบปีก่อนที่ต้องเผชิญกับชุดฝึกอบรมที่แปลกประหลาดนี้เราไม่น่าจะทำได้ดีกว่าโดยใช้แบบจำลองเชิงเส้น ฉันไม่คิดว่านี่เป็นสิ่งที่เกี่ยวข้องกับ "สถิติตามการสอนในมหาวิทยาลัย" เลย

— Bombyx mori

รูปแบบของนักเรียนเกือบทั้งหมดมีความเหมาะสม ด้วยจุดข้อมูล n เราสามารถใส่พหุนามที่สมบูรณ์แบบของคำสั่ง n-1 ได้เสมอ แบบจำลองดังกล่าวค้างชำระไม่มีข้อผิดพลาดแบบสุ่ม ดูเหมือนว่านักเรียนมีข้อผิดพลาดที่คล้ายกัน แต่อาจมีฟังก์ชั่นที่แตกต่างกัน

การเขียนมากเกินไปเป็นข้อผิดพลาดที่นักเรียนควรทำ และสิ่งนี้ชี้ให้เห็นประสบการณ์และการศึกษาเป็นคุณสมบัติที่จำเป็นสำหรับการสร้างแบบจำลอง

— อลิสันฝาย
แหล่งที่มา

"การ overfitting เป็นข้อผิดพลาดที่นักเรียนควรทำ" เป็นมาตรฐานที่ค่อนข้างสูง การสร้างแบบจำลองเป็นเรื่องยาก บางทีบางอย่างเช่น "การมีส่วนร่วมมากเกินไปเป็นสิ่งที่ผู้สร้างต้นแบบเรียนรู้ที่จะรับรู้และหลีกเลี่ยงผ่านประสบการณ์และการศึกษา" จะใกล้เคียงกับความจริงไหม?

— แมทธิว Drury