เหตุใดจึงไม่มีวิธีการพัก (การแยกข้อมูลเป็นการฝึกอบรมและการทดสอบ) ที่ใช้ในสถิติแบบดั้งเดิม

12

ในห้องเรียนของฉันเกี่ยวกับ data mining วิธี holdout ถูกนำเสนอเป็นวิธีการประเมินประสิทธิภาพของแบบจำลอง อย่างไรก็ตามเมื่อฉันเข้าชั้นเฟิสต์คลาสของฉันในโมเดลเชิงเส้นนี่ไม่ได้ถูกนำมาใช้เป็นวิธีการตรวจสอบความถูกต้องของแบบจำลอง การวิจัยออนไลน์ของฉันยังไม่แสดงจุดแยก เหตุใดจึงไม่ใช้วิธีการพักในสถิติแบบดั้งเดิม

— tirkquest
แหล่งที่มา

22

คำถามที่มีประสิทธิผลมากขึ้นอาจเป็น "ทำไมไม่ใช้ในสถิติแบบดั้งเดิมที่ฉันเรียนรู้"

ขึ้นอยู่กับระดับที่สอนเนื้อหาของหลักสูตร (และเวลาที่มี) ตัวเลือกนั้นอาจเนื่องมาจากปัจจัยหลายอย่างรวมกัน บ่อยครั้งที่หัวข้อสำคัญถูกทิ้งไว้เพราะวัสดุอื่น ๆ จะต้องได้รับการสอนด้วยเหตุผลอย่างใดอย่างหนึ่งด้วยความหวังว่าพวกเขาอาจจะครอบคลุมในวิชาต่อมา

ในความรู้สึกบางอย่างความคิดที่ถูกนำมาใช้โดยคนหลากหลาย พบได้ทั่วไปในบางพื้นที่มากกว่าที่อื่น การใช้สถิติจำนวนมากไม่ได้มีการทำนายหรือการเลือกรูปแบบเป็นองค์ประกอบหลัก (หรือในบางกรณีแม้แต่ที่ทั้งหมด) และในกรณีนี้การใช้ตัวอย่าง Holdout อาจมีความสำคัญน้อยกว่าเมื่อการคาดการณ์เป็นประเด็นหลัก มันควรจะมีการใช้อย่างแพร่หลายมากขึ้นในระยะก่อนหน้านี้ในแอพพลิเคชั่นที่เกี่ยวข้องมากกว่าที่เคยทำ แต่นั่นไม่ใช่สิ่งเดียวกับที่ไม่รู้จัก

หากคุณดูพื้นที่ที่มุ่งเน้นไปที่การทำนายแนวคิดของการประเมินแบบจำลองโดยการคาดการณ์ข้อมูลที่คุณไม่ได้ใช้ในการประเมินแบบจำลองของคุณนั้นใกล้เคียงกันอย่างแน่นอน แน่นอนว่าฉันกำลังทำสิ่งนั้นกับการทำแบบจำลองอนุกรมเวลาที่ฉันทำในช่วงปี 1980 ที่ซึ่งประสิทธิภาพการทำนายแบบไม่อยู่ในกลุ่มของข้อมูลล่าสุดมีความสำคัญอย่างยิ่ง

แนวคิดเกี่ยวกับการละทิ้งข้อมูลบางอย่างถูกนำมาใช้ในการถดถอย (การลบสิ่งที่เหลืออยู่, การกด, แจ็คไนฟ์และอื่น ๆ ) และในการวิเคราะห์นอกเขต

ข้อมูลความคิดเหล่านี้บางส่วนกลับมามีข้อเสนอที่ดีก่อนหน้านี้ Stone (1974) [1] หมายถึงเอกสารเกี่ยวกับการตรวจสอบความถูกต้อง (กับคำที่อยู่ในชื่อ) จากปี 1950 และ 60 บางทีใกล้ถึงความตั้งใจของคุณเขากล่าวถึงการใช้คำว่า "ตัวอย่างการก่อสร้าง" ของไซม่อน (1971) และ "ตัวอย่างการตรวจสอบ" - แต่ยังชี้ให้เห็นว่า "Larson (1931) ใช้การสุ่มหมวดตัวอย่างในการศึกษาหลายรายการ - การศึกษาความก้าวหน้า "

ตัวอย่างเช่นการตรวจสอบความถูกต้องของข้อมูลข้ามและการใช้สถิติตามการคาดการณ์และอื่น ๆ ได้กลายเป็นบ่อยครั้งมากขึ้นในวรรณคดีสถิติในยุค 70 และผ่าน 80 ตัวอย่างเช่น แต่ความคิดพื้นฐานจำนวนมากอยู่ในช่วงเวลาที่ค่อนข้างนาน แล้วก็

[1]: หิน, M. , (1974)
"ทางเลือกที่ถูกต้องตามกฎหมายและการประเมินการคาดการณ์ทางสถิติ"
วารสารของสมาคมสถิติแห่ง Royal Series B (ระเบียบวิธี) , Vol. 36, ลำดับที่ 2, หน้า 111-147

— Glen_b -Reinstate Monica
แหล่งที่มา

เพียงเพื่อบันทึกว่าเอ็มสโตนไม่ใช่ฉันและเขาไม่เกี่ยวข้องกับฉันเว้นแต่จะผ่านอาดัมและเอวา

— Mark L. Stone

11

เพื่อเติมเต็มคำตอบโดย Glen_b สถิติแบบดั้งเดิมมักจะมี / ให้ความสำคัญกับการใช้ข้อมูลที่ดีที่สุดการทดสอบที่ดีที่สุดตัวประมาณที่เหมาะสมพอเพียงและอื่น ๆ และในกรอบทฤษฎีนั้นเป็นการยากที่จะพิสูจน์ว่าไม่ได้ใช้ส่วนหนึ่งของข้อมูล ! ส่วนหนึ่งของประเพณีนั้นคือการเน้นสถานการณ์ที่มีกลุ่มตัวอย่างขนาดเล็กซึ่งการใช้งานยากลำบาก

ตัวอย่างเช่นฟิชเชอร์ทำงานส่วนใหญ่กับพันธุศาสตร์และการทดลองทางการเกษตรและในสาขาเหล่านั้นการสังเกตจำนวนน้อยคือกฎ ดังนั้นเขาจึงเผชิญปัญหาส่วนใหญ่กับชุดข้อมูลขนาดเล็ก

— kjetil b halvorsen
แหล่งที่มา

6

ฉันจะตอบจากเขตข้อมูลประยุกต์ที่อาจอยู่ระหว่างสถิติแบบดั้งเดิมและการเรียนรู้ของเครื่อง: เคมีบำบัดเช่นสถิติสำหรับการวิเคราะห์ทางเคมี ฉันจะเพิ่มสถานการณ์ที่แตกต่างกันสองสถานการณ์โดยที่การระงับไม่สำคัญเท่าในคลาสการเรียนรู้ของเครื่องทั่วไป

สถานการณ์ที่ 1:

ฉันคิดว่าจุดสำคัญอย่างหนึ่งที่นี่คือการตระหนักว่ามีความแตกต่างพื้นฐานในสิ่งที่มีขนาดตัวอย่างเล็ก ๆ สำหรับการฝึกอบรมและการทดสอบ:

สำหรับการฝึกอบรมโดยทั่วไปแล้วอัตราส่วนของจำนวนผู้ป่วย: ความซับซ้อนของโมเดล (จำนวนพารามิเตอร์) มีความสำคัญ (องศาอิสระ)
สำหรับการทดสอบที่แน่นอนจำนวนของกรณีทดสอบเรื่อง
(คุณภาพของขั้นตอนการทดสอบจะต้องเป็นอิสระจากรูปแบบ: ที่ถือว่าเป็นกล่องดำโดยการตรวจสอบกับกรณีทดสอบอิสระ)

จุดที่สองที่ฉันต้องการสำหรับการโต้แย้งของฉันคือสถานการณ์ที่กรณีทดสอบอิสระมีความสำคัญมากเกินไป หากแบบจำลองนั้นไม่ซับซ้อนพอ (ความแปรปรวนของbiasดังนั้นภายใต้การปรับให้เหมาะสม) ส่วนที่เหลือสามารถบอกคุณได้มากเกี่ยวกับข้อผิดพลาดในการทำนายทั้งหมดเป็นกรณีที่เป็นอิสระ $\gg$

ตอนนี้สถิติบรรยายเกี่ยวกับตัวแบบเชิงเส้น "คลาสสิค" มักจะเน้นตัวแบบ univariate เป็นอย่างมาก สำหรับโมเดลเชิงเส้นที่ไม่แปรเปลี่ยนขนาดตัวอย่างการฝึกอบรมมีแนวโน้มไม่เล็ก: ขนาดตัวอย่างการฝึกอบรมจะถูกตัดสินโดยทั่วไปเมื่อเปรียบเทียบกับความซับซ้อนของแบบจำลองและโมเดลเชิงเส้นมีเพียงสองพารามิเตอร์คือออฟเซ็ตและความชัน ในเคมีเชิงวิเคราะห์เรามีบรรทัดฐานที่ระบุว่าคุณควรมีตัวอย่างการสอบเทียบอย่างน้อย 10 ตัวอย่างสำหรับการสอบเทียบเชิงเส้นแบบไม่แปร สิ่งนี้ช่วยให้มั่นใจได้ว่าสถานการณ์ที่ความไม่แน่นอนของโมเดลไม่น่าเชื่อถือดังนั้นจึงไม่จำเป็นต้องทำการระงับ

อย่างไรก็ตามในการเรียนรู้ของเครื่องเช่นเดียวกับเครื่องตรวจจับหลายช่องทางที่ทันสมัยในการวิเคราะห์ทางเคมี (บางครั้ง10⁴ "ช่อง" เช่นในมวลสาร) ความมั่นคงของแบบจำลอง (เช่นความแปรปรวน) เป็นปัญหาสำคัญ ดังนั้นจึงจำเป็นต้องมีการระงับซ้ำหรือดีกว่า

สถานการณ์ที่ 2:

สถานการณ์ที่แตกต่างอย่างสิ้นเชิงคือการค้างเอาไว้อาจข้ามการรวมกันของง่ายขึ้น (ส่วนที่เหลือ) บวกกับการวัดประสิทธิภาพที่ซับซ้อนยิ่งขึ้น โปรดทราบว่าการระงับการออกในความรู้สึกของ (สุ่ม) การตั้งค่ากันเป็นส่วนหนึ่งของชุดข้อมูลและไม่รวมนี้จากการฝึกอบรมคือไม่เทียบเท่ากับสิ่งที่ทดสอบอิสระสามารถบรรลุ ในการวิเคราะห์ทางเคมีการทดลองตรวจสอบความถูกต้องเฉพาะอาจดำเนินการซึ่งจะรวมถึงการวัดการเสื่อมประสิทธิภาพเมื่อเวลาผ่านไป (เครื่องมือดริฟท์) ซึ่งไม่สามารถวัดได้โดยการค้างและสร้างเช่นประสิทธิภาพของเซ็นเซอร์ในสภาพแวดล้อมอุตสาหกรรมจริง ทำในห้องปฏิบัติการเกี่ยวกับตัวอย่างการสอบเทียบ) ดูเพิ่มเติมที่/stats//a/104750/4598 สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการทดสอบอิสระเทียบกับการระงับ

— cbeleites ไม่มีความสุขกับ SX
แหล่งที่มา

ข้างต้นในโอเชียน 1 ฉันคิดว่าคุณหมายถึงพูดว่า (อคติ << ความแปรปรวน)? กรุณาแก้ไข!

— kjetil b halvorsen

1

@kjetilbhalvorsen ไม่เพราะเธออ้างถึง underfitting ในวรรคนั้น (รุ่นที่ไม่ซับซ้อนพอ)

— Marc Claesen

@kjetilbhalvorsen; Marc Claesen ถูกต้องฉันย้ำว่านี่เป็นสถานการณ์ที่คุณมั่นใจได้ว่าปัญหากำลังเกิดขึ้น

— cbeleites ไม่มีความสุขกับ SX

ตกลง. จดหมายบางฉบับเพื่อตอบสนอง req

— kjetil b halvorsen