ทำไมรุ่นหลายรุ่นอาจให้ผลลัพธ์ที่เหมือนกันเกือบ

10

ฉันวิเคราะห์ชุดข้อมูลของระเบียน ~ 400k และ 9 ตัวแปรตัวแปรตามเป็นไบนารี ฉันได้ติดตั้งการถดถอยแบบลอจิสติกต้นไม้การถดถอยแบบสุ่มป่าและต้นไม้แบบไล่ระดับสี พวกเขาทั้งหมดให้ความพอดีเหมือนกันของตัวเลขพอดีเมื่อฉันตรวจสอบพวกเขาในชุดข้อมูลอื่น

ทำไมเป็นเช่นนี้ ฉันเดาว่าเป็นเพราะการสังเกตอัตราส่วนแปรปรวนของฉันสูงมาก หากสิ่งนี้ถูกต้องตัวแบบที่แตกต่างกันที่การสังเกตอัตราส่วนจะเริ่มให้ผลที่แตกต่างกันหรือไม่

data-mining classification binary

— JenSCDC
แหล่งที่มา

7

ผลลัพธ์นี้หมายความว่าวิธีใดก็ตามที่คุณใช้คุณจะสามารถเข้าใกล้กฎการตัดสินใจที่เหมาะสมที่สุด ( กฎของเบย์ ) เหตุผลพื้นฐานที่ได้รับการอธิบายใน Hastie, Tibshirani และฟรีดแมน"องค์ประกอบของการเรียนรู้ทางสถิติ" พวกเขาแสดงให้เห็นว่าวิธีการที่แตกต่างกันดำเนินการโดยการเปรียบเทียบมะเดื่อ 2.1, 2.2, 2.3, 5.11 (ในฉบับพิมพ์ครั้งแรกของฉัน - ในส่วนของเส้นโค้งหลายมิติ), 12.2, 12.3 (รองรับเครื่องเวกเตอร์) และอื่น ๆ หากคุณยังไม่ได้อ่านหนังสือที่คุณจะต้องวางทุกอย่างRIGHT NOWและอ่านมันได้ (ฉันหมายความว่ามันไม่คุ้มค่าที่จะสูญเสียงานของคุณ แต่มันก็คุ้มค่าที่จะขาดการบ้านสักสองหรือสองถ้าคุณเป็นนักเรียน)

ฉันไม่คิดว่าการสังเกตอัตราส่วนที่แปรปรวนเป็นคำอธิบาย ด้วยเหตุผลของฉันที่นำเสนอข้างต้นมันเป็นรูปแบบที่ค่อนข้างง่ายของขอบเขตการแยกชั้นเรียนของคุณในพื้นที่หลายมิติที่วิธีการทั้งหมดที่คุณพยายามสามารถระบุได้

— StasK
แหล่งที่มา

ฉันจะถามเจ้านายของฉันว่าฉันจะทำให้ บริษัท จ่ายเงินให้ได้ไหม

— JenSCDC

1

ESL เป็นแบบฟรีในรูปแบบ pdf จากหน้าแรกของพวกเขา ... นอกจากนี้ยังมีค่าดาวน์โหลด ISL (โดยผู้เขียนคนเดียวกัน) - www-bcf.usc.edu/~gareth/ISL

— seanv507

4

ความคุ้มค่ายังดูที่ข้อผิดพลาดการฝึกอบรม

โดยทั่วไปฉันไม่เห็นด้วยกับการวิเคราะห์ของคุณ ถ้าการถดถอยแบบลอจิสติกส์ ฯลฯ ให้ผลลัพธ์ที่เหมือนกันมันก็จะแนะนำว่า 'โมเดลที่ดีที่สุด' นั้นง่ายมาก ๆ

ดังนั้นคำถามอาจเป็นเพราะเหตุใดแบบจำลองที่ดีที่สุดเป็นแบบจำลองง่าย ๆ : มันอาจชี้ให้เห็นว่าตัวแปรของคุณไม่สามารถคาดเดาได้มาก แน่นอนว่ามันยากที่จะวิเคราะห์โดยไม่ทราบข้อมูล

— seanv507
แหล่งที่มา

1

ตามที่ @ seanv507 แนะนำประสิทธิภาพที่คล้ายกันอาจเป็นเพราะข้อมูลถูกแยกออกจากกันมากที่สุดโดยตัวแบบเชิงเส้น แต่โดยทั่วไปแล้วคำแถลงว่าเป็นเพราะ "การสังเกตอัตราส่วนตัวแปรสูงมาก" นั้นไม่ถูกต้อง แม้ว่าอัตราส่วนของขนาดตัวอย่างต่อจำนวนตัวแปรจะเป็นไม่สิ้นสุดคุณไม่ควรคาดหวังว่าตัวแบบที่แตกต่างกันจะทำงานได้เกือบเหมือนกันยกเว้นว่าพวกเขาทุกตัวมีอคติทำนายเดียวกัน

— bogatron
แหล่งที่มา

ฉันเพิ่งแก้ไขคำถามของฉันเพื่อเพิ่มว่าตัวแปรตามเป็นไบนารี ดังนั้นโมเดลเชิงเส้นจึงไม่เหมาะสม

— JenSCDC

"คุณไม่ควรคาดหวังว่าแบบจำลองที่แตกต่างกันจะทำงานได้เกือบจะเหมือนกันทุกประการยกเว้นว่าพวกเขาทุกคนจะให้ความลำเอียงในการทำนายที่เหมือนกัน" ฉันใช้แม่และอัตราส่วนของจริงเพื่อทำนายผลลัพธ์เป็นมาตรการตรวจสอบความถูกต้องและอัตราส่วนใกล้เคียงกันมาก

— JenSCDC

1

แอนดี้ฉันจะรวมการถดถอยโลจิสติกส์ (และ SVM เชิงเส้น) เป็นโมเดล 'เชิงเส้น' พวกเขาทั้งหมดเพียงแยกข้อมูลด้วยผลรวมถ่วงน้ำหนักของอินพุต

— seanv507

1

@ seanv507 แน่นอน - ขอบเขตการตัดสินใจยังคงเป็นแบบเส้นตรง ความจริงที่ว่าการจำแนกเลขฐานสองกำลังถูกดำเนินการไม่ได้เปลี่ยนแปลงสิ่งนั้น

— bogatron

ต้นไม้ล่ะ พวกเขาดูเหมือนจะไม่ตรงกับฉัน

— JenSCDC

0

ฉันเดาว่าเป็นเพราะการสังเกตอัตราส่วนแปรปรวนของฉันสูงมาก

ฉันคิดว่าคำอธิบายนี้สมเหตุสมผลดี

หากสิ่งนี้ถูกต้องตัวแบบที่แตกต่างกันที่การสังเกตอัตราส่วนจะเริ่มให้ผลที่แตกต่างกันหรือไม่

สิ่งนี้อาจขึ้นอยู่กับข้อมูลเฉพาะของคุณเป็นอย่างมาก (ตัวอย่างเช่นแม้ว่าตัวแปรเก้าตัวของคุณจะต่อเนื่องปัจจัยสามัญหรือไบนารี) รวมถึงการตัดสินใจปรับแต่งใด ๆ ที่คุณทำในขณะที่ปรับโมเดลของคุณให้เหมาะสม

แต่คุณสามารถเล่นกับอัตราส่วนการสังเกตต่อตัวแปร - ไม่ใช่โดยการเพิ่มจำนวนของตัวแปร แต่โดยการลดจำนวนการสังเกต สุ่มการสังเกต 100 แบบให้พอดีกับแบบจำลองและดูว่าแบบจำลองที่ต่างกันให้ผลลัพธ์ที่แตกต่างกันหรือไม่ (ฉันเดาว่าพวกเขาจะทำ) ทำสิ่งนี้หลายครั้งด้วยตัวอย่างที่แตกต่างจากจำนวนการสังเกตทั้งหมดของคุณ จากนั้นดูตัวอย่างย่อย 1,000 ข้อสังเกต ... 10,000 ข้อสังเกต ... และต่อ ๆ ไป

— สเตฟาน Kolassa
แหล่งที่มา

1

หืมทำไมถึงเป็นอย่างนั้น? การสังเกตมากขึ้นดูเหมือนจะเพิ่มโอกาสที่ขอบเขตการตัดสินใจมีความซับซ้อนมากขึ้น - นั่นคือไม่เชิงเส้นแน่นอน และแบบจำลองเหล่านี้ทำสิ่งต่าง ๆ ในกรณีที่ซับซ้อนและมีแนวโน้มที่จะทำแบบเดียวกันในแบบง่าย ๆ

— Sean Owen

@SeanOwen: ฉันคิดว่าฉันไม่เข้าใจความคิดเห็นของคุณ ส่วนใดของคำตอบของฉัน "ทำไมถึงเป็นเช่นนั้น" อ้างถึง? OP ไม่ได้พูดอะไรเกี่ยวกับการใช้ขอบเขตการตัดสินใจเชิงเส้น - หลังจากทั้งหมดเขาอาจเปลี่ยนการทำนายในบางวิธี

— Stephan Kolassa

ทำไมการสังเกตเพิ่มเติมทำให้ตัวแยกประเภทที่แตกต่างกันให้การตัดสินใจที่คล้ายกันมากขึ้น? สัญชาตญาณของฉันตรงกันข้าม ใช่ฉันไม่ได้คิดถึงขอบเขตการตัดสินใจเชิงเส้น ยิ่งขอบเขตที่เหมาะสมมีความซับซ้อนมากเท่าไหร่ก็ยิ่งมีโอกาสน้อยลงเท่านั้นที่จะพอดีกับสิ่งที่คล้ายกับขอบเขตนั้นมากขึ้น และขอบเขตมีแนวโน้มที่จะซับซ้อนมากขึ้นด้วยการสังเกตเพิ่มเติม

— Sean Owen