การคำนวณอัตราส่วนของข้อมูลตัวอย่างที่ใช้สำหรับการปรับแบบจำลอง / การฝึกอบรมและการตรวจสอบความถูกต้อง


9

ระบุขนาดตัวอย่าง "N" ที่ฉันวางแผนจะใช้ในการคาดการณ์ข้อมูล มีวิธีใดบ้างในการแบ่งข้อมูลเพื่อให้ฉันใช้บางวิธีเพื่อสร้างแบบจำลองและข้อมูลส่วนที่เหลือเพื่อตรวจสอบความถูกต้องของแบบจำลอง

ฉันรู้ว่าไม่มีคำตอบขาวดำสำหรับเรื่องนี้ แต่มันน่าสนใจที่จะรู้ "กฎง่ายๆ" หรืออัตราส่วนที่ใช้ ฉันรู้จักมหาวิทยาลัยอีกครั้งหนึ่งในอาจารย์ของเราเคยพูดแบบจำลอง 60% และตรวจสอบความถูกต้อง 40%

คำตอบ:


7

อย่างที่คุณบอกว่าไม่มีคำตอบขาวดำ โดยทั่วไปฉันไม่ได้แบ่งข้อมูลออกเป็น 2 ส่วน แต่ใช้วิธีการเช่นการตรวจสอบความถูกต้องข้ามของ k-fold แทน

ในการตรวจสอบความถูกต้องข้ามของ k-fold คุณแบ่งข้อมูลของคุณแบบสุ่มเป็น k และพอดีกับโมเดลของคุณในส่วน k-1 และทดสอบข้อผิดพลาดทางด้านซ้ายส่วน คุณทำซ้ำขั้นตอน k โดยปล่อยให้แต่ละส่วนหลุดออกจากข้อต่อทีละส่วน คุณสามารถรับค่าความผิดพลาดเฉลี่ยจากการทำซ้ำแต่ละค่า k เพื่อระบุข้อผิดพลาดของแบบจำลอง มันใช้งานได้ดีจริงๆถ้าคุณต้องการเปรียบเทียบพลังการทำนายของแบบจำลองต่างๆ

รูปแบบสุดขั้วหนึ่งของการตรวจสอบความถูกต้องของ k-fold คือการตรวจสอบความถูกต้องไขว้ทั่วไปที่คุณเพิ่งทิ้งจุดข้อมูลหนึ่งจุดสำหรับการทดสอบและปรับแบบจำลองให้เหมาะกับจุดที่เหลือทั้งหมด จากนั้นทำซ้ำกระบวนการ n ครั้งโดยปล่อยให้แต่ละจุดข้อมูลทีละหนึ่ง ฉันชอบการตรวจสอบไขว้แบบ k-fold มากกว่าการตรวจสอบไขว้แบบทั่วไป ... เป็นทางเลือกส่วนตัว


2
CV ใช้ชุดเต็มสำหรับการเลือกรุ่นใช่มั้ย มันเป็นข้อผิดพลาดทั่วไป (ถึงแม้ว่า Wikipedia จะกล่าวถึงมัน) เพราะมันเป็นสิ่งที่เกินความคาดหมาย คุณต้องทำ CV ระดับที่สูงขึ้นหรือออกจากการทดสอบเพื่อทำสิ่งนี้

5

ขึ้นอยู่กับปริมาณข้อมูลที่คุณมีค่าใช้จ่ายเฉพาะวิธีการและผลลัพธ์ที่คุณต้องการ

ตัวอย่างบางส่วน:

หากคุณมีข้อมูลเพียงเล็กน้อยคุณอาจต้องการใช้การตรวจสอบข้าม (k-fold, ออกจากรายการครั้งเดียว ฯลฯ ) โมเดลของคุณอาจไม่ใช้ทรัพยากรมากในการฝึกอบรมและทดสอบอย่างไรก็ตาม เป็นวิธีที่ดีที่จะได้รับประโยชน์สูงสุดจากข้อมูลของคุณ

คุณมีข้อมูลจำนวนมาก: คุณอาจต้องการชุดทดสอบที่มีขนาดใหญ่พอสมควรทำให้มั่นใจได้ว่าจะมีความเป็นไปได้น้อยที่ตัวอย่างแปลก ๆ บางอย่างจะให้ความแปรปรวนกับผลลัพธ์ของคุณมาก คุณควรใช้ข้อมูลเท่าไหร่ ขึ้นอยู่กับข้อมูลและรุ่นของคุณอย่างสมบูรณ์ ในการรู้จำเสียงพูดตัวอย่างเช่นถ้าคุณจะใช้ข้อมูลมากเกินไป (สมมติว่า 3000 ประโยค) การทดลองของคุณอาจใช้เวลาเป็นวันเนื่องจากปัจจัยแบบเรียลไทม์ของ 7-10 นั้นเป็นเรื่องปกติ ถ้าคุณจะใช้เวลาน้อยเกินไปมันขึ้นอยู่กับลำโพงที่คุณเลือกมากเกินไป (ซึ่งไม่ได้รับอนุญาตในชุดฝึกอบรม)

โปรดจำไว้ว่าในหลายกรณีก็เป็นการดีที่จะมีการตรวจสอบ / พัฒนาเช่นกัน!


5

การทดสอบ 1:10: อัตราส่วนรถไฟเป็นที่นิยมเพราะดูเป็นรอบ 1: 9 ได้รับความนิยมเนื่องจาก CV 10 เท่าและ 1: 2 เป็นที่นิยมเพราะมันเป็นแบบกลมและประกอบกันเป็นแถบบูต บางครั้งก็มีการทดสอบจากเกณฑ์เฉพาะข้อมูลเช่นปีที่แล้วสำหรับการทดสอบหลายปีก่อนการฝึกอบรม

กฎทั่วไปเป็นเช่นนี้: รถไฟจะต้องมีขนาดใหญ่พอที่จะให้ความแม่นยำไม่ลดลงอย่างมีนัยสำคัญและการทดสอบจะต้องมีขนาดใหญ่พอที่จะเงียบความผันผวนแบบสุ่ม

ถึงกระนั้นฉันก็ชอบ CV เพราะมันทำให้คุณมีข้อผิดพลาด


4

ในฐานะที่เป็นส่วนขยายของคำตอบ k-fold ตัวเลือก "ปกติ" ของ k คือ 5 หรือ 10 วิธีการลาออกหนึ่งครั้งมีแนวโน้มที่จะสร้างแบบจำลองที่อนุรักษ์นิยมเกินไป FYI นี่คือข้อมูลอ้างอิงเกี่ยวกับข้อเท็จจริงนั้น:

Shao, J. (1993), การเลือกโมเดลเชิงเส้นโดยการตรวจสอบข้าม, วารสารสมาคมสถิติอเมริกัน, ปีที่ 19, 88, หมายเลข 422, pp. 486-494


คุณเคยอ่านบทความนี้หรือไม่? อย่างไรก็ตามมันใช้งานได้เฉพาะกับตัวแบบเชิงเส้น (แม้ชื่อจะแสดง!) มันเป็นเรื่องเกี่ยวกับพฤติกรรมเชิงซีโมติกสำหรับวัตถุจำนวนอนันต์ 100 เป็นวิธีที่ไม่เพียงพอ

1
และฉันหวังว่าคุณจะโชคดีที่ได้ทำการตรวจสอบความถูกต้องไขว้ 10 เท่าในชุดด้วยวัตถุ 9 ชิ้น

@mbq: ฉันพูดตัวเลือก "ปกติ" ไม่ได้หมายความว่าทุกตัวเลือก
Albort

@mbq: ฉันได้อ่านกระดาษ Shao รายงานเกี่ยวกับการศึกษาการจำลองด้วยการสังเกตเพียง 40 ครั้งและแสดงให้เห็นว่า LOOCV มีประสิทธิภาพต่ำกว่า Monte-Carlo CV ยกเว้นในกรณีที่ไม่มีการเลือกย่อยที่เหมาะสม (ชุดคุณลักษณะเต็มรูปแบบเหมาะสมที่สุด) 100 เป็นวิธีที่มากพออย่างน้อยสำหรับการเลือกชุดย่อยในโมเดลเชิงเส้น
shabbychef

@shabbychef คุณมีฉันที่นี่ อาร์กิวเมนต์ที่สองในความคิดเห็นแรกของฉันแน่นอนขยะฉันมีงานอื่น ๆ ในใจและมากเกินไป อย่างไรก็ตามฉันจะยังคงยืนยันว่ากระดาษของ Shao ไม่ได้อ้างอิงที่ดีสำหรับทั่วไป "LOO ล้มเหลวสำหรับ N ขนาดใหญ่" เนื่องจากขอบเขตของมันลดลงเป็นแบบจำลองเชิงเส้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.