Shao ใช้ผลการตรวจสอบไขว้แบบลาก่อนออกเมื่อใด


22

ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า

บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม

จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้?

  1. การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM?
  2. การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA?
  3. การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )?
  4. เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่
  5. เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression หรือไม่
  6. เป็นต้น

จะต้องมีบางอย่างในหนังสือเคมี ชายคนเดียวที่ฉันรู้ว่าการใช้ LOO ก็ทำเช่นกัน

คำตอบ:


14

คุณต้องระบุวัตถุประสงค์ของรุ่นก่อนจึงจะสามารถบอกได้ว่าผลลัพธ์ของ Shao นั้นมีผลบังคับใช้หรือไม่ ตัวอย่างเช่นหากจุดประสงค์คือการคาดการณ์ดังนั้น LOOCV จึงสมเหตุสมผลดีและความไม่สอดคล้องกันของการเลือกตัวแปรนั้นไม่ใช่ปัญหา ในทางตรงกันข้ามถ้าจุดประสงค์คือการระบุตัวแปรที่สำคัญและอธิบายว่าพวกเขาส่งผลกระทบต่อตัวแปรตอบสนองอย่างไรผลลัพธ์ของ Shao นั้นมีความสำคัญอย่างชัดเจนและ LOOCV ไม่เหมาะสม

เอไอซีเป็น asymptotically LOOCV และ BIC เป็น asymptotically เทียบเท่ากับ leave- -out CV ที่ --- ผล BIC สำหรับรูปแบบเชิงเส้นเท่านั้น ดังนั้น BIC ให้การเลือกรุ่นที่สอดคล้องกัน ดังนั้นการสรุปสั้น ๆ เกี่ยวกับผลลัพธ์ของ Shao คือ AIC นั้นมีประโยชน์สำหรับการทำนาย แต่ BIC นั้นมีประโยชน์สำหรับการอธิบายv = n [ 1 - 1 / ( บันทึก( n ) - 1 ) ]โวลต์โวลต์=n[1-1/(เข้าสู่ระบบ(n)-1)]


1
ฉันเชื่อว่า Shao แสดงให้เห็นว่า k-fold CV ไม่สอดคล้องกันถ้าถูกแก้ไขในขณะที่โตขึ้น nkn
shabbychef

1
BIC เติบโตขึ้นพร้อมกับ n
Rob Hyndman

1
ฉันจะเตือนอย่างเงียบ ๆ ว่า * IC <--> * การติดต่อ CV จาก Shao paper ใช้งานได้เฉพาะกับรุ่นเชิงเส้นเท่านั้นและ BIC นั้นเทียบเท่ากับ k-fold CV ที่มี k เท่านั้น

ที่จริงแล้วฉันเชื่อว่า Shao แสดงให้เห็นว่า CV ไม่สอดคล้องกันเว้นแต่ว่าเป็นโดยที่คือจำนวนตัวอย่างในชุดทดสอบ ดังนั้น -fold CV จะไม่สอดคล้องกันเสมอสำหรับการเลือกตัวแปร ฉันเข้าใจผิดหรือเปล่า? โดย CV เท่าผมหมายถึงการแบ่งกลุ่มตัวอย่างออกเป็นกลุ่มและการฝึกอบรมในของพวกเขาและการทดสอบในวันที่ 1 ของพวกเขาแล้วซ้ำครั้ง จากนั้นสำหรับ -fold CV ซึ่งไม่เคยเข้าใกล้ 1nโวลต์/n1n v k k k k - 1 k n v / n = 1 / k knINFnโวลต์kkkk-1knโวลต์/n=1/kk
shabbychef

3
@mbq: ไม่ - การพิสูจน์ AIC / LOO โดย Stone 1977 ไม่ถือว่าเป็นโมเดลเชิงเส้น ด้วยเหตุผลนี้ไม่เหมือนกับผลลัพธ์ของ Shao จึงมีการอ้างอย่างกว้างขวาง ดูตัวอย่างบทเลือกรุ่นใน EOSL หรือคู่มือสถิติการคำนวณหรือบท / กระดาษที่ดีในการเลือกแบบจำลอง มันมีความยาวมากกว่าหนึ่งหน้าและมีค่าการอ่านเพียงเล็กน้อยเพราะค่อนข้างเรียบร้อยสำหรับวิธีที่เขาหลีกเลี่ยงการคำนวณข้อมูล / คะแนนชาวประมงเพื่อให้ได้ผลลัพธ์
ars

7

บทความนี้ค่อนข้างขัดแย้งและไม่สนใจเลย

ไม่จริงมันได้รับการยกย่องอย่างดีว่าทฤษฎีของการเลือกแบบจำลองนั้นเกี่ยวข้องกับอะไร ปัญหาที่แท้จริงคือความเกี่ยวข้องกับการฝึกฝนการสร้างแบบจำลองในป่า สมมติว่าคุณทำแบบจำลองสำหรับกรณีที่คุณเสนอให้ทำการตรวจสอบและพิจารณาว่า LOOCV นั้นไม่สอดคล้องกันอย่างแท้จริง เหตุผลเดียวที่คุณจะได้รับเพราะคุณรู้อยู่แล้วว่ารูปแบบ "ของจริง" และสามารถระบุได้ว่าความน่าจะเป็นในการกู้คืนรูปแบบ "ของจริง" ไม่ได้รวมเป็น 1 สำหรับการสร้างแบบจำลองในป่าบ่อยแค่ไหน ปรากฏการณ์นั้นอธิบายโดยแบบจำลองเชิงเส้นและแบบจำลอง "ความจริง" เป็นส่วนหนึ่งของสิ่งที่อยู่ในการพิจารณา)?

กระดาษของ Shao นั้นน่าสนใจอย่างมากสำหรับการพัฒนากรอบทฤษฎี มันยังให้ความกระจ่าง: ถ้าโมเดล "จริง" อยู่ระหว่างการพิจารณาแน่นอนเรามีผลลัพธ์ที่สอดคล้องกันเพื่อแขวนหมวกของเรา แต่ฉันไม่แน่ใจว่าแบบจำลองที่เกิดขึ้นจริงที่น่าสนใจสำหรับกรณีที่คุณอธิบายจะเป็นอย่างไร นี่คือสาเหตุที่หนังสือส่วนใหญ่อย่าง EOSL ไม่ได้ให้ความสำคัญกับผลลัพธ์ของ Shao มากนัก แต่แทนที่จะใช้การทำนาย / ข้อผิดพลาดทั่วไปเป็นเกณฑ์ในการเลือกรูปแบบ

แก้ไข: คำตอบสั้น ๆ สำหรับคำถามของคุณคือ: ผลลัพธ์ของ Shao ใช้ได้เมื่อคุณทำการประมาณกำลังสองน้อยสุดฟังก์ชันการสูญเสียกำลังสอง ไม่กว้างขึ้น (ฉันคิดว่ามีบทความที่น่าสนใจจาก Yang (2005?) ซึ่งตรวจสอบว่าคุณมีความมั่นคงและมีประสิทธิภาพโดยมีคำตอบเชิงลบ)


ฉันไม่คิดว่ามันจะเกี่ยวข้องหรือไม่ถ้าฉันรู้แบบจริงในป่า หากมีรูปแบบ 'จริง' ฉันต้องการวิธีที่มีแนวโน้มจะพบมากกว่า
shabbychef

2
@ shabbychef: ฉันไม่เห็นด้วย แต่หมายเหตุ: "ถ้ามีโมเดล 'ของจริง'" และอยู่ระหว่างการพิจารณา .. คุณจะรู้ได้อย่างไรว่าเป็นนิรนัย?
ARS

1
โปรดทราบว่าย่อหน้าที่สองของฉันทำให้ความคิดเห็นของคุณเป็นจริง นี่เป็นคุณสมบัติที่ดี แต่ก็ยังไม่ชัดเจนว่าจะใช้งานอย่างไรในป่า แม้ว่าจะรู้สึกสบายใจในบางแง่มุม แต่ก็อาจเข้าใจผิด
ARS

2
@ars - โปรดทราบว่า "linearity" ของโมเดล 'จริง' ไม่ใช่วิธีเดียวที่จะกู้คืนโมเดล 'true' จากโมเดลเชิงเส้น หากองค์ประกอบที่ไม่ใช่เชิงเส้นของโมเดล 'ของจริง' สามารถสร้างแบบจำลองได้ดีโดยคำที่มีเสียงรบกวน (เช่นผลกระทบที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะยกเลิกซึ่งกันและกัน) จากนั้นเราก็สามารถเรียกแบบจำลองเชิงเส้น 'จริง' ได้อย่างสมเหตุสมผล สิ่งนี้คล้ายกับสมมติว่าส่วนที่เหลือในชุดเทย์เลอร์เชิงเส้นไม่มีความสำคัญ
ความน่าจะเป็นของระบบ

1
โวลต์

6



10/101


นอกเหนือจากบทพิสูจน์ฉันสงสัยว่าถ้ามีการศึกษาสถานการณ์จำลองในรายชื่อใดกรณีหนึ่งในห้ารายที่ฉันยกตัวอย่างเช่น
shabbychef

ต้องการทำอะไร

2
ฉันทำ; ฉันจะต้องเรียนรู้ R มากขึ้นเพื่อแบ่งปันผลลัพธ์ที่นี่
shabbychef

1
@shabbychef: เคยต้องทำแบบนี้เหรอ? และถ้าคุณยังนับนักเคมีที่ไม่ได้ใช้ CV สำหรับการเลือกตัวแปรคุณสามารถนับฉันที่ด้านข้างของคนที่ปฏิเสธที่จะทำเพราะ a) ฉันยังไม่มีข้อมูลจริง กำหนดให้มีกรณี (ตัวอย่าง) เพียงพอที่จะยอมให้แม้แต่การเปรียบเทียบแบบจำลองเดียวและ b) สำหรับข้อมูลสเปกโทรสโกปีของฉันข้อมูลที่เกี่ยวข้องมักจะ "เปื้อน" มากกว่าส่วนใหญ่ของสเปกตรัมดังนั้นฉันชอบการทำให้เป็นระเบียบ
cbeleites รองรับโมนิก้า

1

1) คำตอบโดย @ars กล่าวถึง Yang (2005) "จุดแข็งของ AIC และ BIC สามารถแบ่งปันได้หรือไม่" . การพูดอย่างหลวม ๆ ดูเหมือนว่าคุณไม่สามารถมีเกณฑ์การเลือกรูปแบบได้ทั้งความมั่นคง (มีแนวโน้มที่จะเลือกรูปแบบที่ถูกต้องหากมีรูปแบบที่ถูกต้องจริงและอยู่ในรูปแบบที่พิจารณา) และประสิทธิภาพ (บรรลุค่าเฉลี่ยต่ำสุด) ข้อผิดพลาดกำลังสองโดยเฉลี่ยในรุ่นที่คุณเลือก) หากคุณมักจะเลือกแบบจำลองที่เหมาะสมโดยเฉลี่ยบางครั้งคุณจะได้แบบจำลองที่เล็กเกินไป - เล็กเกินไป ... แต่บ่อยครั้งที่ขาดการทำนายที่แท้จริง

ดังที่ได้กล่าวไว้ก่อนหน้านี้หากคุณสนใจการคาดการณ์ที่ดีมากกว่าการได้ตัวแปรที่ถูกต้องคุณควรใช้ LOOCV หรือ AIC

2) แต่ฉันต้องการชี้ให้เห็นอีกสองเรื่องของเอกสารของเขา: Yang (2006) "การเปรียบเทียบวิธีการเรียนรู้เพื่อการจำแนก"และYang (2007) "ความสอดคล้องของการตรวจสอบข้ามสำหรับกระบวนการเปรียบเทียบการถดถอย""ความสอดคล้องของการรอการตรวจสอบสำหรับการเปรียบเทียบวิธีการถดถอย" เอกสารเหล่านี้แสดงให้เห็นว่าคุณไม่จำเป็นต้องมีอัตราส่วนของข้อมูลการฝึกอบรมต่อการทดสอบเพื่อลดขนาดลงเป็น 0 หากคุณกำลังเปรียบเทียบแบบจำลองที่บรรจบกันในอัตราที่ช้ากว่าแบบจำลองเชิงเส้น

ดังนั้นเพื่อตอบคำถามเดิมของคุณ 1-6 โดยตรง: ผลลัพธ์ของ Shao จะนำไปใช้เมื่อเปรียบเทียบแบบจำลองเชิงเส้นซึ่งกันและกัน ไม่ว่าจะเป็นการถดถอยหรือการจัดหมวดหมู่หากคุณกำลังเปรียบเทียบแบบจำลองที่ไม่ใช่พารามิเตอร์ที่มาบรรจบกันในอัตราที่ช้ากว่า (หรือแม้แต่การเปรียบเทียบแบบจำลองเชิงเส้นหนึ่งแบบกับแบบจำลองแบบไม่อิงพารามิเตอร์หนึ่งตัว) คุณสามารถใช้ข้อมูลส่วนใหญ่สำหรับการฝึกอบรม .. แต่ถึงกระนั้นยางยังแสดงให้เห็นว่า LOOCV นั้นสุดขั้วเกินไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.