การตรวจสอบความถูกต้องข้าม (CV) และสถิติการตรวจสอบความถูกต้องข้ามทั่วไป (GCV)


23

ฉันได้พบอาจจะขัดแย้งกันคำจำกัดความของการตรวจสอบ (CV) สถิติข้ามและสำหรับการตรวจสอบข้ามทั่วไป (GCV) สถิติที่เกี่ยวข้องกับโมเดลเชิงเส้นตรงY=Xβ+ε (กับปกติเวกเตอร์ข้อผิดพลาด homoscedastic ε )

ในอีกด้านหนึ่ง Golub, Heath & Wahba กำหนด GCV ประมาณการλ^เป็น (หน้า 216)

ตัวย่อของV(λ)โดย

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
โดยที่A(λ)=X(XTX+nλI)1XT

ในทางตรงกันข้าม Efron กำหนดแนวความคิดเดียวกับV(0) (หน้า 24) แต่เขาแนะนำคุณลักษณะของแนวคิดนี้เพื่อ Craven & Wahba ที่นิยาม (หน้า 377) เป็นหลักเดียวกัน ดังที่ Golub, Heath & Wahba ที่กล่าวถึงคำนิยามข้างต้น

นี่หมายความว่า0ย่อขนาดV(λ)หรือไม่?

ในทำนองเดียวกัน Golub, Heath & Wahba กำหนดประมาณการ CV ของλ (หน้า 217) เป็น minimizer ของ

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

โดยที่β(k)(λ)คือค่าประมาณ

β^(λ)=(XTX+nλI)1XTy

of βมีจุดข้อมูลkที่yiถูกละไว้

ผู้เขียนคุณลักษณะการแนะนำของการประมาณการ CV (หรือเรียกว่าการประมาณการ PRESS) เพื่ออัลเลน ("อัลเลน PRESS", อ้างแล้ว) แต่ในกระดาษของอัลเลน, การประมาณการ PRESS จะถูกกำหนด (หน้า 126) เป็นnP(0) (ในบทความของ Efron มันถูกกำหนดเป็นP(0) (หน้า 24))

อีกครั้งนี่หมายความว่า0ลดขนาดP(λ)หรือไม่


  1. Allen, David M. ความสัมพันธ์ระหว่างการเลือกตัวแปรและการรวบรวมข้อมูลและวิธีการทำนาย Technometrics, Vol. 16, ฉบับที่ 1 (กุมภาพันธ์ 2517), หน้า 125-127

  2. ขี้ขลาดปีเตอร์และ Wahba เกรซ ปรับข้อมูลที่มีเสียงดังให้เรียบด้วยฟังก์ชัน Spline Numerische Mathematik 31, (1979), pp. 377-403

  3. Efron, Bradley อัตราความผิดพลาดที่ชัดเจนของการถดถอยโลจิสติกอย่างไร รายงานทางเทคนิค 232. ภาควิชาสถิติมหาวิทยาลัยสแตนฟอร์ด (เมษายน 2528)

  4. Golub, Gene H. , Heath และ Grace Wahba การตรวจสอบความถูกต้องข้ามทั่วไปเป็นวิธีการเลือกพารามิเตอร์สันเขาที่ดี Technometrics, Vol. 21, ฉบับที่ 2 (พฤษภาคม, 1979), หน้า 215-223


7
คุณลืมที่จะพูดถึงว่าสิ่งนี้จะเหมาะกับการถดถอยของสันเขาและไม่ได้กำลังสองน้อยที่สุด? ฉันสับสนโดยสิ้นเชิงเกี่ยวกับสิ่งที่จนกระทั่งฉันเห็นชื่อกระดาษที่ด้านล่างλ
shadowtalker

1
ลบการตรวจสอบความถูกต้องไขว้ทั่วไปในชื่อและเพิ่มริดจ์การถดถอยในชื่อเรื่อง นี่คือสิ่งที่ GridSearchCV () เริ่มต้นสำหรับ RidgeCV ():
HoofarLotusX

คำตอบ:


2

ฉันเชื่อว่าความคิดเห็นกำลังชี้ไปที่คำตอบ แต่ไม่ได้ระบุว่าตรงไปตรงมา ดังนั้นฉันจะทื่อ

สูตร V ที่อ้างถึงที่นี่มีความเฉพาะเจาะจงกับการถดถอยเชิงเส้นตรง พวกเขาไม่ได้บอกว่ามันเหมือนกับ PRESS แต่พวกเขาบอกว่ามันเป็นเวอร์ชั่นที่ไม่แปรเปลี่ยนของ PRESS ส่วน "การหมุนคงที่" เป็นสิ่งที่ทำให้สิ่งนี้เป็นแบบทั่วไป

กระดาษของ Efron นั้นเกี่ยวกับการถดถอยโลจิสติกส์ซึ่งปรับให้เหมาะสมกับบริบทนั้น หากคุณต้องการดูการแปลทางคณิตศาสตร์ระหว่างสองบริบทหนังสือที่ถูกต้องในการอ่านคือองค์ประกอบของการเรียนรู้ทางสถิติ, 2ed, โดย Hastie, Tibshirani และ Freedman พวกเขาเสนอว่าหนังสือเล่มฟรีออนไลน์: https://web.stanford.edu/~hastie/Papers/ESLII.pdf การอ่านที่เป็นประโยชน์เกี่ยวกับ GCV ก็คือโมเดลเสริมทั่วไปโดย Simon Wood การรักษาของเขารวม GCV โดยทั่วไปกับการใช้งานในการถดถอยและการถดถอยโลจิสติก

หากคุณดูหนังสือ ESL หน้า 244 คุณจะเห็นสัญลักษณ์เดียวกันโดยทั่วไป พวกเขาอ้างถึงผลิตภัณฑ์เมทริกซ์ขนาดใหญ่ที่คุณมีเป็นเมทริกซ์ Smoother (ฉันว่ามันเป็นเมทริกซ์ Hat หรือลูกพี่ลูกน้องใกล้) พวกเขาอธิบาย Smootherว่าเป็นแผนที่จากไปยังSyy^

y^=Sy

Sสามารถใช้ในการคำนวณค่า CV ทิ้งไว้หนึ่งค่าสำหรับแต่ละแถวในข้อมูล สำหรับรูปแบบเชิงเส้นที่เมทริกซ์มีบทบาทของเมทริกซ์หมวกในการตรวจวินิจฉัยการถดถอย อย่างไรก็ตามพวกเขาบอกว่ามันอาจจะเป็นการท้าทายหรือไม่จำเป็นในการคำนวณและวิธีการของ GCV เป็นแนวคิดเดียวกันที่มีอยู่ทั่วไปมากกว่าเล็กน้อยS

พวกเขาเสนอสูตรสำหรับการประมาณของ GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

นี่เป็นพฤติกรรมที่คล้ายคลึงกับ AIC ในหลายรุ่น การคือจำนวนพารามิเตอร์ที่มีประสิทธิภาพtraceS

ชิ้นที่คุณพูดมากขึ้นโดยทั่วไปเป็นร่องรอยของSเท่าที่ฉันสามารถเข้าใจในนามธรรม GCV เป็นรุ่นโดยประมาณของการออก crossvalidation หนึ่ง แต่ในบางกรณี (ฉันเชื่อว่าการถดถอยสัน) มันเป็นที่แน่นอน นั่นคือประเด็นหลักในกระดาษ GolubnλS

โชคดีเขียนกลับถ้าคุณเรียนรู้เพิ่มเติม


ขอบคุณ ฉันโพสต์คำถามของฉันเมื่อ 5 ปีที่แล้วและตั้งแต่นั้นฉันก็ลืมเนื้อหาส่วนใหญ่ไปแล้วดังนั้นฉันจึงไม่สามารถประเมินคำตอบของคุณเพื่อบอกได้ว่ามันดี (ซึ่งดูเหมือนจะเป็น) หรือไม่ดีและด้วยเหตุผลนี้ ฉันไม่สามารถยอมรับได้ ขอบคุณสำหรับการโพสต์ หวังว่ามันจะมีประโยชน์สำหรับคนอื่น ๆ ที่อาจเจอหน้านี้
Evan Aad
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.