คำจำกัดความของ "ดีที่สุด" ที่ใช้ในคำว่า "เหมาะสมที่สุด" และการตรวจสอบข้ามคืออะไร


16

หากคุณใส่ฟังก์ชั่นที่ไม่เป็นเชิงเส้นเข้ากับชุดของคะแนน (สมมติว่ามีเพียงหนึ่งการจัดอันดับสำหรับแต่ละ abscissa) ผลลัพธ์อาจเป็น:

  1. ฟังก์ชั่นที่ซับซ้อนมากพร้อมสิ่งตกค้างน้อย
  2. ฟังก์ชั่นที่ง่ายมากที่มีของเหลือใช้ขนาดใหญ่

การตรวจสอบความถูกต้องไขว้มักใช้เพื่อค้นหาการประนีประนอม "สุดยอด" ระหว่างสุดขั้วทั้งสองนี้ แต่ "ดีที่สุด" หมายถึงอะไร มัน "น่าจะ" มากที่สุด? คุณจะเริ่มพิสูจน์ได้อย่างไรว่าทางออกที่เป็นไปได้มากที่สุดคืออะไร?

เสียงภายในของฉันบอกฉันว่า CV กำลังค้นหาวิธีแก้ปัญหาพลังงานขั้นต่ำ สิ่งนี้ทำให้ฉันคิดถึงเอนโทรปีซึ่งฉันรู้ว่าเกิดขึ้นทั้งในเชิงสถิติและฟิสิกส์

สำหรับฉันแล้วดูเหมือนว่าพอดี "ดีที่สุด" ถูกสร้างขึ้นโดยลดผลรวมของฟังก์ชั่นของความซับซ้อนและข้อผิดพลาดเช่น

minimising m where m = c(Complexity) + e(Error)

สิ่งนี้สมเหตุสมผลหรือไม่? ฟังก์ชัน c และ e จะเป็นอะไร?

โปรดอธิบายด้วยการใช้ภาษาที่ไม่ใช่คณิตศาสตร์เพราะฉันจะไม่เข้าใจคณิตศาสตร์มาก


1
ดีที่สุดคือโมเดลที่มีข้อผิดพลาดต่ำที่สุดในอนาคตและการตรวจสอบความถูกต้องจะให้ข้อมูลประมาณการกับคุณ เหตุผลสำหรับสูตร c (Complexity) + e (ข้อผิดพลาด) เป็นเพราะคุณสามารถใช้ข้อผิดพลาดในข้อมูลการฝึกอบรมเป็นข้อผิดพลาดในอนาคตโดยประมาณ แต่นั่นก็เป็นแง่ดีเกินไปดังนั้นคุณจึงเพิ่มคำเพื่อทำให้การประมาณการนี้ไม่เอนเอียง ความซับซ้อนของแบบจำลอง
Yaroslav Bulatov

ในทางกลับกันเหตุผลในแง่ของปรากฏการณ์ Runge (แรงบันดาลใจทางฟิสิกส์อีกครั้ง) ไดรฟ์เพื่อสรุปว่าข้อผิดพลาดในอนาคตเป็นสิ่งที่เกี่ยวกับความซับซ้อน / Train_Error

Matt Krause ได้ให้คำตอบที่ดีเยี่ยมสำหรับคำถามที่คล้ายกันที่นี่: stats.stackexchange.com/a/21925/14640 การ ถอดความจากคำตอบของเขา: เป้าหมายคือเพื่อรักษาสมดุลของความซับซ้อนของโมเดลด้วยพลังการอธิบายของโมเดลและแนวคิดของ parsimony ดีกว่า การวัดความเหมาะสมของโมเดลมากกว่าแนวคิดของแบบที่เหมาะสมที่สุดกับข้อผิดพลาด นี่เป็นเพราะโมเดลที่มีความซับซ้อนสูงสามารถทำให้ข้อมูลมากเกินไปโดยไม่สามารถทำนายหรืออธิบายผลลัพธ์ใหม่ได้ดีขึ้น
Assad Ebrahim

คำตอบ:


6

ฉันคิดว่านี่เป็นคำถามที่ยอดเยี่ยม ฉันจะถอดความมันเพียงเพื่อให้แน่ใจว่าฉันได้รับมันถูกต้อง:

มันจะดูเหมือนว่ามีหลายวิธีที่จะเลือกฟังก์ชั่นความซับซ้อนโทษและโทษข้อผิดพลาดการทำงานของอี ตัวเลือกไหนดีที่สุด สิ่งที่ดีที่สุดควรหมายถึงอะไรce

ฉันคิดว่าคำตอบ (ถ้ามี) จะนำคุณไปไกลกว่าเพียงแค่การตรวจสอบข้าม ฉันชอบวิธีที่คำถามนี้ (และหัวข้อโดยทั่วไป) มีความสัมพันธ์กับทางRazor ของ Occamและแนวคิดทั่วไปของparsimonyที่เป็นพื้นฐานของวิทยาศาสตร์ ฉันไม่เคยเป็นผู้เชี่ยวชาญในด้านนี้ แต่ฉันพบว่าคำถามนี้น่าสนใจอย่างมาก ข้อความที่ดีที่สุดที่ฉันรู้จากคำถามประเภทนี้คือปัญญาประดิษฐ์สากลโดย Marcus Hutter (อย่าถามคำถามใด ๆ กับฉันเลยฉันยังไม่ได้อ่านเลย) ฉันไปพูดคุยกับ Hutter และเมื่อสองสามปีก่อนและประทับใจมาก

คุณมีสิทธิในการคิดว่ามีข้อโต้แย้งเอนโทรปีขั้นต่ำในการมีที่ใดที่หนึ่ง (ใช้สำหรับฟังก์ชั่นความซับซ้อนโทษในลักษณะบางอย่าง) Hutter สนับสนุนการใช้Kolmogorov complexแทนเอนโทรปี นอกจากนี้คำจำกัดความของ Hutter ที่ว่า 'ดีที่สุด' (เท่าที่ฉันจำได้) คือ (แบบไม่เป็นทางการ) โมเดลที่ทำนายอนาคตได้ดีที่สุด (กล่าวคือคาดคะเนข้อมูลที่ดีที่สุดที่จะถูกสังเกตในอนาคต) ฉันจำไม่ได้ว่าเขาทำให้ความคิดนี้เป็นทางการได้อย่างไรc


คุณเข้าใจคำถาม ฉันจะติดตามลิงก์
บาร์ต

คุณควรรู้ว่าลิงค์เหล่านี้ไม่น่าจะพาคุณไปได้ทุกที่ที่ 'ใช้งานได้จริง' หากคุณกำลังพยายามสร้างบางสิ่งโดยใช้การตรวจสอบข้าม (หรือการเลือกรูปแบบอื่น ๆ ) จากนั้นในทางปฏิบัติมันมีแนวโน้มที่จะเกิดขึ้นกับบางสิ่งบางอย่างในการแก้ปัญหาและ ad-hoc เล็กน้อย (แม้ว่าฉันยอมรับว่ามันไม่พอใจ)
Robby McKilliam

ตอนนี้เรากำลังเดินทางอยู่ที่ไหนซักแห่ง en.wikipedia.org/wiki/Minimum_message_lengthดูเหมือนจะเป็นสิ่งที่ฉันคิด ขอบคุณ!
บาร์ต

ไม่ต้องห่วง. นี่เป็นเพียงการสะท้อนเท่านั้นไม่ใช่ในทางปฏิบัติ
บาร์ต

9

ฉันจะเสนอคำตอบสั้น ๆ แบบง่าย ๆ (ในระดับที่ค่อนข้างเป็นนามธรรม) จนกระทั่งมีคนอื่นเสนอคำตอบที่ดีกว่า:

ก่อนอื่นให้สังเกตว่าฟังก์ชั่น / แบบจำลองที่ซับซ้อนนั้นมีความเหมาะสมดีกว่า (เช่นมีส่วนที่เหลือน้อยกว่า) เนื่องจากพวกมันใช้ประโยชน์จากคุณสมบัติบางอย่างในท้องถิ่น (คิดว่ามีเสียงรบกวน) ของชุดข้อมูลที่ไม่ได้มีอยู่ทั่วโลก

ประการที่สองเมื่อดำเนินการตรวจสอบความถูกต้องข้ามเราแบ่งข้อมูลออกเป็นสองชุด: ชุดฝึกอบรมและชุดตรวจสอบ

ดังนั้นเมื่อเราทำการตรวจสอบข้ามแบบจำลองที่ซับซ้อนอาจไม่สามารถทำนายได้ดีเพราะตามคำจำกัดความตัวแบบที่ซับซ้อนจะใช้ประโยชน์จากคุณลักษณะท้องถิ่นของชุดการฝึกอบรม อย่างไรก็ตามคุณลักษณะในท้องถิ่นของชุดการฝึกอบรมอาจแตกต่างกันมากเมื่อเทียบกับคุณลักษณะในท้องถิ่นของชุดการตรวจสอบความถูกต้องซึ่งส่งผลให้ประสิทธิภาพการคาดการณ์ไม่ดี ดังนั้นเราจึงมีแนวโน้มที่จะเลือกรูปแบบที่รวบรวมคุณลักษณะทั่วโลกของการฝึกอบรมและชุดข้อมูลการตรวจสอบความถูกต้อง

โดยสรุปการตรวจสอบความถูกต้องไขว้ช่วยป้องกันการ overfitting โดยเลือกรูปแบบที่จับรูปแบบทั่วโลกของชุดข้อมูลและโดยการหลีกเลี่ยงรูปแบบที่ใช้ประโยชน์จากคุณสมบัติในท้องถิ่นของชุดข้อมูล


@Srikant ฉันรู้ทั้งหมดนี้ CV เป็นวิธีการค้นหา "ดีที่สุด" คำจำกัดความของ "ดีที่สุด" คืออะไร?
บาร์ต

@bart 'best model' = โมเดลที่ 'ดีที่สุด' รวบรวมรูปแบบทั่วโลกในขณะที่หลีกเลี่ยงคุณสมบัติในตัวเครื่องของข้อมูล นั่นคือสิ่งที่ดีที่สุดที่ฉันสามารถทำได้สำหรับคำอธิบายที่ไม่ใช่คณิตศาสตร์ บางทีคนอื่นอาจอธิบายให้ละเอียดมากขึ้นหรือเจาะจงมากขึ้น

@bart: "ดีที่สุด" หมายถึงฟังก์ชั่นที่เหมาะกับข้อมูลการฝึกอบรมที่ดีที่สุดและ "generalizes" เป็นอย่างดีต่อการตรวจสอบความถูกต้อง / ข้อมูลชุดการทดสอบที่มองไม่เห็น ฉันคิดว่านี่ค่อนข้างชัดเจนจากคำตอบของศรีกันต์ มีหลายวิธีในการกำหนดพฤติกรรมการวางนัยทั่วไปอย่างเป็นทางการ ในแง่ที่ไม่เป็นทางการคุณสามารถคิดได้ว่ามันเป็นการค้นหาฟังก์ชั่นที่ "ราบรื่น" และไม่กระวนกระวายใจมากนัก การพยายามให้พอดีกับข้อมูลการฝึกอบรมเพียงอย่างเดียวอาจนำไปสู่ฟังก์ชั่นการค้นหาแบบวิก ๆ ได้ในขณะที่ความนุ่มนวลมักจะทำให้แน่ใจว่าฟังก์ชั่นจะทำได้ดีพอสมควรทั้งในการฝึกอบรมและการตรวจสอบความถูกต้อง / ข้อมูลการทดสอบ
ebony1 1

@ebony: คุณไม่มีจุด ฉันได้ปรับปรุงคำถามใหม่เพื่อหวังให้ชัดเจนขึ้น
บาร์ต

5

ในมุมมองการเรียนรู้ด้วยเครื่องจักรทั่วไปคำตอบนั้นค่อนข้างง่าย: เราต้องการสร้างแบบจำลองที่จะมีความแม่นยำสูงสุดเมื่อคาดการณ์ข้อมูลใหม่ (มองไม่เห็นในระหว่างการฝึกอบรม) เนื่องจากเราไม่สามารถทดสอบได้โดยตรง (เราไม่มีข้อมูลจากอนาคต) เราทำการจำลอง Monte Carlo ของการทดสอบดังกล่าวและนี่เป็นแนวคิดที่อยู่ภายใต้การตรวจสอบความถูกต้องของข้อมูล

อาจมีปัญหาบางอย่างเกี่ยวกับความถูกต้อง (ตัวอย่างเช่นลูกค้าธุรกิจสามารถระบุได้ว่ามีค่าใช้จ่ายเกินกว่า 5 €ต่อหน่วยและ undershoot 0.01 €ต่อหน่วยดังนั้นจึงเป็นการดีกว่าที่จะสร้างรูปแบบที่ถูกต้องน้อยกว่า แต่ไม่เน้น) ค่อนข้างง่ายต่อการใช้งานร้อยละของคำตอบที่แท้จริงในการจำแนกและใช้กันอย่างแพร่หลายอธิบายความแตกต่างในการถดถอย


3

ผู้คนจำนวนมากมีคำตอบที่ยอดเยี่ยมนี่คือ $ 0.02 ของฉัน

มีสองวิธีในการดู "แบบจำลองที่ดีที่สุด" หรือ "การเลือกแบบจำลอง" การพูดทางสถิติ:

1 คำอธิบายที่ง่ายที่สุด แต่ไม่ง่ายกว่า (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 การทำนายคือความสนใจคล้ายกับการพัฒนาทางวิศวกรรม

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

แนวคิดที่ผิดพลาด (กว้างขวาง):

Model Choice เทียบเท่ากับการเลือกรุ่นที่ดีที่สุด

สำหรับคำอธิบายเราควรจะเตือนว่ามีความเป็นไปได้ที่จะมีแบบจำลองที่อธิบายได้ดีพอ ๆ กัน ความเรียบง่ายช่วยให้ทั้งสื่อสารกับแนวความคิดที่เป็นตัวเป็นตนในแบบจำลองและในสิ่งที่นักจิตวิทยาเรียกว่าลักษณะทั่วไปความสามารถในการ 'ทำงาน' ในสถานการณ์ที่แตกต่างจากแบบจำลองที่ศึกษา ดังนั้นมีพรีเมี่ยมในบางรุ่น

สำหรับการคาดการณ์: (การเปรียบเทียบของดร. ริปลีย์) นั้นเป็นการเลือกระหว่างความคิดเห็นของผู้เชี่ยวชาญ: หากคุณเข้าถึงผู้เชี่ยวชาญจำนวนมากคุณจะใช้ความคิดเห็นของพวกเขาอย่างไร

การตรวจสอบความถูกต้องไขว้ดูแลด้านการทำนาย สำหรับรายละเอียดเกี่ยวกับ CV โปรดดูที่การนำเสนอนี้โดยดร. BD ริปลีย์การนำเสนอของดร. ไบรอันดีริปลี่ย์ในการเลือกรุ่น

การอ้างอิง: โปรดทราบว่าทุกอย่างในคำตอบนี้มาจากการนำเสนอที่อ้างถึงข้างต้น ฉันเป็นแฟนตัวยงของงานนำเสนอนี้และฉันชอบมัน ความคิดเห็นอื่น ๆ อาจแตกต่างกัน ชื่อของงานนำเสนอคือ: "การเลือกระหว่างรุ่นขนาดใหญ่ของแบบจำลอง" และมอบให้ที่ Symposium เพื่อเฉลิมพระเกียรติในวันเกิดครบรอบ 80 ปีของ John Nelder, Imperial College, 29/30 มีนาคม 2547 โดยดร. ไบรอันดีริปลีย์


3

การอภิปรายที่ดีที่นี่ แต่ฉันคิดว่าการตรวจสอบข้ามในวิธีที่แตกต่างจากคำตอบป่านนี้ (mbq และฉันอยู่ในหน้าเดียวกันฉันคิดว่า) ดังนั้นฉันจะใส่สองเซ็นต์ของฉันที่มีความเสี่ยงจากการ muddying น้ำ ...

การตรวจสอบข้ามเป็นเทคนิคทางสถิติสำหรับการประเมินความแปรปรวนและอคติเนื่องจากข้อผิดพลาดการสุ่มตัวอย่างในความสามารถของแบบจำลองเพื่อให้พอดีและทำนายข้อมูล ดังนั้น "ดีที่สุด" จะเป็นรูปแบบที่ให้ข้อผิดพลาดการวางนัยทั่วไปต่ำสุดซึ่งจะอยู่ในหน่วยของความแปรปรวนและอคติ เทคนิคเช่น Bayesian และ Bootstrap Model Averaging สามารถใช้ในการอัพเดทตัวแบบในแบบอัลกอริทึมตามผลลัพธ์จากความพยายามในการตรวจสอบข้าม

คำถามที่พบบ่อยนี้ให้ข้อมูลที่ดีสำหรับบริบทเพิ่มเติมเกี่ยวกับสิ่งที่แจ้งความคิดเห็นของฉัน


1

ฟังก์ชั่นข้อผิดพลาดเป็นข้อผิดพลาดของแบบจำลองของคุณ (ฟังก์ชัน) บนข้อมูลการฝึกอบรม ความซับซ้อนนั้นเป็นบรรทัดฐานบางอย่าง (เช่น, l2 norm แบบธรรมดา) ของฟังก์ชันที่คุณพยายามเรียนรู้ การลดความซับซ้อนของคำศัพท์เป็นสิ่งสำคัญช่วยให้ฟังก์ชั่นราบรื่นซึ่งไม่เพียงแค่ข้อมูลการฝึกอบรมเท่านั้น แต่ยังรวมถึงข้อมูลการทดสอบด้วย หากคุณเป็นตัวแทนของฟังก์ชันของคุณด้วยชุดของค่าสัมประสิทธิ์ (เช่นถ้าคุณกำลังทำการถดถอยเชิงเส้น) การลงโทษความซับซ้อนด้วยบรรทัดฐานกำลังสองจะนำไปสู่ค่าสัมประสิทธิ์ขนาดเล็กในฟังก์ชันของคุณ (การลงโทษบรรทัดฐานอื่น ๆ


1

จากมุมมองการเพิ่มประสิทธิภาพปัญหา (ด้วย (p,q)1,λ>0),

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

is equivalent to

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

Which simply incorporates unto the objective function the prior information that ||β||qλ. If this prior turns out to be true, then it can be shown (q=1,2) that incorporating it unto the objective function minimizes the risk associated with β^ (i.e. very unformaly, improves the accuracy of β^)

λ is a so called meta-parameter (or latent parameter) that is not being optimized over (in which case the solution would trivially reduce to λ=), but rather, reflects information not contained in the sample (x,y) used to solve (1)(2) (for example other studies or expert's opinion). Cross validation is an attempt at constructing a data induced prior (i.e. slicing the dataset so that part of it is used to infer reasonable values of λ and part of it used to estimate β^|λ).

As to your subquestion (why e()=||ym(x,β)||p) this is because for p=1 (p=2) this measure of distance between the model and the observations has (easely) derivable assymptotical properties (strong convergence to meaningfull population couterparts of m()).


1
Is λ a parameter that is free to be chosen?
Robby McKilliam

@Robby:> thanks. I slightly appended the text to make the distinction between parameters and hyperparameters clear.
user603

@kwak: I'm sorry to say I haven't a clue what this means. What do the symbols p, q, lambda, x, y, m and beta signify?
bart

@bart:> My answer is essentially the same as Srikant's. Where he provides an intuitive explication, I wanted to add a more rigorous one for the benefits of future visitors that may have the same question as you, but are more familliar with math than non-formal language. All the symbols you mention are defined in my answer (altough, again, this is done formally).
user603

@kwak: Where, for example, is p defined?
bart
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.