เหตุผลเชิงประจักษ์สำหรับกฎข้อผิดพลาดมาตรฐานเดียวเมื่อใช้การตรวจสอบความถูกต้องข้าม


38

มีการศึกษาเชิงประจักษ์ที่แสดงให้เห็นถึงการใช้กฎข้อผิดพลาดมาตรฐานเดียวเพื่อสนับสนุนการประหยัดเงินหรือไม่? เห็นได้ชัดว่ามันขึ้นอยู่กับกระบวนการสร้างข้อมูล แต่สิ่งใดก็ตามที่วิเคราะห์คลังข้อมูลขนาดใหญ่จะเป็นการอ่านที่น่าสนใจมาก


"กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" จะถูกนำไปใช้เมื่อเลือกรุ่นผ่านการตรวจสอบข้าม (หรือโดยทั่วไปผ่านขั้นตอนการสุ่มใด ๆ )

สมมติเราพิจารณารุ่นการจัดทำดัชนีความซับซ้อนพารามิเตอร์เช่นว่าคือ "ความซับซ้อนมากขึ้น" กว่าว่าเมื่อtau' สมมติว่าเราประเมินคุณภาพของโมเดลโดยกระบวนการสุ่มตัวอย่างเช่นการตรวจสอบข้าม ให้แสดงถึงคุณภาพ "เฉลี่ย" ของเช่นค่าความผิดพลาดการทำนายค่าเฉลี่ยของการข้ามการตรวจสอบความถูกต้องจำนวนมาก เราต้องการลดปริมาณนี้MττRMτMττ>τMq(M)M

อย่างไรก็ตามเนื่องจากการวัดคุณภาพของเรานั้นมาจากขั้นตอนการสุ่มตัวอย่างบางอย่างจึงมาพร้อมกับความแปรปรวน อนุญาตให้แสดงถึงข้อผิดพลาดมาตรฐานของคุณภาพของในการดำเนินการสุ่มเช่นค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดการคาดการณ์นอกถุงของในการดำเนินการตรวจสอบข้ามs(M)MM

จากนั้นเราก็เลือกรูปแบบที่เป็นที่เล็กที่สุดดังกล่าวว่าMτττ

q(Mτ)q(Mτ)+s(Mτ),

ที่ดัชนี (โดยเฉลี่ย) แบบที่ดีที่สุด,tau)τq(Mτ)=minτq(Mτ)

นั่นคือเราเลือกแบบจำลองที่ง่ายที่สุด ( เล็กที่สุด τ ) ซึ่งไม่เกินหนึ่งข้อผิดพลาดมาตรฐานที่แย่กว่าแบบจำลองที่ดีที่สุดMτในขั้นตอนการสุ่ม

ฉันพบ "กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ" ที่อ้างถึงในที่ต่อไปนี้ แต่ไม่เคยมีเหตุผลที่ชัดเจน:


7
แม้ว่าฉันจะรู้ว่าสิ่งที่คุณอ้างถึงโดย "กฎข้อผิดพลาดมาตรฐานหนึ่ง" ฉันสงสัยอย่างยิ่งว่าผู้คนจำนวนมากจะไม่ แต่จะสนใจคำถามนี้ถ้าพวกเขาทำ บางทีคุณสามารถแก้ไขเพื่อเพิ่มประโยคอธิบายสองสามคำได้หรือไม่? (เพียงข้อเสนอแนะ ... )
jbowman

2
@ jbowman: ฉันเพิ่งแก้ไขคำถามเพื่ออธิบายกฎข้อผิดพลาดมาตรฐานข้อหนึ่งกระแทกเพราะฉันค่อนข้างสนใจสิ่งนี้ ... และคำตอบด้านล่างไม่ตอบคำถามของฉันจริงๆ ทุกคนโปรดปรับปรุง
S. Kolassa - Reinstate Monica


2
มันจะทำให้เป็นหัวข้อที่ดีสำหรับกระดาษ ดูเหมือนว่าฮิวริสติกทางวิศวกรรมที่สมเหตุสมผล แต่ไม่ใช่ SEH ทั้งหมดที่ใช้งานได้จริงดังนั้นการศึกษาชุดข้อมูลจำนวนมากจะน่าสนใจ ฉันสงสัยว่ามีปัญหาการทดสอบสมมติฐานหลายข้อที่เกี่ยวข้องซึ่งอาจหมายความว่าไม่ได้มีการสอบเทียบที่ดีนัก แต่ฉันคิดว่ามันน่าจะดีกว่าการไม่ทำอะไรเลยในชุดข้อมูลที่การปรับจูนแบบนี้น่าจะเป็น ปัญหา. คำถามคือมันทำให้ประสิทธิภาพยิ่งแย่ลงในชุดข้อมูลที่ไม่มีปัญหาหรือไม่
Dikran Marsupial

คำตอบ:


12

ต่อไปนี้ไม่ใช่การศึกษาเชิงประจักษ์ซึ่งเป็นสาเหตุที่ฉันต้องการโพสต์เป็นความคิดเห็นไม่ใช่คำตอบ - แต่จริงๆแล้วมันกลับกลายเป็นว่านานเกินไปสำหรับความคิดเห็น

Cawley & Talbot ( การวิจัยการเรียนรู้ของเครื่องจักร , 2010)ให้ความสนใจกับความแตกต่างระหว่างการ overfitting ในระหว่างการเลือกรูปแบบและ overfitting ในระหว่างขั้นตอนการติดตั้งแบบจำลอง

การ overfitting ประเภทที่สองคือสิ่งที่คนส่วนใหญ่คุ้นเคย: เนื่องจากแบบจำลองหนึ่ง ๆ เราไม่ต้องการให้มันมากเกินไปเช่นเพื่อให้พอดีกับลักษณะเฉพาะของชุดข้อมูลเดียวที่เรามีอยู่โดยทั่วไป ( นี่คือที่การหดตัว / การทำให้เป็นปกติสามารถช่วยได้โดยการค้าเพิ่มขึ้นเล็กน้อยในอคติต่อการลดลงของความแปรปรวน )

อย่างไรก็ตาม Cawley & Talbot ยืนยันว่าเราสามารถมีความเหมาะสมเช่นกันในระหว่างขั้นตอนการเลือกรุ่น ท้ายที่สุดเรายังมีชุดข้อมูลเพียงชุดเดียวและเรากำลังตัดสินใจระหว่างรุ่นที่แตกต่างกันของความซับซ้อนที่แตกต่างกัน การประเมินแบบจำลองผู้สมัครแต่ละคนเพื่อเลือกแบบหนึ่งมักจะเกี่ยวข้องกับการปรับแบบจำลองนั้นซึ่งสามารถทำได้โดยใช้การทำให้เป็นมาตรฐานหรือไม่ แต่การประเมินในตัวมันเองนั้นเป็นตัวแปรสุ่มอีกครั้งเพราะมันขึ้นอยู่กับชุดข้อมูลที่เรามี ดังนั้นตัวเลือกแบบ "ดีที่สุด" ของเราจึงสามารถมีอคติและจะแสดงความแปรปรวนขึ้นอยู่กับชุดข้อมูลเฉพาะจากชุดข้อมูลทั้งหมดที่เราดึงมาจากประชากร

Cawley & Talbot ให้เหตุผลว่าการเลือกแบบจำลองที่มีประสิทธิภาพดีที่สุดในการประเมินนี้อาจเป็นกฎการเลือกที่มีอคติเล็ก ๆ แต่อาจมีความแปรปรวนขนาดใหญ่ นั่นคือเนื่องจากชุดข้อมูลการฝึกอบรมที่แตกต่างจากกระบวนการสร้างข้อมูล (DGP) เดียวกันกฎนี้อาจเลือกรุ่นที่แตกต่างกันมากซึ่งจะถูกติดตั้งและใช้สำหรับการคาดการณ์ในชุดข้อมูลใหม่ที่ตาม DGP เดียวกันอีกครั้ง ในแสงนี้การจำกัดความแปรปรวนของขั้นตอนการเลือกแบบจำลอง แต่การเบี่ยงเบนเล็กน้อยไปสู่ตัวแบบที่ง่ายกว่าอาจทำให้เกิดข้อผิดพลาดน้อยกว่าตัวอย่าง

Cawley & Talbot ไม่ได้เชื่อมต่อสิ่งนี้กับกฎข้อผิดพลาดมาตรฐานอย่างชัดเจนและส่วนของพวกเขาใน "การเลือกรูปแบบปกติ" นั้นสั้นมาก อย่างไรก็ตามกฎข้อผิดพลาดมาตรฐานหนึ่งข้อจะปฏิบัติตามการทำให้เป็นมาตรฐานนี้อย่างแน่นอนและนำความสัมพันธ์ระหว่างความแปรปรวนในการเลือกรูปแบบและความแปรปรวนของข้อผิดพลาดการตรวจสอบความถูกต้องออกนอกกระเป๋า

ยกตัวอย่างเช่นด้านล่างเป็นรูปที่ 2.3 จากการเรียนรู้ทางสถิติกับ Sparsityโดย Hastie, Tibshirani และเวนไรท์ (2015) ความแปรปรวนของการเลือกแบบจำลองนั้นกำหนดโดยความนูนของเส้นสีดำอย่างน้อยที่สุด ที่นี่ค่าต่ำสุดไม่ได้เด่นชัดมากนักและเส้นนั้นค่อนข้างนูนเล็กน้อยดังนั้นการเลือกแบบจำลองอาจค่อนข้างไม่แน่นอนเมื่อมีความแปรปรวนสูง และความแปรปรวนของการประมาณข้อผิดพลาด OOB CV นั้นแน่นอนโดยเส้นสีน้ำเงินจำนวนมากที่แสดงถึงข้อผิดพลาดมาตรฐาน

กฎข้อผิดพลาดมาตรฐานหนึ่งข้อ


1
ฮ่า ๆลองค้นหานี้ (หรือใส่เครื่องหมายยัติภังค์ในการค้นหาของคุณ)
อะมีบาพูดว่า Reinstate Monica

2
หากคุณมีพารามิเตอร์ regularization เพียงตัวเดียวการเรียงลำดับแบบ over-fitting นั้นจะไม่เป็นปัญหามากเกินไป (เนื่องจากปัญหาการปรับให้เหมาะสมมีเพียงหนึ่งระดับของเสรีภาพเท่านั้น) แต่ถ้าคุณมีพารามิเตอร์ normalization จำนวนมาก (เช่นการพิจารณาความเกี่ยวข้องอัตโนมัติสำหรับ จากนั้นมันก็สามารถกลายเป็นรูปธรรมได้อย่างรวดเร็ว วิธี sd หนึ่งวิธีเป็นวิธีแก้ปัญหาที่ดีสำหรับการหลีกเลี่ยงการปรับพารามิเตอร์ให้เป็นมาตรฐาน แต่มันจะดีถ้าลองและมีบางสิ่งที่มีเหตุผลมากกว่านี้ (1/2)
Dikran Marsupial

1
สองแนวทางที่เรา (Mrs Marsupial และ I) ตรวจสอบคือการทำให้พารามิเตอร์ไฮเปอร์เป็นปกติด้วยพารามิเตอร์ไฮเปอร์ไฮเปอร์ที่รวมเอาการวิเคราะห์ ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) หรือแปลงไฮเปอร์พารามิเตอร์บางส่วนเป็นพารามิเตอร์และปรับให้ตรงกับข้อมูลเช่นกันโดยเสียค่าใช้จ่ายในการเพิ่มพารามิเตอร์การทำให้เป็นมาตรฐานพิเศษ (แต่ยังคงลดองศาอิสระในการเลือกรุ่นดังนั้นจึงช่วยได้) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
อนึ่งการเลือกรูปแบบที่ไม่เหมาะสมมากเกินไปอาจส่งผลให้รูปแบบการปรับขนาดที่เหมาะสมเกินไปหรือต่ำกว่าความเหมาะสมของชุดการฝึกอบรมซึ่งอาจทำให้ปัญหายุ่งยากเล็กน้อยในการวินิจฉัย จากมุมมองของเบย์สิ่งที่ดีที่สุดที่ต้องทำคือไม่ปรับให้เหมาะสม แต่ทำให้เสื่อมเสียมากกว่าแต่นั่นก็มีราคาแพงหรือยุ่งยากหรือทั้งสองอย่าง ข้อได้เปรียบที่สำคัญของกฎข้อที่ 1sd คืออยู่ที่ปลายอีกด้านหนึ่งของสเปกตรัมและในฐานะที่เป็นวิศวกรฉันชอบสิ่งง่าย ๆ ที่ใช้งานได้ o) (3/2)λ
Dikran Marsupial

1
หนึ่งในหัวข้อเกี่ยวกับหัวข้อการเพิ่มประสิทธิภาพแลมบ์ดา-VS-marginalizing-over-แลมบ์ดาที่กล่าวถึงเป็น @DikranMarsupial stats.stackexchange.com/questions/24799 การสนทนานั้นเกี่ยวกับการถดถอยของสันเขาและอาจเป็นเรื่องยาก (?) เรื่องยุ่งยากสำหรับ lasso / elastic net / etc ในขณะที่ความสวยงามของ CV นั้นง่ายต่อการนำไปปฏิบัติ
อะมีบาพูดว่า Reinstate Monica

11

สำหรับเหตุผลเชิงประจักษ์ให้ดูที่หน้า 12 ในบันทึกหลักสูตรการขุดข้อมูล Tibshirani เหล่านี้ซึ่งแสดงข้อผิดพลาด CV เป็นฟังก์ชันของแลมบ์ดาสำหรับปัญหาการสร้างแบบจำลองเฉพาะ ข้อเสนอแนะน่าจะเป็นที่ต่ำกว่าค่าที่แน่นอนlambdas ทั้งหมดให้เกี่ยวกับข้อผิดพลาด CV เดียวกัน สิ่งนี้สมเหตุสมผลเนื่องจาก LASSO ไม่ได้ใช้เพียงอย่างเดียวหรือแม้กระทั่งเบื้องต้นเพื่อปรับปรุงความแม่นยำในการทำนาย จุดขายหลักของมันคือการทำให้แบบจำลองง่ายขึ้นและสามารถตีความได้มากขึ้นโดยการกำจัดตัวทำนายที่เกี่ยวข้อง / มีค่าน้อยที่สุด

ตอนนี้ที่จะเข้าใจกฎหนึ่งข้อผิดพลาดมาตรฐานขอคิดเกี่ยวกับครอบครัวของแบบจำลองที่เราได้รับจากการที่แตกต่างกัน\ร่างของ Tibshirani กำลังบอกเราว่าเรามีโมเดลที่มีความซับซ้อนปานกลางถึงสูงที่มีความคล้ายคลึงกันในด้านความแม่นยำในการทำนายและโมเดลที่มีความซับซ้อนต่ำซึ่งไม่สามารถคาดการณ์ได้ เราควรเลือกอะไร ถ้าเราใช้เราอาจสนใจแบบจำลองทางดังนั้นเราอาจต้องการแบบจำลองที่ง่ายที่สุดที่อธิบายข้อมูลของเราได้ดีพอสมควรเพื่อถอดความ Einstein แล้วแบบจำลองความซับซ้อนต่ำสุดที่ "เกี่ยวกับดีเท่า" กับโมเดลที่มีความซับซ้อนสูงเหล่านั้นคืออะไร? และวิธีที่ดีในการวัด "เกี่ยวกับดี" คืออะไร? ข้อผิดพลาดมาตรฐานหนึ่งข้อλL1


1
ฉันไม่เข้าใจตรรกะของคำตอบนี้ เช่น: "ต่างจากการถดถอยของสันสัน LASSO ไม่ใช่กลไกสำหรับการปรับปรุงความแม่นยำในการทำนาย" - ทำไม? ทำไม L1 ถึงแตกต่างจาก L2 ในประโยคถัดไปคุณจะอธิบายสิ่งที่เกิดขึ้นกับ L1 สำหรับ lambdas ต่ำ แต่ฉันคิดว่าสิ่งเดียวกันนี้เกิดขึ้นกับ L2 สำหรับ lambdas ต่ำ
อะมีบาพูดว่า Reinstate Monica

1
โปรดทราบว่านี่เป็นคำอธิบายแบบฮิวริสติกและขึ้นอยู่กับข้อสมมติฐานบางอย่างเช่นตัวทำนายทั้งหมดเป็นข้อมูล หากคุณมีตัวคาดคะเนเสียงจำนวนหนึ่งตันและตัวให้ข้อมูลบางตัวอาจมีค่าแลมบ์ดาที่ชัดเจนและชัดเจนว่าจะเพิ่มประสิทธิภาพการวัด CV: อันที่สอดคล้องกับการเลือกชุดย่อยของตัวทำนายที่ให้ข้อมูล เมื่อแลมบ์ดาลดลงต่ำกว่าค่านั้นคุณก็แค่ปล่อยให้เสียงดังรบกวนและทำร้ายโมเดล
พอล

1
ฉันคิดว่าข้อโต้แย้งนี้ใช้ได้ดีกับสันเขาและบ่วงถ้าคุณใช้คำจำกัดความกว้าง ๆ ของความน่าเชื่อถือที่มีการทำให้เป็นมาตรฐานมากกว่า -> แบบจำลองที่ง่ายกว่า อย่างไรก็ตามมันง่ายกว่าที่จะกระตุ้นให้ L1 มากกว่า L2 เนื่องจากปัญหาและชุดข้อมูลต่าง ๆ ที่ใช้งานอยู่ ผู้ที่ใช้ L1 สนใจที่จะมีแบบจำลองง่ายขึ้นและพวกเขามีแนวโน้มที่จะพบกับกราฟข้อผิดพลาด CV ที่จัดแสดงโดย Tibshirani
Paul

1
จากข้อความESLแบบคลาสสิกหน้า 224: "มักจะใช้กฎ" ข้อผิดพลาดมาตรฐานเดียว "กับการตรวจสอบข้ามซึ่งเราเลือกรูปแบบที่เป็นทางเลือกที่มีข้อผิดพลาดมากกว่าหนึ่งข้อผิดพลาดมาตรฐานเหนือข้อผิดพลาดของแบบจำลองที่ดีที่สุด" ตัวอย่างที่ให้ไว้คือการถดถอยของเซ็ตย่อยและแสดงเส้นโค้งรูปหัวเข่าเทียบกับจำนวนตัวทำนาย เส้นโค้งแบนเหนืออันดับ # ของตัวทำนายที่ถูกต้องซึ่งสอดคล้องกับคำอธิบายที่ฉันให้ไว้ข้างต้นอีกครั้ง ไม่มีการอ้างถึงเหตุผลที่เข้มงวดหรือคณิตศาสตร์
Paul

1
ดังนั้นฉันคิดว่าประเด็นหลักที่นี่คือการกำหนดขั้นต่ำไม่ดี แต่รูปแบบที่ถูกทำให้เป็นมาตรฐานมากที่สุดภายในหนึ่งซิกม่าของขั้นต่ำนั้นถูกกำหนดไว้อย่างดี
Paul

1

จำนวนของตัวแปรที่เลือกโดยประมาณการเชือกจะตัดสินใจโดยมูลค่าการลงโทษ\ใหญ่กว่าคือยิ่งเล็กลงเป็นชุดของตัวแปรที่เลือก Let เป็นชุดของตัวแปรที่เลือกใช้เป็นโทษ\ λλS^(λ)λ

ให้เป็นบทลงโทษที่เลือกโดยใช้ฟังก์ชั่นการตรวจสอบข้ามขั้นต่ำ ก็สามารถที่จะพิสูจน์ให้เห็นว่า1 โดยที่เป็นชุดของตัวแปรที่ไม่ใช่ 0 จริง ๆ (ชุดของตัวแปรที่แท้จริงคือเนื้อหาอย่างเคร่งครัดในชุดที่ประเมินโดยใช้เป็นบทลงโทษขั้นต่ำของการตรวจสอบข้าม)λP(S0S^(λ))1S0

ควรรายงานในสถิติสำหรับข้อมูลมิติสูงโดยBühlmannและ van de Geer

ค่าปรับมักถูกเลือกผ่านการตรวจสอบข้าม ซึ่งหมายความว่ามีการเลือกตัวแปรที่มีความน่าจะเป็นสูงเกินไป เพื่อลดจำนวนของตัวแปรที่เลือกโทษจะเพิ่มขึ้นเล็กน้อยโดยใช้กฎข้อผิดพลาดมาตรฐานเดียวλ


1
คุณสามารถดูรายละเอียดเพิ่มเติมได้ที่นี่หรือไม่? ดูเหมือนว่าน่าหลงใหล
DavidShor

1
นี่หมายความว่ามีการเลือกตัวแปรที่มากเกินไป - สำหรับฉันมันไม่ชัดเจนว่าทำไมและทำไมถึงมีความน่าจะเป็นสูงที่ตัวแปรน้อยเกินไปไม่สามารถเลือกได้ ท้ายที่สุดแล้วการเลือกข้ามที่ผ่านการตรวจสอบควรให้ค่าประมาณที่มีอคติน้อย แต่อาจมีความแปรปรวนสูงตามที่ระบุไว้ในคำตอบของ Stephen Kolassa λ
Richard Hardy

ฉันคิดว่าความจริงคือการเลือกตัวแปรมากกว่าที่ต้องการจะลดประสิทธิภาพการทำนายน้อยกว่าการเลือกตัวแปรไม่เพียงพอ ด้วยเหตุนี้ CV จึงมีแนวโน้มที่จะเลือกตัวแปรเพิ่มเติม
Donbeo

ลองดูที่หนังสือเล่มนี้springer.com/gp/book/9783642201912และไปที่บท lasso ที่นี่drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM
Donbeo

นี่คือหนังสือที่ฉันหมายถึง
Donbeo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.