สมมติฐานของ iid เกี่ยวกับคู่ , i = 1 , … , Nมักถูกสร้างขึ้นในสถิติและในการเรียนรู้ของเครื่อง บางครั้งด้วยเหตุผลที่ดีบางครั้งก็ไม่สะดวกและบางครั้งก็เพียงเพราะเรามักจะตั้งสมมติฐานนี้ หากจะตอบได้อย่างน่าพอใจหากสมมติฐานมีความจำเป็นจริง ๆ และสิ่งที่ตามมาคืออะไรที่ไม่ทำให้ข้อสันนิษฐานนี้เกิดขึ้นฉันจะจบลงด้วยการเขียนหนังสือได้ง่าย ๆ ที่นี่ฉันจะพยายามให้ภาพรวมโดยย่อของสิ่งที่ฉันพบว่าเป็นประเด็นที่สำคัญที่สุด(Xi,yi)i=1,…,N
สมมติฐานพื้นฐาน
สมมติว่าเราต้องการที่จะเรียนรู้รูปแบบความน่าจะเป็นที่ได้รับXซึ่งเราเรียกว่าP ( Y | X ) เราไม่ได้ตั้งสมมุติฐานใด ๆ เกี่ยวกับแบบจำลองนี้เป็นไพรเออรี่ แต่เราจะทำให้สมมติฐานน้อยที่สุดที่แบบจำลองนี้มีอยู่เช่นนั้นyXp(y∣X)
- เงื่อนไขการจำหน่ายของได้รับX ฉันคือP ( Y ฉัน | X ฉัน )yผมXผมp ( yผม∣ Xผม)
สิ่งที่ควรสังเกตเกี่ยวกับสมมติฐานนี้คือการแจกแจงแบบมีเงื่อนไขของขึ้นอยู่กับiผ่านX iเท่านั้น นี่คือสิ่งที่ทำให้ตัวแบบมีประโยชน์เช่นสำหรับการทำนาย ข้อสันนิษฐานนั้นเป็นผลสืบเนื่องมาจากส่วนที่กระจายตัวเหมือนกันภายใต้สมมติฐานของ iid แต่มันก็อ่อนแอกว่าเพราะเราไม่ได้ตั้งสมมติฐานเกี่ยวกับX iYผมผมXผมXผม 's
ในเรื่องต่อไปนี้ส่วนใหญ่จะเน้นไปที่บทบาทของความเป็นอิสระ
การสร้างแบบจำลอง
มีสองวิธีที่สำคัญในการเรียนรู้รูปแบบของการเป็นที่ได้รับX วิธีการหนึ่งที่เป็นที่รู้จักกันจำแนกการสร้างแบบจำลองและอื่น ๆ เช่นการกำเนิดการสร้างแบบจำลองYX
- Discriminative modelling : เราจำลองโดยตรงเช่นตัวแบบถดถอยโลจิสติก, โครงข่ายประสาทเทียม, ต้นไม้หรือป่าสุ่ม สมมติฐานการสร้างแบบจำลองการทำงานโดยทั่วไปแล้วจะเป็นไปได้ว่าปีฉัน 's มีเงื่อนไขอิสระที่กำหนดXฉัน ' s แม้ว่าเทคนิคการประมาณการอาศัย subsampling หรือร่วมมือให้ความรู้สึกมากที่สุดภายใต้ IID หรือสมมติฐาน exchangeability ปรับตัวลดลง (ดูด้านล่าง) แต่โดยทั่วไปสำหรับการสร้างแบบจำลองจำแนกเราไม่จำเป็นต้องทำให้สมมติฐานเกี่ยวกับการกระจายXฉัน 's p ( y∣ X )yiXiXผม
- การสร้างแบบจำลองกำเนิด : เรารูปแบบการกระจายทุนของ( X , Y )โดยทั่วไปการสร้างแบบจำลองการกระจายเงื่อนไขP ( X | Y )และการกระจายร่อแร่P ( Y ) จากนั้นเราก็ใช้สูตรเบส์สำหรับการคำนวณP ( Y | X ) การวิเคราะห์จำแนกเชิงเส้นและวิธีการไร้เดียงสาของเบย์เป็นตัวอย่าง สมมติฐานการสร้างแบบจำลองการทำงานโดยทั่วไปจะเป็นสมมติฐาน IIDp(X,y)(X,y)p(X∣y)p(y)p(y∣X)
สำหรับวิธีการสร้างแบบจำลองทั้งสองวิธีใช้สมมติฐานการสร้างแบบจำลองการทำงานเพื่อหาหรือเสนอวิธีการเรียนรู้ (หรือตัวประมาณ) นั่นอาจเป็นได้โดยการเพิ่มโอกาสในการบันทึก (ลงโทษ) ลดความเสี่ยงเชิงประจักษ์หรือโดยใช้วิธีการแบบเบย์ แม้ว่าสมมติฐานการสร้างแบบจำลองการทำงานไม่ถูกต้องวิธีการที่ได้ยังสามารถให้ได้อย่างเหมาะสม p(y∣X)
เทคนิคบางอย่างใช้ร่วมกับการจำแนกแบบจำลองเช่นการบรรจุถุง (การรวม bootstrap) ทำงานโดยการปรับโมเดลหลาย ๆ แบบให้เหมาะกับข้อมูลที่สุ่มตัวอย่างจากชุดข้อมูล หากไม่มีข้อสันนิษฐาน iid (หรือความสามารถแลกเปลี่ยนได้) ชุดข้อมูลที่มีการสุ่มตัวอย่างใหม่จะไม่มีการแจกแจงร่วมที่คล้ายกับชุดข้อมูลดั้งเดิม โครงสร้างการพึ่งพาใด ๆ ได้กลายเป็น "messed up" โดย resampling ฉันไม่ได้คิดอย่างลึกซึ้งเกี่ยวกับเรื่องนี้ แต่ฉันไม่เห็นว่าทำไมจึงควรทำลายวิธีการเป็นวิธีการเรียนรู้p(y∣X) )อย่างน้อยก็ไม่ใช่วิธีการที่ตั้งอยู่บนสมมติฐานความเป็นอิสระในการทำงาน ฉันมีความสุขที่จะพิสูจน์ว่าผิดที่นี่
ความสอดคล้องและขอบเขตข้อผิดพลาด
คำถามกลางสำหรับวิธีการเรียนรู้ทั้งหมดคือพวกมันส่งผลให้แบบจำลองใกล้เคียงกับหรือไม่ มีวรรณคดีเชิงทฤษฎีมากมายในสถิติและการเรียนรู้ของเครื่องเกี่ยวกับความสอดคล้องและขอบเขตข้อผิดพลาด เป้าหมายหลักของวรรณกรรมนี้คือเพื่อพิสูจน์ว่าโมเดลที่เรียนรู้ใกล้เคียงกับp ( y ∣ X )เมื่อNp(y∣X)p(y∣X)Nมีขนาดใหญ่ ความสอดคล้องคือการประกันคุณภาพในขณะที่ขอบเขตข้อผิดพลาดให้ (กึ่ง -) การควบคุมเชิงปริมาณอย่างชัดเจนของความใกล้ชิดและให้อัตราการบรรจบกัน
ผลลัพธ์ทางทฤษฎีทั้งหมดขึ้นอยู่กับสมมติฐานเกี่ยวกับการกระจายการร่วมของการสังเกตในชุดข้อมูล บ่อยครั้งที่การสร้างแบบจำลองการทำงานที่กล่าวถึงข้างต้นถูกสร้างขึ้นมา (นั่นคือความเป็นอิสระตามเงื่อนไขสำหรับการเลือกปฏิบัติแบบจำลอง สำหรับการสร้างแบบจำลองจำแนกความสอดคล้องและขอบเขตข้อผิดพลาดจะต้องให้บรรลุเงื่อนไขบางประการ ในการถดถอยแบบคลาสสิกหนึ่งเงื่อนไขดังกล่าวคือ1XiสำหรับN→การ∞ที่Xหมายถึงเมทริกซ์ออกแบบกับแถวX Tฉัน เงื่อนไขที่อ่อนแออาจจะเพียงพอสำหรับความมั่นคง ในการเรียนรู้กระจัดกระจายเงื่อนไขดังกล่าวอีกอย่างหนึ่งคือสภาพค่าลักษณะเฉพาะที่ จำกัด ให้ดูเช่นในเงื่อนไขที่ใช้ในการพิสูจน์ผลลัพธ์พยากรณ์สำหรับ Lasso1NXTX→ΣN→∞XXTiสำหรับเชือก การสันนิษฐานของ iid พร้อมกับสมมติฐานการกระจายทางเทคนิคบางอย่างบ่งบอกว่าเงื่อนไขที่เพียงพอดังกล่าวได้รับการเติมเต็มด้วยความน่าจะเป็นที่มีขนาดใหญ่และดังนั้นการสันนิษฐานของ iid อาจพิสูจน์ได้ว่ามีเพียงพอ
สมมติฐานการสร้างแบบจำลองการทำงานของความเป็นอิสระอาจผิดสำหรับวิธีการแบบจำลองอย่างใดอย่างหนึ่ง ในฐานะที่เป็นหยาบกฎของหัวแม่มือหนึ่งยังคงสามารถคาดหวังความสอดคล้องหากข้อมูลที่มาจากกระบวนการอัตลักษณ์และหนึ่งยังสามารถคาดหวังขอบเขตข้อผิดพลาดบางอย่างถ้ากระบวนการนี้อย่างพอเพียงได้อย่างรวดเร็วผสม นิยามทางคณิตศาสตร์ที่แม่นยำของแนวคิดเหล่านี้จะทำให้เราห่างไกลจากคำถามหลัก มันก็เพียงพอที่จะทราบว่ามีโครงสร้างการพึ่งพาอาศัยอยู่นอกเหนือจากสมมติฐาน iid ซึ่งวิธีการเรียนรู้สามารถพิสูจน์ได้ว่าทำงานได้เมื่อแนวโน้มที่จะไม่มีที่สิ้นสุดN
หากเรามีความรู้อย่างละเอียดเกี่ยวกับโครงสร้างการพึ่งพาเราอาจเลือกที่จะแทนที่สมมติฐานความเป็นอิสระในการทำงานที่ใช้สำหรับการสร้างแบบจำลองด้วยแบบจำลองที่จับโครงสร้างการพึ่งพาเช่นกัน มักจะทำสำหรับอนุกรมเวลา รูปแบบการทำงานที่ดีขึ้นอาจส่งผลให้วิธีการมีประสิทธิภาพมากขึ้น
การประเมินรูปแบบ
แทนที่จะพิสูจน์ว่าวิธีการเรียนรู้ให้แบบจำลองใกล้กับมันมีคุณค่าในทางปฏิบัติที่ยอดเยี่ยมเพื่อรับการประเมิน (สัมพัทธ์) ของ "แบบจำลองที่เรียนรู้ได้ดีเพียงใด" คะแนนการประเมินดังกล่าวเทียบได้กับแบบจำลองที่เรียนรู้สองแบบขึ้นไป แต่จะไม่ให้การประเมินที่แน่นอนว่าแบบจำลองที่เรียนรู้นั้นใกล้เคียงกับp ( y ∣ X )เท่าใดp(y∣X)p(y∣X)เพียงใด โดยทั่วไปแล้วการประมาณค่าของคะแนนการประเมินจะคำนวณจากเชิงประจักษ์โดยแยกชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดข้อมูลทดสอบหรือโดยใช้การตรวจสอบข้าม
เช่นเดียวกับการบรรจุชุดข้อมูลการแยกชุดข้อมูลแบบสุ่มจะ "สับสน" โครงสร้างการพึ่งพาใด ๆ อย่างไรก็ตามสำหรับวิธีการที่ตั้งอยู่บนสมมติฐานความเป็นอิสระในการทำงานข้อสันนิษฐานด้านสรีรศาสตร์ที่อ่อนแอกว่า iid นั้นน่าจะเพียงพอสำหรับการประเมินการประเมินว่ามีเหตุผลแม้ว่าข้อผิดพลาดมาตรฐานของการประเมินเหล่านี้จะยากมาก
[ แก้ไข: การพึ่งพาระหว่างตัวแปรจะส่งผลให้มีการกระจายของรูปแบบการเรียนรู้ที่แตกต่างจากการกระจายภายใต้สมมติฐาน iid การประมาณที่สร้างขึ้นโดยการตรวจสอบความถูกต้องไขว้กันนั้นไม่เกี่ยวข้องกับข้อผิดพลาดในการวางนัยทั่วไปอย่างชัดเจน หากการพึ่งพาอาศัยกันมากก็น่าจะเป็นการประเมินที่ไม่ดี]
สรุป (tl; dr)
ทั้งหมดข้างต้นอยู่ภายใต้สมมติฐานที่ว่ามีความน่าจะเป็นรูปแบบการแก้ไขเงื่อนไข ) ดังนั้นจึงไม่สามารถมีแนวโน้มหรือการเปลี่ยนแปลงอย่างฉับพลันในการจัดจำหน่ายที่มีเงื่อนไขไม่ได้บันทึกโดยXp(y∣X)X
เมื่อเรียนรู้รูปแบบของให้Xความเป็นอิสระมีบทบาทเป็นyX
- สมมติฐานการสร้างแบบจำลองการทำงานที่มีประโยชน์ที่ช่วยให้เราได้รับวิธีการเรียนรู้
- สมมติฐานที่เพียงพอ แต่ไม่จำเป็นสำหรับการพิสูจน์ความสอดคล้องและการให้ข้อผิดพลาดขอบเขต
- ข้อสมมติฐานที่เพียงพอ แต่ไม่จำเป็นสำหรับการใช้เทคนิคการแยกข้อมูลแบบสุ่มเช่นการบรรจุถุงเพื่อการเรียนรู้และการตรวจสอบความถูกต้องข้ามการประเมิน
เพื่อให้เข้าใจอย่างถ่องแท้ว่าทางเลือกอื่นใดสำหรับ iid ที่เพียงพอก็ไม่ใช่เรื่องไร้สาระและเป็นหัวข้อการวิจัย