เกี่ยวกับความสำคัญของการตั้งสมมติฐานในการเรียนรู้ทางสถิติ


54

ในการเรียนรู้ทางสถิติโดยปริยายหรืออย่างชัดเจนเรามักจะสันนิษฐานว่าชุดการฝึกอบรมD={X,y}ประกอบด้วยการป้อนข้อมูลN / ตอบสนอง tuples (Xi,yi)ที่มาจากการกระจายข้อต่อเดียวกัน ด้วยP(X,y)

p(X,y)=p(y|X)p(X)

และความสัมพันธ์ที่เราพยายามรวบรวมผ่านอัลกอริทึมการเรียนรู้เฉพาะ ในทางคณิตศาสตร์สมมติฐาน iid นี้เขียน:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

ฉันคิดว่าเราทุกคนสามารถยอมรับว่าสมมติฐานนี้ไม่ค่อยพอใจในทางปฏิบัติให้ดูคำถาม SEที่เกี่ยวข้องนี้และความคิดเห็นที่ชาญฉลาดของ @Glen_b และ @Luca

คำถามของฉันคือ:

สมมติฐาน iid จะกลายเป็นสิ่งสำคัญในการปฏิบัติที่ใด?

[บริบท]

ฉันถามสิ่งนี้เพราะฉันสามารถนึกถึงหลาย ๆ สถานการณ์ที่ไม่จำเป็นต้องมีการตั้งสมมติฐานที่เข้มงวดเช่นการฝึกอบรมแบบจำลองบางอย่าง (เช่นวิธีการถดถอยเชิงเส้น) หรืออย่างน้อยก็สามารถหลีกเลี่ยงสมมติฐาน iid และได้ผลลัพธ์ที่แข็งแกร่ง ที่จริงแล้วผลลัพธ์มักจะยังคงเหมือนเดิมอนุมานว่าใครจะวาดได้ว่าจะเปลี่ยน (เช่น heteroskedasticity และ autocorrelation ที่สอดคล้องกันของ HAC ตัวประมาณ HAC ในการถดถอยเชิงเส้น: ความคิดคือการใช้น้ำหนัก OLS ถดถอยเก่าที่ดีอีกครั้ง พฤติกรรมตัวอย่าง จำกัด ของเครื่องมือประมาณค่า OLS เพื่อพิจารณาการละเมิดสมมติฐาน Gauss-Markov)

ฉันเดาดังนั้นจึงเป็นที่สมมติฐาน IID เป็นสิ่งจำเป็นที่จะไม่สามารถให้การอบรมขั้นตอนวิธีการเรียนรู้โดยเฉพาะอย่างยิ่ง แต่จะรับประกันได้ว่าเทคนิคเช่นการตรวจสอบข้ามแน่นอนสามารถนำมาใช้เพื่อสรุปตัวชี้วัดความน่าเชื่อถือของความสามารถในรูปแบบของ generalising เดียวซึ่ง เป็นสิ่งเดียวที่เรามีความสนใจในตอนท้ายของวันในการเรียนรู้ทางสถิติเพราะมันแสดงให้เห็นว่าเราสามารถเรียนรู้จากข้อมูล โดยสังหรณ์ใจฉันสามารถเข้าใจได้อย่างแน่นอนว่าการใช้การตรวจสอบข้ามข้อมูลที่พึ่งพานั้นอาจมีความลำเอียงในแง่ดี (ดังแสดง / อธิบายในตัวอย่างที่น่าสนใจนี้ )

สำหรับฉันแล้วฉันไม่มีอะไรเกี่ยวข้องกับการฝึกอบรมนางแบบเฉพาะ แต่ทุกอย่างเกี่ยวกับความสามารถในการมองเห็นโดยทั่วไปของโมเดลนั้น นี้ดูเหมือนว่าจะเห็นด้วยกับกระดาษผมพบว่าโดยเฮือน Xu et al, โปรดดูที่ "ความทนทานและ generalizability สำหรับตัวอย่างมาร์คอฟ" ที่นี่

คุณเห็นด้วยไหม

[ตัวอย่าง]

ถ้านี้จะช่วยให้การอภิปรายพิจารณาปัญหาของการใช้อัลกอริทึมเชือกที่จะดำเนินการเลือกในหมู่สมาร์ทPคุณสมบัติที่กำหนดNตัวอย่างการฝึกอบรม(Xi,yi)กับ เราสามารถสันนิษฐานได้ว่า:i=1,...,N

Xi=[Xi1,...,XiP]
  • อินพุตจะขึ้นอยู่จึงนำไปสู่การละเมิดของสมมติฐาน IID (เช่นสำหรับคุณลักษณะแต่ละJ=1,..,PเราสังเกตNอนุกรมเวลาจุดจึงแนะนำขมับอัตโนมัติสัมพันธ์)Xij=1,..,PN
  • การตอบสนองตามเงื่อนไขเป็นอิสระyi|Xi
  • เรามี NPN

การละเมิดข้อสันนิษฐานของ iid สามารถก่อให้เกิดปัญหาได้อย่างไรในกรณีนั้นสมมติว่าเราวางแผนที่จะกำหนดค่าสัมประสิทธิ์การลงโทษ LASSO โดยใช้วิธีการตรวจสอบความถูกต้องแบบไขว้ (บนชุดข้อมูลเต็ม) + ใช้การตรวจสอบความซ้อนแบบซ้อน ทำความเข้าใจกับข้อผิดพลาดในการวางนัยทั่วไปของกลยุทธ์การเรียนรู้นี้ (เราสามารถออกจากการสนทนาที่เกี่ยวข้องกับข้อดี / ข้อเสียของ LASSO โดยธรรมชาติยกเว้นว่ามันมีประโยชน์)λ


1
คุณสามารถให้กรอบอ้างอิงที่เป็นที่สนใจของคุณได้ดังนั้นการอภิปรายไม่กว้างเกินไปสำหรับวิธีการทั้งหมด เรากำลังพูดถึงการถดถอยเชิงเส้นที่นี่? หรือเรากำลังพูดถึงการประมาณค่าพารามิเตอร์ด้วยการใช้พูด MLE? หรือเรากำลังพูดถึงกรอบ CLT
Greenparker

2
หากคุณยังสมมติขึ้นอยู่แล้วในการลงโทษการถดถอยโลจิสติกหนึ่งบอลเข้าสู่ระบบความน่าจะเป็น หากข้อมูลไม่เป็นอิสระคุณจะไม่สามารถบันทึกโอกาสในการบันทึกร่วมและดังนั้นจึงไม่สามารถทำให้ปัญหาการปรับให้เหมาะสมเสร็จสมบูรณ์ได้ yi
Greenparker

1
ไม่ฉันกำลังคิดในทางกลับกัน - ถ้าคุณข้ามไปที่สมมติฐาน iid อย่างรวดเร็วคุณอาจล้มเหลวในการรวมความล่าช้าของ , เท็จ (สำหรับวัตถุประสงค์เช่นความเป็นกลาง แต่ยังทำร้ายพลังการทำนาย) ด้วยเชื่อว่าพวกเขาไม่ต้องการ y
Christoph Hanck

3
ฉันไม่เห็นด้วยว่าการสันนิษฐานว่าเป็น "การละเมิดทั่วไป" อนุกรมเวลาเป็นกรณีพิเศษ - ยกเว้นตัวอย่างทั่วไป สมมติฐาน Iid ช่วยให้คุณสามารถสร้างแบบจำลองของคุณให้ง่ายขึ้นและสร้างรูปแบบที่น่าจดจำมากขึ้นและสามารถสร้างขึ้นได้บ่อยครั้ง (เช่นกรณีของคุณถูกสุ่มจับขึ้นมาดังนั้นพวกเขาจึงสามารถสันนิษฐานได้ว่าเป็นอิสระ)
ทิม

2
ในตัวอย่างกระสุนสองไม่ควรได้รับการสันนิษฐานว่าเงื่อนไข IID พวกเขาอาจจะคิดอิสระตามเงื่อนไข แต่เงื่อนไขการจำหน่ายคิดว่าจะขึ้นอยู่กับXฉันและด้วยเหตุนี้การเปลี่ยนแปลงกับฉัน yiXii
NRH

คำตอบ:


32

สมมติฐานของ iid เกี่ยวกับคู่ , i = 1 , , Nมักถูกสร้างขึ้นในสถิติและในการเรียนรู้ของเครื่อง บางครั้งด้วยเหตุผลที่ดีบางครั้งก็ไม่สะดวกและบางครั้งก็เพียงเพราะเรามักจะตั้งสมมติฐานนี้ หากจะตอบได้อย่างน่าพอใจหากสมมติฐานมีความจำเป็นจริง ๆ และสิ่งที่ตามมาคืออะไรที่ไม่ทำให้ข้อสันนิษฐานนี้เกิดขึ้นฉันจะจบลงด้วยการเขียนหนังสือได้ง่าย ๆ ที่นี่ฉันจะพยายามให้ภาพรวมโดยย่อของสิ่งที่ฉันพบว่าเป็นประเด็นที่สำคัญที่สุด(Xi,yi)i=1,,N

สมมติฐานพื้นฐาน

สมมติว่าเราต้องการที่จะเรียนรู้รูปแบบความน่าจะเป็นที่ได้รับXซึ่งเราเรียกว่าP ( Y | X ) เราไม่ได้ตั้งสมมุติฐานใด ๆ เกี่ยวกับแบบจำลองนี้เป็นไพรเออรี่ แต่เราจะทำให้สมมติฐานน้อยที่สุดที่แบบจำลองนี้มีอยู่เช่นนั้นyXp(yX)

  • เงื่อนไขการจำหน่ายของได้รับX ฉันคือP ( Y ฉัน | X ฉัน )yiXip(yiXi)

สิ่งที่ควรสังเกตเกี่ยวกับสมมติฐานนี้คือการแจกแจงแบบมีเงื่อนไขของขึ้นอยู่กับiผ่านX iเท่านั้น นี่คือสิ่งที่ทำให้ตัวแบบมีประโยชน์เช่นสำหรับการทำนาย ข้อสันนิษฐานนั้นเป็นผลสืบเนื่องมาจากส่วนที่กระจายตัวเหมือนกันภายใต้สมมติฐานของ iid แต่มันก็อ่อนแอกว่าเพราะเราไม่ได้ตั้งสมมติฐานเกี่ยวกับX iyiiXiXi 's

ในเรื่องต่อไปนี้ส่วนใหญ่จะเน้นไปที่บทบาทของความเป็นอิสระ

การสร้างแบบจำลอง

มีสองวิธีที่สำคัญในการเรียนรู้รูปแบบของการเป็นที่ได้รับX วิธีการหนึ่งที่เป็นที่รู้จักกันจำแนกการสร้างแบบจำลองและอื่น ๆ เช่นการกำเนิดการสร้างแบบจำลองyX

  • Discriminative modelling : เราจำลองโดยตรงเช่นตัวแบบถดถอยโลจิสติก, โครงข่ายประสาทเทียม, ต้นไม้หรือป่าสุ่ม สมมติฐานการสร้างแบบจำลองการทำงานโดยทั่วไปแล้วจะเป็นไปได้ว่าปีฉัน 's มีเงื่อนไขอิสระที่กำหนดXฉัน ' s แม้ว่าเทคนิคการประมาณการอาศัย subsampling หรือร่วมมือให้ความรู้สึกมากที่สุดภายใต้ IID หรือสมมติฐาน exchangeability ปรับตัวลดลง (ดูด้านล่าง) แต่โดยทั่วไปสำหรับการสร้างแบบจำลองจำแนกเราไม่จำเป็นต้องทำให้สมมติฐานเกี่ยวกับการกระจายXฉัน 's p(yX)yiXiXi
  • การสร้างแบบจำลองกำเนิด : เรารูปแบบการกระจายทุนของ( X , Y )โดยทั่วไปการสร้างแบบจำลองการกระจายเงื่อนไขP ( X | Y )และการกระจายร่อแร่P ( Y ) จากนั้นเราก็ใช้สูตรเบส์สำหรับการคำนวณP ( Y | X ) การวิเคราะห์จำแนกเชิงเส้นและวิธีการไร้เดียงสาของเบย์เป็นตัวอย่าง สมมติฐานการสร้างแบบจำลองการทำงานโดยทั่วไปจะเป็นสมมติฐาน IIDp(X,y)(X,y)p(Xy)p(y)p(yX)

สำหรับวิธีการสร้างแบบจำลองทั้งสองวิธีใช้สมมติฐานการสร้างแบบจำลองการทำงานเพื่อหาหรือเสนอวิธีการเรียนรู้ (หรือตัวประมาณ) นั่นอาจเป็นได้โดยการเพิ่มโอกาสในการบันทึก (ลงโทษ) ลดความเสี่ยงเชิงประจักษ์หรือโดยใช้วิธีการแบบเบย์ แม้ว่าสมมติฐานการสร้างแบบจำลองการทำงานไม่ถูกต้องวิธีการที่ได้ยังสามารถให้ได้อย่างเหมาะสม p(yX)

เทคนิคบางอย่างใช้ร่วมกับการจำแนกแบบจำลองเช่นการบรรจุถุง (การรวม bootstrap) ทำงานโดยการปรับโมเดลหลาย ๆ แบบให้เหมาะกับข้อมูลที่สุ่มตัวอย่างจากชุดข้อมูล หากไม่มีข้อสันนิษฐาน iid (หรือความสามารถแลกเปลี่ยนได้) ชุดข้อมูลที่มีการสุ่มตัวอย่างใหม่จะไม่มีการแจกแจงร่วมที่คล้ายกับชุดข้อมูลดั้งเดิม โครงสร้างการพึ่งพาใด ๆ ได้กลายเป็น "messed up" โดย resampling ฉันไม่ได้คิดอย่างลึกซึ้งเกี่ยวกับเรื่องนี้ แต่ฉันไม่เห็นว่าทำไมจึงควรทำลายวิธีการเป็นวิธีการเรียนรู้p(yX) )อย่างน้อยก็ไม่ใช่วิธีการที่ตั้งอยู่บนสมมติฐานความเป็นอิสระในการทำงาน ฉันมีความสุขที่จะพิสูจน์ว่าผิดที่นี่

ความสอดคล้องและขอบเขตข้อผิดพลาด

คำถามกลางสำหรับวิธีการเรียนรู้ทั้งหมดคือพวกมันส่งผลให้แบบจำลองใกล้เคียงกับหรือไม่ มีวรรณคดีเชิงทฤษฎีมากมายในสถิติและการเรียนรู้ของเครื่องเกี่ยวกับความสอดคล้องและขอบเขตข้อผิดพลาด เป้าหมายหลักของวรรณกรรมนี้คือเพื่อพิสูจน์ว่าโมเดลที่เรียนรู้ใกล้เคียงกับp ( y X )เมื่อNp(yX)p(yX)Nมีขนาดใหญ่ ความสอดคล้องคือการประกันคุณภาพในขณะที่ขอบเขตข้อผิดพลาดให้ (กึ่ง -) การควบคุมเชิงปริมาณอย่างชัดเจนของความใกล้ชิดและให้อัตราการบรรจบกัน

ผลลัพธ์ทางทฤษฎีทั้งหมดขึ้นอยู่กับสมมติฐานเกี่ยวกับการกระจายการร่วมของการสังเกตในชุดข้อมูล บ่อยครั้งที่การสร้างแบบจำลองการทำงานที่กล่าวถึงข้างต้นถูกสร้างขึ้นมา (นั่นคือความเป็นอิสระตามเงื่อนไขสำหรับการเลือกปฏิบัติแบบจำลอง สำหรับการสร้างแบบจำลองจำแนกความสอดคล้องและขอบเขตข้อผิดพลาดจะต้องให้บรรลุเงื่อนไขบางประการ ในการถดถอยแบบคลาสสิกหนึ่งเงื่อนไขดังกล่าวคือ1XiสำหรับN→การที่Xหมายถึงเมทริกซ์ออกแบบกับแถวX Tฉัน เงื่อนไขที่อ่อนแออาจจะเพียงพอสำหรับความมั่นคง ในการเรียนรู้กระจัดกระจายเงื่อนไขดังกล่าวอีกอย่างหนึ่งคือสภาพค่าลักษณะเฉพาะที่ จำกัด ให้ดูเช่นในเงื่อนไขที่ใช้ในการพิสูจน์ผลลัพธ์พยากรณ์สำหรับ Lasso1NXTXΣNXXiTสำหรับเชือก การสันนิษฐานของ iid พร้อมกับสมมติฐานการกระจายทางเทคนิคบางอย่างบ่งบอกว่าเงื่อนไขที่เพียงพอดังกล่าวได้รับการเติมเต็มด้วยความน่าจะเป็นที่มีขนาดใหญ่และดังนั้นการสันนิษฐานของ iid อาจพิสูจน์ได้ว่ามีเพียงพอ

สมมติฐานการสร้างแบบจำลองการทำงานของความเป็นอิสระอาจผิดสำหรับวิธีการแบบจำลองอย่างใดอย่างหนึ่ง ในฐานะที่เป็นหยาบกฎของหัวแม่มือหนึ่งยังคงสามารถคาดหวังความสอดคล้องหากข้อมูลที่มาจากกระบวนการอัตลักษณ์และหนึ่งยังสามารถคาดหวังขอบเขตข้อผิดพลาดบางอย่างถ้ากระบวนการนี้อย่างพอเพียงได้อย่างรวดเร็วผสม นิยามทางคณิตศาสตร์ที่แม่นยำของแนวคิดเหล่านี้จะทำให้เราห่างไกลจากคำถามหลัก มันก็เพียงพอที่จะทราบว่ามีโครงสร้างการพึ่งพาอาศัยอยู่นอกเหนือจากสมมติฐาน iid ซึ่งวิธีการเรียนรู้สามารถพิสูจน์ได้ว่าทำงานได้เมื่อแนวโน้มที่จะไม่มีที่สิ้นสุดN

หากเรามีความรู้อย่างละเอียดเกี่ยวกับโครงสร้างการพึ่งพาเราอาจเลือกที่จะแทนที่สมมติฐานความเป็นอิสระในการทำงานที่ใช้สำหรับการสร้างแบบจำลองด้วยแบบจำลองที่จับโครงสร้างการพึ่งพาเช่นกัน มักจะทำสำหรับอนุกรมเวลา รูปแบบการทำงานที่ดีขึ้นอาจส่งผลให้วิธีการมีประสิทธิภาพมากขึ้น

การประเมินรูปแบบ

แทนที่จะพิสูจน์ว่าวิธีการเรียนรู้ให้แบบจำลองใกล้กับมันมีคุณค่าในทางปฏิบัติที่ยอดเยี่ยมเพื่อรับการประเมิน (สัมพัทธ์) ของ "แบบจำลองที่เรียนรู้ได้ดีเพียงใด" คะแนนการประเมินดังกล่าวเทียบได้กับแบบจำลองที่เรียนรู้สองแบบขึ้นไป แต่จะไม่ให้การประเมินที่แน่นอนว่าแบบจำลองที่เรียนรู้นั้นใกล้เคียงกับp ( y X )เท่าใดp(yX)p(yX)เพียงใด โดยทั่วไปแล้วการประมาณค่าของคะแนนการประเมินจะคำนวณจากเชิงประจักษ์โดยแยกชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดข้อมูลทดสอบหรือโดยใช้การตรวจสอบข้าม

เช่นเดียวกับการบรรจุชุดข้อมูลการแยกชุดข้อมูลแบบสุ่มจะ "สับสน" โครงสร้างการพึ่งพาใด ๆ อย่างไรก็ตามสำหรับวิธีการที่ตั้งอยู่บนสมมติฐานความเป็นอิสระในการทำงานข้อสันนิษฐานด้านสรีรศาสตร์ที่อ่อนแอกว่า iid นั้นน่าจะเพียงพอสำหรับการประเมินการประเมินว่ามีเหตุผลแม้ว่าข้อผิดพลาดมาตรฐานของการประเมินเหล่านี้จะยากมาก

[ แก้ไข: การพึ่งพาระหว่างตัวแปรจะส่งผลให้มีการกระจายของรูปแบบการเรียนรู้ที่แตกต่างจากการกระจายภายใต้สมมติฐาน iid การประมาณที่สร้างขึ้นโดยการตรวจสอบความถูกต้องไขว้กันนั้นไม่เกี่ยวข้องกับข้อผิดพลาดในการวางนัยทั่วไปอย่างชัดเจน หากการพึ่งพาอาศัยกันมากก็น่าจะเป็นการประเมินที่ไม่ดี]

สรุป (tl; dr)

ทั้งหมดข้างต้นอยู่ภายใต้สมมติฐานที่ว่ามีความน่าจะเป็นรูปแบบการแก้ไขเงื่อนไข ) ดังนั้นจึงไม่สามารถมีแนวโน้มหรือการเปลี่ยนแปลงอย่างฉับพลันในการจัดจำหน่ายที่มีเงื่อนไขไม่ได้บันทึกโดยXp(yX)X

เมื่อเรียนรู้รูปแบบของให้Xความเป็นอิสระมีบทบาทเป็นyX

  • สมมติฐานการสร้างแบบจำลองการทำงานที่มีประโยชน์ที่ช่วยให้เราได้รับวิธีการเรียนรู้
  • สมมติฐานที่เพียงพอ แต่ไม่จำเป็นสำหรับการพิสูจน์ความสอดคล้องและการให้ข้อผิดพลาดขอบเขต
  • ข้อสมมติฐานที่เพียงพอ แต่ไม่จำเป็นสำหรับการใช้เทคนิคการแยกข้อมูลแบบสุ่มเช่นการบรรจุถุงเพื่อการเรียนรู้และการตรวจสอบความถูกต้องข้ามการประเมิน

เพื่อให้เข้าใจอย่างถ่องแท้ว่าทางเลือกอื่นใดสำหรับ iid ที่เพียงพอก็ไม่ใช่เรื่องไร้สาระและเป็นหัวข้อการวิจัย


2
นี่เป็นคำตอบที่ยอดเยี่ยมมาก มันเป็นจุดที่ให้ฉันอ้างอิงเพียงพอสำหรับการศึกษาด้วยตนเองขอบคุณมากสำหรับ @NRH ที่ฉันตื่นเต้น ฉันจะปล่อยให้รางวัลเพื่อกระตุ้นให้คนอื่นทำตามคำถาม แต่ฉันทำเครื่องหมายไว้แล้วว่านี่เป็นคำตอบที่ได้รับการยอมรับเพราะมันตอบโจทย์ข้อกังวลเดิมทั้งหมดของฉันได้อย่างสวยงาม
Quantuple

10

อะไรIIDสมมติฐานรัฐคือตัวแปรสุ่มเป็นอิสระและกันกระจาย คุณสามารถกำหนดความหมายของมันได้อย่างเป็นทางการ แต่อย่างไม่เป็นทางการมันบอกว่าตัวแปรทั้งหมดให้ข้อมูลประเภทเดียวกันโดยไม่ขึ้นอยู่กับกันและกัน (คุณสามารถอ่านได้เกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้อง)

จากแนวคิดที่เป็นนามธรรมลองข้ามไปสักครู่เพื่อเป็นตัวอย่าง: ในกรณีส่วนใหญ่ข้อมูลของคุณสามารถเก็บไว้ในเมทริกซ์โดยมีการสังเกตแถวที่ชาญฉลาดและตัวแปรคอลัมน์ หากคุณคิดว่าข้อมูลของคุณเป็นIDนั้นหมายความว่าคุณต้องกังวลเกี่ยวกับความสัมพันธ์ระหว่างคอลัมน์เท่านั้นและไม่ต้องกังวลเกี่ยวกับความสัมพันธ์ระหว่างแถว หากคุณใส่ใจทั้งสองอย่างคุณจะจำลองแบบการพึ่งพาของคอลัมน์ในคอลัมน์และแถวในแถวนั่นคือทุกอย่างในทุกสิ่ง มันยากมากที่จะทำให้เป็นเรื่องง่ายและสร้างแบบจำลองทางสถิติของทุกสิ่งขึ้นอยู่กับทุกสิ่ง

คุณสังเกตเห็นได้อย่างถูกต้องว่าการแลกเปลี่ยนสามารถทำให้เราใช้วิธีต่าง ๆ เช่น cross-validation หรือ bootstrap แต่มันยังทำให้สามารถใช้theorem limit limit ได้และทำให้เราสามารถทำให้เป็นเรื่องง่ายสำหรับการสร้างแบบจำลอง )

ในขณะที่คุณสังเกตเห็นในตัวอย่าง Lasso สมมติฐานอิสระมักจะปรับตัวลดลงจะเป็นอิสระเงื่อนไข แม้ในกรณีเช่นนี้เราต้องการ "ส่วน" ที่เป็นอิสระและกระจายเหมือนกัน ที่คล้ายกันข้อสมมติที่นุ่มนวลมักถูกสร้างขึ้นสำหรับโมเดลอนุกรมเวลาที่คุณกล่าวถึงซึ่งสันนิษฐานว่ามีความคงที่ (ดังนั้นจึงมีการพึ่งพาอาศัยกัน แต่ก็มีการแจกแจงร่วมกัน มันเป็นเรื่องของการสังเกตสิ่งต่าง ๆ ที่คล้ายกันซึ่งมีแนวคิดเดียวกันเกี่ยวกับปรากฏการณ์ทั่วไปบางอย่าง หากเรามีสิ่งที่แตกต่างและขึ้นอยู่กับจำนวนเราไม่สามารถทำการสรุปใด ๆ

สิ่งที่คุณต้องจำไว้คือนี่เป็นเพียงข้อสันนิษฐานเราไม่เข้มงวดกับมัน มันเกี่ยวกับการมีสิ่งต่าง ๆ มากพอที่ทุกคนนำเสนอข้อมูลที่คล้ายกันเกี่ยวกับปรากฏการณ์ที่พบบ่อย หากสิ่งต่าง ๆ มีอิทธิพลต่อกันและกันพวกเขาจะนำเสนอข้อมูลที่คล้ายกันอย่างชัดเจนดังนั้นพวกเขาจะไม่เป็นประโยชน์

ลองนึกภาพว่าคุณต้องการที่จะเรียนรู้เกี่ยวกับความสามารถของเด็ก ๆ ในห้องเรียนดังนั้นคุณจึงต้องทำแบบทดสอบ คุณสามารถใช้ผลการทดสอบเป็นตัวบ่งชี้ถึงความสามารถของเด็กเฉพาะในกรณีที่พวกเขาทำด้วยตัวเองโดยเป็นอิสระจากกัน หากพวกเขามีปฏิสัมพันธ์คุณอาจวัดความสามารถของเด็กที่ฉลาดที่สุดหรือคนที่มีอิทธิพลมากที่สุด ไม่ได้หมายความว่าคุณต้องสมมติว่าไม่มีปฏิสัมพันธ์หรือพึ่งพาระหว่างเด็ก แต่อย่างใด แต่เพียงว่าพวกเขาทำการทดสอบด้วยตัวเอง เด็ก ๆ ก็ต้อง "กระจายตัวเหมือนกัน" ดังนั้นพวกเขาไม่สามารถมาจากประเทศต่าง ๆ พูดภาษาที่แตกต่างกันอยู่ในวัยต่าง ๆ เพราะมันจะทำให้ยากต่อการตีความผลลัพธ์ (บางทีพวกเขาอาจไม่เข้าใจคำถามและตอบแบบสุ่ม) หากคุณสามารถสันนิษฐานได้ว่าข้อมูลของคุณนั้น iidจากนั้นคุณสามารถมุ่งเน้นไปที่การสร้างแบบจำลองทั่วไป คุณสามารถจัดการกับข้อมูลที่ไม่ใช่ID ได้แต่คุณต้องกังวลเกี่ยวกับ "เสียงรบกวน" ในข้อมูลของคุณอีกมาก


นอกจากนี้คำถามหลักของคุณคุณจะยังถามเกี่ยวกับการข้ามการตรวจสอบด้วยไม่ใช่IIDข้อมูล ในขณะที่คุณดูเหมือนจะเข้าใจถึงความสำคัญของการสันนิษฐานของiidในเวลาเดียวกันคุณพูดเกินจริงถึงปัญหาของการไม่บรรลุข้อสันนิษฐานนี้ทำให้เกิดการตรวจสอบข้าม มีหลายวิธีที่เราสามารถจัดการกับข้อมูลดังกล่าวเมื่อใช้วิธี resampling เช่น bootstrap หรือการตรวจสอบข้าม หากคุณกำลังจัดการกับอนุกรมเวลาคุณไม่สามารถสันนิษฐานได้ว่าค่านั้นเป็นอิสระดังนั้นการใช้เศษส่วนแบบสุ่มของค่าจึงเป็นความคิดที่ไม่ดีเพราะมันจะเพิกเฉยต่อโครงสร้างที่เกี่ยวข้องโดยอัตโนมัติของข้อมูล ด้วยเหตุนี้ด้วยอนุกรมเวลาที่เราใช้กันทั่วไปการตรวจสอบข้ามขั้นตอนเดียวนั่นคือคุณมีส่วนร่วมในชุดเพื่อทำนายค่าถัดไป (ไม่ได้ใช้สำหรับการสร้างแบบจำลอง) ในทำนองเดียวกันถ้าข้อมูลของคุณมีโครงสร้างคลัสเตอร์คุณสุ่มตัวอย่างทั้งกลุ่มเพื่อรักษาธรรมชาติของข้อมูล เช่นเดียวกับการสร้างแบบจำลองเราสามารถจัดการกับ non- iid -sness ได้เช่นกันเมื่อทำการตรวจสอบข้าม แต่เราจำเป็นต้องปรับวิธีการของเราให้สอดคล้องกับลักษณะของข้อมูลเนื่องจากวิธีที่ออกแบบมาสำหรับข้อมูลiidไม่ได้ใช้ในกรณีดังกล่าว


yi|XiXi

(ctd) ... กล่าวอีกนัยหนึ่งถึงแม้ว่าคำตอบของคุณจะให้ความกระจ่างเกี่ยวกับแนวคิดของ iid แต่ฉันต้องการทราบเพิ่มเติมเกี่ยวกับพื้นฐานทางเทคนิค: เมื่อมีการละเมิดสิ่งนี้จะมีผลอย่างไร
Quantuple

@Quantuple แล้วคุณใช้วิธีการสำหรับข้อมูล IID ไม่ใช่เช่นในตัวอย่างอนุกรมเวลาทั้งบล็อกของข้อมูลในการบูต ฯลฯ
ทิม

ขอบคุณอีกครั้ง. ฉันจำได้แน่นอนว่าต้องอ่านบางเรื่องเกี่ยวกับเทคนิคดังกล่าว มีแหล่งที่มาซึ่งกล่าวถึงวิธีการที่มีศักยภาพทั้งหมดหรือไม่? ฉันเพิ่งสะดุดลงบนกระดาษโดย C. Bergmeir, R. Hyndman, B. Koo "บันทึกย่อเกี่ยวกับความถูกต้องของการตรวจสอบความถูกต้องแบบไขว้สำหรับการประเมินการทำนายอนุกรมเวลา" ซึ่งฉันจะพยายามอ่านโดยเร็ว
Quantuple

1
@Quantuple ตรวจสอบคลาสสิก "รู้เบื้องต้นเกี่ยวกับ Bootstrap" โดย Efron และ Tibshirani และ "วิธี Bootstrap และการประยุกต์ใช้ของพวกเขา" โดย Davison และ Hinkley เพื่ออ่านเกี่ยวกับ bootstrap (แนวคิดเดียวกันนำไปใช้กับการตรวจสอบข้าม); คู่มือชุดเวลาอธิบายวิธีใช้การตรวจสอบความถูกต้องข้ามและบูตสแตรปสำหรับข้อมูลดังกล่าว (เช่นหนึ่งขั้นตอนก่อนการตรวจสอบความถูกต้องข้าม) ตรวจสอบการแก้ไขของฉันด้วย
ทิม

3

ที่เดียวที่สามารถละเว้น iid ได้อย่างปลอดภัยอยู่ในสถิติระดับปริญญาตรีและหลักสูตรการเรียนรู้ของเครื่อง คุณเขียนว่า:

สามารถหลีกเลี่ยงสมมติฐาน iid และได้ผลลัพธ์ที่แข็งแกร่ง ที่จริงแล้วผลลัพธ์มักจะยังคงเหมือนเดิม แต่เป็นการอนุมานที่ใครสามารถวาดได้ว่าจะเปลี่ยน ...

นี่เป็นเรื่องจริงถ้ารูปแบบการทำงานของแบบจำลองนั้นถูกต้องโดยทั่วไป แต่สมมติฐานดังกล่าวมีความน่าเชื่อถือน้อยกว่า iid

มีอย่างน้อยสองวิธีที่ iid มีความสำคัญอย่างยิ่งในแง่ของการสร้างแบบจำลองประยุกต์:

  1. มันเป็นสมมติฐานที่ชัดเจนในการอนุมานทางสถิติส่วนใหญ่ตามที่คุณทราบในคำถามของคุณ ในการสร้างแบบจำลองโลกแห่งความจริงส่วนใหญ่ในบางขั้นตอนเราจำเป็นต้องใช้การอนุมานเพื่อทดสอบสเปคเช่นระหว่างการเลือกตัวแปรและการเปรียบเทียบแบบจำลอง ดังนั้นในขณะที่แบบจำลองแต่ละแบบอาจไม่เป็นไรแม้จะมีการละเมิด iid แต่คุณก็สามารถเลือกแบบจำลองที่ผิดได้

  2. ฉันพบว่าการคิดผ่านการละเมิด iid เป็นวิธีที่มีประโยชน์ในการคิดเกี่ยวกับกลไกการสร้างข้อมูลซึ่งจะช่วยให้ฉันคิดเกี่ยวกับข้อมูลจำเพาะที่เหมาะสมของแบบจำลองเบื้องต้น สองตัวอย่าง:

    • หากข้อมูลเป็นกลุ่มนี่เป็นการละเมิด iid การเยียวยานี้อาจเป็นรูปแบบผสม การอนุมานที่ฉันจะวาดจากโมเดลผสมนั้นโดยทั่วไปแล้วจะแตกต่างอย่างสิ้นเชิงกับที่ฉันวาดมาจาก OLS
    • ความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระมักปรากฏขึ้นเมื่อตรวจสอบสิ่งตกค้างเป็นส่วนหนึ่งของการตรวจสอบ iid

แน่นอนว่าในแบบจำลองที่ฉันสร้างขึ้นมานั้นฉันล้มเหลวในการค้นหาเพื่อลดการกระจายของส่วนที่เหลือให้เหลือน้อยกว่าการกระจายแบบปกติอย่างแท้จริง แต่อย่างไรก็ตามฉันมักจะได้รับมากโดยพยายามจริง ๆ ยากที่จะทำ


ขอบคุณสำหรับคำตอบของคุณซึ่งลึกซึ้งมาก จากประโยคสุดท้ายของ (1) คุณหมายถึงว่าคุณสามารถมีหลายรุ่นที่เหมาะสมกับข้อมูลที่สังเกตได้ แต่เมื่อคุณใช้เทคนิคการเลือกรุ่นมาตรฐาน (เช่นการตรวจสอบข้าม) คุณจะไม่เลือกรุ่นที่ดีที่สุด ( ในแง่ของความสามารถทั่วไป) เพราะการอนุมานที่คุณวาดจะมีอคติเนื่องจากการละเมิด IID? (2) ดูเหมือนว่าฉันชอบที่คุณพูดถึง IID ส่วนที่เหลือเป็นส่วนหนึ่งของข้อกำหนดการทำงาน (เช่นส่วนที่เหลือถดถอย) ซึ่งไม่เป็นโมฆะสิ่งที่คุณเขียน (ctd) ...
Quantuple

(ctd) ... แต่คำถามเดิมเกี่ยวข้องกับตัวอย่างการฝึกอบรมที่ไม่ใช่ของ iid (x, y) ไม่ใช่ส่วนที่เหลือของ iid หลังจากประเมินแบบจำลอง ฉันเดาว่าคำถามของฉันอาจเป็นได้เมื่อคุณมีตัวอย่างการฝึกอบรมที่ไม่ใช่ของ iid (เช่นอนุกรมเวลา) คุณต้องเพิ่มขั้นตอนการประมวลผลล่วงหน้าเพื่อทำให้เป็น iid หรือไม่ ถ้าคุณทำไม่ได้และใช้ขั้นตอนมาตรฐานในการประเมิน / ตรวจสอบความถูกต้องของแบบจำลองของคุณคำเตือนอยู่ที่ไหน
Quantuple

1
เมื่อคุณมีตัวอย่างการฝึกอบรมที่ไม่ใช่ของ iid แนวคิดก็คือการหาแบบจำลองที่คำนึงถึงธรรมชาติที่ไม่ใช่ของ iid และสร้างสิ่งที่เหลือซึ่งเป็น iid ในขณะที่มีปัญหาบางอย่างที่เหมาะสมในการประมวลผลข้อมูลล่วงหน้า (เช่นการเปลี่ยนแปลงของตัวแปรในการถดถอยเชิงเส้น) ปัญหา iid จำนวนมากได้รับการแก้ไขได้ดีกว่าโดยการค้นหาแบบจำลองที่ระบุปัญหาของ iid อย่างชัดเจน เช่นฟังก์ชันถ่ายโอนในอนุกรมเวลาหรือโมเดลลำดับชั้นในข้อมูลหน้าตัด
ทิม

ฉันเห็นด้วยกับความจริงที่ว่าเนื่องจากข้อมูลอนุกรมเวลามักจะแสดงรูปแบบของการพึ่งพาบางอย่างมันเป็นเรื่องปกติที่จะมีจุดมุ่งหมายในการจับภาพนี้ผ่านแบบจำลองทางสถิติที่ปรับแต่งให้ทำเช่นฟังก์ชันถ่ายโอน นี่คือเท่าที่เกี่ยวข้องกับการฝึกอบรม ตอนนี้เท่าที่เป็นไปได้การตรวจสอบข้าม (CV) เป็นห่วงฉันเดาว่าฉันยังต้องการวิธีการพิเศษในการบัญชีสำหรับผู้ที่ไม่ใช่ iid? ฉันหมายถึงการใช้ฟังก์ชั่นการถ่ายโอนไม่ได้เปลี่ยนความจริงที่ว่าข้อมูลของฉันไม่ได้เป็น iid ตั้งแต่แรก มีรายการของวิธีการพิเศษเช่นนั้นไหม? อคติในแง่ดีมีขนาดใหญ่เพียงใดเมื่อใช้วิธี CV มาตรฐานกับข้อมูลที่ไม่ใช่ iid
Quantuple

1
มันจะขึ้นอยู่กับลักษณะของวิธีการตรวจสอบข้ามและปัญหา ฉันคิดว่าเคล็ดลับคือการใช้วิธีการตรวจสอบข้ามที่ไม่มีโครงสร้างโดยนัยเกี่ยวกับ iid ตัวอย่างเช่น Jacknife จะมีเหตุผลเล็กน้อย แต่การแยกตัวอย่างออกเป็นการประมาณทดสอบและตัวอย่างการตรวจสอบอาจจะ แต่นี่เป็นคำถามที่แตกต่างกับคำถามดั้งเดิมของคุณและไม่ใช่ความเชี่ยวชาญของฉัน
ทิม

2

ในความคิดของฉันมีเหตุผลสองอย่างที่ค่อนข้างธรรมดาว่าทำไมการสันนิษฐานของ iid จึงมีความสำคัญในการเรียนรู้ทางสถิติ (หรือสถิติโดยทั่วไป)

  1. เบื้องหลังของคณิตศาสตร์นั้นขึ้นอยู่กับสมมติฐานนี้ หากคุณต้องการพิสูจน์ว่าวิธีการเรียนรู้ของคุณใช้งานได้จริงกับชุดข้อมูลมากกว่าหนึ่งชุดสมมติฐาน iid จะครอบตัดในที่สุด เป็นไปได้ที่จะหลีกเลี่ยง แต่คณิตศาสตร์ก็ยากขึ้นหลายเท่า

  2. หากคุณต้องการเรียนรู้บางสิ่งจากข้อมูลคุณต้องสมมติว่ามีบางสิ่งที่จะเรียนรู้ การเรียนรู้เป็นไปไม่ได้หากทุกจุดข้อมูลถูกสร้างขึ้นโดยกลไกที่แตกต่างกัน ดังนั้นจึงจำเป็นที่จะต้องสมมติว่ามีบางสิ่งที่รวมกันเป็นชุดข้อมูล หากเราสมมติว่าข้อมูลเป็นแบบสุ่มนี่ก็เป็นการกระจายความน่าจะเป็นแบบธรรมชาติเพราะการแจกแจงความน่าจะเป็นครอบคลุมข้อมูลทั้งหมดเกี่ยวกับตัวแปรสุ่ม

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmnF


xyx

(ctd) ... แต่ตามที่คุณระบุไว้ในหัวข้อย่อยครั้งแรกข้อสันนิษฐานของตัวอย่างการฝึกอบรม iid จะกลับมาอีกเมื่อเราจะดูคุณสมบัติทั่วไปของ LASSO สิ่งที่จะเป็นสิ่งที่ดี (และสิ่งที่ฉันกำลังมองหาอย่างยิ่งที่ฉันคาดเดา) คือการอ้างอิง / คำอธิบายทางเทคนิคอย่างง่ายซึ่งแสดงให้เห็นว่าการละเมิดข้อสันนิษฐานของ iid ทำให้เกิดอคติในแง่ดีในการประมาณค่าการตรวจสอบข้าม
Quantuple

yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i

i=1,...,n/2i=n/2+1,...,n

xE[y|X]

1

ฉันต้องการเน้นว่าในบางสถานการณ์ข้อมูลไม่ได้เป็นiid และการเรียนรู้ทางสถิติยังคงเป็นไปได้ มันเป็นเรื่องสำคัญที่จะต้องมีรูปแบบที่สามารถระบุตัวตนได้สำหรับการแจกจ่ายข้อสังเกตทั้งหมด ถ้าการสังเกตนั้นเป็น iid การกระจายตัวของรอยต่อนี้สามารถหาได้ง่ายจากการกระจายตัวของการสังเกตเพียงจุดเดียว แต่ในบางกรณีการกระจายข้อต่อจะได้รับโดยตรงโดยไม่ต้องหันไปใช้การกระจายแบบร่อแร่

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2

Y

YN(Xα,τZZ+σ2In).
ατσ2Yn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.