ทดสอบการสุ่มตัวอย่าง IID


16

คุณจะทดสอบหรือตรวจสอบว่าการสุ่มตัวอย่างเป็น IID (เป็นอิสระและกระจายตัวเหมือนกัน) โปรดทราบว่าฉันไม่ได้หมายถึง Gaussian และการกระจายแบบเหมือนจริงเพียง IID

และความคิดที่อยู่ในใจของฉันคือการแบ่งตัวอย่างซ้ำ ๆ เป็นสองตัวอย่างย่อยที่มีขนาดเท่ากันทำการทดสอบ Kolmogorov-Smirnov และตรวจสอบว่าการกระจายตัวของค่า p มีค่าเท่ากันหรือไม่

ความคิดเห็นใด ๆ เกี่ยวกับวิธีการนั้นและข้อเสนอแนะใด ๆ ยินดีต้อนรับ

ความชัดเจนหลังจากเริ่มรับรางวัล: ฉันกำลังมองหาการทดสอบทั่วไปที่สามารถนำไปใช้กับข้อมูลอนุกรมที่ไม่ใช่เวลา


เป็นข้อมูลอนุกรมเวลาหรือไม่
danas.zuokas

@ gui11aume คุณลองทดสอบ "eyeball" แล้วหรือยัง? นั่นคือพล็อตข้อมูลและดูว่ามีลักษณะ IID หรือไม่
มาโคร

ฉันยังไม่ได้ ฉันไม่แน่ใจว่าคุณหมายถึงอะไร: วางแผนค่าตามลำดับที่มา (อาจเป็นแบบสุ่ม) แล้วตรวจสอบว่าไม่มีลวดลายที่โดดเด่นหรือไม่
gui11aume

1
คุณได้ดูที่ "การทดสอบการทำงาน" หรือไม่? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent

1
ขอโทษ ฉันมีใจในการทดสอบการทำงานต่อไปนี้: apprendre-en-ligne.net/random/run.html (แต่นี่เป็นภาษาฝรั่งเศส)
Stéphane Laurent

คำตอบ:


14

สิ่งที่คุณสรุปได้ว่าข้อมูล IID นั้นมาจากข้อมูลภายนอกไม่ใช่ข้อมูลเอง คุณในฐานะนักวิทยาศาสตร์ต้องพิจารณาว่ามีความสมเหตุสมผลหรือไม่ที่จะสมมติว่าข้อมูล IID นั้นขึ้นอยู่กับการรวบรวมข้อมูลและข้อมูลภายนอกอื่น ๆ

ลองพิจารณาตัวอย่าง

สถานการณ์ที่ 1: เราสร้างชุดข้อมูลแยกต่างหากจากการแจกแจงเดี่ยวที่เกิดจากการผสมผสานของ 2 บรรทัดฐาน

สถานการณ์ที่ 2: ก่อนอื่นเราสร้างตัวแปรเพศจากการแจกแจงแบบทวินามจากนั้นภายในเพศชายและเพศหญิงเราสร้างข้อมูลจากการแจกแจงแบบปกติ (แต่บรรทัดฐานแตกต่างกันสำหรับเพศชายและเพศหญิง) จากนั้นเราลบหรือสูญเสียข้อมูลเพศ

ในสถานการณ์ที่ 1 ข้อมูลคือ IID และในสถานการณ์ที่ 2 ข้อมูลไม่ได้กระจายอย่างชัดเจนเหมือนกัน (การแจกแจงที่แตกต่างกันสำหรับเพศชายและเพศหญิง) แต่การแจกแจง 2 แบบสำหรับสถานการณ์ 2 นั้นไม่สามารถแยกแยะได้จากข้อมูล ถูกสร้างขึ้นเพื่อกำหนดความแตกต่าง

สถานการณ์ที่ 3: ฉันใช้ตัวอย่างแบบสุ่มของผู้คนที่อาศัยอยู่ในเมืองของฉันและจัดการการสำรวจและวิเคราะห์ผลลัพธ์เพื่อทำการอนุมานเกี่ยวกับผู้คนทั้งหมดในเมือง

สถานการณ์ที่ 4: ฉันใช้ตัวอย่างแบบสุ่มของผู้คนที่อาศัยอยู่ในเมืองของฉันและจัดการการสำรวจและวิเคราะห์ผลลัพธ์เพื่อทำการอนุมานเกี่ยวกับผู้คนในประเทศ

ในสถานการณ์ที่ 3 อาสาสมัครจะได้รับการพิจารณาเป็นอิสระ (ตัวอย่างสุ่มอย่างง่ายของประชากรที่น่าสนใจ) แต่ในสถานการณ์ที่ 4 พวกเขาจะไม่ได้รับการพิจารณาว่าเป็นอิสระเพราะพวกเขาได้รับการคัดเลือกจากกลุ่มย่อยเล็ก ๆ ของประชากรที่น่าสนใจ การพึ่งพาอาศัยกัน แต่ชุดข้อมูล 2 ชุดนั้นเหมือนกันมันเป็นวิธีที่เราตั้งใจจะใช้ข้อมูลที่กำหนดว่าเป็นอิสระหรือขึ้นอยู่กับกรณีนี้

ดังนั้นจึงไม่มีวิธีทดสอบโดยใช้เฉพาะข้อมูลที่แสดงว่าข้อมูลคือ IID พล็อตและการวินิจฉัยอื่น ๆ สามารถแสดงประเภทที่ไม่ใช่ IID ได้ แต่การขาดสิ่งเหล่านี้ไม่รับประกันว่าข้อมูลนั้นเป็น IID นอกจากนี้คุณยังสามารถเปรียบเทียบกับสมมติฐานที่เฉพาะเจาะจง (IID ปกติง่ายต่อการพิสูจน์มากกว่า IID) การทดสอบใด ๆ ยังคงเป็นกฎ แต่ความล้มเหลวในการปฏิเสธการทดสอบไม่เคยพิสูจน์ว่าเป็น IID

การตัดสินใจเกี่ยวกับว่าคุณยินดีที่จะสมมติว่าเงื่อนไข IID ถูกระงับหรือไม่นั้นต้องขึ้นอยู่กับศาสตร์ของการรวบรวมข้อมูลว่าเกี่ยวข้องกับข้อมูลอื่น ๆ อย่างไรและจะนำไปใช้อย่างไร

การแก้ไข:

นี่คือตัวอย่างอีกชุดสำหรับแบบไม่เหมือนกัน

สถานการณ์ที่ 5: ข้อมูลเป็นส่วนที่เหลือจากการถดถอยที่มีความแตกต่างกัน (ความแตกต่างไม่เท่ากัน)

สถานการณ์ที่ 6: ข้อมูลมาจากการผสมผสานของ normals ที่มีค่าเฉลี่ย 0 แต่ความแปรปรวนที่แตกต่างกัน

ในสถานการณ์ที่ 5 เราสามารถเห็นได้อย่างชัดเจนว่าส่วนที่เหลือจะไม่กระจายตัวเหมือนกันถ้าเราพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งหรือตัวแปรอื่น ๆ (ตัวทำนายหรือตัวทำนายที่อาจเกิดขึ้น) แต่ส่วนที่เหลือเอง


โดยเฉพาะอย่างยิ่งส่วนแรกของคำตอบนี้ดูเหมือนจะสับสนเล็กน้อย (หรือสับสน) สำหรับฉัน เป็น IID เป็นที่ดีที่กำหนดคุณสมบัติทางคณิตศาสตร์ของขอบเขตของตัวแปรสุ่ม สถานการณ์ที่ 1 และ 2 ของคุณจะเหมือนกันหากได้รับตัวแปรแบบสุ่มในกรณีที่สอง "หลังจากข้อมูลเพศหาย" พวกเขากำลังทั้งสองกรณี!
พระคาร์ดินัล

GregSnow ฉันไม่เห็นด้วยกับการยืนยันของคุณอย่างสมบูรณ์ อาจเป็นได้ว่าคุณรู้ว่าข้อมูลมาจากลำดับของตัวแปรสุ่มที่กระจายตัวเหมือนกัน คุณไม่รู้แน่ชัดว่ารุ่นใดสร้างขึ้นมา อาจเป็นได้ว่าพวกเขาถูกสร้างขึ้นอย่างอิสระหรือสลับกันมาจากอนุกรมเวลาคงที่ ในการตัดสินใจว่ากรณีใดสมมติว่าคุณรู้ว่าการแจกแจงแบบเดียวกันเป็นเรื่องปกติ จากนั้นทั้งสอง possiblities ตกอยู่ภายใต้หมวดหมู่ของลำดับนิ่งและมันจะเป็น IID หากเพียงทุก autocorrelations ล่าช้าภัณฑ์เป็น 0 มันเป็นอย่างดีที่เหมาะสมในการทดสอบเพื่อดูว่า correla
ไมเคิลอา Chernick

2
@cardinal ดังนั้นคุณเห็นด้วยว่าข้อมูลในสถานการณ์ที่ 2 ไม่ได้ถูกแจกจ่ายแบบเดียวกันก่อนที่จะสูญเสียข้อมูลเพศหรือไม่ ดังนั้นเราจะมีกรณีที่พวกเขาไม่เหมือนกัน แต่วิธีเดียวที่จะบอกความแตกต่างคือการใช้ข้อมูลนอกตัวแปรที่ถูกมอง (เพศในกรณีนี้) ใช่การเป็น IID นั้นเป็นคุณสมบัติทางคณิตศาสตร์ที่กำหนดไว้อย่างดี แต่ดังนั้นจึงเป็นจำนวนเต็มคุณสามารถทดสอบว่าจุดข้อมูล 3 หรือไม่เป็นจำนวนเต็มเก็บไว้เป็นจำนวนจุดลอยตัวหรือค่าต่อเนื่องที่ถูกปัดเศษโดยไม่มีข้อมูลภายนอกเกี่ยวกับที่มา จาก.
Greg Snow

2
ดังนั้นสิ่งที่คุณพูดก็คือว่ามีอาจจะมีอยู่ข้อมูลเพิ่มเติมบางอย่างที่มีอยู่ในตัวแปรเพื่อให้เล็กน้อยX ฉันX J , ฉันเจแต่X ฉัน| Zอาจไม่เป็นอิสระจากX j | . ในกรณีแรกZคือเวกเตอร์ของฉลากเพศ ในกรณีที่สองZคือข้อมูลการออกแบบ ฉันคิดว่านั่นเป็นข้อสังเกตที่ดี ZXiXj,ijXi|ZXj|ZZZ
StasK

แต่ทุกสิ่งที่คุณพูดข้างต้นใช้ข้อมูลเกี่ยวกับวิธีการรวบรวม / สร้างข้อมูลไม่ใช่เฉพาะข้อมูลเอง และแม้ว่าเราจะมีข้อมูลที่สนับสนุนว่าไม่มีความสัมพันธ์แบบอนุกรมเวลาที่ไม่ได้บอกอะไรเราเกี่ยวกับความสัมพันธ์เชิงพื้นที่หรือความไม่อิสระประเภทอื่น ๆ เราสามารถทดสอบการพึ่งพากันได้ทุกประเภทและรับผลลัพธ์ที่มีความหมายได้หรือไม่? หรือเราควรใช้ข้อมูลเกี่ยวกับวิธีการรวบรวมข้อมูลเพื่อเป็นแนวทางในการทดสอบที่น่าจะมีความหมายมากที่สุด?
Greg Snow

5

หากข้อมูลมีดัชนีเรียงลำดับคุณสามารถใช้การทดสอบเสียงรบกวนสีขาวสำหรับอนุกรมเวลา เป็นหลักที่หมายถึงการทดสอบว่า autocorrelations ที่ไม่ใช่ศูนย์ lags ทั้งหมดคือ 0 ซึ่งจัดการส่วนความเป็นอิสระ ฉันคิดว่าวิธีการของคุณพยายามที่จะจัดการกับส่วนที่กระจายตัวเหมือนกันของสมมติฐาน ฉันคิดว่ามีปัญหากับแนวทางของคุณ ฉันคิดว่าคุณต้องมีการแบ่งจำนวนมากเพื่อให้ได้ค่า p ที่เพียงพอสำหรับการทดสอบความสม่ำเสมอ จากนั้นการทดสอบ KS แต่ละครั้งจะสูญเสียพลังงาน หากคุณใช้การแยกที่ทับซ้อนกันในส่วนของชุดข้อมูลการทดสอบจะมีความสัมพันธ์ ด้วยการแบ่งจำนวนเล็กน้อยการทดสอบของความสม่ำเสมอไม่มีพลังงาน แต่ด้วยการแยกหลายแบบการทดสอบความสม่ำเสมออาจมีประสิทธิภาพ แต่การทดสอบ KS จะไม่ ดูเหมือนว่าวิธีนี้จะไม่ช่วยตรวจสอบการพึ่งพาระหว่างตัวแปร

@ gu11aume ฉันไม่แน่ใจว่าสิ่งที่คุณขอด้วยแบบทดสอบทั่วไปสำหรับชุดที่ไม่ใช่เวลา ข้อมูลเชิงพื้นที่ให้ข้อมูลอนุกรมที่ไม่ใช่เวลาหนึ่งรูปแบบ ฟังก์ชั่นที่เรียกว่าอาจจะมีการเปลี่ยนแปลง สำหรับลำดับหนึ่งมิติฉันไม่เห็นความแตกต่างระหว่างลำดับที่เรียงลำดับตามเวลาเมื่อเทียบกับวิธีอื่นในการสั่งซื้อข้อมูล ฟังก์ชั่นความสัมพันธ์อัตโนมัติยังคงสามารถกำหนดและทดสอบได้ เมื่อคุณบอกว่าคุณต้องการทดสอบความเป็นอิสระในการสุ่มตัวอย่างฉันคิดว่าคุณมีคำสั่งในการเก็บตัวอย่าง ดังนั้นฉันคิดว่ากรณี 1 มิติทั้งหมดทำงานในลักษณะเดียวกัน


2
(+1) เนื่องจากนี่คือสิ่งที่ฉันคิด แต่ Re: "ถ้าข้อมูลมีดัชนีเรียงลำดับคุณสามารถใช้การทดสอบสัญญาณรบกวนสีขาวสำหรับอนุกรมเวลาเป็นหลักซึ่งหมายความว่าการทดสอบว่า autocorrelations - ตรรกะนี้ใช้ได้เฉพาะเมื่อคุณจัดการกับอนุกรมเวลาคงที่ใช่ไหม? มิฉะนั้นคุณอาจได้รับผลลัพธ์ที่ทำให้เข้าใจผิดเกี่ยวกับสหสัมพันธ์ที่ล้าหลัง ตัวอย่างเช่นจะเกิดอะไรขึ้นถ้าส่วน "ภายหลัง" ของอนุกรมเวลามีความสัมพันธ์โดยอัตโนมัติ
มาโคร

1
@Macro ฉันคิดว่านั่นเป็นสิ่งที่คุณมีอยู่ในใจตามคำถามของคุณต่อ OP แต่ฉันไม่คิดว่ามันจำเป็นที่จะต้องรอให้การตอบสนองของเขาชี้ประเด็นนี้ มันใช้เมื่อคุณกำลังมองหาอิสรภาพ แต่ฉันเข้าใจประเด็นของคุณ ในทางปฏิบัติคุณจะตรวจสอบความล่าช้า k แรกเท่านั้น ถ้าแบบนั้นคงที่ความสัมพันธ์จะลดลงด้วย k แต่ไม่ใช่สำหรับแบบ nonstationary อย่างน้อยก็ในทางทฤษฎีแล้วคุณจะพลาดความสัมพันธ์ที่ล่าช้าใหญ่สำหรับซีรีส์ที่ไม่ใช่เครื่องเขียน
Michael R. Chernick

2
ดีสำหรับซีรีส์เวลาที่ไม่หยุดนิ่งมันอาจจะไม่รู้สึกถึงการมองหาความสัมพันธ์แบบอัตโนมัตว่าเป็นหน้าที่ของความล่าช้า ถ้าและไม่ใช่ฟังก์ชันของจากนั้นทุกสิ่งแปลก ๆ สามารถเกิดขึ้นได้โดยแกล้งทำเป็นว่า ฉันแค่ถามว่าคุณมีความคิดใด ๆ สำหรับกรณีที่คุณรู้หรือไม่ว่าอนุกรมเวลาไม่คงที่cor(yt,ys)=f(s,t)f(s,t)|st|
มาโคร

ขอบคุณสำหรับคำตอบของคุณ Michael! คุณพูดถูก: ในกรณีที่ข้อมูลเป็นอนุกรมเวลาการตรวจสอบความสัมพันธ์อัตโนมัติเป็นวิธีที่ดีที่สุด สำหรับการวิจารณ์ของคุณเกี่ยวกับวิธีการแยก KS คุณมีประเด็นด้วยเช่นกัน ดังนั้นเรายังคงไม่มีการทดสอบในกรณีทั่วไป (ไม่ใช่เวลาอนุกรม) ดูเหมือนว่า
gui11aume

2
autocorrelation ที่ไม่ใช่ศูนย์แรกอยู่ที่ความล่าช้า 60 และที่ทวีคูณอื่น ๆ ของ 60 เท่านั้นหากอนุกรมเวลามีความยาว 55 เราจะไม่สามารถสังเกตจุดสองจุดแยกกันได้ 60 Sowe ไม่สามารถตรวจสอบเพื่อดูว่าความสัมพันธ์ระหว่างความล่าช้า 60 เป็น 0 หรือไม่ หากความยาวของซีรีย์คือ 65 เราสามารถประมาณความสัมพันธ์ของความล่าช้า 60 แต่ขึ้นอยู่กับเพียง 5 ความล่าช้า 60 คู่ ดังนั้นความแปรปรวนของการประมาณมีขนาดใหญ่และเราไม่มีอำนาจในการตรวจสอบความสัมพันธ์ที่ไม่เป็นศูนย์นี้
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.