กลุ่มตัวอย่างเชิงมโนทัศน์ / ทฤษฎี - ทำไมต้องสนใจ?


13

ฉันหวังว่าคำถามนี้จะไม่ถูกทำเครื่องหมายว่า "กว้างเกินไป" และหวังว่าการอภิปรายจะเริ่มต้นขึ้นซึ่งจะเป็นประโยชน์ต่อทุกคน

ในสถิติเราใช้เวลามากมายในการเรียนรู้ทฤษฎีตัวอย่างขนาดใหญ่ เราสนใจอย่างยิ่งในการประเมินคุณสมบัติของซีมโทติคของผู้ประมาณของเรารวมถึงว่าพวกมันไม่เอนเอียง, มีประสิทธิภาพ, การกระจายของซีมโทติคและอื่น ๆ asymptotic คำจะเชื่อมโยงอย่างมากกับสมมติฐานที่ว่า\n

ในความเป็นจริง แต่เรามักจะจัดการกับการ จำกัดnคำถามของฉันคือ:n

1) เราหมายถึงอะไรโดยกลุ่มตัวอย่างขนาดใหญ่? เราจะแยกความแตกต่างระหว่างตัวอย่างขนาดเล็กและขนาดใหญ่ได้อย่างไร

2) เมื่อเราพูดว่าเราหมายถึงว่าควรไปที่หรือไม่?nn

ตัวอย่างสำหรับการแจกแจงทวินามต้องการประมาณ n = 30 เพื่อรวมเข้ากับการแจกแจงแบบปกติภายใต้ CLT เราควรมีหรือในกรณีนี้โดยเราหมายถึง 30 หรือมากกว่า!X¯n

3) สมมติว่าเรามีตัวอย่างที่ จำกัด และสมมติว่าเรารู้ทุกอย่างเกี่ยวกับพฤติกรรมเชิงเส้นกำกับของตัวประมาณของเรา แล้วอะไรล่ะ สมมติว่าตัวประมาณของเราเป็นแบบไม่เชิงเส้นกำกับจากนั้นเรามีการประมาณแบบไม่เอนเอียงสำหรับพารามิเตอร์ที่เราสนใจในตัวอย่าง จำกัด ของเราหรือหมายความว่าถ้าเรามีแล้วเราก็จะไม่เอนเอียง?n

อย่างที่คุณเห็นจากคำถามข้างต้นฉันพยายามทำความเข้าใจปรัชญาเบื้องหลัง "Asymptotics ตัวอย่างขนาดใหญ่" และเรียนรู้ว่าทำไมเราถึงสนใจ ฉันต้องได้รับสัญชาติญาณสำหรับทฤษฎีบทที่ฉันเรียนรู้


5
พฤติกรรมตัวอย่างขนาดใหญ่เป็นวิธีหนึ่งที่จะแสดงว่าตัวประมาณที่กำหนดทำงานได้หรืออย่างอื่นในขีด จำกัด ของข้อมูลที่ไม่มีที่สิ้นสุด คุณพูดถูกว่าไม่จำเป็นต้องบอกอะไรเราเกี่ยวกับวิธีการประมาณค่าที่ดีในทางปฏิบัติ แต่เป็นขั้นตอนแรก: คุณไม่น่าจะต้องการใช้ตัวประมาณค่าที่ไม่สอดคล้องกันเชิงเส้นกำกับ (หรืออะไรก็ตาม) ข้อได้เปรียบของการวิเคราะห์เชิงเส้นกำกับคือการหาตัวอย่างได้ง่ายกว่าตัวอย่างที่มีขอบเขต จำกัด
Dougal

คุณควรเริ่มอ่านเกี่ยวกับ asymptotics ของลำดับที่สูงขึ้นเนื่องจากคุณคุ้นเคยกับลำดับปกติของ asymptotic อันดับแรกและเช่นนั้น ด้วยสิ่งนี้คุณยังไม่ได้รู้ทุกอย่างเกี่ยวกับพฤติกรรมแบบซีมโทติค มันก็เหมือนกับการพูดว่า "ฉันรู้ว่า ; ทำไมทุกคนถึงบอกว่าไซน์เป็นคาบ?" sinx=x
StasK

1
สำหรับการแจกแจงทวินามเป็นเกณฑ์ที่ไม่ดี หากคุณมีและค่าเฉลี่ย = 0.03 และ sd = 0.173 ดังนั้นที่ค่าใบหน้าความน่าจะเป็นที่ตัวแปร binomial ต่ำกว่าศูนย์ผ่านการประมาณปกติคือ 43% ซึ่งแทบจะเป็นค่าที่ยอมรับได้ยากสำหรับศูนย์ . กฎที่ดีกว่าแนะนำให้และกฎเหล่านี้เกี่ยวข้องกับปัญหาการสั่งซื้อที่สูงขึ้นเหล่านี้ n>30p=0.001n=30nmin(p,1p)>15
StasK

คำตอบ:


6

มาสายดีกว่าไม่มาเลย. ก่อนอื่นขอให้ฉันเขียนเหตุผลที่สาม (ฉันคิดว่าสำคัญ) ว่าทำไมเราจึงมุ่งเน้นไปที่ความไม่เป็นกลาง (ความสอดคล้อง) ของผู้ประมาณค่า

a) ความสอดคล้องเป็นเกณฑ์ขั้นต่ำ หากตัวประมาณไม่ถูกต้องประมาณแม้จะมีข้อมูลจำนวนมากมันจะดีแค่ไหน? นี่คือเหตุผลที่ให้ไว้ใน Wooldridge: เศรษฐมิติเบื้องต้น

b) คุณสมบัติตัวอย่าง จำกัด นั้นยากที่จะพิสูจน์ (หรือมากกว่านั้นข้อความแบบอะซิมโทติกนั้นง่ายกว่า) ฉันกำลังทำการวิจัยด้วยตนเองและเมื่อใดก็ตามที่คุณสามารถพึ่งพาเครื่องมือตัวอย่างขนาดใหญ่สิ่งต่าง ๆ ก็จะง่ายขึ้นมาก กฎจำนวนมากทฤษฎีการบรรจบกันของ Martingale เป็นต้นเป็นเครื่องมือที่ดีสำหรับการได้รับผลเชิงซีโมติก แต่ไม่ได้ช่วยตัวอย่างที่แน่นอน ฉันเชื่อว่ามีบางสิ่งในสายเหล่านี้ถูกกล่าวถึงใน Hayashi (2000): เศรษฐมิติ

c) หากตัวประมาณค่าลำเอียงสำหรับกลุ่มตัวอย่างขนาดเล็กหนึ่งสามารถแก้ไขหรืออย่างน้อยปรับปรุงด้วยการแก้ไขตัวอย่างขนาดเล็กที่เรียกว่า สิ่งเหล่านี้มักจะมีความซับซ้อนในทางทฤษฎี (เพื่อพิสูจน์ว่าพวกเขาปรับปรุงตัวประมาณค่าโดยไม่มีการแก้ไข) นอกจากนี้คนส่วนใหญ่ใช้ได้ดีกับการพึ่งพากลุ่มตัวอย่างขนาดใหญ่ดังนั้นการแก้ไขกลุ่มตัวอย่างขนาดเล็กมักจะไม่ถูกนำไปใช้ในซอฟต์แวร์สถิติมาตรฐานเพราะมีเพียงไม่กี่คนเท่านั้นที่ต้องการพวกเขา (ผู้ที่ไม่สามารถรับข้อมูลมากขึ้น ดังนั้นจึงมีอุปสรรคบางอย่างในการใช้การแก้ไขที่ผิดปกติเหล่านั้น

ตามคำถามของคุณ เราหมายถึงอะไรโดย "ตัวอย่างขนาดใหญ่"? สิ่งนี้ขึ้นอยู่กับบริบทอย่างมากและสำหรับเครื่องมือเฉพาะสามารถตอบได้ผ่านการจำลอง นั่นคือคุณสร้างข้อมูลปลอมขึ้นมาและดูว่าอัตราการปฏิเสธนั้นทำหน้าที่เป็นฟังก์ชั่นขนาดตัวอย่างหรืออคติทำงานเป็นฟังก์ชั่นขนาดตัวอย่าง ตัวอย่างเฉพาะอยู่ที่นี่ซึ่งผู้เขียนเห็นจำนวนคลัสเตอร์ที่ใช้สำหรับข้อผิดพลาดมาตรฐานของคลัสเตอร์ OLS บล็อกข้อผิดพลาดมาตรฐาน bootstraped เป็นต้นเพื่อให้ทำงานได้ดี นักทฤษฎีบางคนก็มีงบเกี่ยวกับอัตราการบรรจบกัน แต่สำหรับวัตถุประสงค์ในทางปฏิบัติการจำลองดูเหมือนจะให้ข้อมูลมากกว่า

มันใช้เหรอ? ถ้านั่นคือสิ่งที่ทฤษฎีบอกว่าใช่ แต่ในการประยุกต์ใช้เราสามารถยอมรับอคติเล็ก ๆ น้อย ๆ ซึ่งเรามีตัวอย่างขนาดใหญ่พอสมควรพร้อมความน่าจะเป็นสูง สิ่งที่เพียงพอหมายถึงขึ้นอยู่กับบริบทดูด้านบนn

ในคำถามที่ 3: โดยปกติคำถามของความเป็นกลาง (สำหรับทุกขนาดตัวอย่าง) และความสม่ำเสมอ (ความเป็นกลางสำหรับตัวอย่างขนาดใหญ่) จะถูกพิจารณาแยกต่างหาก ตัวประมาณสามารถลำเอียง แต่สอดคล้องกันซึ่งในกรณีนี้มีเพียงการประมาณการตัวอย่างขนาดใหญ่เท่านั้นที่ไม่เอนเอียง แต่ยังมีตัวประมาณที่ไม่เอนเอียงและสอดคล้องซึ่งใช้กับทฤษฎีสำหรับขนาดตัวอย่างทุกขนาด ( ตัวประมาณอาจไม่เอนเอียง แต่ไม่สอดคล้องกันด้วยเหตุผลทางเทคนิค )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.