การศึกษาแบบจำลอง: วิธีการเลือกจำนวนการทำซ้ำ?


11

ฉันต้องการสร้างข้อมูลด้วย "รุ่น 1" และปรับให้พอดีกับ "รุ่น 2" แนวคิดพื้นฐานคือการตรวจสอบคุณสมบัติความทนทานของ "รุ่น 2" ฉันสนใจเป็นพิเศษในอัตราความครอบคลุมของช่วงความมั่นใจ 95% (ตามการประมาณปกติ)

  • ฉันจะตั้งค่าจำนวนการทำซ้ำได้อย่างไร
  • เป็นความจริงหรือไม่ที่การทำซ้ำที่มีขนาดใหญ่เกินความจำเป็น ถ้าเป็นเช่นนั้นได้อย่างไร

คุณหมายถึงอะไรโดย "อัตราการครอบคลุมของช่วงความมั่นใจ 95%" หากช่วงความเชื่อมั่นนั้นแน่นอนหรือเป็นช่วงเวลาที่เหมาะสมโดยประมาณค่านั้นจะครอบคลุมค่าจริงของพารามิเตอร์ประมาณ 95% ของเวลา
Michael R. Chernick

1
หากคุณกำลังสร้างช่วงความมั่นใจตามรุ่น 2 สำหรับข้อมูลที่สร้างขึ้นภายใต้รุ่น 1 ดูเหมือนว่าทั้งสองรุ่นมีความสัมพันธ์กันและมีพารามิเตอร์เดียวกันบางส่วน คุณช่วยอธิบายอีกเล็กน้อยได้ไหม? นอกจากนี้เมื่อคุณพูดว่า "เสแสร้ง" ในสัญลักษณ์แสดงหัวข้อย่อยที่สองของคุณคุณหมายถึงผิดหรือไม่สำคัญ? การจำลองสถานการณ์ที่มีขนาดใหญ่ขึ้นนั้นไม่ควรทำให้เกิดอคติ แต่มันสามารถเปิดเผยอคติที่มีความสำคัญในทางปฏิบัติเล็กน้อยซึ่งคุณจะไม่เห็นด้วยจำนวนที่น้อยกว่าคล้ายกับวิธีที่คุณสามารถตรวจจับได้ (เช่นรับนัยสำคัญทางสถิติ) มีขนาดตัวอย่างที่ใหญ่มาก
มาโคร

@Michael Chernick: อาจครอบคลุมถึงตัวอย่างเช่นหากข้อผิดพลาดมาตรฐานมีขนาดเล็กเกินไป ฉันได้แก้ไขคำถามของฉันเพื่อระบุมากกว่าที่ฉันใช้ช่วงความมั่นใจตามการประมาณปกติ
user7064

@Macro: "Model 1" สร้างข้อมูลปกติพร้อมเงื่อนไขข้อผิดพลาด heteroscedastic และ "Model 2" เป็นโมเดลเชิงเส้นมาตรฐาน
user7064

คำตอบ:


10

จากความคิดเห็นที่ตามมาดูเหมือนว่าคุณกำลังพยายามประเมินความน่าจะเป็นที่ครอบคลุมของช่วงความมั่นใจเมื่อคุณถือว่าความแปรปรวนข้อผิดพลาดคงที่เมื่อความแปรปรวนข้อผิดพลาดจริงไม่คงที่

วิธีที่ฉันคิดเกี่ยวกับสิ่งนี้คือว่าสำหรับการวิ่งแต่ละครั้งช่วงความมั่นใจอาจครอบคลุมมูลค่าที่แท้จริงหรือไม่ก็ได้ กำหนดตัวแปรตัวบ่งชี้:

Yi={1if the interval covers0if it does not

ความน่าจะเป็นที่ครอบคลุมที่คุณสนใจคือซึ่งคุณสามารถประมาณได้ตามสัดส่วนตัวอย่างที่ฉันคิดว่าเป็นสิ่งที่คุณเสนอE(Yi)=p

ฉันจะตั้งค่าจำนวนการทำซ้ำได้อย่างไร

เรารู้ว่าความแปรปรวนของการทดลองใช้ Bernoulli คือและการจำลองของคุณจะสร้างการทดลอง IID bernoulli ดังนั้นความแปรปรวนของการจำลองตามการประมาณของคือโดยที่คือ จำนวนของการจำลอง คุณสามารถเลือกเพื่อลดความแปรปรวนนี้ได้มากเท่าที่คุณต้องการ มันเป็นความจริงที่พีพี( 1 - P ) / n n n P ( 1 - P ) / n 1 / 4 np(1p)pp(1p)/nnn

p(1p)/n1/4n

ดังนั้นถ้าคุณต้องการความแปรปรวนจะน้อยกว่าบางกว่าเกณฑ์ที่กำหนดไว้ล่วงหน้า,แล้วคุณสามารถมั่นใจได้ว่านี้โดยเลือก1/4n 1 / 4 δδn1/4δ

ในการตั้งค่าทั่วไปถ้าคุณพยายามตรวจสอบคุณสมบัติของการกระจายตัวตัวอย่างของตัวประมาณโดยการจำลอง (เช่นค่าเฉลี่ยและความแปรปรวน) จากนั้นคุณสามารถเลือกจำนวนการจำลองตามความแม่นยำที่คุณต้องการให้ได้ในแบบอะนาล็อก แฟชั่นที่อธิบายไว้ที่นี่

โปรดทราบด้วยว่าเมื่อค่าเฉลี่ย (หรือช่วงเวลาอื่น) ของตัวแปรเป็นวัตถุที่น่าสนใจอย่างที่เป็นอยู่ที่นี่คุณสามารถสร้างช่วงความมั่นใจสำหรับมันโดยยึดตามแบบจำลองโดยใช้การประมาณปกติ (เช่นทฤษฎีขีด จำกัด กลาง) ตามที่กล่าวไว้ในคำตอบที่ดีของ MansT การประมาณปกตินี้จะดีกว่าเมื่อจำนวนตัวอย่างเพิ่มขึ้นดังนั้นหากคุณวางแผนที่จะสร้างช่วงความเชื่อมั่นโดยดึงดูดความสนใจไปที่ทฤษฎีขีด จำกัด กลางคุณจะต้องการให้มีขนาดใหญ่พอที่จะนำไปใช้ สำหรับกรณีไบนารีที่เป็นคุณได้ที่นี่ก็จะปรากฏขึ้นประมาณนี้เป็นสิ่งที่ดีแม้ในขณะที่และจะสวยปานกลาง - พูด20n p n ( 1 - p ) 20nnpn(1p)20

เป็นความจริงหรือไม่ที่การทำซ้ำที่มีขนาดใหญ่เกินความจำเป็น ถ้าเป็นเช่นนั้นได้อย่างไร

ดังที่ฉันพูดถึงในความคิดเห็น - สิ่งนี้ขึ้นอยู่กับสิ่งที่คุณหมายถึงโดยเก๊ การจำลองจำนวนมากขึ้นจะไม่ทำให้เกิดความลำเอียงในแง่สถิติ แต่มันอาจเปิดเผยอคติที่ไม่สำคัญซึ่งสังเกตเห็นได้จากตัวอย่างขนาดใหญ่ทางดาราศาสตร์เท่านั้น ตัวอย่างเช่นสมมติว่าน่าจะเป็นความคุ้มครองที่แท้จริงของช่วงความเชื่อมั่น misspecified เป็น\% จากนั้นนี่ไม่ใช่ปัญหาในทางปฏิบัติจริง ๆ แต่คุณสามารถรับความแตกต่างนี้ได้ถ้าคุณลองทำแบบจำลองมากมาย94.9999%


10

ฉันมักจะใช้ความกว้างของช่วงความมั่นใจเป็นวิธีที่รวดเร็วและสกปรกเพื่อกำหนดจำนวนการวนซ้ำที่จำเป็น

ให้เป็นอัตราความครอบคลุมที่แท้จริงของช่วงความมั่นใจ 95% เมื่อข้อมูลจาก "รุ่น 1" ถูกติดตั้งเป็น "รุ่น 2" ถ้าคือจำนวนครั้งที่ช่วงความเชื่อมั่นครอบคลุมค่าพารามิเตอร์จริงในซ้ำแล้วP)X n X B ฉันn ( n , p )pXnXBin(n,p)

ประมาณการมีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานn} สำหรับขนาดใหญ่ ,จะอยู่ที่ประมาณปกติและช่วยให้คุณมีความเชื่อมั่นที่ประมาณ 95% สำหรับพีเมื่อคุณรู้ว่า (จะ gess) ที่มันตามที่ความกว้างของช่วงเวลานี้จะอยู่ที่ประมาณn}p^=X/npp(1p)/nnp^p^±1.96p^(1p^)/npp0.9521.960.950.05/n

ถ้าคุณคิดว่าช่วงเวลาที่ความเชื่อมั่นที่มีความกว้าง (พูด) เป็นที่ยอมรับคุณจะพบจำนวนโดยประมาณของการทำซ้ำที่จำเป็นสำหรับการนี้โดยการแก้สมการ0.1n

0.1=21.960.950.05/n.

ด้วยวิธีนี้คุณสามารถค้นหาเหมาะสมได้โดยเลือกความแม่นยำที่คุณกำลังมองหาn


(+1) ดูเหมือนว่าเราส่งคำตอบที่คล้ายกันมากในเวลาเดียวกัน แต่ฉันคิดว่าภาษาต่าง ๆ ที่ใช้อาจมีประโยชน์สำหรับบางคน
มาโคร

ใช่แน่นอนฉันยังไม่รู้ว่าจะตอบคำตอบแบบใด! อย่างไรก็ตาม +1 สำหรับทั้งคู่!
user7064

1
@Macro: +1 ให้กับคุณเช่นกัน ความแปรปรวนและความกว้างของช่วงเวลานั้นแน่นอนมากหรือน้อยที่เทียบเท่าที่นี่ จิตใจที่ยิ่งใหญ่คิดเหมือนกัน - และทำเช่นนั้นของเรา ;)
MånsT

@ MånsTฉันถูกต้องที่จะสมมติว่าถ้าความกว้างของ CI ของฉันคือ 0.01 ดังนั้นสำหรับอัตราความครอบคลุม 90% จำนวนการทำซ้ำที่ต้องการจะเป็นสำหรับ 95% CI หรือไม่ สมมุติว่า CI นี้ใช้สำหรับประมาณสัดส่วน ขนาดตัวอย่างของแบบจำลองทวินามของฉัน (จากนั้นเลือกจำนวนเพื่อค้นหา CI) มีผลต่อความน่าจะเป็นของการครอบคลุมหรือไม่ n=(21.650.950.05/0.01)2
กอร์

0

หากคุณกำลังจำลองสถานการณ์จำนวนขั้นต่ำที่ต้องการจะขึ้นอยู่กับวัตถุประสงค์ของคุณ (คุณพยายามประเมินอะไรและมีความแม่นยำเท่าใด) ถ้าคุณกำลังพยายามที่จะประเมินการตอบสนองโดยเฉลี่ยแล้วค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยของกลุ่มตัวอย่างเป็น{n}} ดังนั้นถ้าเป็นความกว้างครึ่งหนึ่งที่จำเป็นสำหรับช่วงความมั่นใจสำหรับค่าเฉลี่ยที่คุณต้องการหรือ 2} d95%d=1.96×Pop.Std.DevPopulation Standard Deviationnd95% n=(1.96×Pop.Std.Dev)2d=1.96×Pop.Std.Devnn=(1.96×Pop.Std.Dev)2d2

ทำการจำลองเพิ่มเติม (สมมติว่าตัวอย่างทั้งหมดเกิดจากกระบวนการสุ่ม) ไม่ทำอะไรเลยที่จะกระทบการประเมินในแง่ของความถูกต้องหรือความลำเอียง

ความคุ้มครองของช่วงความเชื่อมั่นโดยประมาณจะแตกต่างจากที่แน่นอน coveraged ต้องการและข้อผิดพลาดในการรายงานข่าวจะลดลงเพิ่มขึ้นnดังกล่าวโดยมาโครและ MansT คุณสามารถผูกพันประมาณการ Monte Carlo ของความคุ้มครองอยู่บนพื้นฐานของความแปรปรวนของสัดส่วนทวินามเป็น{n}n p ( 1 - p )95%np(1p)n


4
สวัสดี @Michael ฉันคิดว่าคำตอบนี้พลาดจุด OP พยายามตรวจสอบว่าคุณสมบัติความครอบคลุมของช่วงความมั่นใจเปลี่ยนไปอย่างไรเมื่อคุณถือว่าความแปรปรวนคงที่ แต่ความแปรปรวนที่แท้จริงไม่คงที่
มาโคร

@Macro: ถูกต้อง ฉันจงใจตั้งคำถามในบริบทที่กว้างขึ้นเพื่อหลีกเลี่ยงคำตอบที่เฉพาะเจาะจงกับปัญหาของการสมมติความแปรปรวนคงที่
user7064

@Macro นั่นไม่ใช่ส่วนหนึ่งของคำถามที่ฉันตอบ เห็นได้ชัดว่ามีการชี้แจงในภายหลัง นอกจากนี้ยังปรากฏว่าสิ่งที่น่าสนใจคือความถูกต้องของช่วงความเชื่อมั่นที่ใช้การประมาณปกติ ดูเหมือนจะไม่ได้รับการแก้ไขในคำตอบใด ๆ
Michael R. Chernick

4
@Michael ใช่ฉันรู้ - ประเด็นของฉันมากกว่าที่คุณ (และฉัน) ขอคำชี้แจง แต่คุณไม่ได้รอชี้แจงก่อนที่จะโพสต์คำตอบของคุณ Re: ความคิดเห็นที่สองของคุณคุณสามารถตรวจสอบคุณสมบัติการครอบคลุมของช่วงเวลาใด ๆ ด้วยวิธีนี้ไม่ว่าจะเป็นไปตามการประมาณปกติหรือไม่ก็ตาม หากคุณคิดว่ามีสิ่งที่แตกต่างในการเพิ่มคำตอบที่พลาดโดยที่มีอยู่แล้วโปรดแก้ไขคำตอบของคุณเพื่อให้เราทุกคนสามารถเรียนรู้
มาโคร

@Macro แน่นอนฉันเห็นด้วยกับคุณ ฉันแก้ไขคำตอบของฉันเพื่อประโยชน์ของ OP ฉันสงสัยว่าไม่มีเนื้อหาใดในเนื้อหาที่คุณไม่รู้
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.