ความคาดหวังของผลรวมของตัวเลข K โดยไม่ต้องเปลี่ยน


9

ป.ร. ให้ไว้ n ตัวเลขซึ่งค่าของแต่ละตัวเลขแตกต่างกันแสดงว่า v1,v2,...,vnและความน่าจะเป็นในการเลือกแต่ละตัวเลขคือ พี1,พี2,...,พีnตามลำดับ

ตอนนี้ถ้าฉันเลือก K ตัวเลขขึ้นอยู่กับความน่าจะเป็นที่กำหนด Knอะไรคือความคาดหวังของผลรวมของสิ่งเหล่านั้น Kหมายเลข? โปรดทราบว่าการเลือกจะไม่มีการเปลี่ยนเพื่อให้Kตัวเลขต้องไม่เกี่ยวข้องกับตัวเลขที่ซ้ำกัน ฉันเข้าใจว่าหากการเลือกนั้นมาพร้อมการเปลี่ยนความคาดหวังของผลรวมของK ตัวเลขเท่ากับ K×E(V)ที่ไหน

E(V)=โวลต์1×พี1+โวลต์2×พี2+...+โวลต์n×พีn.

นอกจากนี้สิ่งที่เกี่ยวกับความคาดหวังของความแปรปรวนของเหล่านั้น K หมายเลข?

ฉันเป็นนักเรียน CS PhD ที่กำลังทำงานกับปัญหาข้อมูลขนาดใหญ่และฉันไม่มีพื้นฐานทางสถิติ ฉันคาดหวังว่าใครบางคนสามารถให้สูตรฉันเป็นคำตอบได้ อย่างไรก็ตามหากคำตอบนั้นซับซ้อนเกินกว่าที่จะอธิบายโดยสูตรหรือการคำนวณอย่างเข้มข้นต้องมีส่วนเกี่ยวข้องคำตอบโดยประมาณนั้นเป็นที่ยอมรับโดยสิ้นเชิง

คุณสามารถสันนิษฐานได้ nที่นี่ค่อนข้างใหญ่และความน่าจะเป็นอาจแตกต่างกันมาก ในทางปฏิบัติค่าของความน่าจะเป็นเหล่านั้นมาจากบันทึกแบบสอบถามซึ่งบันทึกชุดของแบบสอบถามรวม ประเด็นก็คือความถี่ของแต่ละหมายเลขที่เกี่ยวข้องในแบบสอบถามอาจจะค่อนข้างเบาบางคือบางคนไม่ค่อยมีการสอบถามในขณะที่บางคนถามบ่อยมาก คุณสามารถสันนิษฐานได้ว่าการแจกแจงความน่าจะเป็นการแจกแจงแบบปกติการแจกแจง zipf หรือทางเลือกอื่นที่สมเหตุสมผล

การกระจายค่าเป็นเพียงส่วนย่อยที่ต่อเนื่องกันของการแจกแจงที่เป็นไปได้ใด ๆ กล่าวอีกนัยหนึ่งถ้าคุณมีฮิสโตแกรมที่แสดงถึงการกระจายที่แน่นอนตัวเลขทั้งหมดที่เกี่ยวข้องในปัญหานี้คือตัวเลขทั้งหมดในที่เก็บข้อมูลชุดเดียว

ในแง่ของค่า K คุณอาจคิดว่ามันน้อยกว่าจำนวนขององค์ประกอบที่ถูกถามบ่อย


3
ความคาดหวังของความแปรปรวนของผลรวมจะแตกต่างกันโดยไม่มีการแทนที่ คุณจะต้องมีปัจจัยการแก้ไขจำนวน จำกัด หากไม่มีการแทนที่ (หากต้องการดูอย่างสังหรณ์ใจให้สังเกตว่าถ้า K = n ความแปรปรวนของผลรวมเป็นศูนย์เพราะมันจะเป็นจำนวนเดียวกันเสมอดังนั้นเมื่อ K เข้าใกล้ n ความแปรปรวนของผลรวมจะลดลง)
zbicyclist

1
คำถามนี้อาจจะยากกว่าที่คิด พิจารณากรณีn=2 และ (โวลต์1,โวลต์2)=(0,1). ผลรวมที่คาดหวังของค่าสองค่าที่ดึงมาพร้อมกับการเปลี่ยนคือ2พี2ซึ่งเป็นสองเท่าของผลรวมที่คาดหวังของหนึ่งค่าของหลักสูตร แต่ผลรวมที่คาดหวังของค่าสองค่าที่ดึงออกมาโดยไม่มีการแทนที่ก็คือโวลต์1+โวลต์2=12พี2 ยกเว้นเมื่อ พี1=พี2=1/2.
whuber

1
@zbicyclist บางทีฉันไม่ได้ระบุปัญหาอย่างชัดเจน ในสถานการณ์สมมติของฉันถ้า K = N ดังนั้นความแปรปรวนของตัวเลข K เหล่านั้นจะเป็นความแปรปรวนของประชากรทั่วไปมากกว่า 0
SciPioneer

1
(1) คำถามนี้ไม่เหมือนกับคำถามสำหรับการเรียนรู้ด้วยตนเองสำหรับฉัน: ดูเหมือนว่าปัญหาที่นำไปใช้จริงในความน่าจะเป็น (2) ขนาดใหญ่แค่ไหนnจะเป็นอย่างไร วิธีการแก้ปัญหาที่แน่นอนดูไม่สามารถทำได้ยกเว้นเมื่อชุดย่อยทั้งหมดสามารถระบุได้ (3) ถ้าn อาจจะยิ่งใหญ่กว่า 20 หรืออย่างน้อยก็กำจัดการแจงนับอย่างรวดเร็วสิ่งที่คุณสามารถพูดเกี่ยวกับ พีผม? ตัวอย่างเช่นพวกเขาสามารถเปลี่ยนแปลงได้หรือพวกเขาทั้งหมดจะค่อนข้างใกล้เคียง1/n? สิ่งนี้สามารถแจ้งความพยายามในการค้นหาคำตอบโดยประมาณ
whuber

1
ขอบคุณสำหรับการแก้ไข ยิ่งคุณสามารถบอกเราเกี่ยวกับยังไม่มีข้อความ, K, vi, และ piดีกว่า ตัวอย่างเช่นถ้าKmax(pi)1จากนั้นสูตรสำหรับการสุ่มตัวอย่างที่มีการแทนที่ควรจะเป็นการประมาณที่ดี (เนื่องจากมีค่าน้อยมากหากเลือกจะถูกเลือกมากกว่าหนึ่งครั้ง) ฉันเชื่อว่ากรณีที่ยากที่สุดคือที่ที่มีคุณค่ามากมายpผม- เพื่อที่คุณจะไม่สามารถแทนที่ส่วนใหญ่เป็นศูนย์ได้ pi>1/K สำหรับจำนวนที่ประเมินค่าได้ของ ผม--และ KN/2.
whuber

คำตอบ:


2

นี่อาจเป็นไปตามลักษณะของคำตอบที่ถูกต้อง แต่อาจไม่เป็นประโยชน์ Horvitz และ Thompson (1952) ให้ผลลัพธ์ที่ครอบคลุมสถานการณ์นี้โดยทั่วไป ผลลัพธ์เหล่านี้ได้รับในรูปของนิพจน์ combinatorial ที่อาจคาดหวัง

เพื่อให้สอดคล้องกับสัญกรณ์ของพวกเขาและเพื่อให้สอดคล้องกับสัญกรณ์ที่ใช้กันอย่างแพร่หลายมากขึ้นขอผมนิยามปริมาณใหม่ ปล่อยยังไม่มีข้อความ เป็นจำนวนองค์ประกอบในประชากรและ n เป็นขนาดตัวอย่าง

ปล่อย ยูผม, ผม=1,...,ยังไม่มีข้อความเป็นตัวแทนของ ยังไม่มีข้อความ องค์ประกอบของประชากรที่มีค่าที่กำหนด Vผม, ผม=1,...,ยังไม่มีข้อความ และความน่าจะเป็นของการคัดเลือก p1,...,pN. สำหรับตัวอย่างขนาดที่กำหนดnให้ค่าที่สังเกตในตัวอย่างเป็น v1,...,โวลต์n.

สิ่งที่ต้องการคือค่าเฉลี่ยและความแปรปรวนของผลรวมตัวอย่าง

Σผม=1nโวลต์ผม.

ตามที่ระบุไว้ในความคิดเห็นความน่าจะเป็นในการเลือกตัวอย่างเฉพาะ s={ui,uj,...,ut} วาดตามลำดับนั้นคือ

Pr(s)=pi1pj2ptn,
ที่น่าจะเป็นเริ่มต้น pi1 ของการวาดภาพ ui ได้รับจาก piความน่าจะเป็นที่สอง pj2 ของการวาดภาพ ยูJ เป็นเงื่อนไขในการลบ ยูผมจากประชากรและอื่น ๆ ดังนั้นแต่ละหน่วยที่ตามมาจะส่งผลให้มีการแจกแจงความน่าจะเป็นแบบใหม่สำหรับหน่วยถัดไป

มี

S(ผม)=n!(ยังไม่มีข้อความ-1n-1)
ตัวอย่างขนาด n ที่มี ยูผมจากประชากรทั้งหมด โปรดทราบว่าสิ่งนี้คำนึงถึงn! การเรียงสับเปลี่ยนของตัวอย่าง

ปล่อย sn(ผม) แสดงถึงตัวอย่างขนาดเฉพาะ n ซึ่งรวมถึง ยูผม. จากนั้นความน่าจะเป็นในการเลือกองค์ประกอบยูผม ได้รับจาก

P(ยูผม)=Σราคา(sn(ผม)),
โดยที่การรวมอยู่เหนือขนาดที่กำหนด S(ผม) จากตัวอย่างที่เป็นไปได้ทั้งหมด sn(ผม) ขนาด n ที่มี ยูผม. (ฉันเปลี่ยนสัญกรณ์เล็กน้อยจากกระดาษเนื่องจากมันทำให้ฉันสับสน)

ในทำนองเดียวกันกำหนด

S(ผมJ)=n!(ยังไม่มีข้อความ-2n-2)
เป็นจำนวนตัวอย่างที่มีทั้งคู่ ยูผม และ ยูJ. จากนั้นเราสามารถกำหนดความน่าจะเป็นของตัวอย่างที่มีทั้งสองเป็น
P(ยูผมยูJ)=Σราคา(sn(ผมJ)),
โดยที่การรวมอยู่เหนือขนาดที่กำหนด S(ผมJ) จากตัวอย่างที่เป็นไปได้ทั้งหมด sn(ผมJ) ขนาด n ที่มี ยูผม และ ยูJ.

ค่าที่คาดหวังนั้นจะได้รับเป็น

E(i=1nvi)=i=1NP(ui)Vi.

แม้ว่าความแปรปรวนจะไม่ได้รับอย่างชัดเจนในกระดาษ แต่ก็สามารถได้รับจากความคาดหวังของ qช่วงเวลาที่

E(i=1nviq)=i=1NP(ui)Viq
และผลิตภัณฑ์ข้าม
E(ijnvivj)=ijP(uiuj)ViVj.

ในคำอื่น ๆ ดูเหมือนว่าหนึ่งจะต้องผ่านส่วนย่อยที่เป็นไปได้ทั้งหมดเพื่อทำการคำนวณเหล่านี้ บางทีนี่อาจทำได้สำหรับค่าที่น้อยกว่าnแม้ว่า

Horvitz, DG และ Thompson, DJ (1952) ภาพรวมการสุ่มตัวอย่างโดยไม่มีการแทนที่จากเอกภพอัน จำกัด วารสารสมาคมสถิติอเมริกัน 47 (260): 663-685

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.