ความคาดหวังของผลรวมของตัวเลข K โดยไม่ต้องเปลี่ยน

ป.ร. ให้ไว้ $n$ ตัวเลขซึ่งค่าของแต่ละตัวเลขแตกต่างกันแสดงว่า $v_1, v_2, ..., v_n$ และความน่าจะเป็นในการเลือกแต่ละตัวเลขคือ $p_1, p_2, ..., p_n$ ตามลำดับ

ตอนนี้ถ้าฉันเลือก $K$ ตัวเลขขึ้นอยู่กับความน่าจะเป็นที่กำหนด $K \leq n$ อะไรคือความคาดหวังของผลรวมของสิ่งเหล่านั้น $K$ หมายเลข? โปรดทราบว่าการเลือกจะไม่มีการเปลี่ยนเพื่อให้ $K$ ตัวเลขต้องไม่เกี่ยวข้องกับตัวเลขที่ซ้ำกัน ฉันเข้าใจว่าหากการเลือกนั้นมาพร้อมการเปลี่ยนความคาดหวังของผลรวมของ $K$ ตัวเลขเท่ากับ $K \times E(V)$ ที่ไหน

E (V) = {โวลต์}_{1} \times {พี}_{1} + {โวลต์}_{2} \times {พี}_{2} + . . . + {โวลต์}_{n} \times {พี}_{n} .

$E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n.$

นอกจากนี้สิ่งที่เกี่ยวกับความคาดหวังของความแปรปรวนของเหล่านั้น $K$ หมายเลข?

ฉันเป็นนักเรียน CS PhD ที่กำลังทำงานกับปัญหาข้อมูลขนาดใหญ่และฉันไม่มีพื้นฐานทางสถิติ ฉันคาดหวังว่าใครบางคนสามารถให้สูตรฉันเป็นคำตอบได้ อย่างไรก็ตามหากคำตอบนั้นซับซ้อนเกินกว่าที่จะอธิบายโดยสูตรหรือการคำนวณอย่างเข้มข้นต้องมีส่วนเกี่ยวข้องคำตอบโดยประมาณนั้นเป็นที่ยอมรับโดยสิ้นเชิง

คุณสามารถสันนิษฐานได้ $n$ ที่นี่ค่อนข้างใหญ่และความน่าจะเป็นอาจแตกต่างกันมาก ในทางปฏิบัติค่าของความน่าจะเป็นเหล่านั้นมาจากบันทึกแบบสอบถามซึ่งบันทึกชุดของแบบสอบถามรวม ประเด็นก็คือความถี่ของแต่ละหมายเลขที่เกี่ยวข้องในแบบสอบถามอาจจะค่อนข้างเบาบางคือบางคนไม่ค่อยมีการสอบถามในขณะที่บางคนถามบ่อยมาก คุณสามารถสันนิษฐานได้ว่าการแจกแจงความน่าจะเป็นการแจกแจงแบบปกติการแจกแจง zipf หรือทางเลือกอื่นที่สมเหตุสมผล

การกระจายค่าเป็นเพียงส่วนย่อยที่ต่อเนื่องกันของการแจกแจงที่เป็นไปได้ใด ๆ กล่าวอีกนัยหนึ่งถ้าคุณมีฮิสโตแกรมที่แสดงถึงการกระจายที่แน่นอนตัวเลขทั้งหมดที่เกี่ยวข้องในปัญหานี้คือตัวเลขทั้งหมดในที่เก็บข้อมูลชุดเดียว

ในแง่ของค่า K คุณอาจคิดว่ามันน้อยกว่าจำนวนขององค์ประกอบที่ถูกถามบ่อย

probability

— SciPioneer
แหล่งที่มา

ความคาดหวังของความแปรปรวนของผลรวมจะแตกต่างกันโดยไม่มีการแทนที่ คุณจะต้องมีปัจจัยการแก้ไขจำนวน จำกัด หากไม่มีการแทนที่ (หากต้องการดูอย่างสังหรณ์ใจให้สังเกตว่าถ้า K = n ความแปรปรวนของผลรวมเป็นศูนย์เพราะมันจะเป็นจำนวนเดียวกันเสมอดังนั้นเมื่อ K เข้าใกล้ n ความแปรปรวนของผลรวมจะลดลง)

— zbicyclist

คำถามนี้อาจจะยากกว่าที่คิด พิจารณากรณี

n = 2

$n=2$ และ

(v_{1}, v_{2}) = (0, 1)

$(v_1,v_2)=(0,1)$ . ผลรวมที่คาดหวังของค่าสองค่าที่ดึงมาพร้อมกับการเปลี่ยนคือ

2 p_{2}

$2p_2$ ซึ่งเป็นสองเท่าของผลรวมที่คาดหวังของหนึ่งค่าของหลักสูตร แต่ผลรวมที่คาดหวังของค่าสองค่าที่ดึงออกมาโดยไม่มีการแทนที่ก็คือ

v_{1} + v_{2} = 1 \neq 2 p_{2}

$v_1+v_2=1\ne 2p_2$ ยกเว้นเมื่อ

p_{1} = p_{2} = 1 / 2

$p_1=p_2=1/2$ .

— whuber

@zbicyclist บางทีฉันไม่ได้ระบุปัญหาอย่างชัดเจน ในสถานการณ์สมมติของฉันถ้า K = N ดังนั้นความแปรปรวนของตัวเลข K เหล่านั้นจะเป็นความแปรปรวนของประชากรทั่วไปมากกว่า 0

— SciPioneer

(1) คำถามนี้ไม่เหมือนกับคำถามสำหรับการเรียนรู้ด้วยตนเองสำหรับฉัน: ดูเหมือนว่าปัญหาที่นำไปใช้จริงในความน่าจะเป็น (2) ขนาดใหญ่แค่ไหน

n

$n$ จะเป็นอย่างไร วิธีการแก้ปัญหาที่แน่นอนดูไม่สามารถทำได้ยกเว้นเมื่อชุดย่อยทั้งหมดสามารถระบุได้ (3) ถ้า

n

$n$ อาจจะยิ่งใหญ่กว่า

20

$20$ หรืออย่างน้อยก็กำจัดการแจงนับอย่างรวดเร็วสิ่งที่คุณสามารถพูดเกี่ยวกับ

p_{i}

$p_i$ ? ตัวอย่างเช่นพวกเขาสามารถเปลี่ยนแปลงได้หรือพวกเขาทั้งหมดจะค่อนข้างใกล้เคียง

1 / n

$1/n$ ? สิ่งนี้สามารถแจ้งความพยายามในการค้นหาคำตอบโดยประมาณ

— whuber

ขอบคุณสำหรับการแก้ไข ยิ่งคุณสามารถบอกเราเกี่ยวกับ

N

$N$ ,

K

$K$ ,

v_{i}

$v_i$ , และ

p_{i}

$p_i$ ดีกว่า ตัวอย่างเช่นถ้า

K max (p_{i}) ≪ 1

$K\max(p_i)\ll 1$ จากนั้นสูตรสำหรับการสุ่มตัวอย่างที่มีการแทนที่ควรจะเป็นการประมาณที่ดี (เนื่องจากมีค่าน้อยมากหากเลือกจะถูกเลือกมากกว่าหนึ่งครั้ง) ฉันเชื่อว่ากรณีที่ยากที่สุดคือที่ที่มีคุณค่ามากมาย

p_{i}

$p_i$ - เพื่อที่คุณจะไม่สามารถแทนที่ส่วนใหญ่เป็นศูนย์ได้

p_{i} > 1 / K

$p_i\gt 1/K$ สำหรับจำนวนที่ประเมินค่าได้ของ

i

$i$ --และ

K \approx N / 2

$K\approx N/2$ .

— whuber

นี่อาจเป็นไปตามลักษณะของคำตอบที่ถูกต้อง แต่อาจไม่เป็นประโยชน์ Horvitz และ Thompson (1952) ให้ผลลัพธ์ที่ครอบคลุมสถานการณ์นี้โดยทั่วไป ผลลัพธ์เหล่านี้ได้รับในรูปของนิพจน์ combinatorial ที่อาจคาดหวัง

เพื่อให้สอดคล้องกับสัญกรณ์ของพวกเขาและเพื่อให้สอดคล้องกับสัญกรณ์ที่ใช้กันอย่างแพร่หลายมากขึ้นขอผมนิยามปริมาณใหม่ ปล่อย $N$ เป็นจำนวนองค์ประกอบในประชากรและ $n$ เป็นขนาดตัวอย่าง

ปล่อย $u_i$ , $i=1,...,N$ เป็นตัวแทนของ $N$ องค์ประกอบของประชากรที่มีค่าที่กำหนด $V_i$ , $i=1,...,N$ และความน่าจะเป็นของการคัดเลือก $p_1,...,p_N$ . สำหรับตัวอย่างขนาดที่กำหนด $n$ ให้ค่าที่สังเกตในตัวอย่างเป็น $v_1,..., v_n$ .

สิ่งที่ต้องการคือค่าเฉลี่ยและความแปรปรวนของผลรวมตัวอย่าง

Σ_{ผม = 1}^{n} {โวลต์}_{ผม} .

$\sum_{i=1}^n v_i.$

ตามที่ระบุไว้ในความคิดเห็นความน่าจะเป็นในการเลือกตัวอย่างเฉพาะ $s = \{u_i, u_j, ..., u_t\}$ วาดตามลำดับนั้นคือ

Pr (s) = p_{i_{1}} p_{j_{2}} \dots p_{t_{n}},

$\textrm{Pr}(s) = p_{i_1}p_{j_2}\cdots p_{t_n},$ ที่น่าจะเป็นเริ่มต้น

p_{i_{1}}

$p_{i_1}$ ของการวาดภาพ

u_{i}

$u_i$ ได้รับจาก

p_{i}

$p_i$ ความน่าจะเป็นที่สอง

p_{j_{2}}

$p_{j_2}$ ของการวาดภาพ

u_{j}

$u_j$ เป็นเงื่อนไขในการลบ

u_{i}

$u_i$ จากประชากรและอื่น ๆ ดังนั้นแต่ละหน่วยที่ตามมาจะส่งผลให้มีการแจกแจงความน่าจะเป็นแบบใหม่สำหรับหน่วยถัดไป

มี

S^{(ผม)} = n! (\binom{ยังไม่มีข้อความ - 1}{n - 1})

$S^{(i)} = n! \binom{N-1}{n-1}$ ตัวอย่างขนาด

n

$n$ ที่มี

u_{i}

$u_i$ จากประชากรทั้งหมด โปรดทราบว่าสิ่งนี้คำนึงถึง

n!

$n!$ การเรียงสับเปลี่ยนของตัวอย่าง

ปล่อย $s_n^{(i)}$ แสดงถึงตัวอย่างขนาดเฉพาะ $n$ ซึ่งรวมถึง $u_i$ . จากนั้นความน่าจะเป็นในการเลือกองค์ประกอบ $u_i$ ได้รับจาก

P ({ยู}_{ผม}) = Σ ราคา (s_{n}^{(ผม)}),

$P(u_i) = \sum \textrm{Pr}(s_n^{(i)}),$ โดยที่การรวมอยู่เหนือขนาดที่กำหนด

S^{(i)}

$S^{(i)}$ จากตัวอย่างที่เป็นไปได้ทั้งหมด

s_{n}^{(i)}

$s_n^{(i)}$ ขนาด

n

$n$ ที่มี

u_{i}

$u_i$ . (ฉันเปลี่ยนสัญกรณ์เล็กน้อยจากกระดาษเนื่องจากมันทำให้ฉันสับสน)

ในทำนองเดียวกันกำหนด

S^{(ผม J)} = n! (\binom{ยังไม่มีข้อความ - 2}{n - 2})

$S^{(ij)} = n! \binom{N-2}{n-2}$ เป็นจำนวนตัวอย่างที่มีทั้งคู่

u_{i}

$u_i$ และ

u_{j}

$u_j$ . จากนั้นเราสามารถกำหนดความน่าจะเป็นของตัวอย่างที่มีทั้งสองเป็น

P ({ยู}_{ผม} {ยู}_{J}) = Σ ราคา (s_{n}^{(ผม J)}),

$\textrm{P}(u_i u_j) = \sum \textrm{Pr}(s_n^{(ij)}),$ โดยที่การรวมอยู่เหนือขนาดที่กำหนด

S^{(i j)}

$S^{(ij)}$ จากตัวอย่างที่เป็นไปได้ทั้งหมด

s_{n}^{(i j)}

$s_n^{(ij)}$ ขนาด

n

$n$ ที่มี

u_{i}

$u_i$ และ

u_{j}

$u_j$ .

ค่าที่คาดหวังนั้นจะได้รับเป็น

E (\sum_{i = 1}^{n} v_{i}) = \sum_{i = 1}^{N} P (u_{i}) V_{i} .

$E \left( \sum_{i=1}^n v_i \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i.$

แม้ว่าความแปรปรวนจะไม่ได้รับอย่างชัดเจนในกระดาษ แต่ก็สามารถได้รับจากความคาดหวังของ $q$ ช่วงเวลาที่

E (\sum_{i = 1}^{n} v_{i}^{q}) = \sum_{i = 1}^{N} P (u_{i}) V_{i}^{q}

$E \left( \sum_{i=1}^n v_i^q \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i^q$ และผลิตภัณฑ์ข้าม

E (\sum_{i \neq j}^{n} v_{i} v_{j}) = \sum_{i \neq j} P (u_{i} u_{j}) V_{i} V_{j} .

$E \left( \sum_{i \ne j}^n v_iv_j \right) = \sum_{i \ne j} \textrm{P}(u_i u_j) V_i V_j.$

ในคำอื่น ๆ ดูเหมือนว่าหนึ่งจะต้องผ่านส่วนย่อยที่เป็นไปได้ทั้งหมดเพื่อทำการคำนวณเหล่านี้ บางทีนี่อาจทำได้สำหรับค่าที่น้อยกว่า $n$ แม้ว่า

Horvitz, DG และ Thompson, DJ (1952) ภาพรวมการสุ่มตัวอย่างโดยไม่มีการแทนที่จากเอกภพอัน จำกัด วารสารสมาคมสถิติอเมริกัน 47 (260): 663-685

— jvbraun
แหล่งที่มา