การกระจายตัวตัวอย่างของกลุ่มตัวอย่างมีความหมายอย่างไรกับค่าเฉลี่ยประชากร


16

ฉันพยายามเรียนรู้สถิติเพราะฉันพบว่ามันแพร่หลายมากจนห้ามไม่ให้ฉันเรียนรู้บางสิ่งหากฉันไม่เข้าใจอย่างถูกต้อง ฉันมีปัญหาในการทำความเข้าใจแนวคิดเรื่องการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ฉันไม่เข้าใจวิธีที่หนังสือและเว็บไซต์อธิบาย ฉันคิดว่าฉันมีความเข้าใจ แต่ไม่แน่ใจว่าถูกต้องหรือไม่ ด้านล่างนี้เป็นความพยายามของฉันที่จะเข้าใจ

เมื่อเราพูดถึงปรากฏการณ์บางอย่างที่เกิดจากการแจกแจงแบบปกติมันเป็นเรื่องปกติ (ไม่เสมอไป) เกี่ยวกับประชากร

เราต้องการใช้สถิติเชิงอนุมานเพื่อทำนายบางสิ่งเกี่ยวกับประชากรบางคน แต่ไม่มีข้อมูลทั้งหมด เราใช้การสุ่มตัวอย่างและแต่ละตัวอย่างของขนาด n เท่ากันน่าจะเลือก

เราเอาตัวอย่างจำนวนมากมาบอกว่า 100 แล้วการกระจายตัวของตัวอย่างเหล่านั้นจะเป็นปกติประมาณตามทฤษฎีลิมิตที่ศูนย์กลาง ค่าเฉลี่ยของค่าเฉลี่ยตัวอย่างจะประมาณค่าเฉลี่ยของประชากร

ตอนนี้สิ่งที่ฉันไม่เข้าใจคือหลายครั้งที่คุณเห็น "ตัวอย่าง 100 คน ... " เราจะไม่ต้องการตัวอย่าง 10s หรือ 100s จาก 100 คนเพื่อประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเป็นกรณีที่เราสามารถนำตัวอย่างเดียวที่มีขนาดใหญ่พอบอก 1,000 แล้วบอกว่าค่าเฉลี่ยจะประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเราใช้ตัวอย่าง 1,000 คนจากนั้นสุ่ม 100 ตัวอย่าง 100 คนในแต่ละตัวอย่างจากเดิม 1,000 คนที่เราเอามาแล้วใช้เป็นการประมาณของเรา

การใช้ตัวอย่างที่มีขนาดใหญ่พอที่จะประมาณค่าเฉลี่ย (เกือบ) ใช้ได้หรือไม่ ประชากรจำเป็นต้องเป็นปกติหรือเปล่าสำหรับการทำงานนี้?

คำตอบ:


9

ฉันคิดว่าคุณอาจสับสนการกระจายตัวตัวอย่างที่คาดหวังของค่าเฉลี่ย (ซึ่งเราจะคำนวณตามตัวอย่างเดียว) กับกระบวนการ (โดยปกติคือสมมุติ) ของการจำลองสิ่งที่จะเกิดขึ้นหากเราทำตัวอย่างจากประชากรเดียวกันซ้ำหลายครั้ง

สำหรับขนาดตัวอย่างใดก็ตาม (แม้แต่ n = 2) เราจะบอกว่าค่าเฉลี่ยตัวอย่าง (จากคนสองคน) ประมาณค่าเฉลี่ยประชากร แต่ความแม่นยำในการประมาณค่า - นั่นคืองานที่เราทำได้ดีในการประมาณค่าเฉลี่ยประชากรจากข้อมูลตัวอย่างของเราดังที่สะท้อนให้เห็นในข้อผิดพลาดมาตรฐานของค่าเฉลี่ย - จะแย่กว่าถ้าเรามี 20 หรือ 200 คนในตัวอย่างของเรา สิ่งนี้ค่อนข้างใช้งานง่าย (ตัวอย่างที่ใหญ่กว่าให้ความแม่นยำในการประมาณค่าที่ดีกว่า)

จากนั้นเราจะใช้ข้อผิดพลาดมาตรฐานในการคำนวณช่วงความมั่นใจซึ่ง (ในกรณีนี้) เป็นไปตามการแจกแจงแบบปกติ (เราอาจใช้การแจกแจงแบบทีในตัวอย่างเล็ก ๆ เนื่องจากค่าเบี่ยงเบนมาตรฐานของประชากรมักจะต่ำกว่าใน ตัวอย่างขนาดเล็กนำไปสู่ข้อผิดพลาดมาตรฐานในแง่ดีเกินไป)

ในการตอบคำถามสุดท้ายของคุณเราไม่จำเป็นต้องมีประชากรที่กระจายตัวตามปกติเพื่อใช้วิธีการประมาณค่าเหล่านี้ - ทฤษฎีบทขีด จำกัด กลางระบุว่าการกระจายตัวตัวอย่างของค่าเฉลี่ย (ประมาณอีกครั้งจากตัวอย่างเดียว) มักจะ ติดตามการแจกแจงแบบปกติแม้ว่าประชากรพื้นฐานจะมีการแจกแจงแบบไม่ปกติ โดยปกติจะเหมาะสมกับขนาดตัวอย่างที่ใหญ่กว่า

ต้องบอกว่าเมื่อคุณมีประชากรที่ไม่ได้เป็นคนธรรมดาที่คุณสุ่มตัวอย่างมาค่าเฉลี่ยอาจไม่ใช่สถิติสรุปที่เหมาะสมแม้ว่าการกระจายตัวตัวอย่างสำหรับค่าเฉลี่ยนั้นอาจมีความน่าเชื่อถือ


ดังนั้นโดยพื้นฐานแล้วฉันก็แค่วางสายเกินไปที่จะเข้าใจความสำคัญทางทฤษฎีที่ว่าสิ่งเหล่านี้ทำงานอย่างไร สิ่งที่น่าสนใจจริง ๆ ที่นี่เป็นช่วงความมั่นใจหรือไม่? กล่าวอีกนัยหนึ่งถ้าฉันต้องการเผยแพร่การศึกษาสมมติว่าจำนวนชั่วโมงที่ผู้ใหญ่โดยเฉลี่ยในสหรัฐอเมริกานอนหลับและฉันได้ตัวอย่าง 5,000 และช่วงความมั่นใจของฉันคือ 99.9% โดยเฉลี่ยอยู่ระหว่าง 6.46 ถึง 6.54 จากนั้นฉันสามารถไปได้ ข้างหน้าและเผยแพร่การศึกษาของฉันที่พูดว่า "มั่นใจ" ว่าค่าเฉลี่ยของผู้ใหญ่ในสหรัฐอเมริกานอนหลับ 6.5 ชั่วโมง?
mergesort

2
ที่คุณพูดว่า: " พูดว่า" มั่นใจ "ว่าค่าเฉลี่ยของผู้ใหญ่ในสหรัฐอเมริกานอนหลับ 6.5 ชั่วโมง " อืมคุณมั่นใจได้เลยว่าโดยเฉลี่ยแล้วไม่ใช่ 6.5 ชั่วโมง คุณสามารถมั่นใจได้ว่ามันใกล้ถึง 6.5 ชั่วโมงหรือคุณสามารถมั่นใจได้ว่า '6.5 ชั่วโมงถึง 5 นาทีที่ใกล้ที่สุด' หรือบางอย่าง เฉพาะช่วงเท่านั้นที่จะมีระดับความเชื่อมั่นที่เกี่ยวข้อง
Glen_b -Reinstate Monica

1
@Glen_b มาถึงหัวใจของเรื่อง - เราไม่สามารถพูดได้ว่าเรามั่นใจว่าเราได้ประเมินมูลค่าประชากรอย่างถูกต้อง แต่เรามีแนวคิดเกี่ยวกับความถูกต้องของกระบวนการประมาณของเรา
James Stanley เมื่อ

@angrymonkey ฉันคิดว่ามันยังมีประโยชน์ที่จะได้รับแนวคิดพื้นฐาน (จำลอง) วิธีการสุ่มตัวอย่างซ้ำ ๆ นอกจากนี้สำหรับการประมาณค่าหมายความว่าเราไม่ต้องการขนาดตัวอย่าง "ใหญ่" - สูตรสำหรับข้อผิดพลาดมาตรฐานของค่าเฉลี่ยคือsample std deviation / square root(n)- สแควร์รูทของส่วนที่ n บอกเราว่าเราได้รับผลตอบแทนลดลงจากความแม่นยำในการประมาณค่า ใหญ่ขึ้น (เช่นการย้ายจาก 10 ถึง 20 คนในตัวอย่างช่วยเพิ่มความแม่นยำในการประมาณมากกว่า 210-220 คน)
James Stanley

ดีมาก ... ขอบคุณมากสำหรับความช่วยเหลือ ดังนั้น CI เพียงแค่ช่วยให้เราบอกว่าฉัน 95% แน่ใจว่าคนทั่วไปนอนหลับระหว่าง 6.45 และ 6.56 ชั่วโมงต่อคืน? แล้วทำไมบางบทความจึงอ้างสิทธิ์ที่ชัดเจนเหล่านี้เหมือนคนทั่วไปดูทีวี 4.5 ชั่วโมงต่อวัน? แน่นอนว่าช่วงความมั่นใจนั้นเป็นอะไรอย่างเช่น 95% 4.43 และ 4.56
ผสานกัน

10
  • หากการแจกแจงดั้งเดิมเป็นเรื่องปกติค่าเฉลี่ยตัวอย่างก็จะเป็นปกติด้วยความแปรปรวนโดยที่คือขนาดตัวอย่าง เมื่อมีขนาดใหญ่ขึ้นความแปรปรวนของการกระจายของค่าเฉลี่ยจะเล็กลงดังนั้นในการ จำกัด ตัวอย่างเฉลี่ยจึงมีแนวโน้มที่จะมีค่าของค่าเฉลี่ยประชากรσ2/nnn
  • หากคุณใช้ตัวอย่างอิสระหลายตัวอย่างค่าเฉลี่ยของแต่ละตัวอย่างจะเป็นปกติและค่าเฉลี่ยของค่าเฉลี่ยจะเป็นปกติและมีแนวโน้มที่จะเป็นค่าจริง
  • หากตัวอย่างของคุณมาจากการกระจายตัวที่แท้จริง (เช่น 100 ตัวอย่างจาก 10 ตัว) คุณจะทำการอนุมานแบบเดียวกับที่คุณได้ตัวอย่างใหญ่ 1,000 ตัวอย่าง (แต่ในโลกแห่งความจริงตัวอย่างที่แตกต่างกันอาจแตกต่างกัน ไม่สามารถเพิกเฉยได้โปรดดูที่ "การออกแบบบล็อกแบบสุ่ม")
  • หากข้อมูลไม่ปกติ แต่จากการแจกแจงที่มีความแปรปรวน จำกัด แล้วทฤษฎีบทขีด จำกัด กลางก็หมายความว่าข้อความทั้งหมดที่กล่าวมาข้างต้นเป็นจริงโดยประมาณในแง่ที่ว่าการกระจายแบบ จำกัด นั้นเป็นเรื่องปกติ ยิ่งยิ่งใกล้มากขึ้นคุณจะเป็นn
  • หากคุณใช้ตัวอย่าง 100 ตัวอย่างจาก 10 ตัวอย่างค่าเฉลี่ยตัวอย่างจะมีการแจกแจงที่ดูปกติมากกว่าข้อมูลดั้งเดิม แต่น้อยกว่าการกระจายตัวของค่าเฉลี่ยโดยรวม
  • การเก็บตัวอย่างขนาดใหญ่จะช่วยให้คุณใกล้เคียงกับความปกติ
  • ถ้าคุณต้องการประมาณค่าเฉลี่ยของประชากรมันจะไม่แตกต่างกัน (ในทางทฤษฎี) ถ้าคุณใช้ตัวอย่างขนาดใหญ่ 1,000 หรือ 100 ตัวอย่างจาก 10
  • แต่ในทางปฏิบัติคนทฤษฎีการสุ่มตัวอย่างอาจแยกตัวอย่างเพื่อเหตุผลในการรวมกลุ่มการแบ่งชั้นและประเด็นอื่น ๆ จากนั้นพวกเขานำรูปแบบการสุ่มตัวอย่างมาพิจารณาเมื่อทำการประเมิน แต่นั่นเป็นเรื่องสำคัญสำหรับคำถามอื่น

ในหนังสือเรียนส่วนใหญ่พวกเขาจะนำคุณผ่านแนวคิดเกี่ยวกับการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ในสาระสำคัญนี้จะบอกคุณ "เฮ้ดูถ้าคุณใช้ตัวอย่างจำนวนมากมันมีแนวโน้มที่จะเป็นปกติและจะประมาณค่าเฉลี่ยของประชากร" จากนั้นพวกเขาก็บอกคุณว่าถ้าคุณเอาตัวอย่างที่มีขนาดใหญ่พอคุณสามารถจัดเรียงได้เพียงอันเดียว การกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่างควรทำให้คุณเชื่อว่าคุณสามารถนำตัวอย่างขนาดใหญ่มาหนึ่งชุดได้หรือไม่? กล่าวอีกนัยหนึ่งจุดประสงค์ของการทำความเข้าใจคืออะไร มันเป็นเพียงเพื่อช่วยให้คุณเข้าใจสัญชาตญาณที่อยู่เบื้องหลังการตัวอย่างขนาดใหญ่? ไม่สนใจแนวคิดของการสุ่มตัวอย่าง theo
ผสานกัน

ฉันคิดว่า @ "James Stanley" ตอบได้ดีมาก ในกรณีที่เกิดขึ้นจริงใด ๆ คุณนำตัวอย่างคำนวณค่าเฉลี่ยตัวอย่างและนั่นคือค่าประมาณของคุณ
Placidia

1

การกระจายตัวตัวอย่างของค่าเฉลี่ยคือการกระจายตัวของตัวอย่างทั้งหมดของขนาดที่กำหนด ค่าเฉลี่ยของการสุ่มตัวอย่าง dist เท่ากับค่าเฉลี่ยของประชากร เมื่อเราพูดถึงการสุ่มตัวอย่างค่าเฉลี่ยสำหรับตัวอย่างของขนาดที่กำหนดเราไม่ได้พูดถึงตัวอย่างหนึ่งตัวอย่างหรือแม้แต่ตัวอย่างหนึ่งพัน แต่ตัวอย่างทั้งหมด


0

การสุ่มตัวอย่างค่าเฉลี่ยนั้นไม่มีส่วนเกี่ยวข้องกับช่วงความมั่นใจ นั่นคือแนวคิดอื่น สำหรับการสุ่มตัวอย่าง dist ประชากรสามารถเป็นปกติหรือไม่ปกติ a) ถ้าป๊อปเป็นเรื่องธรรมดาค่า dist samp ของค่าเฉลี่ยจะเป็นปกติสำหรับทุกขนาดตัวอย่าง b) ถ้าป๊อปไม่ปกติดังนั้น 1) ระยะการสุ่มตัวอย่างของค่าเฉลี่ยไม่สามารถถือเป็นปกติยกเว้นว่าขนาดตัวอย่างเป็น 30 หรือมากกว่า จากนั้นทฤษฎีการ จำกัด ขั้นกลางจะบอกเราว่าการสุ่มตัวอย่าง dist ถือเป็นเรื่องปกติ

คุณพูดถึงการทำนาย การทำนายไม่เกี่ยวข้องกับสิ่งนี้ คุณกำลังแทรกมากเกินไปใน samp dist samp dist เป็นเพียงตัวอย่างทั้งหมดจากนั้นจึงนำค่าเฉลี่ย และค่าเฉลี่ยของตัวอย่างทั้งหมดเหล่านี้ mu sub x bar, เท่ากับค่าเฉลี่ยของประชากร mu และส่วนเบี่ยงเบนมาตรฐานการสุ่มตัวอย่าง sigma sub x bar = sigma หารด้วยสแควร์รูทของ n (เราจะไม่พูดถึงปัจจัยการแก้ไขป๊อป จำกัด ใช้ค่าของคุณสำหรับใบหน้ามูลค่าอย่าอ่านมากเกินไปในแนวคิด Fist เข้าใจแนวคิดพื้นฐาน

ป.ล. ระยะห่างของค่าเฉลี่ยไม่มีสิ่งใดที่ทำ


ฉันสงสัยว่าคำตอบนี้สามารถรวมกับคำตอบแรกของคุณแทนที่จะป้อนเป็นคำตอบอื่น เรามักจะต้องการให้คุณมี 1 คำตอบต่อกระทู้ (มีข้อยกเว้นอยู่) คุณสามารถเพิ่มเนื้อหาลงในคำตอบที่มีอยู่หรือทำการเปลี่ยนแปลงโดยคลิกที่ "แก้ไข" สีเทาที่ด้านล่างซ้าย
gung - Reinstate Monica

0

ฉันคิดเกี่ยวกับปัญหาข้อมูลขนาดใหญ่และดูโพสต์บางส่วนของเช้านี้ ฉันไม่คิดว่านี่เป็นปัญหาที่ไม่สำคัญเลยความแตกต่างระหว่างการวิเคราะห์ข้อมูล 1,000 ชุดเป็นหนึ่งชุดเมื่อเทียบกับการวิเคราะห์ 10 ชุด 100 ในทางทฤษฎีถ้าสมมุติฐานว่างเป็นจริงว่าข้อมูลนั้นเป็น iid ก็ไม่ได้ทำ ข้อแตกต่าง อย่างไรก็ตามการจัดกลุ่มและรูปแบบในข้อมูลจะไม่ได้รับการจัดการเลยหากมีเพียงค่าเฉลี่ยของข้อมูล 1000 และเสนอราคาข้อผิดพลาดค่าเฉลี่ยและมาตรฐานที่เกี่ยวข้อง

ข้อสรุปที่ฉันได้มามองที่หน้าบางอย่างเกี่ยวกับ stackexchange และวิกิพีเดียเป็นว่าข้อมูลขนาดใหญ่จะช่วยให้เห็นได้ชัดที่จะเห็น หากมีคุณสมบัติที่น่าสนใจในประชากรโดยรวมชุดข้อมูลขนาดใหญ่จะแสดงให้เห็นชัดเจนในแต่ละวัน ดังนั้นถ้าฉันมีชุดข้อมูลที่มีขนาดใหญ่มากฉันสามารถมองเห็นได้ฉันจะไม่กระโดดและใช้มาตรการสรุปสั้น ๆ โดยไม่ได้มองหาคุณสมบัติที่ชัดเจนเป็นครั้งแรก จากบทเรียนแรกสุดของฉันโดยอนุมานเชิงสถิติฉันได้รับการสอนให้ดูกราฟและการมองเห็นข้อมูลเป็นครั้งแรก ฉันไม่สามารถเน้นที่เพียงพอ หากชุดข้อมูลมีขนาดใหญ่เกินกว่าที่มนุษย์จะมองเห็นบนหน้าจอได้ควรมีการสุ่มตัวอย่างย่อยจากที่ความละเอียดที่มนุษย์อ่านได้


โปรดอย่าเซ็นชื่อโพสต์ของคุณนั่นคือชื่อผู้ใช้ที่ด้านล่างขวาของโพสต์
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.