เราจะทราบความแปรปรวนของประชากรได้อย่างไร?


10

ในการทดสอบสมมติฐานคำถามทั่วไปคือความแปรปรวนของประชากรคืออะไร? คำถามของฉันคือเราจะทราบความแปรปรวนของประชากรได้อย่างไร ถ้าเรารู้การกระจายตัวทั้งหมดเราก็อาจรู้ค่าเฉลี่ยของประชากรทั้งหมด จากนั้นการทดสอบสมมติฐานคืออะไร?


วรรณกรรมที่เกี่ยวข้องบางฉบับ
dv_bn

เราสามารถรู้ความแปรปรวนได้โดยไม่ต้องรู้อะไรเกี่ยวกับค่าเฉลี่ย ตัวอย่างเช่นความแปรปรวนสามารถกู้คืนจากกำลังสองของความแตกต่างทั้งหมดของค่าในประชากร แต่ความแตกต่างเหล่านั้นไม่ให้ข้อมูลเกี่ยวกับค่าเฉลี่ย โดยไม่คำนึงถึงฉันไม่เห็นว่าคำพูดและคำถามในบทความนี้นำไปสู่คำถามที่ตัวเองเกี่ยวกับจุดของการทดสอบสมมติฐาน
whuber

คำตอบ:


10

ฉันไม่แน่ใจว่าปัญหานี้เกิดขึ้นจริง ๆ "มักจะ" นอกสถิติ 101 (สถิติเบื้องต้น) ฉันไม่แน่ใจว่าฉันเคยเห็นมัน ในทางกลับกันเราจะนำเสนอเนื้อหาด้วยวิธีนี้เมื่อสอนหลักสูตรเบื้องต้นเพราะมันมีความก้าวหน้าเชิงตรรกะ: คุณเริ่มต้นด้วยสถานการณ์ง่ายๆที่มีเพียงกลุ่มเดียวเท่านั้นและคุณรู้ถึงความแปรปรวน ทราบความแปรปรวนจากนั้นไปยังที่ที่มีสองกลุ่ม (แต่มีความแปรปรวนเท่ากัน) ฯลฯ

ในการพูดถึงจุดที่แตกต่างกันเล็กน้อยคุณถามว่าทำไมเราถึงต้องทดสอบสมมติฐานหากเรารู้ถึงความแปรปรวนเนื่องจากเราต้องรู้ค่าเฉลี่ยด้วย ส่วนหลังมีเหตุผล แต่ส่วนแรกเป็นความเข้าใจผิด: ค่าเฉลี่ยที่เราจะรู้ว่าเป็นค่าเฉลี่ยภายใต้สมมติฐานว่าง นั่นคือสิ่งที่เรากำลังทดสอบ พิจารณาตัวอย่างของคะแนนไอคิวของ @ StephanKolassa เรารู้ว่าค่าเฉลี่ยคือ 100 และส่วนเบี่ยงเบนมาตรฐานคือ 15; สิ่งที่เรากำลังทดสอบคือถ้ากลุ่มของเรา (พูด, ผมสีแดงเพลิงซ้าย, หรือบางทีนักเรียนสถิติเบื้องต้น) แตกต่างจากที่


2
(+1) อาจเกิดขึ้นได้มากกว่าเมื่อ "การสุ่มตัวอย่างจากประชากร" เป็นวิธีคิดเกี่ยวกับกระบวนการสร้างข้อมูลแทนที่จะใช้สิ่งที่แท้จริง ทราบความแม่นยำของเครื่องมือวัดเช่น
Scortchi - Reinstate Monica

Gung ในฐานะแพทย์อายุ 20 ปีขึ้นไปปัญหานี้เกิดขึ้นจากประสบการณ์ของฉันบ่อยกว่าที่คุณบอกเป็นนัย ฉันไม่ได้แนะนำว่ามันเกิดขึ้นบ่อยครั้งเพียงแค่การโต้วาทีเกิดขึ้น อย่างไรก็ตามถึงประเด็นของคุณเกี่ยวกับสถิติ 101 การอภิปรายมากกว่านั้นคือฝูงปลาสีแดงที่ได้รับการแก้ไขเพียงเล็กน้อยหรือไม่มีอะไรเกี่ยวกับรายละเอียดของการศึกษาหรือโครงการ - บางคนแค่ต้องการสร้างภาพลักษณ์ของความฉลาด
Mike Hunter

1
@Dohnson ฉันคิดว่ามันขึ้นอยู่กับหัวข้อที่คุณทำงาน
gung - Reinstate Monica

4

บ่อยครั้งที่เราไม่ทราบความแปรปรวนของประชากรเช่นนี้ - แต่เรามีค่าประมาณที่น่าเชื่อถือมากจากกลุ่มตัวอย่างที่แตกต่างกัน ตัวอย่างเช่นนี่คือตัวอย่างของการประเมินว่าน้ำหนักเฉลี่ยของนกเพนกวินได้ลดลงหรือไม่ซึ่งเราใช้ค่าเฉลี่ยจากกลุ่มตัวอย่างเล็ก ๆ หรือไม่ แต่ความแปรปรวนจากกลุ่มตัวอย่างอิสระขนาดใหญ่ แน่นอนว่าสิ่งนี้อนุมานได้ว่าความแปรปรวนเหมือนกันในทั้งสองประชากร

ตัวอย่างที่แตกต่างอาจเป็นเครื่องชั่งไอคิวแบบดั้งเดิม เหล่านี้จะปกติจะมีค่าเฉลี่ยอยู่ที่ 100 และค่าเบี่ยงเบนมาตรฐานของ 15 ใช้จริงๆตัวอย่างขนาดใหญ่ จากนั้นเราอาจใช้ตัวอย่างที่เฉพาะเจาะจง (เช่น 50 redheads มือซ้าย) และถามว่า IQ เฉลี่ยของพวกเขานั้นสูงกว่า 100 หรือไม่โดยใช้ 15 ^ 2 เป็นความแปรปรวน "รู้จัก" แน่นอนอีกครั้งนี้ begs คำถามว่าความแปรปรวนเป็นจริงเท่ากับระหว่างสองตัวอย่าง - หลังจากทั้งหมดเรามีอยู่แล้วทดสอบว่าวิธีการที่แตกต่างกันดังนั้นจึงควรแปรปรวนเท่ากับ?

บรรทัดล่าง: ข้อกังวลของคุณนั้นถูกต้องและโดยปกติแล้วการทดสอบด้วยช่วงเวลาที่เป็นที่รู้จักนั้นมีวัตถุประสงค์เพื่อการสอนเท่านั้น ในหลักสูตรสถิติพวกเขามักจะตามด้วยการทดสอบทันทีโดยใช้เวลาประมาณ


2

วิธีเดียวที่จะทราบความแปรปรวนประชากรคือการวัดประชากรทั้งหมด

อย่างไรก็ตามการวัดประชากรทั้งหมดมักไม่เป็นไปได้ มันต้องการทรัพยากรรวมถึงเงินเครื่องมือบุคลากรและการเข้าถึง ด้วยเหตุนี้เราจึงสุ่มตัวอย่างประชากร นั่นคือการวัดส่วนย่อยของประชากร กระบวนการสุ่มตัวอย่างควรได้รับการออกแบบอย่างระมัดระวังและมีวัตถุประสงค์ในการสร้างกลุ่มตัวอย่างซึ่งเป็นตัวแทนของประชากร การพิจารณาที่สำคัญสองประการคือขนาดตัวอย่างและเทคนิคการสุ่มตัวอย่าง

ตัวอย่างของเล่น:คุณต้องการประเมินความแปรปรวนของน้ำหนักสำหรับประชากรผู้ใหญ่ของสวีเดน มีชาวสวีเดนประมาณ 9.5 ล้านคนดังนั้นจึงไม่มีโอกาสที่คุณจะออกไปข้างนอกและวัดพวกเขาทั้งหมด ดังนั้นคุณต้องวัดประชากรตัวอย่างซึ่งคุณสามารถประเมินความแปรปรวนภายในประชากรจริง

คุณออกไปสำรวจประชากรชาวสวีเดน เมื่อต้องการทำเช่นนี้คุณจะไปและยืนในใจกลางเมืองสตอกโฮล์มและเกิดขึ้นเพื่อที่จะยืนอยู่ด้านนอกเบอร์เกอร์ Kungenเชนเบอร์เกอร์ชื่อดังของประเทศสวีเดน ที่จริงแล้วฝนตกและหนาว (ต้องเป็นฤดูร้อน) ดังนั้นคุณจึงยืนอยู่ในร้านอาหาร ที่นี่คุณมีน้ำหนักสี่คน

โอกาสเป็นไปได้ตัวอย่างของคุณจะไม่สะท้อนประชากรสวีเดนดีมาก สิ่งที่คุณมีคือตัวอย่างของคนในสตอกโฮล์มที่อยู่ในร้านอาหารเบอร์เกอร์ นี่เป็นคนจนดังนั้นคุณจึงมีความเสี่ยงสูงที่จะเลือกคนสี่คนที่อยู่ในช่วงสุดขีดของประชากร เบาหรือหนักมาก หากคุณสุ่มตัวอย่าง 1,000 คนคุณมีโอกาสน้อยที่จะทำให้เกิดอคติสุ่มตัวอย่าง มีโอกาสน้อยที่จะเลือก 1,000 คนที่ผิดปกติมากกว่าที่จะเลือกสี่คนที่ผิดปกติ ขนาดตัวอย่างที่ใหญ่ขึ้นอย่างน้อยจะช่วยให้คุณประมาณการค่าเฉลี่ยและความแปรปรวนของน้ำหนักที่แม่นยำขึ้นในหมู่ลูกค้าของ Burger Kungenเทคนิคการสุ่มตัวอย่างที่เพราะมีแนวโน้มที่จะทำให้เกิดผลลัพธ์โดยไม่ให้การแสดงที่เป็นธรรมของประชากรที่คุณพยายามประเมิน นอกจากนี้คุณมีขนาดตัวอย่างเล็ก ๆ

ป้อนคำอธิบายรูปภาพที่นี่

ฮิสโตแกรมแสดงให้เห็นถึงผลกระทบของเทคนิคการสุ่มตัวอย่างการกระจายสีเทาสามารถเป็นตัวแทนประชากรของสวีเดนที่ไม่ได้กินที่ Burger Kungen (เฉลี่ย 85 กก.) ในขณะที่สีแดงสามารถแทนประชากรของลูกค้าของ Burger Kungen (เฉลี่ย 100 กิโลกรัม) และขีดกลางสีน้ำเงินอาจเป็นคนสี่คนที่คุณสุ่มตัวอย่าง เทคนิคการสุ่มตัวอย่างที่ถูกต้องจะต้องชั่งน้ำหนักประชากรอย่างเป็นธรรมและในกรณีนี้ ~ 75% ของประชากรดังนั้น 75% ของตัวอย่างที่วัดได้ไม่ควรเป็นลูกค้าของ Burger Kungen

นี่เป็นปัญหาสำคัญที่มีการสำรวจจำนวนมาก ตัวอย่างเช่นคนที่มีแนวโน้มที่จะตอบสนองต่อการสำรวจความพึงพอใจของลูกค้าหรือการสำรวจความคิดเห็นในการเลือกตั้งมีแนวโน้มที่จะเป็นตัวแทนของผู้ที่มีมุมมองที่รุนแรง; คนที่มีความคิดเห็นไม่แข็งแรงมักจะสงวนไว้ในการแสดงความคิดเห็นมากขึ้น

ตัวอย่างของการทดสอบสมมติฐานคือ ( ไม่เสมอไป ) เพื่อทดสอบว่าประชากรสองคนแตกต่างจากคนอื่นหรือไม่ เช่นลูกค้าของ Burger Kungen มีน้ำหนักมากกว่าชาวสวีเดนที่ไม่ทาน Burger Kungen หรือไม่? ความสามารถในการทดสอบนี้ถูกต้องขึ้นอยู่กับเทคนิคการสุ่มตัวอย่างที่เหมาะสมและขนาดตัวอย่างที่เพียงพอ


รหัส R เพื่อทดสอบทำให้ทั้งหมดนี้เกิดขึ้น:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

ผล:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

บางครั้งความแปรปรวนของประชากรมีการตั้งค่าเบื้องต้น ยกตัวอย่างเช่นคะแนน SAT จะถูกปรับขนาดเพื่อให้ค่าเบี่ยงเบนมาตรฐานคือ 110และการทดสอบไอคิวจะถูกปรับให้มีความเบี่ยงเบนมาตรฐานของ 15


ใช่มันเป็นความจริง แต่ในกรณีเหล่านั้นยังมีการปรับเป็นค่าเฉลี่ยคงที่ดังนั้นจึงไม่ให้สถานการณ์ที่มีค่าเฉลี่ยที่ไม่รู้จักและความแปรปรวนที่รู้จัก นอกจากนี้การปรับจะทำหลังจากทราบค่าทั้งหมดแล้ว
เบ็น - คืนสถานะโมนิก้า

1

ตัวอย่างที่เป็นจริงเพียงอย่างเดียวที่ฉันสามารถนึกได้เมื่อไม่ทราบค่าเฉลี่ย แต่ทราบความแปรปรวนคือเมื่อมีการสุ่มตัวอย่างจุดบนไฮเปอร์สเฟียร์ (ในมิติใด ๆ ) ด้วยรัศมีคงที่และศูนย์กลางที่ไม่รู้จัก ปัญหานี้มีค่าเฉลี่ยที่ไม่รู้จัก (จุดศูนย์กลางของทรงกลม) แต่ความแปรปรวนคงที่ (รัศมีกำลังสองของทรงกลม) ฉันไม่รู้ตัวอย่างที่เป็นจริงอื่น ๆ ที่มีค่าเฉลี่ยไม่ทราบ แต่เป็นความแปรปรวนที่รู้จัก (และเพื่อความชัดเจน: การมีการประมาณค่าความแปรปรวนภายนอกจากข้อมูลอื่นไม่ใช่ตัวอย่างของความแปรปรวนที่รู้จักนอกจากนี้หากคุณมีการประมาณค่าความแปรปรวนนี้จากข้อมูลอื่นทำไมคุณไม่มีการประมาณค่าเฉลี่ยที่เหมือนกันจากสิ่งนั้น ข้อมูล?)

ในมุมมองของฉันหลักสูตรสถิติเบื้องต้นที่สอนการทดสอบที่มีค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จักเป็นสิ่งผิดสมัยและพวกเขาเข้าใจผิดว่าเป็นเครื่องมือการสอนที่ทันสมัย เป็นการดีกว่าที่จะเริ่มต้นโดยตรงกับ T-test สำหรับกรณีของค่าเฉลี่ยและความแปรปรวนที่ไม่ทราบค่าและปฏิบัติกับการทดสอบ z เป็นค่าประมาณแบบซีมโทติคที่เก็บเมื่อองศาของอิสระมีขนาดใหญ่ (หรือไม่ แม้แต่ต้องสอน z-test เลย) จำนวนสถานการณ์ที่จะมีความแปรปรวนเป็นที่รู้จัก แต่ค่าเฉลี่ยที่ไม่รู้จักนั้นเล็กมากและมันมักจะทำให้นักเรียนเข้าใจผิดว่าจะแนะนำกรณีนี้ (หายากมาก)


0

บางครั้งในปัญหาที่ใช้มีเหตุผลที่นำเสนอโดยฟิสิกส์เศรษฐศาสตร์ ฯลฯ ที่บอกเราเกี่ยวกับความแปรปรวนและไม่มีความไม่แน่นอน ในบางครั้งประชากรอาจมี จำกัด และเราอาจรู้บางสิ่งเกี่ยวกับทุกคน แต่ต้องสุ่มตัวอย่างและดำเนินการทางสถิติเพื่อเรียนรู้ส่วนที่เหลือ

โดยทั่วไปความกังวลของคุณค่อนข้างถูกต้อง


5
ฉันมีเวลาที่ยากลำบากในการแสดงตัวอย่างจากฟิสิกส์หรือเศรษฐศาสตร์ที่เราจะได้รู้ถึงความแปรปรวน แต่ไม่ใช่ค่าเฉลี่ย คล้ายกันสำหรับการกระจายไม่ต่อเนื่อง คุณยกตัวอย่างที่เป็นรูปธรรมหรือสองข้อได้ไหม
Stephan Kolassa

@StephanKolassa ฉันเชื่อว่าการวัดทดลองทางฟิสิกส์จะเป็นตัวอย่าง - เราอาจมีกระบวนการหรืออุปกรณ์การวัดที่มีความแปรปรวนที่รู้จักกันดี (ข้อผิดพลาดในการวัด) ดังนั้นเมื่อทำการวัดเหตุการณ์เฉพาะคุณสามารถสันนิษฐานได้ว่าความแปรปรวนนั้นเหมือนกัน แต่คุณ สามารถประมาณค่าเฉลี่ยที่แท้จริงเท่านั้น
Peteris

2
@Peteris: นั่นสมเหตุสมผล - แต่ฟังดูคล้ายกับกรณีที่ฉันสังเกตเห็นถึงความแปรปรวน (ของเครื่องดนตรีของคุณ) ที่ได้รับการประเมินจาก "ตัวอย่างการสอบเทียบ" ครั้งก่อน ฉันคาดหวังความแปรปรวนที่ได้มาในทางทฤษฎีโดยไม่มีความไม่แน่นอน (!) เป็นสิ่งที่แตกต่าง
Stephan Kolassa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.