วิธีสุ่มตัวอย่างเมื่อคุณไม่รู้การกระจาย


9

ฉันค่อนข้างใหม่กับสถิติ (หยิบของหลักสูตร Uni ระดับเริ่มต้น) และสงสัยเกี่ยวกับการสุ่มตัวอย่างจากการแจกแจงที่ไม่รู้จัก โดยเฉพาะถ้าคุณไม่มีความคิดเกี่ยวกับการแจกแจงพื้นฐานมีวิธีใดที่จะ "รับประกัน" ว่าคุณได้รับตัวอย่างตัวแทนหรือไม่?

ตัวอย่างเพื่ออธิบาย: สมมติว่าคุณพยายามเข้าใจการกระจายความมั่งคั่งทั่วโลก สำหรับบุคคลใดก็ตามคุณสามารถค้นหาความมั่งคั่งที่แน่นอนของพวกเขา; แต่คุณไม่สามารถ "ตัวอย่าง" ทุกคนบนโลกนี้ได้ สมมุติว่าคุณสุ่มตัวอย่าง n = 1,000 คนโดยการสุ่ม

  1. หากตัวอย่างของคุณไม่รวม Bill Gates คุณอาจคิดว่าไม่มีเศรษฐีพันล้านคน

  2. หากคุณมีตัวอย่างรวมถึง Bill Gates คุณอาจคิดว่าเศรษฐีมีเงินมากกว่าที่เป็นอยู่จริง

ไม่ว่าในกรณีใดคุณไม่สามารถบอกได้ว่าเศรษฐีทั่วไปหรือหายากเป็นอย่างไร คุณอาจไม่สามารถบอกได้ว่ามีอยู่จริงหรือไม่

มีกลไกการสุ่มตัวอย่างที่ดีกว่าสำหรับกรณีเช่นนี้หรือไม่?

คุณจะบอกขั้นตอนเบื้องต้นในการใช้ตัวอย่าง (และจำเป็นต้องมีตัวอย่างจำนวนเท่าใด)

ฉันคิดว่าคุณอาจจะต้อง "สุ่มตัวอย่าง" เปอร์เซ็นต์ของประชากรจำนวนมากที่จะรู้ว่ามีอะไรเข้าใกล้ความเชื่อมั่นที่สมเหตุสมผลว่าเศรษฐีทั่วไปหรือหายากอยู่บนโลกและสิ่งนี้เกิดจากการกระจายตัวของพื้นฐานค่อนข้างยาก ที่จะทำงานกับ


1
ในการกระจายกรณีความมั่งคั่งจะขึ้นอยู่กับว่าเป้าหมายคืออะไร หากตัวอย่างเช่นเป้าหมายคือการประเมินระดับความมั่งคั่งที่จะทำให้แต่ละคนติดอันดับ 10% สูงสุด 20% และต่อ ๆ ไปมันคงไม่สำคัญไม่ว่าตัวอย่างจะรวมเศรษฐีพันล้านหรือไม่ แต่ถ้าตั้งเป้าหมายที่จะประมาณสัดส่วนของความมั่งคั่งที่มีทั้งหมด 10% จากนั้นการสุ่มตัวอย่างที่จัดการกับเศรษฐีพันล้านน่าจะเป็นสิ่งสำคัญ จุดทั่วไปที่นี่คือว่าตัวอย่างเป็นตัวแทนจะสัมพันธ์กับสิ่งที่คุณพยายามทำอยู่เสมอ
Adam Bailey

จริงๆ? ปัญหาแบบเปิดคำตอบที่ดียังคงเป็นการประมาณ (บางครั้งดีกว่าบางครั้งแย่ลง) มันเป็นปัญหาเปิดอาจเป็นปัญหาเปิดเดียวของสถิติ
Nikos M.

คำตอบ:


9

ฉันโต้แย้งการอ้างสิทธิ์ของคุณว่า "ไม่ว่าในกรณีใดคุณไม่สามารถบอกได้ว่าเศรษฐีทั่วไปหรือหายากเป็นอย่างไร" ให้เป็นเศษส่วนของเศรษฐีที่ไม่ทราบในประชากร ด้วยเครื่องแบบก่อนหน้าการกระจายหลังของหลังจากดึงที่ปรากฏว่ามี 0 billionaires คือการกระจาย Beta (1,1001) ซึ่งมีลักษณะดังนี้: fff1000P (ฉ | ข = 0)

ในขณะที่การแจกแจงหลังของหลังจากดึงที่ปรากฎให้มี 1 billionaire คือการกระจาย Beta (2,1000) ซึ่งมีลักษณะดังนี้: f1000P (ฉ | ข = 1)

ในทั้งสองกรณีที่คุณสามารถจะค่อนข้างแน่ใจว่า<0.01 คุณอาจคิดว่ามันไม่แม่นยำพอ แต่ที่จริงแล้ว 0.01 มีความแม่นยำมากสำหรับตัวอย่างที่มีขนาด 1,000 ปริมาณอื่น ๆ ส่วนใหญ่ที่คุณอาจคาดว่าจะแม่นยำน้อยกว่านี้ ตัวอย่างเช่นเศษส่วนของเพศชายสามารถประมาณได้ในช่วงขนาด 0.1 เท่านั้น f<0.01


7

มีสองสิ่งที่คุณสามารถทำได้ (แยกหรือรวมกัน)

โมเดลหาง

หนึ่งคือการจำลองหางของการแจกแจงโดยใช้การแจกแจงแบบพารามิเตอร์ กฎหมายพลังงานเป็นที่รู้จักกันดีในเรื่องการกระจายความมั่งคั่งที่ดีดังนั้นคุณจึงลองกระจาย Pareto คุณจะเหมาะสมกับการแจกแจงนั้นตามความเป็นไปได้สูงสุดนั่นคือโดยการหาพารามิเตอร์ที่เป็นตัวอย่างที่ดีที่สุดของคุณ หรือดีกว่าคุณสามารถใส่ค่า Bayesian priors ในพารามิเตอร์และคำนวณส่วนท้ายแบบเต็ม

น่าเสียดายที่กฎหมายพลังงานมีความไวต่อพารามิเตอร์มากและหากไม่มีดาต้าพอยน์ขนาดใหญ่ในตัวอย่างของคุณจะมีความไม่แน่นอนมากมายเกี่ยวกับเลขชี้กำลัง จำนวนมหาเศรษฐีโดยประมาณจะอ่อนไหวต่อพารามิเตอร์นี้ แต่น้อยกว่าความมั่งคั่งโดยเฉลี่ยของเศรษฐีพันล้านดังนั้นสถานการณ์จึงไม่เลวร้ายนัก

การสุ่มตัวอย่างความสำคัญ

อีกวิธีหนึ่งคือการเปลี่ยนวิธีการเก็บตัวอย่างของคุณ สมมติว่าคุณสงสัย (เท่าที่ควร) มีเศรษฐีต่อหัวในโมนาโกหรือซูริคมากกว่าโมกาดิชิ หากคุณรู้ว่าประชากรของแต่ละเมืองเหล่านี้คุณสามารถรวบรวมตัวอย่างขนาดใหญ่ในเมืองที่คุณคาดว่าจะเห็นเศรษฐีมากขึ้นและอีกเมืองหนึ่งที่เล็กกว่า

ดังนั้นซูริคมี 400,000 คนและโมกาดิชู 1,400,000 คนและเราต้องการสำรวจ 9,000 คน เราสนใจที่นี่ในจำนวนเศรษฐีไม่ใช่เศรษฐี

ตัวอย่างที่ไม่เอนเอียงจะเลือก 2,000 คนในซูริคและ 7,000 คนในโมกาดิชู อย่างไรก็ตามเราจะตั้งค่าตัวอย่างโดยการสุ่มตัวอย่างเจ็ดเท่าจากซูริกบ่อยขึ้น ดังนั้นเราจะ "เสแสร้ง" ว่าซูริคมี 2,800,000 คนและปรับในภายหลัง ซึ่งหมายความว่าเราจะสำรวจความคิดเห็น 6,000 คนในซูริคแทนที่จะเป็น 2,000 และ 4,000 ในโมกาดิชู

สมมติว่าเรานับ 21 เศรษฐีในตัวอย่างซูริกของเราและมีเพียง 1 ในตัวอย่างโมกาดิชูของเรา เนื่องจากเราสุ่มตัวอย่างซูริค 7 เท่าเราจะนับเป็น 3 มหาเศรษฐีเท่านั้น

ขั้นตอนนี้จะลดความแปรปรวนของตัวประมาณของคุณ นอกจากนี้ยังสามารถใช้ร่วมกับวิธีแรกซึ่งในกรณีนี้คุณจะปรับสำหรับการสุ่มตัวอย่างที่สำคัญเมื่อติดตั้งการแจกแจงแบบพารามิเตอร์


6

ฉันคิดว่าวิธีการสุ่มตัวอย่างที่ดีขึ้นอยู่กับความรู้ก่อนหน้าของระบบ ในสาขาของคุณคุณมีความรู้เกี่ยวกับอคติที่อาจเกิดขึ้นซึ่งอาจส่งผลต่อการสุ่มตัวอย่างของคุณ หากคุณไม่มีความรู้นั้นคุณสามารถหาได้จากวรรณกรรม

ในตัวอย่างของคุณคุณรู้ว่ามีเศรษฐีพันล้านและพวกเขาอาจมีอคติต่อการสุ่มตัวอย่างของคุณ ดังนั้นคุณสามารถเลือกที่จะจัดกลุ่มตัวอย่างตามระดับการศึกษาประเทศประเภทของงาน ฯลฯ มีหลายทางเลือก

ลองอีกตัวอย่างหนึ่ง www.games501.com ฟรีวัตถุประสงค์ของคุณคือเพื่อตรวจสอบความอุดมสมบูรณ์ของหนูสายพันธุ์ในสวน ในอุทยานแห่งนี้มีป่าไม้และทุ่งหญ้า จากวรรณกรรมคุณรู้ว่าหนูมีความอุดมสมบูรณ์ในป่ามากกว่าทุ่งหญ้า ดังนั้นคุณแบ่งชั้นการสุ่มตัวอย่างตามคุณลักษณะนี้ มีขั้นตอนการสุ่มตัวอย่างอื่น ๆ ที่เป็นไปได้ แต่ฉันคิดว่าข้อมูลที่ดีที่สุดของคุณจะมาจากวรรณกรรมที่มีอยู่

และถ้าไม่มีวรรณกรรมเกี่ยวกับสาขาของคุณ? ไม่น่าจะเป็นไปได้ แต่ในบริบทนั้นฉันจะทำการศึกษาล่วงหน้าเพื่อดูปัจจัยที่ต้องนำมาพิจารณาในการสุ่มตัวอย่าง


2

ไม่ว่าตัวอย่างจะเป็นตัวแทนหรือไม่มีส่วนเกี่ยวข้องกับการวัดที่สังเกตได้ของตัวอย่าง ตัวอย่างเป็นตัวแทนถ้าชุดสังเกตการณ์ทุกชุดมีความน่าจะเป็นเหมือนกันกับการเลือกเป็นชุดอื่นที่มีขนาดเท่ากัน แน่นอนว่าเป็นการยากที่จะทำเว้นแต่คุณจะได้รับการแจงนับพื้นที่ตัวอย่างของคุณอย่างสมบูรณ์ สมมติว่าคุณสามารถรับข้อมูลนั้นได้ (ตัวอย่างเช่นจากข้อมูลการสำรวจสำมะโนประชากร) จะมีการสุ่มตัวอย่างแบบง่าย ๆ

ไม่ว่าคุณจะได้รับตัวอย่างของคุณอย่างไรจะมีข้อผิดพลาดอย่างน้อยสามแหล่งที่แยกต่างหากเพื่อพิจารณา:

ข้อผิดพลาดในการสุ่มตัวอย่าง: โดยบังเอิญคุณรวม Bill Gates ในตัวอย่างตัวแทนของคุณ วิธีการทางสถิติโดยเฉพาะความกว้างของช่วงความมั่นใจ ฯลฯ ได้รับการออกแบบมาเพื่อดูแลสิ่งนี้หากคุณมีความรู้คร่าวๆของการกระจายในมือ (เช่นปกติซึ่งการกระจายความมั่งคั่งไม่มีแน่นอน)

การสุ่มตัวอย่างอคติ: ตัวอย่างไม่ได้เป็นตัวแทน ตัวอย่าง: Bill Gates มีหมายเลขที่ไม่แสดงเพื่อให้การสำรวจทางโทรศัพท์ของคุณไม่สามารถติดต่อเขาได้ (เว้นแต่คุณจะใช้บางอย่างเช่น "การโทรด้วยตัวเลขสุ่ม") นี่เป็นตัวอย่างที่รุนแรง แต่อคติการสุ่มตัวอย่างแพร่หลายมาก สิ่งที่เกิดขึ้นทั่วไปคือการเก็บตัวอย่างในสถานที่หรือความสะดวกสบาย: คุณสุ่มตัวอย่างผู้อุปถัมภ์ร้านอาหารที่ร้านอาหารว่าชอบสถานที่บ่อยครั้งที่พวกเขาอยู่ที่นั่นหรือไม่และวางแผนว่าจะกลับมาหรือไม่ ลูกค้าที่ทำซ้ำมีแนวโน้มที่จะถูกสุ่มตัวอย่างมากกว่าลูกค้าขาจรและกลุ่มตัวอย่างประเภทนี้อาจมีอคติอย่างรุนแรงในทัศนคติของพวกเขา

การตอบสนองอคติ: การวัดตัวเองไม่ถูกต้อง สิ่งนี้สามารถเกิดขึ้นได้เนื่องจากการทำงานผิดปกติของมิเตอร์จนถึงการโกหกอย่างมีสติถึงผลกระทบเชิงปริมาณ (เช่นหลักการความไม่แน่นอนของไฮเซนเบิร์ก)


คำตอบนี้มีคำแนะนำที่เป็นประโยชน์และครอบคลุมพื้นที่ดี ฉันอยากจะแนะนำว่าลักษณะของ "ตัวแทน" อาจมีข้อ จำกัด เกินไปอย่างไรก็ตามเนื่องจากมันไม่รวมรูปแบบการสุ่มตัวอย่างที่เป็นประโยชน์และเป็นประโยชน์ (รวมถึงบางอย่างที่กล่าวถึงโดยเฉพาะในคำตอบอื่น ๆ ) เช่นการสุ่มแบบแบ่งชั้น . มันจะไม่เพียงพอหรือไม่ที่จะอนุญาตให้กลุ่มตัวอย่างเป็นตัวแทนเมื่อทราบถึงโอกาสในการรวมชุดหน่วยสังเกตการณ์ใด ๆ (และสามารถนำมาใช้ในการสร้างค่าประมาณแบบไม่เอนเอียง) แต่ไม่จำเป็นต้องคงที่สำหรับทุกชุดขนาดที่กำหนด
whuber

@whuber "มันจะไม่เพียงพอที่จะอนุญาตให้กลุ่มตัวอย่างเป็นตัวแทนเมื่อมีโอกาสที่จะรวมชุดหน่วยสังเกตการณ์ใด ๆ ... ": นี่ถูกต้องและฉันควรแก้ไขคำตอบของฉันเพื่อรับการสุ่มตัวอย่างแบบแบ่งชั้นและการสุ่มตัวอย่างที่สำคัญ อย่างไรก็ตามการสุ่มตัวอย่างอย่างเป็นระบบนั้นเลวร้ายและคำแนะนำในลิงค์และที่อื่น ๆ นั้นผิด หากมีรูปแบบที่เป็นระบบในข้อมูลจุดเริ่มต้นที่สุ่มจะไม่กำจัดอคติทั้งหมดที่ต้องทำคือการทำให้แน่ใจว่าคุณจะไม่สามารถคำนวณอคติได้
user3697176

อาจเป็นคำตอบที่ดีที่สุดจนถึงขณะนี้ (ในความหมายของการเล็งตรงไปที่จุดทางสถิติ)
Nikos M.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.