กำลังคำนวณการแจกแจงจากค่าต่ำสุดค่าเฉลี่ยและค่าสูงสุด


10

สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ:

  1. สร้างการกระจายจากข้อมูลเหล่านี้และ

  2. รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย

แก้ไข:

ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200


(1) นั้นง่ายเพราะมีวิธีแก้ปัญหามากมาย (2) ทำได้ดีที่สุดในบริบทของสมมติฐานบางอย่างเกี่ยวกับรูปร่างการกระจายมิฉะนั้นสิ่งที่คุณสามารถทำได้คือขอบเขตทางคณิตศาสตร์
whuber

3
คุณถูกนำมาที่นี่อย่างแท้จริงในความคิดเห็นและคำตอบจนถึงขณะนี้ แต่ข้อควรระวังที่จำเป็น (โดยปริยายฉันคิดว่าในคำพูดของ @ whuber) คือมีการแจกแจงจำนวนมากที่เข้ากันได้กับข้อมูลดังกล่าวซึ่งคุณไม่ควรอนุมานว่าคุณมีข้อมูลเพียงพอ ทำสิ่งนี้ได้ดีหรือน่าเชื่อถือ โดยเฉพาะอย่างยิ่งหากคุณไม่ทราบขนาดตัวอย่างคุณไม่สามารถทำอะไรได้แม้แต่คิดเรื่องความไม่แน่นอน
Nick Cox

เมื่อคุณถามเกี่ยวกับสัดส่วนของประชากรที่ "อยู่สูงกว่าหรือต่ำกว่าค่าเฉลี่ย" ... คุณกำลังถามเกี่ยวกับค่าเฉลี่ยตัวอย่างหรือค่าเฉลี่ยประชากรที่นั่นไหม เรากำลังพูดถึงตัวแปรต่อเนื่องหรือไม่ต่อเนื่องหรือไม่? เรารู้ขนาดตัวอย่างหรือไม่?
Glen_b -Reinstate Monica

คำตอบ:


10

ฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ:

สร้างการกระจายจากข้อมูลเหล่านี้และ

มีจำนวนอนันต์ของการแจกแจงที่เป็นไปได้ซึ่งจะสอดคล้องกับปริมาณตัวอย่างเหล่านั้น

รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย

ในกรณีที่ไม่มีสมมติฐานบางอย่างที่ไม่ยุติธรรมอาจไม่เป็นไปตามปกติ - อย่างน้อยก็ไม่มีความหมายมากนักว่าจะมีความหมาย ผลลัพธ์จะขึ้นอยู่กับสมมติฐานของคุณเป็นส่วนใหญ่ (มีข้อมูลไม่มากในค่าตัวเองแม้ว่าการเตรียมการบางอย่างจะให้ข้อมูลที่เป็นประโยชน์ - ดูด้านล่าง)

ไม่ยากที่จะเกิดขึ้นกับสถานการณ์ที่คำตอบของคำถามสัดส่วนอาจแตกต่างกันมาก เมื่อมีคำตอบที่เป็นไปได้แตกต่างกันมากซึ่งสอดคล้องกับข้อมูลคุณจะรู้ได้อย่างไรว่าสถานการณ์ใด

รายละเอียดเพิ่มเติมอาจให้เบาะแสที่เป็นประโยชน์ แต่ก็มีอยู่ (โดยไม่มีแม้แต่ขนาดตัวอย่างถึงอย่างน้อย 2 หรือ 3 ถ้าค่าเฉลี่ยไม่ได้อยู่กึ่งกลางระหว่างจุดสิ้นสุด *) คุณไม่จำเป็นต้องได้รับคุณค่ามากสำหรับคำถามนั้น . คุณสามารถลองรับขอบเขตได้ แต่ในหลาย ๆ กรณีพวกเขาจะไม่ จำกัด อะไรลงมากมาย

* ถ้าค่าเฉลี่ยอยู่ใกล้กับจุดปลายเดียวคุณจะได้ค่าขอบเขตตัวอย่างที่ต่ำกว่า ตัวอย่างเช่นถ้าแทนที่ 10,20,25 สำหรับ min / mean / max ของคุณคุณมี 10 24 25 ดังนั้นจะต้องมีอย่างน้อย 15 และมันก็จะแนะนำว่าประชากรส่วนใหญ่อยู่เหนือ 24; นั่นคือสิ่งที่ แต่ถ้ามันบอกว่า 10,18,25 มันยากกว่ามากที่จะได้แนวคิดที่มีประโยชน์เกี่ยวกับขนาดตัวอย่างที่อาจเป็นไปได้n


2
@Dohnson ฉันไม่คิดว่ามันเกินความจริง - มันค่อนข้างจริง (แม้ว่าความสามารถของเราในการระบุพวกเขาอาจล้มเหลวหลังจากสองสามพันคนและความสามารถของเราที่จะแสดงต่อพวกเขาอาจล้มเหลวหลังจากผ่านไปหลายสิบครั้ง ไม่มีสมมติฐานอื่นที่เราสามารถดำเนินการได้) ในการใช้ถ้อยคำของฉันไม่มีเจตนาแสดงความตั้งใจ - มันถูกเลือกโดยเจตนาเพื่อระบุความกว้างที่แท้จริงของข้อสันนิษฐานที่เป็นไปได้ คุณต้องการให้ฉันเขียนอะไร
Glen_b -Reinstate Monica

3
1. อะไรคือเหตุผลในการ จำกัด ความเป็นไปได้ของพารามิเตอร์สองตัวที่มากที่สุด ถ้าข้อมูลถูกดึงมาจากพารามิเตอร์สามตัวเช่นปกติ ในหลายกรณีเราไม่สามารถประมาณค่าพารามิเตอร์ทั้งหมดจากข้อมูลได้ แต่นั่นเป็นส่วนหนึ่งของปัญหาที่ฉันพยายามกระตุ้นให้เกิดขึ้น (เกี่ยวข้องกับการอภิปรายของสมมติฐาน 2. Johnson และ Kotz เป็นส่วนย่อยของการแจกแจงที่ผู้คนตั้งชื่อไว้ / ทำงานกับไม่ใช่จากข้อ จำกัด เกี่ยวกับสิ่งที่เป็นไปได้ฉันได้คิดค้นการแจกแจงจำนวนมากที่ไม่ได้อยู่ใน Johnson และ Kotz และ ... ctd
Glen_b

4
ctd ... ฉันค่อนข้างแน่ใจว่าพวกเขาไม่ได้ถูกตัดสิทธิ์ทั้งหมดที่นี่ แม้ว่าจะไม่มีพารามิเตอร์ที่ไม่ระบุ แต่ก็มีอินฟินิตี้ของ cdfs ที่เป็นไปได้ซึ่งเป็นเซตย่อยที่ไม่ จำกัด ซึ่งจะไม่ถูกตัดออกโดยข้อมูลที่ระบุ
Glen_b -Reinstate Monica

1
@Djohnson ไม่ว่าความขัดแย้งใดที่เหลืออยู่ฉันขอขอบคุณสำหรับความคิดเห็นที่เป็นประโยชน์ของคุณ ฉันจะพิจารณาว่าอย่างน้อยชัดเจนยิ่งขึ้นระบุสิ่งที่ฉันพูดจริง ๆ (การเรียกร้องที่แท้จริงของฉันคือความสามารถในการพิสูจน์มันเป็นสิ่งจำเป็น แต่บางทีอย่างน้อยฉันก็สามารถระบุไว้อย่างชัดเจน) และไม่ว่ามันจะเป็นวลีที่แตกต่างกัน
Glen_b -Reinstate Monica

4
@Dohnson ใช้การแจกแจงสองแบบที่แตกต่างกันเพื่อให้ตรงตามเงื่อนไข: ส่วนผสมใด ๆ ของทั้งสองจะยังคงเป็นไปตามเงื่อนไขที่กล่าวไว้ นั่นคืออินฟินิตี้ที่แท้จริง: อันที่นับไม่ได้
Elvis

8

ตามที่ระบุไว้โดยGlen_bมีความเป็นไปได้มากมายอย่างไม่ จำกัด ลองดูที่แปลงต่อไปนี้พวกมันแสดงการแจกแจงแบบต่าง ๆ แปดแบบที่มีค่าต่ำสุดค่าสูงสุดและค่าเฉลี่ยเดียวกัน

การแจกแจงที่แตกต่างกันแปดแบบ

สังเกตว่าพวกมันแตกต่างกันมาก อย่างแรกคือเหมือนกันมาคือการผสมผสาน bimodal ของการแจกแจงสามเหลี่ยมเจ็ดมีมวลน่าจะเป็นมากที่สุดเข้มข้นรอบ ๆ ศูนย์ แต่ยังคงนาทีและแม็กซ์เป็นไปได้ด้วยความน่าจะเป็นน้อยมากแปดคือไม่ต่อเนื่องและมีเพียงสองค่า .

เนื่องจากสิ่งเหล่านี้ตรงตามเกณฑ์ของคุณคุณสามารถใช้สิ่งใดสิ่งหนึ่งในการจำลอง อย่างไรก็ตามตัวเลือกที่เป็นอัตนัยของคุณจะมีผลอย่างมากต่อผลลัพธ์ของการจำลอง สิ่งที่ฉันต้องการจะพูดคือถ้า min, max และ mean เป็นสิ่งเดียวที่คุณรู้เกี่ยวกับการแจกแจงคุณมีข้อมูลไม่เพียงพอที่จะทำการจำลองถ้าคุณต้องการให้มันเลียนแบบการแจกแจงจริง (ไม่ทราบ)

ดังนั้นคุณต้องถามตัวเองว่าคุณรู้อะไรบ้างเกี่ยวกับการแจกจ่าย มันไม่ต่อเนื่องหรือต่อเนื่อง? สมมาตรหรือเบ้ Unimodal หรือ bimodal? มีหลายสิ่งที่ต้องพิจารณา ถ้ามันต่อเนื่องไม่สม่ำเสมอและไร้โมดัลและคุณรู้แค่ค่าต่ำสุดค่าสูงสุดและค่าเฉลี่ยแล้วทางเลือกหนึ่งที่เป็นไปได้คือการกระจายแบบสามเหลี่ยม - มันไม่น่าเป็นไปได้อย่างมากที่ทุกสิ่งในชีวิตจริงจะมีการกระจายตัว และไม่ตั้งสมมติฐานมากเกินไปเกี่ยวกับรูปร่างของมัน


ดังนั้นถ้าฉันสมมติการกระจายสามเหลี่ยมฉันก็สามารถคำนวณโหมดได้เช่นเดียวกับข้อมูลปัจจุบันของฉัน จะช่วยได้ไหม
user132053

1
@ user132053 คุณต้องการเพียงนาทีสูงสุดและค่าเฉลี่ย สูตรการหาค่าเฉลี่ยของการแจกแจงสามเหลี่ยมคือ (a + b + c) / 3 คุณสามารถแก้มันสำหรับโหมดโดยใช้เลขคณิตอย่างง่าย
ทิม

4

กฎที่อ้างอิงช่วงสำหรับการคำนวณค่าเบี่ยงเบนมาตรฐานถูกอ้างอย่างกว้างขวางในวรรณกรรมทางสถิติ (นี่คือการอ้างอิงเดียว ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard มาตรฐาน -Deviation.htm ) โดยทั่วไปคือ (สูงสุด - นาที) / 4 เป็นที่รู้กันว่าเป็นการประมาณการคร่าวๆ

เมื่อพิจารณาจากข้อมูลและความเต็มใจที่จะรับข้อมูลที่กระจายตามปกติค่าเบี่ยงเบนปกติสามารถสร้างขึ้นได้จากตัวเลขสองตัวค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานตามช่วง ที่กล่าวว่าการแจกแจงแบบหนึ่งหรือสองพารามิเตอร์ใด ๆ สามารถสร้างขึ้นจากข้อมูลทั้งสองชิ้นนี้ตราบใดที่การเผยแพร่นั้นได้รับการรูทในช่วงเวลาแรกหรือช่วงเวลาที่สอง

นอกจากนี้ยังสามารถสร้างสัมประสิทธิ์การแปรผันอย่างคร่าวๆโดยใช้อัตราส่วนของ SD / Mean สิ่งนี้จะให้พร็อกซีสำหรับความแปรปรวนแบบไม่มีหน่วยในข้อมูล

ข้อผิดพลาดที่เหมาะสมยิ่งขึ้นหมายถึงการกระจายตัวตัวอย่างของประชากรและต้องการคำสั่งขนาดตัวอย่างnเพื่อการประมาณค่า คำอธิบายของคุณไม่ได้ให้รายละเอียดนี้


3
บางสิ่งที่ควรสังเกต: (1) ค่าเฉลี่ยอาจให้ข้อมูลเพิ่มเติมที่ควรแทนที่กฎ (max-min) / 4 (2) เนื่องจากมีการให้ข้อมูลสามส่วนการใช้ตระกูลสองพารามิเตอร์เท่านั้นทำให้ระดับความยืดหยุ่นโดยทั่วไป
whuber

@whuber คุณได้แสดงความคิดเห็นที่เป็นอันตรายสองรายการในชุดข้อความนี้ สิ่งที่จะดีคือถ้าคุณทำอย่างละเอียดในพวกเขาและระบุการตอบสนอง
Mike Hunter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.