สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ:
สร้างการกระจายจากข้อมูลเหล่านี้และ
รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย
แก้ไข:
ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200
สมมติว่าฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ:
สร้างการกระจายจากข้อมูลเหล่านี้และ
รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย
แก้ไข:
ตามคำแนะนำของ Glen สมมติว่าเรามีขนาดตัวอย่าง 200
คำตอบ:
ฉันมีชุดข้อมูลขั้นต่ำค่าเฉลี่ยและสูงสุดของชุดข้อมูลพูด 10, 20 และ 25 มีวิธีการ:
สร้างการกระจายจากข้อมูลเหล่านี้และ
มีจำนวนอนันต์ของการแจกแจงที่เป็นไปได้ซึ่งจะสอดคล้องกับปริมาณตัวอย่างเหล่านั้น
รู้ว่าร้อยละของประชากรที่น่าจะอยู่เหนือหรือต่ำกว่าค่าเฉลี่ย
ในกรณีที่ไม่มีสมมติฐานบางอย่างที่ไม่ยุติธรรมอาจไม่เป็นไปตามปกติ - อย่างน้อยก็ไม่มีความหมายมากนักว่าจะมีความหมาย ผลลัพธ์จะขึ้นอยู่กับสมมติฐานของคุณเป็นส่วนใหญ่ (มีข้อมูลไม่มากในค่าตัวเองแม้ว่าการเตรียมการบางอย่างจะให้ข้อมูลที่เป็นประโยชน์ - ดูด้านล่าง)
ไม่ยากที่จะเกิดขึ้นกับสถานการณ์ที่คำตอบของคำถามสัดส่วนอาจแตกต่างกันมาก เมื่อมีคำตอบที่เป็นไปได้แตกต่างกันมากซึ่งสอดคล้องกับข้อมูลคุณจะรู้ได้อย่างไรว่าสถานการณ์ใด
รายละเอียดเพิ่มเติมอาจให้เบาะแสที่เป็นประโยชน์ แต่ก็มีอยู่ (โดยไม่มีแม้แต่ขนาดตัวอย่างถึงอย่างน้อย 2 หรือ 3 ถ้าค่าเฉลี่ยไม่ได้อยู่กึ่งกลางระหว่างจุดสิ้นสุด *) คุณไม่จำเป็นต้องได้รับคุณค่ามากสำหรับคำถามนั้น . คุณสามารถลองรับขอบเขตได้ แต่ในหลาย ๆ กรณีพวกเขาจะไม่ จำกัด อะไรลงมากมาย
* ถ้าค่าเฉลี่ยอยู่ใกล้กับจุดปลายเดียวคุณจะได้ค่าขอบเขตตัวอย่างที่ต่ำกว่า ตัวอย่างเช่นถ้าแทนที่ 10,20,25 สำหรับ min / mean / max ของคุณคุณมี 10 24 25 ดังนั้นจะต้องมีอย่างน้อย 15 และมันก็จะแนะนำว่าประชากรส่วนใหญ่อยู่เหนือ 24; นั่นคือสิ่งที่ แต่ถ้ามันบอกว่า 10,18,25 มันยากกว่ามากที่จะได้แนวคิดที่มีประโยชน์เกี่ยวกับขนาดตัวอย่างที่อาจเป็นไปได้
ตามที่ระบุไว้โดยGlen_bมีความเป็นไปได้มากมายอย่างไม่ จำกัด ลองดูที่แปลงต่อไปนี้พวกมันแสดงการแจกแจงแบบต่าง ๆ แปดแบบที่มีค่าต่ำสุดค่าสูงสุดและค่าเฉลี่ยเดียวกัน
สังเกตว่าพวกมันแตกต่างกันมาก อย่างแรกคือเหมือนกันมาคือการผสมผสาน bimodal ของการแจกแจงสามเหลี่ยมเจ็ดมีมวลน่าจะเป็นมากที่สุดเข้มข้นรอบ ๆ ศูนย์ แต่ยังคงนาทีและแม็กซ์เป็นไปได้ด้วยความน่าจะเป็นน้อยมากแปดคือไม่ต่อเนื่องและมีเพียงสองค่า .
เนื่องจากสิ่งเหล่านี้ตรงตามเกณฑ์ของคุณคุณสามารถใช้สิ่งใดสิ่งหนึ่งในการจำลอง อย่างไรก็ตามตัวเลือกที่เป็นอัตนัยของคุณจะมีผลอย่างมากต่อผลลัพธ์ของการจำลอง สิ่งที่ฉันต้องการจะพูดคือถ้า min, max และ mean เป็นสิ่งเดียวที่คุณรู้เกี่ยวกับการแจกแจงคุณมีข้อมูลไม่เพียงพอที่จะทำการจำลองถ้าคุณต้องการให้มันเลียนแบบการแจกแจงจริง (ไม่ทราบ)
ดังนั้นคุณต้องถามตัวเองว่าคุณรู้อะไรบ้างเกี่ยวกับการแจกจ่าย มันไม่ต่อเนื่องหรือต่อเนื่อง? สมมาตรหรือเบ้ Unimodal หรือ bimodal? มีหลายสิ่งที่ต้องพิจารณา ถ้ามันต่อเนื่องไม่สม่ำเสมอและไร้โมดัลและคุณรู้แค่ค่าต่ำสุดค่าสูงสุดและค่าเฉลี่ยแล้วทางเลือกหนึ่งที่เป็นไปได้คือการกระจายแบบสามเหลี่ยม - มันไม่น่าเป็นไปได้อย่างมากที่ทุกสิ่งในชีวิตจริงจะมีการกระจายตัว และไม่ตั้งสมมติฐานมากเกินไปเกี่ยวกับรูปร่างของมัน
กฎที่อ้างอิงช่วงสำหรับการคำนวณค่าเบี่ยงเบนมาตรฐานถูกอ้างอย่างกว้างขวางในวรรณกรรมทางสถิติ (นี่คือการอ้างอิงเดียว ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard มาตรฐาน -Deviation.htm ) โดยทั่วไปคือ (สูงสุด - นาที) / 4 เป็นที่รู้กันว่าเป็นการประมาณการคร่าวๆ
เมื่อพิจารณาจากข้อมูลและความเต็มใจที่จะรับข้อมูลที่กระจายตามปกติค่าเบี่ยงเบนปกติสามารถสร้างขึ้นได้จากตัวเลขสองตัวค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานตามช่วง ที่กล่าวว่าการแจกแจงแบบหนึ่งหรือสองพารามิเตอร์ใด ๆ สามารถสร้างขึ้นจากข้อมูลทั้งสองชิ้นนี้ตราบใดที่การเผยแพร่นั้นได้รับการรูทในช่วงเวลาแรกหรือช่วงเวลาที่สอง
นอกจากนี้ยังสามารถสร้างสัมประสิทธิ์การแปรผันอย่างคร่าวๆโดยใช้อัตราส่วนของ SD / Mean สิ่งนี้จะให้พร็อกซีสำหรับความแปรปรวนแบบไม่มีหน่วยในข้อมูล
ข้อผิดพลาดที่เหมาะสมยิ่งขึ้นหมายถึงการกระจายตัวตัวอย่างของประชากรและต้องการคำสั่งขนาดตัวอย่างnเพื่อการประมาณค่า คำอธิบายของคุณไม่ได้ให้รายละเอียดนี้