ข้อความต่อไปนี้อธิบายถึงสิ่งที่ฉันพยายามทำ แต่เป็นไปได้ว่าข้อความแสดงปัญหาอื่นสามารถอธิบายเป้าหมายของฉันได้:
ฉันต้องการ
แบ่งตัวเลขต่อไปนี้ออกเป็นกลุ่มที่ความแปรปรวนของตัวเลขภายในแต่ละกลุ่มไม่ใหญ่เกินไปและความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มไม่เล็กเกินไป
เปรียบเทียบการกระจายที่ได้รับในท้ายที่สุดกับคนที่ "สมบูรณ์แบบ" และดูว่า "แตกต่าง" มันมาจากการที่สมบูรณ์แบบ
คำอธิบายของคนธรรมดาเกี่ยวกับเป้าหมาย
ฉันกำลังพยายามคำนวณการกระจายรายได้และกำหนด "วงเล็บรายได้" แต่ละประชากรอยู่ระบบวงเล็บรายได้ควรจะปรับตัวเองตามข้อมูลอินพุต
เป้าหมายของฉันคือการวัดหรือคำนวณความแตกต่างระหว่างรายได้จากวงเล็บ ฉันคิดว่าจะมีวงเล็บจำนวนมากและต้องการดูว่า "แยก" แต่ละชั้นนั้นไกลแค่ไหน
นี่คือตัวอย่างของรายได้รายชั่วโมงสำหรับชุดตัวอย่างของประชากร 20 และรายได้รวม 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
ฉันจะใช้แนวคิดทางคณิตศาสตร์เพื่อจัดกลุ่มเรียงลำดับและวิเคราะห์ข้อมูลที่ทำหน้าที่เหมือนการกระจายรายได้ผ่านประชากรที่กำหนดได้อย่างไร
ในตอนท้ายของการคำนวณฉันต้องการกำหนดการกระจายรายได้แบบฉัตรซึ่งการกระจายที่สมบูรณ์แบบจะมีลักษณะ (บางอย่าง) เช่นนี้
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
หรือสิ่งนี้:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
คำถาม
ฉันจะวิเคราะห์กลุ่มประชากรได้อย่างไรและวัดช่องว่างในแบบที่จะบอกฉันว่าต้องมีจำนวนเท่าไรจึงจะทำให้เหมือนชุดแบบจำลองสองชุดสุดท้ายที่ระบุไว้ข้างต้น
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.