ฉันจะจัดกลุ่มข้อมูลตัวเลขให้อยู่ในรูปแบบ“ วงเล็บ” ได้อย่างไร (เช่นรายได้)

ข้อความต่อไปนี้อธิบายถึงสิ่งที่ฉันพยายามทำ แต่เป็นไปได้ว่าข้อความแสดงปัญหาอื่นสามารถอธิบายเป้าหมายของฉันได้:

ฉันต้องการ

แบ่งตัวเลขต่อไปนี้ออกเป็นกลุ่มที่ความแปรปรวนของตัวเลขภายในแต่ละกลุ่มไม่ใหญ่เกินไปและความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มไม่เล็กเกินไป
เปรียบเทียบการกระจายที่ได้รับในท้ายที่สุดกับคนที่ "สมบูรณ์แบบ" และดูว่า "แตกต่าง" มันมาจากการที่สมบูรณ์แบบ

คำอธิบายของคนธรรมดาเกี่ยวกับเป้าหมาย

ฉันกำลังพยายามคำนวณการกระจายรายได้และกำหนด "วงเล็บรายได้" แต่ละประชากรอยู่ระบบวงเล็บรายได้ควรจะปรับตัวเองตามข้อมูลอินพุต

เป้าหมายของฉันคือการวัดหรือคำนวณความแตกต่างระหว่างรายได้จากวงเล็บ ฉันคิดว่าจะมีวงเล็บจำนวนมากและต้องการดูว่า "แยก" แต่ละชั้นนั้นไกลแค่ไหน

นี่คือตัวอย่างของรายได้รายชั่วโมงสำหรับชุดตัวอย่างของประชากร 20 และรายได้รวม 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900

ฉันจะใช้แนวคิดทางคณิตศาสตร์เพื่อจัดกลุ่มเรียงลำดับและวิเคราะห์ข้อมูลที่ทำหน้าที่เหมือนการกระจายรายได้ผ่านประชากรที่กำหนดได้อย่างไร

ในตอนท้ายของการคำนวณฉันต้องการกำหนดการกระจายรายได้แบบฉัตรซึ่งการกระจายที่สมบูรณ์แบบจะมีลักษณะ (บางอย่าง) เช่นนี้

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

หรือสิ่งนี้:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269

คำถาม

ฉันจะวิเคราะห์กลุ่มประชากรได้อย่างไรและวัดช่องว่างในแบบที่จะบอกฉันว่าต้องมีจำนวนเท่าไรจึงจะทำให้เหมือนชุดแบบจำลองสองชุดสุดท้ายที่ระบุไว้ข้างต้น

clustering relative-distribution

— goodguys_activate
แหล่งที่มา

ขอบคุณ @svidgen สำหรับคำแนะนำในการโพสต์ที่นี่แทนที่จะเป็น Programmers.SE

— goodguys_activate

หมายเหตุ: ฉันได้รับข้อเสนอแนะนี้ในขณะที่ถามคำถามนี้:

It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.

— goodguys_activate

ฉันดูเหมือนจะพบสิ่งที่คล้ายกับสิ่งที่ฉันต้องการ ... เรียกว่าข้อมูล binning: msdn.microsoft.com/en-us/magazine/dn342876.aspx

— goodguys_activate

ใช่โปรดย้ายคำถาม (และรวมคำอธิบายที่ดีกว่าของคุณจากความคิดเห็นหากเป็นไปได้)

— goodguys_activate

มองหาช่องว่างในการกระจายรายได้ถ้าคุณโชคดีคุณสามารถหาพีค (ประดิษฐ์ค่อนข้าง) ที่คุณสามารถใช้เป็นวงเล็บ เรื่องนี้อาจทำงานได้ค่อนข้างดีสำหรับรายได้ที่ลดลง

— Marc Claesen

คำตอบ:

การวิเคราะห์กลุ่มด้วยตัวแปรเดียวทำให้รู้สึกสมบูรณ์แบบเมื่อใดก็ตามที่มีมิติตามค่าที่สามารถจัดเรียงได้ ซึ่งอาจเป็น ขนาดวัด , เวลาหรือพื้นที่

เมื่อได้รับคำสั่งข้อมูลในระดับการวัดบางอย่างอาจมีความสนใจในการมองหาการแบ่งสัมพัทธ์ภายในการแจกแจงความถี่ (antimodes ในหนึ่งคำศัพท์)

หมายเหตุของข้อควรระวัง: อย่างไรก็ตามการแบ่งการกำหนดถังขยะที่อาจจะดูเหมือนว่าโดยพลการจะถูกหลีกเลี่ยงอย่างกว้างขวางในหลาย ๆ ด้านของสถิติทางสถิติและมีการตั้งค่าที่แพร่หลายและโดดเด่นสำหรับการ binning ด้วยช่วงเวลาที่เท่ากันและบ่อยครั้งมาก . นี่เป็นเรื่องของรสนิยมส่วนหนึ่งของการประชุม: การปฏิบัติได้เปลี่ยนไปเพราะมันง่ายต่อการเก็บชุดข้อมูลทั้งหมด

เวลาชุดสามารถแบ่งออกเป็นคาถา epochs ระยะเวลาสิ่งที่นึกคิดมีความแตกต่างที่ค่อนข้างเล็กภายใน subseries และความแตกต่างที่ค่อนข้างใหญ่ระหว่าง subseries ปัญหาเดียวกันเกิดขึ้นสำหรับพื้นที่เมื่อใดก็ตามที่มิติเชิงพื้นที่เดียว (แนวนอนหรือแนวตั้ง) จะถูกแบ่งย่อย ในทางธรณีวิทยาและวิทยาศาสตร์อื่น ๆ นี้มักจะมีการศึกษาภายใต้หัวข้อของการแบ่งส่วน

โปรดทราบว่าการจัดกลุ่มแบบเป็นทางการควรมีการพล็อตข้อมูลที่เหมาะสมเสมอ (ตัวอย่างเช่นการใช้จุดหรือควอไทล์หรือพล็อตบรรทัด) ซึ่งแน่นอนว่าอาจทำให้ชัดเจนว่าการแบ่งนั้นชัดเจน (เพื่อให้การรวมกลุ่มเป็นทางการเป็นเพียงการตกแต่ง) หรือ ไม่มีการหยุดที่น่าเชื่อถือ (เพื่อให้การจัดกลุ่มอย่างเป็นทางการอาจไม่มีจุดหมาย)

พิจารณาตัวอย่างของเล่นของค่าที่เรียงลำดับตามขนาด:

    14 15 16 23 24 25 56 57 58

ซึ่งจะเห็นได้ว่ามีการทำคลัสเตอร์สามกลุ่ม

    14 15 16 | 23 24 25 | 56 57 58

$k$ $n$ $k - 1$ $k - 1 = 2$ $n - 1$ $n - 1 \choose k - 1$ $k$ $2^{n - 1}$ $n$

ปัญหาสามารถทำให้ถูกต้องได้ (ฟิชเชอร์ 1958; Hartigan 1975) โดยการวางเครื่องหมายเพื่อลดจำนวนกลุ่มที่กำหนด

sum over groups of variability around group centres .

$\text{sum over groups of variability around group centres}.$

ผลรวมของการเบี่ยงเบนกำลังสองจากค่าเฉลี่ยของกลุ่มจะเกิดขึ้นในใจเป็นความเป็นไปได้ที่ชัดเจนที่สุด ผลรวมของการเบี่ยงเบนสัมบูรณ์จากกลุ่มคนกลางและมาตรการอื่น ๆ อาจได้รับความบันเทิงอย่างดี

Hartigan (1975) แสดงให้เห็นว่าวิธีการเขียนโปรแกรมแบบไดนามิกทำให้การคำนวณตรงไปตรงมาและนำเสนอรหัส Fortran การติดตั้ง Stata Implementation (Cox 2007) group1dจาก SSC

Cox, NJ 2007 GROUP1D: โมดูล Stata สำหรับการจัดกลุ่มหรือการจัดกลุ่มในมิติเดียว http://ideas.repec.org/c/boc/bocode/s456844.html

ฟิชเชอร์, WD 1958 เกี่ยวกับการจัดกลุ่มสำหรับความสม่ำเสมอสูงสุด วารสารสมาคมสถิติอเมริกัน 53: 789-98

Hartigan, JA 1975 อัลกอริทึมการจัดกลุ่ม นิวยอร์ก: John Wiley Ch.6

Postscriptวิธีนี้ดูเหมือนจะตรงกับส่วนแรกของคำถามเฉพาะ ฉันได้ทำเสียงแหลมโดยทั่วไปเพราะฉันคิดว่าการกำหนดเป็นสิ่งที่น่าสนใจทั่วไป (และเพราะมันง่ายสำหรับฉันในการรีไซเคิลเอกสารบางส่วนของ Cox 2007) แต่ถ้าเป้าหมายเฉพาะคือการเปรียบเทียบการกระจายรายได้กับการกระจายชุดอ้างอิงฉันไม่เห็นว่า binning มีส่วนใดส่วนหนึ่งที่จะเล่นเลย นั่นคือปัญหามาตรฐานทางเศรษฐศาสตร์ที่ Lorenz curves และความไม่เท่าเทียมกันเป็นจุดเริ่มต้น ในสาระสำคัญคุณสามารถเปรียบเทียบควอไทล์กับควอไทล์หรือเปอร์เซ็นต์ชี้ไปที่เปอร์เซ็นต์

— นิคคอคส์
แหล่งที่มา

ดู Jenks Natural Break:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

ฉันคิดว่ามันเป็นสิ่งที่คุณต้องการและมีการใช้งานในหลายภาษา

— ftfarias
แหล่งที่มา

แม้ว่ามันอาจจะไม่เห็นได้ชัดในทันทีนี่เป็นคำแนะนำของ Nick Cox อย่างแม่นยำว่า "ผลรวมของการเบี่ยงเบนกำลังสองจากวิธีการกลุ่มจะทำให้เกิดความคิดที่ชัดเจนที่สุดเท่าที่เป็นไปได้" เขาเป็นคนทั่วไปมากกว่านั้นในส่วน (ฉันสงสัย) เพราะรายได้นี้จะเป็นวิธีการแก้ปัญหาที่ไม่ดี: โดยปกติแล้วคน ๆ หนึ่งจะดีกว่าในการคำนวณในแง่ของรายได้จากบันทึก

— whuber