อะนาล็อก 2 มิติของค่าเบี่ยงเบนมาตรฐานหรือไม่


19

ลองพิจารณาการทดลองต่อไปนี้: กลุ่มคนจะได้รับรายชื่อเมืองและขอให้ทำเครื่องหมายสถานที่ที่เกี่ยวข้องบนแผนที่ (ไม่มีป้ายกำกับ) ของโลก สำหรับแต่ละเมืองคุณจะได้รับคะแนนที่กระจายอยู่ตรงกลางของเมืองนั้น ๆ บางเมืองกล่าวว่าอิสตันบูลจะมีการกระเจิงน้อยกว่าเมืองอื่น ๆ

สมมติว่าสำหรับเมืองหนึ่ง ๆ เราจะได้ชุดตัวอย่าง 2Dแทนตำแหน่งของเมือง (เช่นในระบบพิกัดท้องถิ่น) บนแผนที่ที่กำหนดโดยการทดสอบ เรื่องฉันฉันต้องการแสดงจำนวน "การกระจาย" ของคะแนนในชุดนี้เป็นตัวเลขเดียวในหน่วยที่เหมาะสม (กม.){(xi,yi)}(x,y)i

สำหรับปัญหา 1D ฉันจะเลือกค่าเบี่ยงเบนมาตรฐาน แต่มีอะนาล็อก 2 มิติที่สามารถเลือกได้อย่างสมเหตุสมผลสำหรับสถานการณ์ตามที่อธิบายไว้ข้างต้นหรือไม่


ทำพิชิตหรือไม่?
RockScience

ฉันเพิ่มแท็กเชิงพื้นที่ให้ตัวอย่างเป็นเชิงพื้นที่อย่างชัดเจน หากคุณ (หรือคนอื่น ๆ ) รู้สึกว่าคุณไม่จำเป็นที่จะย้อนกลับการเพิ่มนั้น
Andy W

คำตอบ:


12

สิ่งหนึ่งที่คุณสามารถใช้ได้คือการวัดระยะทางจากจุดศูนย์กลางเช่นค่าเฉลี่ยตัวอย่างของคะแนนหรือบางทีเซนทรอยด์ของจุดที่สังเกต จากนั้นการวัดการกระจายตัวจะเป็นระยะทางเฉลี่ยจากจุดศูนย์กลางนั้น:( ¯ x , ¯ y )=(1,2)(x¯,Y¯)

1nΣผม=1n||Zผม-||

ที่\} มีตัวเลือกที่เป็นไปได้มากมายสำหรับการวัดระยะทาง แต่ norm (เช่นระยะทางแบบยูคลิด) อาจเป็นตัวเลือกที่สมเหตุสมผล: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

มีตัวเลือกอื่น ๆ อีกมากมายให้เลือก ดูhttp://en.wikipedia.org/wiki/Norm_%28mathematics%29


ในขณะที่ระยะทางจะไม่ใช่ศูนย์นี่เป็นตัวเลือกที่แปลกเพราะมันไม่เห็นด้วยในกรณีเลวลงด้วยค่าเบี่ยงเบนมาตรฐานปกติในมิติเดียว ดังนั้นให้พิจารณาแทน Zผม-2
Alex R.

6

การอ้างอิงที่ดีเกี่ยวกับตัวชี้วัดสำหรับการกระจายเชิงพื้นที่ของรูปแบบจุดคือคู่มือ CrimeStat (โดยเฉพาะสำหรับคำถามนี้บทที่ 4จะเป็นที่สนใจ) คล้ายกับแมโครตัวชี้วัดที่แนะนำการเบี่ยงเบนระยะทางมาตรฐานคล้ายกับการเบี่ยงเบนมาตรฐาน 2D (ความแตกต่างเพียงอย่างเดียวคือคุณจะหารด้วย "n-2" ไม่ใช่ "n" ในมาโครสูตรแรกที่ให้)

การทดสอบตัวอย่างของคุณทำให้ฉันนึกถึงว่าการศึกษาประเมินการจัดทำโปรไฟล์ผู้กระทำความผิดทางภูมิศาสตร์และด้วยเหตุนี้การวัดที่ใช้ในงานเหล่านั้นอาจเป็นที่สนใจ โดยเฉพาะอย่างยิ่งความแม่นยำของคำศัพท์และความถูกต้องใช้ค่อนข้างน้อยและจะเกี่ยวข้องกับการศึกษา Guesses อาจมีค่าเบี่ยงเบนมาตรฐานเล็กน้อย (เช่นแม่นยำ) แต่ก็ยังมีความแม่นยำต่ำมาก


1

ฉันคิดว่าคุณควรใช้ 'ระยะทาง Mahalanobis' มากกว่าบรรทัดฐานระยะทางแบบยุคลิดเนื่องจากมันคำนึงถึงความสัมพันธ์ของชุดข้อมูลและเป็น 'มาตราส่วนไม่แปรเปลี่ยน' นี่คือลิงค์:

http://en.wikipedia.org/wiki/Mahalanobis_distance

คุณสามารถใช้ 'Half-Space Depth' มันซับซ้อนกว่านี้เล็กน้อย แต่มีคุณสมบัติที่น่าดึงดูดมากมาย ความลึกของพื้นที่ครึ่ง (หรือเรียกอีกอย่างว่าความลึกของที่ตั้ง) ของจุดที่กำหนดสัมพันธ์กับชุดข้อมูล P คือจำนวนจุดต่ำสุดของ P ที่อยู่ใน halfplane ที่ปิดใด ๆ ที่กำหนดโดยเส้นผ่าน a นี่คือลิงค์:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
ฉันเข้าใจการใช้ระยะทาง Mahalanobis เมื่อคุณพยายามที่จะบอกว่าจุดใดเป็น "ของ" ในชุด แต่ไม่ใช่ระยะทางแบบยุคลิดเฉลี่ยจากเซนทรอยด์ที่เกี่ยวข้องกับแนวคิดปกติทั่วไปของความแปรปรวน / ส่วนเบี่ยงเบนมาตรฐานที่ใช้ใน การตั้งค่าที่ไม่เปลี่ยนแปลง?
มาโคร

2
คุณคิดอย่างรอบคอบในข้อความที่ว่า "คำนึงถึงความสัมพันธ์ของข้อมูล" และ "ไม่เปลี่ยนแปลงขนาด" หรือไม่? สิ่งใดที่สิ่งเหล่านี้เกี่ยวข้องกับคำถามในมือ?
Andy W

ส่วนขยายปกติของค่าเบี่ยงเบนมาตรฐานไปสู่มิติที่สูงกว่าเป็นวิธีการคำนวณระยะทางของจุดเฉพาะจากจุดศูนย์กลางของข้อมูล - แต่ที่นี่เรากำลังทำให้เป็นมาตรฐานในแต่ละจุดซึ่งทำให้ง่ายต่อการทำการวิเคราะห์กลุ่มหรือตรวจจับค่าผิดปกติ นอกจากนี้ระยะทาง Mahalanobis ยังปรับตัวได้ดีขึ้นกับกรณีที่การกระจายของจุดไม่กลม สำหรับกรณีสมมาตรทรงกลมมันก็เหมือนกับค่าเบี่ยงเบนมาตรฐานแบบขยายปกติที่เมทริกซ์ความแปรปรวนร่วมของจุดข้อมูลลดลงเป็นเมทริกซ์เอกลักษณ์
VitalStatistix

1

จริง ๆ แล้วฉันพบปัญหาที่คล้ายกันเมื่อไม่นานมานี้ ดูเหมือนว่าคุณต้องการวิธีในการวัดว่าจุดที่กระจัดกระจายอยู่ในพื้นที่นั้นดีแค่ไหน แน่นอนว่าสำหรับการวัดที่กำหนดคุณจะต้องตระหนักว่าหากคะแนนทั้งหมดอยู่ในแนวเส้นตรงคำตอบคือศูนย์เนื่องจากไม่มีความหลากหลายสองมิติ

จากการคำนวณที่ฉันทำนี่คือสิ่งที่ฉันคิดไว้:

SxxSyySxy²

ในกรณีนี้ Sxx และ Syy คือความแปรปรวนของ x และ y ตามลำดับในขณะที่ Sxy นั้นค่อนข้างเหมือนกับความแปรปรวนผสมของ x และ y

ในการทำอย่างละเอียดสมมติว่ามีองค์ประกอบ n และหมายถึงค่าเฉลี่ยของ x และแทนค่าเฉลี่ยของ y:xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

หวังว่านี่จะเหมาะกับคุณ

นอกจากนี้หากคุณสงสัยว่าจะทำอย่างไรในมิติที่สูงกว่าเช่นการวัดปริมาณการแพร่กระจายหรือกลุ่ม surteron ใน 4 มิติคุณจะต้องสร้างเมทริกซ์ดังนี้:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ... ...

และดำเนินการต่อในหลาย ๆ มิติที่คุณต้องการ คุณควรจะสามารถหาค่า S ที่ให้คำจำกัดความที่ให้ไว้ด้านบน แต่สำหรับตัวแปรต่าง ๆ

เมื่อเกิดเมทริกซ์ขึ้นมาแล้วหาดีเทอร์มีแนนต์หาสแควร์รูทแล้วก็เสร็จแล้ว


0

สำหรับตัวอย่างเฉพาะนี้ - ที่มีคำตอบ "ถูกต้อง" ที่กำหนดไว้ล่วงหน้า - ฉันจะทำงาน x / y cooridnates ให้เป็นพิกัดเชิงขั้วรอบเมืองที่พวกเขาถูกขอให้ทำเครื่องหมายบนแผนที่ ความถูกต้องจะถูกวัดแล้วทำให้องค์ประกอบรัศมี (agent, sd, etc. ) "มุมเฉลี่ย" สามารถใช้ในการวัดอคติ

สำหรับตัวฉันเองฉันยังคงมองหาวิธีแก้ปัญหาที่ดีเมื่อไม่มีจุดศูนย์กลางที่กำหนดไว้ล่วงหน้าและไม่ชอบแนวคิดของการส่งผ่านข้อมูลล่วงหน้าเพื่อสร้างเซนทรอยด์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.