เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร


28

ฉันกำลังพยายามหาตัวชี้วัดสำหรับการวัดความไม่สม่ำเสมอของการแจกแจงสำหรับการทดลองที่ฉันใช้อยู่ ฉันมีตัวแปรสุ่มที่ควรกระจายอย่างสม่ำเสมอในกรณีส่วนใหญ่และฉันต้องการระบุตัวอย่างของชุดข้อมูลที่และตัวแปรไม่กระจายอย่างสม่ำเสมอภายในระยะขอบ

ตัวอย่างของชุดข้อมูลสามชุดแต่ละชุดมีการวัด 10 ค่าซึ่งแสดงความถี่ของการเกิดสิ่งที่ฉันวัดได้อาจเป็นดังนี้:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

ฉันต้องการแยกความแตกต่างอย่าง c จากสิ่งที่ชอบและ a และวัดความเบี่ยงเบนของ c จากการกระจายแบบสม่ำเสมอ ถ้ามีตัวชี้วัดสำหรับการแจกแจงแบบสม่ำเสมอ (std. การเบี่ยงเบนใกล้กับศูนย์) ฉันอาจจะใช้มันเพื่อแยกแยะสิ่งที่มีความแปรปรวนสูง อย่างไรก็ตามข้อมูลของฉันอาจมีค่าผิดปกติเพียงหนึ่งหรือสองอย่างเช่นตัวอย่าง c ด้านบนและไม่แน่ใจว่าจะสามารถตรวจพบได้อย่างง่ายดาย

ฉันสามารถแฮ็คบางอย่างเพื่อทำสิ่งนี้ในซอฟต์แวร์ แต่ฉันกำลังมองหาวิธีการ / วิธีการทางสถิติเพื่อพิสูจน์ความเป็นทางการนี้ ฉันเข้าเรียนเมื่อหลายปีก่อน แต่สถิติไม่ใช่พื้นที่ของฉัน ดูเหมือนว่าสิ่งที่ควรมีวิธีการที่รู้จักกันดี ขออภัยหากสิ่งนี้มีอาการปวดหัวอย่างสมบูรณ์ ขอบคุณล่วงหน้า!


คำตอบ:


18

หากคุณไม่เพียง แต่มีความถี่ แต่มีจำนวนจริงคุณสามารถใช้การความเหมาะสมของสำหรับชุดข้อมูลแต่ละชุด โดยเฉพาะอย่างยิ่งที่คุณต้องการที่จะใช้สำหรับการทดสอบการกระจายสม่ำเสมอต่อเนื่อง สิ่งนี้ช่วยให้คุณทดสอบได้ดีซึ่งช่วยให้คุณทราบว่าชุดข้อมูลใดที่ไม่น่าจะถูกสร้างขึ้นโดยการกระจายแบบสม่ำเสมอ แต่ไม่ได้ให้การวัดความสม่ำเสมอχ2

มีวิธีการอื่น ๆ ที่เป็นไปได้เช่นการคำนวณเอนโทรปีของแต่ละซีรีย์ - การกระจายแบบสม่ำเสมอทำให้เอนโทรปีมีค่าสูงสุดดังนั้นหากเอนโทรปีต่ำอย่างน่าสงสัยคุณจะสรุปได้ว่าคุณอาจไม่มีการกระจายแบบสม่ำเสมอ ที่ทำงานเป็นตัวชี้วัดของความสม่ำเสมอในบางแง่

ข้อเสนอแนะอีกข้อหนึ่งก็คือการใช้การวัดแบบKullback-Leibler divergenceซึ่งเป็นการวัดความคล้ายคลึงกันของการแจกแจงสองแบบ


ฉันมีคำถามสองสามข้อเกี่ยวกับคำตอบของคุณ: 1. ทำไมคุณถึงระบุว่าไคสแควร์ไม่ได้ให้ความเท่าเทียมกัน? การทดสอบแบบไม่พอดีกับการกระจายเครื่องแบบเป็นการวัดความสม่ำเสมอใช่หรือไม่ 2. เราจะรู้ได้อย่างไรว่าเราควรใช้ไคสแควร์หรือเอนโทรปีเมื่อใด
kanzen_master

@kanzen_master: ฉันเดาว่าสถิติไค - สแควร์สามารถมองเห็นได้ว่าเป็นรูปแบบของความเท่าเทียม แต่มีข้อเสียบางประการเช่นการขาดการบรรจบกันการพึ่งพาถังขยะที่วางไว้โดยพลการ จะมีขนาดใหญ่พอสมควร ฯลฯ ซึ่งการวัด / ทดสอบการใช้เป็นเรื่องของรสนิยมและเอนโทรปีก็ไม่ได้มีปัญหาเช่นกัน (โดยเฉพาะอย่างยิ่งมีตัวประมาณค่าต่างๆของเอนโทรปีของการแจกแจง) สำหรับฉันแล้วเอนโทรปีดูเหมือนจะเป็นมาตรการที่ไม่เจาะจงและตีความได้ง่ายกว่า
MånsT

8

นอกจากความคิดที่ดีของ @MansT แล้วคุณสามารถหามาตรการอื่น ๆ ได้ แต่ขึ้นอยู่กับความหมายของ "ความไม่สม่ำเสมอ" เพื่อให้ง่ายลองดูที่ 4 ระดับ ความสม่ำเสมอที่สมบูรณ์แบบนั้นง่ายต่อการกำหนด:

25 25 25 25

แต่ข้อใดต่อไปนี้มากกว่ากัน?

20 20 30 30 หรือ 20 20 25 35

หรือว่าพวกเขาไม่เท่าเทียมกัน?

หากคุณคิดว่าพวกเขาไม่เท่ากันคุณสามารถใช้การวัดตามผลรวมของค่าสัมบูรณ์ของการเบี่ยงเบนจากปกติปรับขนาดโดยค่าสูงสุดที่เป็นไปได้ จากนั้นอันแรกคือ 5 + 5 + 5 + 5 = 20 และอันที่สองคือ 5 + 5 + 0 + 10 = 20 แต่ถ้าคุณคิดว่าอันที่สองเป็นแบบไม่รวมคุณสามารถใช้อะไรก็ได้ตามการเบี่ยงเบนกำลังสองซึ่งในกรณีนี้ ก่อนได้รับ 25 +25 + 25 + 25 = 100 และที่สองได้รับ 25 +25 + 0 + 100 = 150


1
คุณดูเหมือนจะตีความว่า "แจกจ่ายอย่างสม่ำเสมอ" เป็น "เท่ากับ" ปีเตอร์ ไม่ว่าจะเป็นความตั้งใจของ OP เป็นจุดที่ถูกต้องที่จะยกระดับ แต่จริงๆควรปรากฏเป็นความคิดเห็นคำถาม
whuber

สวัสดี @whuber นั่นดูเหมือนจะเป็นสิ่งที่เขาหมายถึงจากคำถาม มันหมายความว่าอะไร?
Peter Flom - Reinstate Monica

2
"เท่าเทียมกัน" หมายถึง CDF คือสำหรับx μ , F ( x ) = 0สำหรับx < μขณะที่ "เหมือนกัน" หมายความว่าF ( x ) = ( x - α ) / θสำหรับx [ α , α + θ ] คุณกำหนด "ความสม่ำเสมอที่สมบูรณ์แบบ" ในความหมายแรกในขณะที่ความรู้สึกทางสถิติมาตรฐานคือที่สองF(x)=1xμF(x)=0x<μF(x)=(x-α)/θx[α,α+θ]
whuber

@whuber สำหรับฉันดูเหมือนว่าสิ่งแรกที่ใกล้เคียงกับความหมายของโปสเตอร์ต้นฉบับโดย "เครื่องแบบ" ดูอีกครั้งดูเหมือนว่าเขา / เธอกำลังใช้ "เครื่องแบบ" เพื่อหมายถึง "ความแปรปรวนต่ำ"
มาโคร

แค่นั้นแหละแมโคร: เราไม่สามารถพูดได้จริงๆ คำถามต้องการคำชี้แจงก่อนที่จะสมควรได้รับคำตอบ IMHO คำตอบที่ยอมรับได้แสดงให้เห็นว่า OP ใช้ "เครื่องแบบ" ในความหมายทางสถิติมาตรฐาน
whuber

6

นี่คือฮิวริสติกแบบเรียบง่าย: ถ้าคุณสมมติว่าองค์ประกอบในผลรวมเวกเตอร์ใด ๆ ถึง (หรือทำให้มาตรฐานแต่ละองค์ประกอบเป็นปกติด้วยผลรวมเพื่อให้ได้สิ่งนี้) ดังนั้นความสม่ำเสมอสามารถแทนด้วย L2 norm ซึ่งมีค่าตั้งแต่11ไป1กับdเป็นมิติของเวกเตอร์1d1d

ขอบเขตล่างสอดคล้องกับความสม่ำเสมอและขอบเขตบนกับเวกเตอร์1-hot1d1

ในการปรับขนาดให้เป็นคะแนนระหว่างถึง1คุณสามารถใช้n 01โดยที่nคือค่าเฉลี่ย L2n* * * *d-1d-1n

1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

0.00280.00510.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Lพี

@ ใครที่ฉันไม่รู้และไม่รู้งานวิจัยเกี่ยวกับเรื่องนี้ โดยพื้นฐานแล้วมันเป็นบางสิ่งที่ฉันใช้เป็นฮิวริสติกซึ่งอาจเหมาะสมกับ OP หลังจากนั้นและฉันไม่ได้อ้างว่ามันเป็นแนวทางที่ต้องการ
user495285

@whuber - คุณคิดออกว่าทำไมมันถึงได้ผลดี ฉันต้องการอ้างอิงนี้
Ketan

@ user495285 - สิ่งนี้ดูเหมือนจะทำงานโดยตรงกับค่าและไม่เพียง แต่ความถี่ จากประสบการณ์ของคุณควรใช้เฉพาะกับความถี่หรือดีกว่าที่จะใช้กับเวกเตอร์โดยตรง
Ketan

L2χ2

0

สะดุดเมื่อเร็ว ๆ นี้และเพื่อเพิ่มคำตอบจาก @ user495285 เท่าที่ฉันเข้าใจ:

RnLพีพีRnพี

L2พี

nd-1d-1
nL2d

ฉันเชื่อว่าประโยชน์ของการวัดทางเรขาคณิตจะใช้เมื่อแต่ละตำแหน่ง (มิติ) ของพื้นที่ที่อธิบายไว้ถูกสันนิษฐานว่าวัดได้ในระดับที่เท่ากันเช่นจำนวนทั้งหมดของการแจกแจงที่เท่ากัน สมมติฐานที่เหมือนกันการเปลี่ยนแปลงพื้นฐานของฐานเช่น PCA / SVD อาจจะคล้ายกันที่นี่ แต่อีกครั้งฉันไม่มีนักคณิตศาสตร์ดังนั้นฉันจะปล่อยให้เปิดให้ข้อมูลเพิ่มเติม


ฟังดูมีประโยชน์ คุณช่วยชี้ฉันอ้างอิงบางอย่างเพื่อให้ฉันสามารถเข้าใจสิ่งนี้ดีขึ้นได้ไหม ฉันต้องพูดถึงเรื่องนี้จริงๆ
Ketan

คุณสามารถอ้างอิงข้อความพีชคณิตเชิงเส้นใด ๆ ที่ครอบคลุมบรรทัดฐาน Lp; นี่เป็นเรื่องทั่วไปมากในเรขาคณิต: วิธีการคำนวณระยะห่างระหว่างจุดสองจุดในพื้นที่มิติ N คุณอาจไม่จำเป็นต้องอ้างอิงมันขึ้นอยู่กับสาขาของคุณ
lakinsm
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.