การวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) เช่นค่าสัมประสิทธิ์การแปรผัน - IQR / ค่ามัธยฐานหรือทางเลือก?


12

สำหรับชุดข้อมูลที่กำหนดการแพร่กระจายมักจะคำนวณเช่นค่าเบี่ยงเบนมาตรฐานหรือเป็น IQR (ช่วงควอไทล์ระหว่าง)

ในขณะที่ a standard deviationอยู่ในเกณฑ์ปกติ (คะแนน z, ฯลฯ ) และสามารถนำมาใช้เพื่อเปรียบเทียบการแพร่กระจายจากประชากรสองกลุ่มที่แตกต่างกันนี่ไม่ใช่กรณีที่มี IQR เนื่องจากตัวอย่างจากประชากรสองคนที่แตกต่างกันอาจมีค่าในระดับที่แตกต่างกันสองระดับ

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

สิ่งที่ฉันตามมาคือการวัดที่แข็งแกร่ง (ไม่ใช่พารามิเตอร์) ที่ฉันสามารถใช้เพื่อเปรียบเทียบการเปลี่ยนแปลงภายในประชากรที่แตกต่างกัน

ทางเลือกที่ 1: IQR / Median- นี้จะเป็นโดยการเปรียบเทียบกับค่าสัมประสิทธิ์ของการเปลี่ยนแปลงคือการหมู่}σμ

ตัวเลือก 2: Range / IQR

คำถาม: มาตรการใดที่มีความหมายมากขึ้นสำหรับการเปรียบเทียบความแปรปรวนระหว่างประชากร? และถ้าเป็นตัวเลือกที่ 1 ตัวเลือก 2 มีประโยชน์สำหรับสิ่งใด / มีความหมายหรือเป็นมาตรการที่มีข้อบกพร่องพื้นฐานหรือไม่


ขอบคุณสำหรับการอภิปรายที่เป็นประโยชน์มาก การติดตามผลที่เป็นประโยชน์ - คำจำกัดความที่แตกต่างกันของควอไทล์และด้วยเหตุนี้ IQR (จอห์น) ส่วนเบี่ยงเบนมาตรฐานที่ไม่ได้เป็นมาตรฐาน (ฮาร์วีย์) และ QQ แปลงเป็นเครื่องมือในการเปรียบเทียบการแจกแจงสองแบบ (ปีเตอร์) (+1 กับคำตอบทั้งสามข้อ!)
Assad Ebrahim

คำตอบ:


13

คำถามแสดงให้เห็นว่าค่าเบี่ยงเบนมาตรฐาน (SD) เป็นมาตรฐานอย่างใดดังนั้นจึงสามารถนำมาใช้เพื่อเปรียบเทียบความแปรปรวนของประชากรสองคนที่แตกต่างกัน ไม่เช่นนั้น ดังที่ Peter และ John กล่าวว่าการทำให้เป็นมาตรฐานนี้นั้นทำขึ้นเมื่อคำนวณค่าสัมประสิทธิ์การเปลี่ยนแปลง (CV) ซึ่งเท่ากับ SD / Mean SD อยู่ในหน่วยเดียวกับข้อมูลต้นฉบับ ในทางตรงกันข้าม CV เป็นอัตราส่วนต่อหน่วย

ทางเลือกของคุณ 1 (IQR / Median) คล้ายกับประวัติย่อ เช่นเดียวกับประวัติย่อก็จะเหมาะสมเมื่อข้อมูลเป็นข้อมูลอัตราส่วน นี่หมายความว่าศูนย์เป็นศูนย์จริง ๆ น้ำหนักของศูนย์คือไม่มีน้ำหนัก ความยาวของศูนย์คือความยาว ตามตัวอย่างที่เคาน์เตอร์มันจะไม่สมเหตุสมผลกับอุณหภูมิใน C หรือ F เนื่องจากอุณหภูมิศูนย์องศา (C หรือ F) ไม่ได้หมายความว่าไม่มีอุณหภูมิ เพียงสลับไปมาระหว่างการใช้ระดับ C หรือ F จะให้ค่าที่แตกต่างสำหรับ CV หรืออัตราส่วนของ IQR / Median ซึ่งทำให้อัตราส่วนทั้งสองนั้นไม่มีความหมาย

ฉันเห็นด้วยกับปีเตอร์และจอห์นว่าความคิดที่สองของคุณ (Range / IQR) จะไม่แข็งแกร่งมากเมื่อเทียบกับค่าผิดปกติดังนั้นอาจไม่เป็นประโยชน์


2
ฮาร์วีย์ - ขอบคุณ - คุณพูดถูกSDไม่ได้เป็นมาตรฐานเลย ... ฉันสับสนกับแนวคิดของz-scoresการกำหนดค่ามาตรฐานและทำให้สถานะของพวกเขาเป็นมาตรฐานภายในการกระจายในแง่ของค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานด้วยปัญหานี้ เป็นเรื่องเกี่ยวกับความสามารถในการจัดอันดับกลุ่มผลิตภัณฑ์ตามลำดับความแปรปรวน การเลือกคำตอบของคุณเป็นคำตอบที่ถูกต้องเพราะในขณะที่ทั้งปีเตอร์และจอห์นต่างก็ให้ความช่วยเหลือดีมาก ข้อดีของตัวเลือกที่ 1 คือการใช้งานที่ จำกัด ใกล้กับค่ามัธยฐาน 0 โชคดีที่ปัญหาของฉันฉันไม่ต้องกังวลเกี่ยวกับสิ่งนี้
Assad Ebrahim

ฉันต้องการใช้สิ่งนี้ในกระดาษ มีสถานที่ที่ดีที่จะอ้างอิง (หนังสือ / ที่ไหนสักแห่งที่ผ่านการตรวจสอบจากเพื่อน)?
Ben Bolker

15

สิ่งสำคัญคือการตระหนักถึงค่าต่ำสุดและสูงสุดมักจะไม่ใช้สถิติที่ดีมาก (เช่นพวกเขาสามารถเปลี่ยนแปลงอย่างมากจากกลุ่มตัวอย่างไปยังกลุ่มตัวอย่างและไม่ปฏิบัติตามการแจกแจงแบบปกติว่าค่าเฉลี่ยอาจเกิดจากทฤษฎีขีด จำกัด กลาง) . ดังนั้นช่วงนี้จึงไม่ค่อยเป็นตัวเลือกที่ดีสำหรับสิ่งอื่นใดนอกจากจะระบุช่วงของตัวอย่างที่แน่นอนนี้ สำหรับสถิติที่ไม่ใช้พารามิเตอร์อย่างง่ายเพื่อแสดงความแปรปรวน Inter-Quartile Range นั้นดีกว่ามาก อย่างไรก็ตามในขณะที่ฉันเห็นการเปรียบเทียบระหว่าง IQR / มัธยฐานกับสัมประสิทธิ์การแปรปรวนฉันไม่คิดว่ามันน่าจะเป็นตัวเลือกที่ดีที่สุด

คุณอาจต้องการดูค่าเบี่ยงเบนสัมบูรณ์มัธยฐานจากค่ามัธยฐาน ( MADM ) นั่นคือ: ฉันสงสัยว่าการเปรียบเทียบแบบไม่มีพารามิเตอร์ที่ดีกว่ากับค่าสัมประสิทธิ์การแปรผันจะเป็น MADM / มัธยฐานมากกว่า IQR / มัธยฐาน

MADM=median(|ximedian(x)|)

1
ทางเลือกที่น่าสนใจMADM/medianส่วนใหญ่คือความแตกต่างตรงกลางจากค่ากลาง มาเรียกตัวเลือกนี้กันเถอะ 3. เห็นด้วยกับการประเมินตัวเลือก 1 ของคุณขอบคุณมาก เมื่อคุณแนะนำ 'ดีกว่า' คุณลักษณะใดที่อาจใช้เปรียบเทียบตัวเลือก 2 กับตัวเลือก 3 เพื่อดูว่าตัวเลือกใดดีกว่า
Assad Ebrahim

1
แอตทริบิวต์ที่คุณจะใช้จะขึ้นอยู่กับเป้าหมายของการวัดของคุณ อย่างไรก็ตามฉันหมายความว่ามันเป็นการเปรียบเทียบที่ดีกว่าสำหรับ CoV หมายเหตุ: ควอไทล์ที่ 3 คือค่ามัธยฐานของข้อมูลของคุณที่อยู่เหนือค่ามัธยฐานและค่าที่ 1 คือค่ามัธยฐานของค่าด้านล่างดังนั้น IQR / 2 ในระยะยาวจะเท่ากับ MADM (nb พวกเขาจะไม่รับประกันว่าจะเท่ากัน ในตัวอย่างที่กำหนด) IQR จะแตกต่างออกไปมากขึ้นเรื่อย ๆ จากคุณค่าที่แท้จริงในป๊อป แต่ฉันไม่แน่ใจว่าจะมีความหมายอะไรที่จะมี & ที่ยืนหากมี ทำผิดพลาด ของ IQR / 2 ควรเหมือนกับ SE ของ MADM
gung - Reinstate Monica

ฉันเห็นขอบคุณสำหรับการชี้แจง ข้อดีของการตีความค่ามัธยฐานของไตรมาสที่ 3 และไตรมาสที่ 1 ฉันจะให้ลองควบคู่ไปกับMADM/median IQR/medianการเปรียบเทียบแบบเคียงข้างกันอาจน่าสนใจ (+1 สำหรับคำแนะนำที่น่าสนใจ)
Assad Ebrahim

6

"ตัวเลือกที่ 1" คือสิ่งที่คุณต้องการหากคุณกำลังใช้พารามิเตอร์ที่ไม่ใช้เพื่อจุดประสงค์ทั่วไปในการลดผลกระทบของค่าผิดปกติ แม้ว่าคุณจะใช้มันเพราะความเบ้ที่มีผลข้างเคียงของการมีค่ามากในหางซึ่งอาจเป็นค่าผิดปกติ "ตัวเลือกที่ 2" ของคุณอาจได้รับผลกระทบอย่างมากจากค่าผิดปกติหรือค่าที่สูงมากในขณะที่องค์ประกอบของสมการแรกของคุณนั้นค่อนข้างแข็งแกร่งสำหรับพวกเขา

[สิ่งนี้จะขึ้นอยู่กับชนิดของ IQR ที่คุณเลือกเพียงเล็กน้อย (ดูวิธีใช้ R สำหรับควอไทล์)]


คุณกำลังขวาฉันควรจะได้กล่าวว่า "นี่คือคล้ายคลึงกับความหมายของค่าสัมประสิทธิ์ของการเปลี่ยนแปลง ... (คงที่ขณะนี้อยู่ในคำถาม)!
อัสซาดเอบราฮิม

ขอบคุณสำหรับความคิดเห็นที่ขึ้นอยู่กับ IQR ที่คุณเลือก ... - ฉันไม่ได้ตระหนักว่ามีคำจำกัดความที่เป็นไปได้มากมายสำหรับควอไทล์ / ควอไทล์! ฉันใช้ Excel ในตัวฟังก์ชั่นและจากนั้นการquartile( ) IQR := Q3 - Q1ตัวเลขของฉันมาจากชุดเวลาของการวัดรายสัปดาห์ในรอบปี การวัดเป็นการวัดประสิทธิภาพอุตสาหกรรมและจากการกระจายอย่างต่อเนื่อง ประชากรที่แตกต่างกันคือกลุ่มผลิตภัณฑ์ที่แตกต่างกัน ในสถานการณ์เช่นนี้ฉันไม่คิดว่าคำจำกัดความที่แตกต่างกันจะแตกต่างกันมากในทางปฏิบัติ?
Assad Ebrahim

6

ฉันไม่ต้องการคำนวณมาตรการเช่น CV เพราะฉันมักจะมีจุดกำเนิดตามอำเภอใจสำหรับตัวแปรสุ่ม เกี่ยวกับทางเลือกของการวัดการกระจายตัวที่แข็งแกร่งมันเป็นการยากที่จะเอาชนะความแตกต่างของค่าเฉลี่ยของ Gini ซึ่งเป็นค่าเฉลี่ยของความแตกต่างแบบสัมบูรณ์ที่เป็นไปได้ทั้งหมดของความแตกต่างระหว่างการสังเกตสองแบบ สำหรับการคำนวณที่มีประสิทธิภาพดูตัวอย่างฟังก์ชันR rmspackage GiniMdภายใต้กฎเกณฑ์ปกติค่าเฉลี่ยของความแตกต่างของ Gini เท่ากับ 0.98 เท่ากับ SD สำหรับการประเมินการกระจายตัว


3

เช่นเดียวกับ @John ฉันไม่เคยได้ยินคำนิยามของสัมประสิทธิ์การเปลี่ยนแปลงนั้น ฉันจะไม่เรียกมันว่าถ้าฉันใช้มันจะทำให้ผู้คนสับสน

"อันไหนมีประโยชน์มากที่สุด?" จะขึ้นอยู่กับสิ่งที่คุณต้องการใช้ ตัวเลือกที่ 1 แน่นอนว่าแข็งแกร่งกว่าค่าผิดปกติถ้าคุณแน่ใจว่าเป็นสิ่งที่คุณต้องการ แต่จุดประสงค์ของการเปรียบเทียบการแจกแจงสองแบบคืออะไร คุณพยายามจะทำอะไร?

ทางเลือกหนึ่งคือสร้างมาตรฐานของมาตรการทั้งสองแล้วดูที่บทสรุป

อีกอย่างคือพล็อต QQ

มีคนอื่นอีกมากมายเช่นกัน


จุดดี - ควรจะพูดคล้ายกับค่าสัมประสิทธิ์ของการเปลี่ยนแปลง (ฉันได้ทำการแก้ไข)
Assad Ebrahim

ตัวเลขของฉันมาจากชุดเวลาของการวัดรายสัปดาห์ในรอบปี การวัดเป็นการวัดประสิทธิภาพอุตสาหกรรมและจากการกระจายอย่างต่อเนื่อง ประชากรที่แตกต่างกันคือกลุ่มผลิตภัณฑ์ที่แตกต่างกันและฉันมีกลุ่มผลิตภัณฑ์ประมาณ 50 กลุ่ม สิ่งที่ฉันพยายามทำคือสามารถเปรียบเทียบความแปรปรวนโดยธรรมชาติระหว่างกลุ่มผลิตภัณฑ์ต่างๆ โดยเฉพาะอย่างยิ่งฉันต้องการที่จะสามารถจัดอันดับกลุ่มผลิตภัณฑ์ในลำดับที่ลดลงของความแปรปรวน
Assad Ebrahim

คุณหมายถึง 'มาตรฐานทั้งสองมาตรการแล้วดูที่บทสรุป' ฉันคิดว่าตัวเลือกที่ 1 ทำให้พวกเขาเป็นมาตรฐาน ... !
Assad Ebrahim

2

บทความนี้นำเสนอทางเลือกที่ดีสองทางสำหรับสัมประสิทธิ์การแปรผัน หนึ่งคือช่วง interquartileหารด้วยค่ามัธยฐานนั่นคือ:

IQR / มัธยฐาน = (Q3-Q1) / ค่ามัธยฐาน

อีกอันคือความเบี่ยงเบนสัมบูรณ์มัธยฐานหารด้วยมัธยฐานนั่นคือ:

MAD / เฉลี่ย

พวกเขาเปรียบเทียบพวกเขาและสรุปการพูดทั่วไปที่สองคือตัวแปรน้อยกว่าเล็กน้อยและน่าจะดีกว่าสำหรับการใช้งานส่วนใหญ่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.