หมายถึง SD หรือ Median MAD เพื่อสรุปตัวแปรที่เอียงสูงหรือไม่


11

ฉันกำลังทำงานกับข้อมูลที่เบ้อย่างสูงดังนั้นฉันจึงใช้ค่ามัธยฐานแทนค่าเฉลี่ยเพื่อสรุปแนวโน้มกลาง ฉันต้องการที่จะมีตัวชี้วัดของการกระจายตัวในขณะที่ฉันมักจะเห็นคนรายงานค่าเฉลี่ยเบี่ยงเบนมาตรฐาน±หรือแบ่งควอไทล์±เพื่อสรุปแนวโน้มเข้าสู่ส่วนกลางมันก็โอเคที่จะรายงานค่ามัธยฐานแบ่งกระจายสัมบูรณ์ (MAD)± ? มีปัญหาที่อาจเกิดขึ้นกับวิธีนี้หรือไม่?

ฉันจะพบว่าวิธีนี้มีขนาดกะทัดรัดและใช้งานง่ายกว่าการรายงานควอไทล์ที่ต่ำและสูงโดยเฉพาะในตารางขนาดใหญ่ที่เต็มไปด้วยตัวเลข


3
ฉันคิดว่าค่ามัธยฐานควอไทล์และควอไทล์ร่วมกันจะอธิบายข้อมูลได้ดีขึ้น คุณสามารถค้นหาสถิติเชิงพรรณนาอื่น ๆที่นี่

1
ฉันต้องการรัดกุมที่สุดเท่าที่จะทำได้: ค่ามัธยฐาน +2 ควอไทล์ตกลงหรือไม่
Mulone

4
MAD เป็นสถิติที่ดีสำหรับการแสดงการกระจายของชุดข้อมูล - มันมีความต้านทานต่อค่าผิดปกติได้ดีกว่าช่วง interquartile แต่คุณอาจต้องการคิดว่าค่ามัธยฐาน MAD ของ MAD จะหมายถึงอะไรและผู้ชมของคุณควรตีความมันอย่างไร มันไม่ได้สนุกกับคุณสมบัติเชิงเส้นกำกับหรือ Chebeyshev เดียวกันของ Mean SD นั่นอาจเป็นเหตุผลว่าทำไมการแสดงออกเช่นนี้จึงไม่ค่อยมีใครใช้ ±±±
whuber

1
ฉันมักจะคิดว่า MAD หมายถึงการเบี่ยงเบนค่าเฉลี่ยของอะนาล็อกไปยัง mse ซึ่งก็คือค่าคลาดเคลื่อนกำลังสอง มันคือค่าเฉลี่ยของการเบี่ยงเบนสัมบูรณ์จากค่าเฉลี่ยไม่ใช่ค่ามัธยฐาน ฉันถูกหรือฉันกำลังจะบ้า?
Michael R. Chernick

2
ภาพเป็นพันคำหากเป็นไปได้การแสดงฮิสโตแกรมมีประสิทธิภาพมาก
bdeonovic

คำตอบ:


7

ฉันไม่คิดว่าค่ามัธยฐาน mad เป็นเรื่องปกติที่เหมาะสม ±

คุณสามารถสร้างการแจกแจงแบบง่าย ๆ โดยที่ 50% ของข้อมูลต่ำกว่าค่ามัธยฐานเพียงเล็กน้อยและ 50% ของข้อมูลจะกระจายออกมากกว่าค่ามัธยฐาน - เช่น (4.9,4.9,4.9,4.9,4.9,5,1000000,1000000,1000000,100000) , 1000000) เครื่องหมาย 5 0.10 ดูเหมือนว่าจะแนะนำว่ามีมวลอยู่รอบตัว (ค่ามัธยฐาน + ค่าบ้า ~ = 5.10) และนั่นก็ไม่ได้เป็นเช่นนั้นเสมอไปและคุณก็ไม่ทราบว่ามีมวลขนาดใหญ่ใกล้ 1000000±

ควอไทล์ / ควอไทล์ให้ความคิดที่ดีขึ้นของการแจกแจงโดยใช้หมายเลขพิเศษ - (4.9,5.0,1000000.0) ฉันสงสัยว่ามันเป็นความบังเอิญทั้งหมดที่ความเบ้เป็นช่วงเวลาที่สามและดูเหมือนว่าฉันต้องการตัวเลขสามมิติ / มิติเพื่อให้เห็นภาพการกระจายตัวที่เบ้อย่างสังหรณ์ใจ

ที่กล่าวว่ามีอะไรผิดปกติกับมัน - ฉันแค่โต้เถียงสัญชาติญาณและการอ่านที่นี่ หากคุณใช้มันเพื่อตัวคุณเองหรือทีมของคุณ แต่ฉันคิดว่ามันจะสร้างความสับสนให้กับผู้ชมในวงกว้าง


2
(+1) ฉันต้องการเพิ่มว่านิยามของความเบ้ในแง่ของช่วงเวลาที่สามนั้นไม่ได้รับการยอมรับมากที่สุดในทุกวันนี้เพราะมันสามารถใช้ได้กับการกระจายด้วยหางแสงเท่านั้น คำจำกัดความที่ทันสมัยมากขึ้นของเบ้จะขึ้นอยู่กับ quantiles บางของพวกเขาสามารถพบได้ที่นี่

1
@amoeba มันคืออะไร? หน้า Wikipedia สำหรับ MAD กำหนดว่าเป็นค่ามัธยฐาน (| Xi - Median (X) |) ซึ่งเท่ากับ 0.1 ด้วยข้อมูลที่ได้รับ
Upper_Case

@Upper_Case ขอบคุณ ฉันผิด (ลืมไปประมาณ 5-5 = 0 เทอม) ฉันจะลบความคิดเห็นของฉันด้านบนเพื่อไม่ให้ผู้อ่านในอนาคตสับสน!
อะมีบา

4

การใช้ปริมาณ MAD เพื่อสมมติว่าการแจกแจงแบบพื้นฐานนั้นเป็นแบบสมมาตร หากข้อมูลของคุณเบ้สิ่งนี้ผิดอย่างชัดเจนมันจะนำคุณไปสู่การประเมินความแปรปรวนที่แท้จริงของข้อมูลของคุณ

โชคดีที่คุณสามารถเลือกหนึ่งในหลาย ๆ ทางเลือกของคนบ้าที่มีความแข็งแกร่งเท่าเทียมกันเกือบจะง่ายต่อการคำนวณและไม่ถือว่าสมมาตร

มีลักษณะที่Rousseeuw และ Croux 1992 แนวคิดเหล่านี้จะอธิบายได้ดีที่นี่และดำเนินการที่นี่ ตัวประมาณสองตัวนี้เป็นสมาชิกของคลาส U ที่เรียกว่าสถิติซึ่งมีทฤษฎีที่พัฒนามาอย่างดี


1

"ในบทความนี้มีการศึกษาดัชนีความไม่สมดุลที่แม่นยำยิ่งขึ้นโดยเฉพาะการนำเสนอการใช้ความแปรปรวนทางซ้ายและขวาและดัชนีความไม่สมดุลที่ยึดตามนั้นถูกนำเสนอตัวอย่างหลาย ๆ ตัวอย่างแสดงให้เห็นถึงประโยชน์ของมัน ของข้อมูลเกี่ยวกับค่าเฉลี่ยเกิดขึ้นในการแจกแจงความน่าจะเป็นแบบไม่สมมาตรทั้งหมดเมื่อการกระจายตัวของประชากรนั้นไม่สมมาตรค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) ของชุดข้อมูลไม่ได้ให้ความคิดที่แม่นยำ รูปร่างและสมมาตรโดยเฉพาะมันเป็นที่ถกเถียงกันอยู่ว่าค่าเฉลี่ยความแปรปรวนด้านซ้ายที่เสนอ (หรือส่วนเบี่ยงเบนมาตรฐานด้านซ้าย) และความแปรปรวนด้านขวา

ลิงค์


3
คุณยกนามธรรมของกระดาษและให้สิ่งที่คล้ายกับ URL (ฉันเอาเสรีภาพในการแก้ไขลิงค์) นั่นไม่ใช่คำตอบที่เรากำลังมองหาที่นี่ ฉันขอแนะนำให้คุณแก้ไขคำตอบของคุณและพยายามที่จะเพิ่มความคิดเห็นของคุณเองเกี่ยวกับสาเหตุที่ลิงก์นี้ช่วยตอบคำถาม คำตอบจะดีขึ้นมากหากคุณอธิบายว่าดัชนีความไม่สมดุลนี้สัมพันธ์กับแนวโน้มศูนย์กลางและ MAD อย่างไร
MånsT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.