การใช้ค่ามัธยฐานสำหรับการคำนวณผลต่าง


10

ฉันมีตัวแปรสุ่ม 1 มิติซึ่งเบ้มาก เพื่อเป็นการทำให้การกระจายนี้เป็นแบบปกติฉันต้องการใช้ค่ามัธยฐานแทนค่าเฉลี่ย คำถามของฉันคือ: ฉันสามารถคำนวณความแปรปรวนของการแจกแจงโดยใช้ค่ามัธยฐานในสูตรแทนค่าเฉลี่ยได้หรือไม่?

เช่นฉันสามารถแทนที่

VaR(X)=Σ[(Xผม-ม.อีan(X))2]/n

กับ

VaR(X)=Σ[(Xผม-ม.อีdผมan(X))2]/n

เหตุผลของฉันคือสิ่งนี้เนื่องจากความแปรปรวนเป็นตัวชี้วัดการกระจายของแนวโน้มที่กระจายตัวมันไม่น่าจะมีปัญหา แต่ฉันต้องการตรวจสอบตรรกะนี้



1
โดยแบ่งกึ่งกลางตัวแปรของคุณแล้วหารด้วย MAD (ค่าเบี่ยงเบนสัมบูรณ์มัธยฐาน) คุณสามารถสร้างการแจกแจงมาตรฐานแบบมัธยฐาน
Mike Hunter

5
คุณสามารถทำได้! แต่ฉันคิดว่ามันยุติธรรมที่จะเรียกมันว่าไม่ได้มาตรฐานสูงและแนะนำว่าคุณต้องใช้ทฤษฎีและ / หรือแบบจำลองเพื่อสำรองข้อมูลไม่ใช่แค่สัญชาตญาณของคุณ ฉันสงสัยว่ามันจะทนน้อยกว่าตัวประมาณมาตรฐาน ตัวอย่างเช่นในกรณีที่เอียงขวาทั่วไปค่ามัธยฐานจะน้อยกว่าค่าเฉลี่ยดังนั้นค่าเบี่ยงเบนกำลังสองที่ใหญ่ที่สุด (จากค่ามัธยฐาน) จึงใหญ่ขึ้น! จุดสำคัญคือถ้าความแปรปรวนไม่น่าเชื่อถือมากคุณอาจต้องคิดเกี่ยวกับการวัดการแพร่กระจายที่แตกต่างกันค่อนข้างมากกว่ารุ่นที่แตกต่างของความแปรปรวน
Nick Cox

1
จุดมุมฉาก: "ปรับมาตรฐาน" หมายถึงขนาดในบางวิธีเช่น (ค่า -ตำแหน่ง) / มาตราส่วนหรือมันหมายถึงทำให้ใกล้กว่าปกติ (เสียน)?
Nick Cox

1
วิธีนี้ไม่สอดคล้องกันโดยเนื้อแท้เนื่องจากปัญหาที่ได้รับการแก้ไขด้วยการเปลี่ยนค่าเฉลี่ยโดยเฉลี่ยถูกขยายโดยใช้ความแปรปรวนแทนการประมาณค่าที่แข็งแกร่งของสเปรด
whuber

คำตอบ:


9

ลดความหมายถึงข้อผิดพลาดยกกำลังสอง (หรือ L2 บรรทัดฐานดูที่นี่หรือที่นี่ ) ทางเลือกธรรมชาติเพื่อให้ความแปรปรวนไปเป็นระยะทางวัดจากค่าเฉลี่ยคือการใช้ข้อผิดพลาดยกกำลังสอง (ดูที่นี่เกี่ยวกับเหตุผลที่เราไอทีสแควร์) ในทางตรงข้ามค่ามัธยฐานจะลดความผิดพลาดสัมบูรณ์ (L1 norm) นั่นคือมันเป็นค่าที่อยู่ใน "กลาง" ของข้อมูลของคุณดังนั้นระยะทางที่แน่นอนจากค่ามัธยฐาน (เรียกว่าMedian Absolute Deviationหรือ MAD) น่าจะเป็น วัดระดับความแปรปรวนรอบ ๆ ได้ดีกว่า คุณสามารถอ่านเพิ่มเติมเกี่ยวกับความสัมพันธ์นี้ในหัวข้อนี้

กล่าวโดยย่อความแปรปรวนแตกต่างจาก MAD ว่าพวกเขากำหนดจุดศูนย์กลางของข้อมูลของคุณอย่างไรและสิ่งนี้จะมีผลต่อวิธีที่เราวัดความแปรปรวนของ datapoints รอบ ๆ มัน การกระจายค่าทำให้ค่าผิดปกติมีผลต่อจุดศูนย์กลาง (หมายถึง) มากขึ้นในขณะที่ในกรณีของค่ามัธยฐานจุดทั้งหมดจะมีผลกระทบเหมือนกันดังนั้นระยะทางที่แน่นอนน่าจะเหมาะสมกว่า

สิ่งนี้สามารถแสดงได้ด้วยการจำลองอย่างง่าย หากคุณเปรียบเทียบค่าระยะทางยกกำลังสองจากค่าเฉลี่ยและค่ามัธยฐานระยะทางรวมทั้งหมดนั้นจะเล็กกว่าค่าเฉลี่ยมากกว่าจากค่ามัธยฐาน ในขณะที่ระยะทางสัมบูรณ์รวมนั้นน้อยกว่าค่ามัธยฐาน รหัส R สำหรับการจำลองสถานการณ์ได้โพสต์ไว้ด้านล่าง

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

ในกรณีของการใช้ค่ามัธยฐานแทนค่าเฉลี่ยในการประมาณ "ความแปรปรวน" เช่นนี้จะนำไปสู่การประมาณการที่สูงขึ้นกว่าการใช้ค่าเฉลี่ยตามที่ทำแบบดั้งเดิม

โดยวิธีการความสัมพันธ์ของบรรทัดฐาน L1 และ L2 สามารถพิจารณาได้ในบริบทของ Bayesian เช่นเดียวกับในหัวข้อนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.