ฉันจะตอบคำถามของคุณในลำดับตรงกันข้ามที่คุณถามพวกเขาเพื่อให้การแสดงออกที่เกิดขึ้นจากที่เฉพาะเจาะจงกับทั่วไป
ก่อนอื่นให้เราพิจารณาสถานการณ์ที่คุณสามารถสันนิษฐานได้ว่ายกเว้นค่าใช้จ่ายส่วนน้อยค่าใช้จ่ายส่วนใหญ่ของข้อมูลของคุณสามารถอธิบายได้อย่างดีจากการแจกแจงที่รู้จัก (ในกรณีของคุณคือเลขชี้กำลัง
ถ้ามี pdf:x
พีX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
xθ = 0
ตัวประมาณ MLE ปกติของพารามิเตอร์คือ [0, p 506]:
θ^=นาทีผมxผม
และ
σ^= aveผมxผม-นาทีผมxผม
นี่คือตัวอย่างในR
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
MLE ของมี\≈ 2.08σ≈ 2.08
น่าเสียดายที่ MLE ประมาณว่ามีความอ่อนไหวต่อการมีค่าผิดปกติ ตัวอย่างเช่นหากฉันทำให้ตัวอย่างเสียหายโดยแทนที่ 20% ของโดย : - x ixผม- xผม
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
MLE ของขึ้นอยู่กับตัวอย่างที่เสียหายอยู่ในขณะนี้
(!) เป็นตัวอย่างที่สองถ้าฉันทำให้ตัวอย่างเสียหายโดยแทนที่ 20% ของด้วย (พูดว่าทศนิยมตำแหน่งหายไปโดยไม่ตั้งใจ):≈ 11.12 x ฉัน 100 x ฉันσ≈ 11.12xผม100 xผม
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
MLE ของจากตัวอย่างที่เสียหายนี้ที่สองคือตอนนี้
(!)≈ 54σ≈ 54
อีกทางเลือกหนึ่งสำหรับ MLE แบบดิบคือ (a) ค้นหาค่าผิดปกติโดยใช้กฎการระบุค่าผิดปกติที่มีประสิทธิภาพ (b) ตั้งค่าไว้เป็นข้อมูลปลอมและ (c) คำนวณ MLE ในส่วนที่ไม่ใช่ของปลอมตัวอย่าง
ที่รู้จักกันดีที่สุดของกฎการระบุค่าผิดพลาดที่แข็งแกร่งเหล่านี้คือกฎการ med / mad ที่เสนอโดย Hampel [3] ซึ่งอ้างถึง Gauss (ฉันแสดงกฎนี้ที่นี่ ) ในกฎการแพทย์ / บ้าเกณฑ์การปฏิเสธขึ้นอยู่กับข้อสันนิษฐานที่ว่าการสังเกตของแท้ในตัวอย่างของคุณนั้นมีค่าประมาณโดยการแจกแจงแบบปกติ
แน่นอนถ้าคุณมีข้อมูลเพิ่มเติม (เช่นรู้ว่าการกระจายของการสังเกตของแท้นั้นดีพอ ๆ กับการแจกแจงแบบปัวซองในตัวอย่างนี้ ) ไม่มีสิ่งใดที่จะป้องกันไม่ให้คุณเปลี่ยนข้อมูลของคุณและใช้กฎการปฏิเสธก่อนหน้าพื้นฐาน med / mad) แต่สิ่งนี้ทำให้ฉันรู้สึกอึดอัดใจที่จะแปลงข้อมูลเพื่อรักษาสิ่งที่เป็นกฎเฉพาะกิจ
ดูเหมือนว่าฉันจะมีเหตุผลมากขึ้นในการรักษาข้อมูล แต่ปรับกฎการปฏิเสธ จากนั้นคุณจะยังคงใช้ขั้นตอน 3 ขั้นตอนที่ฉันอธิบายในลิงก์แรกด้านบน แต่ด้วยเกณฑ์การปฏิเสธที่ปรับให้เข้ากับการกระจายคุณสงสัยว่าส่วนที่ดีของข้อมูลนั้นมี ด้านล่างนี้ฉันกำหนดกฎการปฏิเสธในสถานการณ์ที่การสังเกตของแท้นั้นเหมาะสมกับการแจกแจงแบบเอ็กซ์โปเนนเชียล ในกรณีนี้คุณสามารถสร้างเกณฑ์การปฏิเสธที่ดีโดยใช้กฎต่อไปนี้:
1) ประมาณโดยใช้ [1]:θ
θ^′=medixi−3.476Qn(x)ln2
Qn เป็นค่าประมาณการกระจายที่แข็งแกร่งซึ่งไม่ได้มุ่งไปที่ข้อมูลสมมาตร มันถูกนำมาใช้อย่างกว้างขวางตัวอย่างเช่นใน R แพคเกจฐานที่สมบูรณ์ สำหรับข้อมูลการแจกแจงเอ็กซ์ Qn จะถูกคูณด้วยปัจจัยความสอดคล้องของดูรายละเอียดเพิ่มเติม [1]≈3.476
2) ปฏิเสธการทำตัวเป็นข้อสังเกตุทั้งหมดนอก [2, p 188]
[θ^′,9(1+2/n)medixi+θ^′]
(ปัจจัย 9 ในกฎข้างต้นได้รับเป็น 7.1 ในคำตอบของ Glen_b ข้างต้น แต่ใช้การตัดที่สูงกว่าปัจจัย (1 + 2 / n) เป็นปัจจัยการแก้ไขตัวอย่างขนาดเล็กที่ได้รับจากการจำลองใน [2] สำหรับขนาดตัวอย่างที่มีขนาดใหญ่พอจะเท่ากับ 1)
3) ใช้ MLE กับข้อมูลที่ไม่ปลอมเพื่อประมาณการ :σ
σ^′=avei∈Hxi−mini∈Hxi
ที่\}H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
ใช้กฎนี้กับตัวอย่างก่อนหน้าคุณจะได้รับ:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
การประมาณการที่แข็งแกร่งของคือตอนนี้
(ใกล้เคียงกับค่า MLE มากเมื่อข้อมูลสะอาด) ในตัวอย่างที่สอง:≈ 2.05σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
การประมาณการที่แข็งแกร่งของ คือตอนนี้
(ใกล้เคียงกับค่าที่เราจะได้รับโดยไม่มีค่าผิดปกติ)≈ 2.2σ≈2.2
ในตัวอย่างที่สาม:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
การประมาณการที่แข็งแกร่งของ คือตอนนี้
(ใกล้เคียงกับค่าที่เราจะได้รับโดยไม่มีค่าผิดปกติ)≈ 2.2σ≈2.2
ข้อดีข้างหนึ่งของวิธีนี้คือมันให้เซตย่อยของดัชนีของการสังเกตผู้ต้องสงสัยซึ่งควรตั้งอยู่ห่างจากข้อมูลที่เหลืออาจจะถูกศึกษาว่าเป็นวัตถุที่น่าสนใจในสิทธิของตนเอง (สมาชิกของ ){i:i∉H}
ทีนี้สำหรับกรณีทั่วไปที่คุณไม่มีการกระจายตัวของผู้สมัครที่ดีเพื่อให้พอดีกับข้อสังเกตของคุณเป็นจำนวนมากโดยไม่ทราบว่าการกระจายแบบสมมาตรจะไม่เกิดขึ้นคุณสามารถใช้ boxplot ที่ปรับแล้วได้ [4] นี่เป็นลักษณะทั่วไปของ boxplot ที่คำนึงถึงการวัดความเบ้ของข้อมูลของคุณ (ไม่ใช่พารามิเตอร์และมีประสิทธิภาพสูงกว่า) (เพื่อที่ว่าเมื่อข้อมูลจำนวนมากสมมาตรจะยุบลงไปที่ boxplot ปกติ) นอกจากนี้คุณยังสามารถตรวจสอบนี้คำตอบสำหรับภาพประกอบ
- [0] Johnson NL, Kotz S. , Balakrishnan N. (1994) Univariate Distributions อย่างต่อเนื่อง, Volume 1, 2nd Edition
- [1] Rousseeuw PJ และ Croux C. (1993) ทางเลือกสู่ Median Absolute Deviation วารสารสมาคมสถิติอเมริกัน 88, หมายเลข 424, pp. 1273--1283
- [2] JK Patel, CH Kapadia และ DB Owen, Dekker (1976) คู่มือการแจกแจงเชิงสถิติ
- [3] Hampel (1974) เส้นโค้งอิทธิพลและบทบาทในการประมาณค่าที่แข็งแกร่ง วารสารสมาคมสถิติอเมริกัน 69, No. 346 (มิ.ย. , 1974), pp. 383-393
- [4] Vandervieren, E. , Hubert, M. (2004) "พล็อตบ็อกซ์ที่ปรับสำหรับการแจกแจงแบบเบ้" สถิติการคำนวณและการวิเคราะห์ข้อมูลเล่มที่ 52 ฉบับที่ 12, 15 สิงหาคม 2008, หน้า 5186–5201
1.5*IQR
คำจำกัดความของค่าผิดปกตินั้นไม่เป็นที่ยอมรับในระดับสากล ลองยกเลิกการโหลดคำถามของคุณและขยายปัญหาที่คุณพยายามแก้ไข