การตรวจสอบก่อนหน้านี้เกี่ยวกับการแจกแจงแบบเบ้


24

ภายใต้นิยามคลาสสิกของค่าผิดปกติเป็นจุดข้อมูลที่อยู่ด้านนอก 1.5 * IQR จากควอไทล์ชั้นบนหรือล่างมีการสันนิษฐานของการแจกแจงแบบไม่เอียง สำหรับการแจกแจงแบบเบ้ (เอกซ์โพเนนเชียลปัวซองเรขาคณิต ฯลฯ ) เป็นวิธีที่ดีที่สุดในการตรวจหาค่าผิดปกติโดยการวิเคราะห์การแปลงฟังก์ชันดั้งเดิมหรือไม่?

ตัวอย่างเช่นการแจกแจงแบบกระจายที่ควบคุมโดยการแจกแจงแบบเอ็กซ์โพเนนเชียลสามารถถูกแปลงด้วยฟังก์ชันบันทึก - ณ จุดไหนที่สามารถยอมรับค่าผิดปกติตามนิยาม IQR เดียวกันได้หรือไม่?


4
มีคำถามมากมายในเว็บไซต์นี้เกี่ยวกับการประเมินผู้ผิด สิ่งหนึ่งที่คุณต้องเพิ่มที่นี่เพื่อรับคำตอบที่สมเหตุสมผลคือสิ่งที่คุณพยายามทำหรือค้นหา แต่สำหรับผู้เริ่มต้น1.5*IQRคำจำกัดความของค่าผิดปกตินั้นไม่เป็นที่ยอมรับในระดับสากล ลองยกเลิกการโหลดคำถามของคุณและขยายปัญหาที่คุณพยายามแก้ไข
จอห์น

คำแถลงว่าค่าเกินกว่า 1.5 IQR เป็นค่าผิดปกติเป็นเรื่องไร้สาระ ข้อมูลที่เกินกว่า 1.5 IQR จะสอดคล้องกับการแจกแจงแบบไม่ จำกัด จำนวนและเมื่อขนาดของกลุ่มตัวอย่างมีขนาดใหญ่เราสามารถมั่นใจได้อย่างสมบูรณ์แบบว่าข้อมูลดังกล่าวไม่ใช่ค่าผิดปกติ
wolfies

คำตอบ:


18

ภายใต้นิยามคลาสสิกของค่าผิดปกติเป็นจุดข้อมูลที่อยู่ด้านนอก 1.5 * IQR จากควอไทล์บนหรือล่าง

นี่เป็นกฎสำหรับการระบุจุดที่อยู่ด้านนอกของเคราในรูปแบบกล่อง Tukey ไม่ต้องสงสัยเลยว่าจะเรียกพวกมันว่าผิดบนพื้นฐานนี้ (เขาไม่จำเป็นต้องคำนึงถึงประเด็นที่อยู่นอกขีด จำกัด เหล่านั้นเป็นตัวผิด) สิ่งเหล่านี้ค่อนข้างจะเป็นจุดที่ - หากข้อมูลของคุณคาดว่ามาจากการแจกจ่ายที่ค่อนข้างคล้ายกับการแจกแจงแบบปกติ - อาจมีการตรวจสอบเพิ่มเติม (เช่นการตรวจสอบว่าคุณไม่ได้ทำการแปลงตัวเลขสองหลัก) อาจเป็นค่าผิดปกติที่อาจเกิดขึ้น ในฐานะที่เป็นนิคคอคส์ชี้ให้เห็นในความคิดเห็นภายใต้คำตอบนี้หางของคะแนนดังกล่าวจำนวนมากจะถูกนำมาเป็นตัวบ่งชี้ว่าการแสดงออกอีกครั้งอาจจะเหมาะสมกว่าการบ่งชี้ของความจำเป็นที่จะต้องพิจารณาจุดที่ผิด

มีข้อสันนิษฐานของการแจกแจงแบบไม่เอียง

ฉันสันนิษฐานโดย 'ไม่เอียง' คุณหมายถึงสมมาตร จากนั้นสมมติฐานก็เป็นมากกว่านั้น การกระจายแบบเทลด์หนัก แต่สมมาตรอาจมีหลายจุดนอกขอบเขตบนกฎนั้น

สำหรับการแจกแจงแบบเบ้ (เอกซ์โพเนนเชียลปัวซองเรขาคณิต ฯลฯ ) เป็นวิธีที่ดีที่สุดในการตรวจหาค่าผิดปกติโดยการวิเคราะห์การแปลงฟังก์ชันดั้งเดิมหรือไม่?

ขึ้นอยู่กับว่าสิ่งใดถือเป็นค่าผิดสำหรับวัตถุประสงค์ของคุณ ไม่มีคำจำกัดความเดียวที่เหมาะสมสำหรับแต่ละวัตถุประสงค์ - โดยทั่วไปคุณน่าจะทำสิ่งอื่น ๆ ได้ดีกว่า (พูด) เลือกคนผิดและละเว้นพวกเขา

สำหรับเลขชี้กำลังหรือรูปทรงเรขาคณิตคุณอาจทำการคำนวณแบบเดียวกันกับกล่องสี่เหลี่ยม แต่จะระบุเศษส่วนที่คล้ายกันในหางขวาเท่านั้น (คุณจะไม่มีจุดต่ำสุดที่ระบุไว้ในเลขชี้กำลังหรือเรขาคณิต) ... หรือคุณอาจทำอย่างอื่น

ในตัวอย่างขนาดใหญ่กล่องเครื่องหมายมีคะแนนประมาณ 0.35% ของคะแนนที่ปลายแต่ละด้านหรือทั้งหมดประมาณ 0.7% สำหรับเลขชี้กำลังคุณอาจทำเครื่องหมายมัธยฐานหลาย ๆ ค่าตัวอย่างเช่น หากคุณต้องการติดแท็กคะแนนโดยรวมประมาณ 0.7% สำหรับเลขชี้กำลังจริงขอแนะนำให้ทำเครื่องหมายคะแนนเกินกว่าค่ามัธยฐานประมาณ 7.1 เท่า

คะแนนการทำเครื่องหมายที่สูงกว่า 7.1 เท่าค่ามัธยฐานของ n = 1,000 โดยทั่วไปจะมีค่าระหว่าง 0.4% ถึง 1.1% ของค่า:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

ตัวอย่างเช่นการแจกแจงแบบกระจายที่ควบคุมโดยการแจกแจงแบบเอ็กซ์โพเนนเชียลสามารถถูกแปลงด้วยฟังก์ชันบันทึก - ณ จุดไหนที่สามารถยอมรับค่าผิดปกติตามนิยาม IQR เดียวกันได้หรือไม่?

ทั้งหมดขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "ยอมรับ" โปรดทราบว่า -

i) การกระจายตัวที่เกิดขึ้นนั้นไม่ได้มีความสมมาตร แต่จะเอียงไปทางซ้ายอย่างชัดเจน

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นโดยปกติคุณจะทำเครื่องหมายเฉพาะจุดที่อยู่ทางซ้ายสุด (เช่นใกล้กับศูนย์ซึ่งคุณคาดว่าจะมีค่าเลขชี้กำลังอยู่แล้ว) แทนที่จะอยู่ด้านขวา (ซึ่งอาจเป็น "ค่าผิดปกติ") เว้นแต่ว่าเป็นค่าจริงสุดขีด

ii) ความเหมาะสมของกฎดังกล่าวจะขึ้นอยู่กับสิ่งที่คุณทำ

หากคุณกังวลเกี่ยวกับค่าแปลก ๆ ที่มีผลต่อการอนุมานของคุณโดยทั่วไปคุณน่าจะใช้วิธีการที่มีประสิทธิภาพมากกว่าการระบุค่าผิดปกติ

หากคุณต้องการใช้กฎตามปกติสำหรับการแปลงเลขชี้กำลังหรือข้อมูลปัวซองอย่างน้อยฉันก็ขอแนะนำให้นำไปใช้กับสแควร์รูทสำหรับปัวซอง (ตราบใดที่ค่าเฉลี่ยไม่น้อยเกินไป มันควรจะเป็นปกติธรรมดา ๆ ) และกับคิวบ์รูทหรือแม้แต่รูทที่สี่สำหรับเลขชี้กำลัง (และบางทีอาจเป็นโดยการขยายเรขาคณิต)

หรือบางที , ในขณะที่Anscombe เปลี่ยนX+38

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับเลขชี้กำลังในตัวอย่างขนาดใหญ่วิธีคิวบ์รูทจะมีแนวโน้มที่จะทำเครื่องหมายจุดเฉพาะที่หางส่วนบน (ที่อัตราเดียวกับที่ทำเครื่องหมายไว้ที่หางส่วนบนสำหรับปกติ) และวิธีที่สี่ทำเครื่องหมายจุดในหางทั้งสอง (เพิ่มที่หางล่างเล็กน้อยรวมอยู่ที่ประมาณ 40% ของอัตราปกติ) ในความเป็นไปได้รูทคิวบ์นั้นมีเหตุผลสำหรับฉันมากกว่าอีกสองอัน แต่ฉันไม่จำเป็นต้องแนะนำให้ใช้นี่เป็นกฎที่ยากและรวดเร็ว


1
การกระจายแบบเทลด์ แต่สมมาตรอาจมีหลายจุดนอกขอบเขตของกฎนั้น มี 50% ของคะแนนทั้งหมดใน IQR เสมอใช่มั้ย
JulienD

2
@muraveill แน่นอน - แต่ไม่มี 0.7% ของคะแนนนอกซึ่งเป็นกฎ boxplot ที่อยู่ภายใต้การสนทนา (Q11.5×IQR,Q3+1.5×IQR)
Glen_b

@Glen_b เกณฑ์การปฏิเสธส่วนบนสำหรับเอ็กซ์โพเนนเชียลในคำตอบของคุณถือว่าเป็นที่รู้กันว่าพารามิเตอร์กะ (หรือทีต้า) ฉันคิดว่าควรพูดถึงเรื่องนี้
user603

1
@ user603 คำว่า "การแจกแจงแบบเอ็กซ์โปเนนเชียล " (ดูที่นี่ด้วย ) โดยไม่มีการแก้ไขคำคุณศัพท์ใด ๆ (เช่น "shifted" หรือ "สองพารามิเตอร์") ตามอัตภาพส่วนใหญ่อ้างถึงรุ่นหนึ่งพารามิเตอร์ บางคนเรียกรุ่นที่มีการเลื่อนว่า "การแจกแจงเอ็กซ์โพเนนเชียล" แต่มันค่อนข้างหายาก พบได้บ่อยกว่าการโทรแบบกระจายแบบเลื่อนที่กระจายแบบ "การกระจายแบบ lognormal" เพียงเล็กน้อยเท่านั้น
Glen_b

1
@ user603 โอ้ขออภัยการสื่อสารผิดพลาดแบบง่าย - ในกรณีนี้ใช่ฉันไม่คิดว่าเรามีความเห็นที่ขัดแย้งกัน - ที่ซึ่งมีความเป็นไปได้ที่จะมีค่าผิดปกติขนาดใหญ่ทางด้านซ้ายวิธีที่ฉันกล่าวถึงไม่สมเหตุสมผลเลย ฉันแค่ไม่ได้พยายามที่จะจัดการกับสถานการณ์ที่อาจเกิดขึ้น (แต่ในการป้องกันของฉันมันไม่ได้ดูเหมือนฉันเหมือน OP ถือว่าเป็นความเป็นไปได้ - ฉันสงสัยว่าการบันทึกจะต้องคำนึงถึงถ้าเป็น)
Glen_b

14

ฉันจะตอบคำถามของคุณในลำดับตรงกันข้ามที่คุณถามพวกเขาเพื่อให้การแสดงออกที่เกิดขึ้นจากที่เฉพาะเจาะจงกับทั่วไป

ก่อนอื่นให้เราพิจารณาสถานการณ์ที่คุณสามารถสันนิษฐานได้ว่ายกเว้นค่าใช้จ่ายส่วนน้อยค่าใช้จ่ายส่วนใหญ่ของข้อมูลของคุณสามารถอธิบายได้อย่างดีจากการแจกแจงที่รู้จัก (ในกรณีของคุณคือเลขชี้กำลัง

ถ้ามี pdf:x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

ตัวประมาณ MLE ปกติของพารามิเตอร์คือ [0, p 506]:

θ^=minixi

และ

σ^=aveiximinixi

นี่คือตัวอย่างในR:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

MLE ของมี\2.08σ2.08

น่าเสียดายที่ MLE ประมาณว่ามีความอ่อนไหวต่อการมีค่าผิดปกติ ตัวอย่างเช่นหากฉันทำให้ตัวอย่างเสียหายโดยแทนที่ 20% ของโดย : - x ixixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

MLE ของขึ้นอยู่กับตัวอย่างที่เสียหายอยู่ในขณะนี้ (!) เป็นตัวอย่างที่สองถ้าฉันทำให้ตัวอย่างเสียหายโดยแทนที่ 20% ของด้วย (พูดว่าทศนิยมตำแหน่งหายไปโดยไม่ตั้งใจ):11.12 x ฉัน 100 x ฉันσ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

MLE ของจากตัวอย่างที่เสียหายนี้ที่สองคือตอนนี้ (!)54σ54

อีกทางเลือกหนึ่งสำหรับ MLE แบบดิบคือ (a) ค้นหาค่าผิดปกติโดยใช้กฎการระบุค่าผิดปกติที่มีประสิทธิภาพ (b) ตั้งค่าไว้เป็นข้อมูลปลอมและ (c) คำนวณ MLE ในส่วนที่ไม่ใช่ของปลอมตัวอย่าง

ที่รู้จักกันดีที่สุดของกฎการระบุค่าผิดพลาดที่แข็งแกร่งเหล่านี้คือกฎการ med / mad ที่เสนอโดย Hampel [3] ซึ่งอ้างถึง Gauss (ฉันแสดงกฎนี้ที่นี่ ) ในกฎการแพทย์ / บ้าเกณฑ์การปฏิเสธขึ้นอยู่กับข้อสันนิษฐานที่ว่าการสังเกตของแท้ในตัวอย่างของคุณนั้นมีค่าประมาณโดยการแจกแจงแบบปกติ

แน่นอนถ้าคุณมีข้อมูลเพิ่มเติม (เช่นรู้ว่าการกระจายของการสังเกตของแท้นั้นดีพอ ๆ กับการแจกแจงแบบปัวซองในตัวอย่างนี้ ) ไม่มีสิ่งใดที่จะป้องกันไม่ให้คุณเปลี่ยนข้อมูลของคุณและใช้กฎการปฏิเสธก่อนหน้าพื้นฐาน med / mad) แต่สิ่งนี้ทำให้ฉันรู้สึกอึดอัดใจที่จะแปลงข้อมูลเพื่อรักษาสิ่งที่เป็นกฎเฉพาะกิจ

ดูเหมือนว่าฉันจะมีเหตุผลมากขึ้นในการรักษาข้อมูล แต่ปรับกฎการปฏิเสธ จากนั้นคุณจะยังคงใช้ขั้นตอน 3 ขั้นตอนที่ฉันอธิบายในลิงก์แรกด้านบน แต่ด้วยเกณฑ์การปฏิเสธที่ปรับให้เข้ากับการกระจายคุณสงสัยว่าส่วนที่ดีของข้อมูลนั้นมี ด้านล่างนี้ฉันกำหนดกฎการปฏิเสธในสถานการณ์ที่การสังเกตของแท้นั้นเหมาะสมกับการแจกแจงแบบเอ็กซ์โปเนนเชียล ในกรณีนี้คุณสามารถสร้างเกณฑ์การปฏิเสธที่ดีโดยใช้กฎต่อไปนี้:

1) ประมาณโดยใช้ [1]:θ

θ^=medixi3.476Qn(x)ln2

Qn เป็นค่าประมาณการกระจายที่แข็งแกร่งซึ่งไม่ได้มุ่งไปที่ข้อมูลสมมาตร มันถูกนำมาใช้อย่างกว้างขวางตัวอย่างเช่นใน R แพคเกจฐานที่สมบูรณ์ สำหรับข้อมูลการแจกแจงเอ็กซ์ Qn จะถูกคูณด้วยปัจจัยความสอดคล้องของดูรายละเอียดเพิ่มเติม [1]3.476

2) ปฏิเสธการทำตัวเป็นข้อสังเกตุทั้งหมดนอก [2, p 188]

[θ^,9(1+2/n)medixi+θ^]

(ปัจจัย 9 ในกฎข้างต้นได้รับเป็น 7.1 ในคำตอบของ Glen_b ข้างต้น แต่ใช้การตัดที่สูงกว่าปัจจัย (1 + 2 / n) เป็นปัจจัยการแก้ไขตัวอย่างขนาดเล็กที่ได้รับจากการจำลองใน [2] สำหรับขนาดตัวอย่างที่มีขนาดใหญ่พอจะเท่ากับ 1)

3) ใช้ MLE กับข้อมูลที่ไม่ปลอมเพื่อประมาณการ :σ

σ^=aveiHximiniHxi

ที่\}H={i:θ^xi9(1+2/n)medixi+θ^}

ใช้กฎนี้กับตัวอย่างก่อนหน้าคุณจะได้รับ:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

การประมาณการที่แข็งแกร่งของคือตอนนี้ (ใกล้เคียงกับค่า MLE มากเมื่อข้อมูลสะอาด) ในตัวอย่างที่สอง:2.05σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

การประมาณการที่แข็งแกร่งของ คือตอนนี้ (ใกล้เคียงกับค่าที่เราจะได้รับโดยไม่มีค่าผิดปกติ)2.2σ2.2

ในตัวอย่างที่สาม:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

การประมาณการที่แข็งแกร่งของ คือตอนนี้ (ใกล้เคียงกับค่าที่เราจะได้รับโดยไม่มีค่าผิดปกติ)2.2σ2.2

ข้อดีข้างหนึ่งของวิธีนี้คือมันให้เซตย่อยของดัชนีของการสังเกตผู้ต้องสงสัยซึ่งควรตั้งอยู่ห่างจากข้อมูลที่เหลืออาจจะถูกศึกษาว่าเป็นวัตถุที่น่าสนใจในสิทธิของตนเอง (สมาชิกของ ){i:iH}

ทีนี้สำหรับกรณีทั่วไปที่คุณไม่มีการกระจายตัวของผู้สมัครที่ดีเพื่อให้พอดีกับข้อสังเกตของคุณเป็นจำนวนมากโดยไม่ทราบว่าการกระจายแบบสมมาตรจะไม่เกิดขึ้นคุณสามารถใช้ boxplot ที่ปรับแล้วได้ [4] นี่เป็นลักษณะทั่วไปของ boxplot ที่คำนึงถึงการวัดความเบ้ของข้อมูลของคุณ (ไม่ใช่พารามิเตอร์และมีประสิทธิภาพสูงกว่า) (เพื่อที่ว่าเมื่อข้อมูลจำนวนมากสมมาตรจะยุบลงไปที่ boxplot ปกติ) นอกจากนี้คุณยังสามารถตรวจสอบนี้คำตอบสำหรับภาพประกอบ

  • [0] Johnson NL, Kotz S. , Balakrishnan N. (1994) Univariate Distributions อย่างต่อเนื่อง, Volume 1, 2nd Edition
  • [1] Rousseeuw PJ และ Croux C. (1993) ทางเลือกสู่ Median Absolute Deviation วารสารสมาคมสถิติอเมริกัน 88, หมายเลข 424, pp. 1273--1283
  • [2] JK Patel, CH Kapadia และ DB Owen, Dekker (1976) คู่มือการแจกแจงเชิงสถิติ
  • [3] Hampel (1974) เส้นโค้งอิทธิพลและบทบาทในการประมาณค่าที่แข็งแกร่ง วารสารสมาคมสถิติอเมริกัน 69, No. 346 (มิ.ย. , 1974), pp. 383-393
  • [4] Vandervieren, E. , Hubert, M. (2004) "พล็อตบ็อกซ์ที่ปรับสำหรับการแจกแจงแบบเบ้" สถิติการคำนวณและการวิเคราะห์ข้อมูลเล่มที่ 52 ฉบับที่ 12, 15 สิงหาคม 2008, หน้า 5186–5201

1

ก่อนอื่นฉันจะถามความหมายคลาสสิกหรืออย่างอื่น "นอก" เป็นจุดที่น่าแปลกใจ การใช้กฎเฉพาะใด ๆ (แม้สำหรับการแจกแจงแบบสมมาตร) เป็นความคิดที่มีข้อบกพร่องโดยเฉพาะอย่างยิ่งทุกวันนี้เมื่อมีชุดข้อมูลขนาดใหญ่จำนวนมาก ในชุดข้อมูลของ (สังเกต) หนึ่งล้านการสังเกต (ไม่ใช่ทั้งหมดที่ใหญ่ในบางสาขา) จะมีหลายกรณีที่เกินขีด จำกัด IQR 1.5 ที่คุณอ้างถึงแม้ว่าการแจกแจงเป็นเรื่องปกติอย่างสมบูรณ์

ประการที่สองฉันขอแนะนำให้ค้นหาค่าผิดปกติจากข้อมูลต้นฉบับ มันจะใช้งานง่ายกว่า ตัวอย่างเช่นด้วยข้อมูลรายได้เป็นเรื่องปกติที่จะบันทึก แต่ที่นี่ฉันก็จะมองหาค่าผิดปกติในระดับเดิม (ดอลลาร์หรือยูโรหรืออะไรก็ตาม) เพราะเรามีความรู้สึกที่ดีกว่าสำหรับตัวเลขดังกล่าว (ถ้าคุณใช้บันทึกฉันขอแนะนำล็อกฐาน 10 อย่างน้อยสำหรับการตรวจหาค่าผิดปกติเพราะอย่างน้อยก็ใช้งานง่าย)

ประการที่สามเมื่อมองหาค่าผิดปกติระวังการหลอกลวง

ในที่สุดฉันกำลังค้นคว้าอัลกอริทึม "การค้นหาไปข้างหน้า" ที่เสนอโดย Atkinson และ Riani สำหรับข้อมูลและปัญหาต่างๆ สิ่งนี้ดูมีแนวโน้มมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.