การระบุค่าผิดปกติสำหรับการถดถอยเชิงเส้น


11

ฉันกำลังวิจัยเกี่ยวกับการตอบสนองการทำงานของไร ฉันต้องการทำการถดถอยเพื่อประเมินพารามิเตอร์ (อัตราการโจมตีและเวลาจัดการ) ของฟังก์ชัน Rogers type II ฉันมีชุดข้อมูลของการวัด ฉันจะกำหนดค่าผิดปกติได้ดีที่สุดอย่างไร

สำหรับการถดถอยของฉันฉันใช้สคริปต์ต่อไปนี้ใน R (การถดถอยเชิงเส้นที่ไม่ใช่): (dateet เป็นไฟล์ข้อความ 2 คอลัมน์แบบง่าย ๆ ที่เรียกว่าdata.txtไฟล์ที่มีN0ค่า (จำนวนเหยื่อเริ่มต้น) และFRค่า (จำนวนเหยื่อกินในช่วง 24 ชั่วโมง):

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

สำหรับการพล็อตกราฟ calssic residual ฉันใช้สคริปต์ต่อไปนี้:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

คำถาม

  • ฉันจะกำหนดจุดข้อมูลใดได้ดีที่สุด
  • มีการทดสอบที่ฉันสามารถใช้ใน R ซึ่งมีวัตถุประสงค์และแสดงให้ฉันเห็นจุดข้อมูลที่เป็นค่าผิดปกติหรือไม่?

คำตอบ:


9

การทดสอบค่าผิดปกติหลายครั้งรวมถึง Dixon และ Grubb's มีอยู่ในoutliersแพ็คเกจใน R สำหรับรายการการทดสอบโปรดดูเอกสารประกอบของแพ็คเกจ การอ้างอิงที่อธิบายการทดสอบนั้นจะมีให้ในหน้าช่วยเหลือสำหรับฟังก์ชันที่เกี่ยวข้อง

ในกรณีที่คุณวางแผนที่จะลบค่าผิดปกติออกจากข้อมูลของคุณโปรดจำไว้ว่านี่ไม่แนะนำให้ทำเสมอ ดูตัวอย่างคำถามนี้สำหรับการสนทนาเกี่ยวกับเรื่องนี้ (รวมถึงคำแนะนำเพิ่มเติมเกี่ยวกับวิธีการตรวจหาค่าผิดปกติ)


8

ฉันไม่ใช่นักสถิติ ดังนั้นฉันจึงใช้ความรู้จากผู้เชี่ยวชาญเกี่ยวกับข้อมูลเพื่อค้นหาค่าผิดปกติ คือผมมองหาทางกายภาพชีวภาพ / / สิ่งเหตุผลที่ทำให้วัดบางแตกต่างจากคนอื่น ๆ

ในกรณีของฉันที่เป็นเช่น

  • รังสีคอสมิกเกิดความสับสนส่วนหนึ่งของสัญญาณที่วัดได้
  • มีคนเข้ามาในห้องแล็บเปิดไฟ
  • แค่สเป็คตรัมทั้งหมดก็ดูแตกต่างกัน
  • ซีรีย์การวัดแรกถูกถ่ายในช่วงเวลาทำงานปกติและเป็นคำสั่งของเสียงรบกวนที่ดังกว่าซีรีส์ 22:00

แน่นอนคุณสามารถบอกเราลักษณะพิเศษที่คล้ายกัน

โปรดทราบว่าจุดที่ 3 ของฉันแตกต่างจากจุดอื่น: ฉันไม่รู้ว่าเกิดอะไรขึ้น นี่อาจเป็นค่าผิดปกติที่คุณถาม อย่างไรก็ตามโดยไม่ทราบว่าเกิดจากอะไร (และสาเหตุนี้ทำให้ข้อมูลเป็นโมฆะ) มันเป็นการยากที่จะบอกว่าไม่ควรปรากฏในชุดข้อมูล นอกจากนี้ค่าผิดปกติของคุณอาจเป็นตัวอย่างที่น่าสนใจที่สุดของฉัน ...

ดังนั้นฉันมักจะไม่พูดถึงค่าผิดปกติ แต่เป็นจุดข้อมูลที่น่าสงสัย สิ่งนี้จะเตือนทุกคนว่าพวกเขาจำเป็นต้องได้รับการตรวจสอบซ้ำสำหรับความหมายของพวกเขา

ไม่ว่าจะเป็นการดีหรือไม่ที่จะแยกข้อมูล (ผู้ที่ต้องการค้นหาผู้ผิดเพียงเพื่อประโยชน์ของการมีข้อมูลเหล่านั้น) ขึ้นอยู่กับงานในมือและสิ่งที่ "เงื่อนไขขอบเขต" สำหรับงานนั้นคืออะไร ตัวอย่างบางส่วน:

  • คุณเพิ่งค้นพบสายพันธุ์ย่อยของ Joachimii outlierensis ใหม่ ;-) ไม่มีเหตุผลที่จะยกเว้นพวกเขา ยกเว้นคนอื่น ๆ ทั้งหมด

  • คุณต้องการที่จะทำนายเวลาของการล่าไร หากเป็นที่ยอมรับได้ในการ จำกัด การคาดการณ์ในบางเงื่อนไขคุณสามารถกำหนดสิ่งเหล่านี้และยกเว้นตัวอย่างอื่น ๆ ทั้งหมดและบอกว่าแบบจำลองการทำนายของคุณเกี่ยวข้องกับสถานการณ์นี้หรือสถานการณ์นั้นแม้ว่าคุณจะรู้สถานการณ์อื่นแล้ว

  • โปรดทราบว่าการแยกข้อมูลด้วยความช่วยเหลือของการวิเคราะห์แบบจำลองสามารถสร้างการพยากรณ์แบบตอบสนองด้วยตนเองหรืออคติที่เกินความเป็นจริง (เช่นถ้าคุณอ้างว่าวิธีการของคุณนั้นมีผลบังคับใช้): ตัวอย่างเพิ่มเติมที่คุณแยกออก สมมติฐานที่ดีกว่าคือสมมติฐานที่พบโดยกลุ่มตัวอย่างที่เหลือ แต่เป็นเพราะการกันตัวเท่านั้น

  • ขณะนี้ฉันมีงานที่ทำอยู่ซึ่งมีการวัดที่ไม่ดีมากมาย (ฉันรู้เหตุผลทางกายภาพว่าทำไมฉันจึงพิจารณาการวัดที่ไม่ดี) และอีกสองสามอย่างที่ "ดูแปลก" สิ่งที่ฉันทำคือฉันแยกตัวอย่างเหล่านี้ออกจาก trainig ของแบบจำลอง (predicitve) แต่แยกทดสอบแบบจำลองด้วยสิ่งเหล่านี้เพื่อที่ฉันจะได้พูดอะไรบางอย่างเกี่ยวกับความทนทานของแบบจำลองของฉันกับค่าผิดปกติประเภทที่ฉันรู้ว่าจะเกิดขึ้นทุกครั้ง ในขณะที่ ดังนั้นแอปพลิเคชันอย่างใดหรืออื่น ๆ ต้องจัดการกับค่าผิดปกติเหล่านี้

  • อีกวิธีหนึ่งในการดูค่าผิดปกติคือถามว่า: "พวกเขามีอิทธิพลต่อโมเดลของฉันมากแค่ไหน" (การงัด). จากมุมมองนี้คุณสามารถวัดความทนทานหรือความมั่นคงตามตัวอย่างการฝึกอบรมที่แปลกประหลาด

  • ไม่ว่าคุณใช้วิธีการทางสถิติแบบใดมันจะไม่ระบุค่าผิดปกติใด ๆ หรือมีผลบวกปลอม คุณสามารถกำหนดลักษณะการทดสอบที่ผิดปกติเช่นการทดสอบวินิจฉัยอื่น ๆ : มันมีความไวและความจำเพาะและ - สำคัญกว่าสำหรับคุณ - พวกมันสอดคล้อง (ผ่านสัดส่วนที่เกินในข้อมูลของคุณ) เป็นค่าพยากรณ์เชิงบวกและลบ กล่าวอีกนัยหนึ่งโดยเฉพาะอย่างยิ่งหากข้อมูลของคุณมีค่าผิดปกติน้อยมากความน่าจะเป็นที่กรณีที่ระบุโดยการทดสอบค่าจริงนั้นเป็นค่าผิดพลาด (เช่นไม่ควรอยู่ในข้อมูล) อาจต่ำมาก
    ฉันเชื่อว่าความรู้จากผู้เชี่ยวชาญเกี่ยวกับข้อมูลในมือมักจะดีกว่าการตรวจจับค่าผิดปกติมากกว่าการทดสอบทางสถิติ: การทดสอบนั้นดีพอ ๆ กับสมมติฐานที่อยู่เบื้องหลัง และขนาดที่เหมาะกับทุกคนมักไม่ดีสำหรับการวิเคราะห์ข้อมูล อย่างน้อยฉันมักจะจัดการกับค่าผิดปกติประเภทหนึ่งซึ่งผู้เชี่ยวชาญ (เกี่ยวกับการวัดแบบนั้น) ไม่มีปัญหาในการระบุส่วนที่แน่นอนของสัญญาณที่ถูกบุกรุกในขณะที่กระบวนการอัตโนมัติมักจะล้มเหลว (มันง่ายที่จะตรวจสอบว่ามี ปัญหา แต่ยากมากที่จะให้พวกเขาค้นหาว่าปัญหาเริ่มต้นที่ใดและสิ้นสุดที่ไหน)


มีข้อมูลที่ดีมากมายที่นี่ ฉันชอบกระสุนโดยเฉพาะอย่างยิ่ง # 4 & 5
gung - Reinstate Monica

4

สำหรับค่าผิดปกติที่ไม่แปรนั้นมีการทดสอบอัตราส่วนของ Dixon และการทดสอบของ Grubbs โดยถือว่าเป็นปกติ ในการทดสอบค่าผิดปกติคุณต้องสมมติการกระจายตัวของประชากรเพราะคุณกำลังพยายามแสดงให้เห็นว่าค่าที่สังเกตได้นั้นมากหรือผิดปกติที่จะมาจากการกระจายตัวที่สันนิษฐาน ฉันมีกระดาษใน American Statisticsian ในปี 1982 ที่ฉันอาจจะอ้างถึงที่นี่ก่อนซึ่งแสดงให้เห็นว่าการทดสอบอัตราส่วนของ Dixon สามารถใช้ในกลุ่มตัวอย่างขนาดเล็กแม้สำหรับการแจกแจงแบบไม่ปกติบางอย่าง Chernick, MR (1982) "หมายเหตุเกี่ยวกับความทนทานของอัตราส่วน Dixon ในตัวอย่างเล็ก ๆ " สถิติอเมริกันหน้า 140 สำหรับค่าผิดปกติหลายตัวแปรและค่าผิดปกติในอนุกรมเวลาฟังก์ชันอิทธิพลสำหรับการประมาณค่าพารามิเตอร์เป็นมาตรการที่มีประโยชน์ในการตรวจหาค่าผิดปกติ ของการทดสอบที่เป็นทางการซึ่งสร้างขึ้นสำหรับพวกเขาแม้ว่าการทดสอบดังกล่าวเป็นไปได้)"ค่าผิดปกติในข้อมูลทางสถิติ"สำหรับการรักษารายละเอียดวิธีการตรวจจับค่าผิดปกติ


3

ดูhttp://www.waset.org/journals/waset/v36/v36-45.pdf "ในการตรวจสอบค่าผิดปกติในการถดถอยแบบไม่เชิงเส้น" [ sic ]

นามธรรม

การตรวจจับค่าผิดปกติมีความสำคัญมากเนื่องจากความรับผิดชอบในการสร้างปัญหาการตีความขนาดใหญ่ในเชิงเส้นและในการวิเคราะห์การถดถอยเชิงเส้น งานจำนวนมากประสบความสำเร็จในการระบุค่าผิดปกติในการถดถอยเชิงเส้น แต่ไม่ใช่ในการถดถอยเชิงเส้น ในบทความนี้เรานำเสนอเทคนิคการตรวจจับค่าผิดปกติหลายประการสำหรับการถดถอยแบบไม่เชิงเส้น แนวคิดหลักคือการใช้การประมาณเชิงเส้นของโมเดลที่ไม่ใช่เชิงเส้นและพิจารณาการไล่ระดับสีเป็นเมทริกซ์การออกแบบ จากนั้นจึงทำการสร้างเทคนิคการตรวจจับ หกมาตรการการตรวจจับได้รับการพัฒนาซึ่งรวมกับเทคนิคการประมาณค่าสามแบบเช่น Least-Squares, M และ MM-estimators จากการศึกษาแสดงให้เห็นว่าในบรรดามาตรการทั้งหกนั้นมีเพียงเศษเหลือของนักเรียนและระยะทางในการประกอบอาหารเท่านั้นซึ่งรวมกับตัวประมาณ MM


+1 แม้จะมีปัญหาชัดเจนเกี่ยวกับภาษาอังกฤษ (และในการเรียงพิมพ์ทางคณิตศาสตร์) บทความนี้ดูเหมือนจะมีประโยชน์สำหรับคำถาม
whuber

2

ค่าผิดปกติเป็นจุดที่ "ไกลเกินไป" จาก "พื้นฐานบางอย่าง" เคล็ดลับคือการกำหนดวลีเหล่านั้นทั้งสอง! ด้วยการถดถอยแบบไม่เชิงเส้นเราไม่สามารถใช้วิธีการที่ไม่เปลี่ยนแปลงเพื่อดูว่าค่าผิดปกตินั้นอยู่ไกลเกินกว่าเส้นโค้งที่เหมาะสมที่สุดหรือไม่เพราะค่าที่ออกมานั้นมีอิทธิพลอย่างมากต่อเส้นโค้ง

Ron Brown และฉันพัฒนาวิธีการที่ไม่เหมือนใคร (ซึ่งเราเรียกว่า ROUT - การถดถอยที่แข็งแกร่งและการกำจัดค่าผิดปกติ) สำหรับการตรวจจับค่าผิดปกติด้วยการถดถอยแบบไม่เชิงเส้นโดยไม่ปล่อยให้ค่าผิดปกติส่งผลต่อเส้นโค้งมากเกินไป ขั้นแรกให้พอดีกับข้อมูลด้วยวิธีการถดถอยที่แข็งแกร่งที่ค่าผิดปกติมีอิทธิพลน้อย นั่นเป็นพื้นฐาน จากนั้นใช้แนวคิดของ False Discovery Rate (FDR) เพื่อกำหนดเมื่อจุดนั้น "ไกลเกินไป" จากเส้นฐานนั้นและเป็นค่าผิดปกติ ในที่สุดมันจะลบค่าผิดปกติที่ระบุและเหมาะสมกับจุดที่เหลือตามอัตภาพ

วิธีการนี้ตีพิมพ์ในวารสาร Access open: Motulsky HJ และ Brown RE, การตรวจจับค่าผิดปกติเมื่อข้อมูลที่เหมาะสมกับการถดถอยแบบไม่เชิงเส้น - วิธีการใหม่บนพื้นฐานการถดถอยแบบไม่เชิงเส้นที่แข็งแกร่งและอัตราการค้นพบที่ผิดพลาด BMC Bioinformatics 2006, 7: 123 นี่คือนามธรรม:

พื้นหลัง. การถดถอยแบบไม่เชิงเส้นเช่นการถดถอยเชิงเส้นถือว่าการกระจายของข้อมูลรอบ ๆ เส้นโค้งในอุดมคตินั้นเกิดจากการกระจายแบบเกาส์เซียนหรือแบบปกติ สมมติฐานนี้นำไปสู่เป้าหมายที่คุ้นเคยของการถดถอย: เพื่อลดผลรวมของกำลังสองของระยะทางแนวดิ่งหรือค่า Y ระหว่างจุดและเส้นโค้ง Outliers สามารถครอบงำการคำนวณผลรวมของสี่เหลี่ยมและนำไปสู่ผลลัพธ์ที่ทำให้เข้าใจผิด อย่างไรก็ตามเรารู้ว่าไม่มีวิธีการปฏิบัติสำหรับการระบุค่าผิดปกติเป็นประจำเมื่อปรับเส้นโค้งด้วยการถดถอยแบบไม่เชิงเส้น

ผล. เราอธิบายวิธีการใหม่สำหรับการระบุค่าผิดปกติเมื่อทำการปรับข้อมูลให้เหมาะสมกับการถดถอยแบบไม่เชิงเส้น ก่อนอื่นเราใส่ข้อมูลโดยใช้รูปแบบที่แข็งแกร่งของการถดถอยแบบไม่เชิงเส้นตามสมมติฐานที่กระจายตามการกระจาย Lorentzian เราคิดค้นวิธีการปรับตัวใหม่ที่ค่อยๆแข็งแกร่งขึ้นเมื่อวิธีดำเนินการ ในการกำหนดค่าผิดปกติเราปรับวิธีอัตราการค้นพบที่ผิดพลาดเพื่อจัดการเปรียบเทียบหลายอย่าง จากนั้นเราจะลบค่าผิดปกติและวิเคราะห์ข้อมูลโดยใช้การถดถอยกำลังสองน้อยที่สุดธรรมดา เนื่องจากวิธีการรวมการถดถอยที่มีประสิทธิภาพและการกำจัดค่าผิดปกติเราจึงเรียกวิธีนี้ว่า ROUT

เมื่อวิเคราะห์ข้อมูลที่จำลองซึ่งการกระจายทั้งหมดเป็น Gaussian วิธีการของเราจะตรวจจับ (ผิดพลาด) อย่างน้อยหนึ่งค่าที่ผิดพลาดเพียงประมาณ 1-3% ของการทดลอง เมื่อวิเคราะห์ข้อมูลที่ปนเปื้อนด้วยค่าผิดปกติหนึ่งหรือหลายค่าวิธี ROUT ทำงานได้ดีในการระบุค่าผิดปกติโดยมีอัตราการค้นพบที่ผิดพลาดโดยเฉลี่ยน้อยกว่า 1%

ข้อสรุป วิธีการของเราซึ่งรวมวิธีการใหม่ของการถดถอยแบบไม่เชิงเส้นที่มีประสิทธิภาพกับวิธีการระบุค่าผิดพลาดแบบใหม่จะระบุค่าผิดปกติจากเส้นโค้งไม่เชิงเส้นที่เหมาะสมกับกำลังที่เหมาะสมและผลบวกปลอมบางประการ

มันไม่ได้ถูกนำมาใช้ใน R. แต่เท่าที่เราทราบในGraphPad Prism และให้คำอธิบายง่ายๆในความช่วยเหลือปริซึม


0

คำถามของคุณกว้างเกินไป ไม่มีวิธีที่ดีที่สุดวิธีเดียวในการยกเว้น "ค่าผิดปกติ"

คุณต้องรู้คุณสมบัติบางอย่างใน "ค่าผิดปกติ" หรือคุณไม่ทราบว่าวิธีใดดีที่สุด หลังจากตัดสินใจเลือกวิธีที่คุณต้องการใช้คุณต้องปรับเทียบพารามิเตอร์ของวิธีการอย่างระมัดระวัง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.