มีวิธีง่ายๆในการตรวจจับผู้ผิดหรือไม่


14

ฉันสงสัยว่ามีวิธีง่ายๆในการตรวจจับค่าผิดปกติหรือไม่

สำหรับหนึ่งในโครงการของฉันซึ่งโดยทั่วไปมีความสัมพันธ์กันระหว่างจำนวนครั้งที่ผู้ตอบแบบสอบถามมีส่วนร่วมในการออกกำลังกายในหนึ่งสัปดาห์และจำนวนครั้งที่พวกเขากินนอกบ้าน (อาหารจานด่วน) ในหนึ่งสัปดาห์ฉันดึง scatterplot และถอด จุดข้อมูลที่รุนแรง (Scatterplot มีความสัมพันธ์เชิงลบ)

สิ่งนี้ขึ้นอยู่กับการตัดสินคุณค่า (ขึ้นอยู่กับแผนการกระจายที่จุดข้อมูลเหล่านี้รุนแรงมาก) ฉันไม่ได้ทำการทดสอบทางสถิติใด ๆ

ฉันแค่สงสัยว่านี่เป็นวิธีที่ดีในการจัดการกับคนผิด

ฉันมีข้อมูลจาก 350 คนดังนั้นการสูญเสีย (พูด) 20 จุดข้อมูลไม่ได้เป็นสิ่งที่ฉันกังวล


ดูคำตอบสำหรับคำถามที่คล้ายกันซึ่งมีคำจำกัดความที่เข้มงวดของโจทย์
โจนาส

3
นอกจากนี้ยังเกี่ยวข้องอย่างใกล้ชิดเป็นstats.stackexchange.com/questions/175 หลายวิธีการตรวจสอบค่าผิดปกติที่อาจเกิดขึ้นได้อธิบายไว้ในคำตอบที่stats.stackexchange.com/questions/213 แต่อีกประเด็นคือบริบท : คุณกำลังทำอะไรกับสแกตเตอร์แปลงนี้ คุณกำลังพยายามสรุปอะไรอยู่ ข้อสรุปบางอย่างจะขึ้นอยู่กับสิ่งที่คุณทำกับผู้ผิดปกติเล็กน้อยในขณะที่คนอื่นอาจขึ้นอยู่กับช่วงวิกฤต สิ่งนี้บ่งชี้ว่าวิธีการที่คุณใช้ในการระบุและรักษาค่าผิดปกติจะต้องขึ้นอยู่กับการวิเคราะห์ที่ต้องการ
whuber

ในชุดข้อมูลเศรษฐศาสตร์การปฏิบัติแบบมาตรฐานเป็นเพียงการพูดว่า "เราเพิ่มชุดข้อมูลที่ 2.5% และ 97.5%" หรืออีก 1% และ 99% จากนั้นพวกเขาก็ลบการสังเกตที่อยู่นอกช่วงควอนตัมนั้น

@Harokitty Winsorisingดูเหมือนว่าหมายถึงการตัดค่าแทนที่จะละทิ้งมัน
Peter Wood

ฉันขอแนะนำให้คุณรายงาน scatter-plot ที่ไม่มีการแก้ไขนอกจากข้อผิดพลาดในการบันทึกข้อมูล เป็นไปได้ว่าอาจมีประชากรที่แตกต่างกันอย่างน้อยหนึ่งราย สำหรับ exampe ดูรายการ Wikipedia สำหรับ Hertzsprung – Russell diagram ที่en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

คำตอบ:


21

ไม่มีวิธีที่ง่ายในการลบค่าผิดปกติ ค่าผิดปกติมีสองประเภท:

1) ข้อผิดพลาดในการป้อนข้อมูล สิ่งเหล่านี้มักจะเป็นจุดที่ง่ายที่สุดและง่ายที่สุดในการจัดการ หากคุณสามารถค้นหาข้อมูลที่ถูกต้องให้แก้ไข; ถ้าไม่ลบออก

2) ข้อมูลที่ถูกต้องซึ่งผิดปกติ นี่เป็นเรื่องที่ยุ่งยากมาก สำหรับข้อมูล bivariate เช่นคุณข้อมูลที่ผิดอาจเป็น univariate หรือ bivariate

a) Univariate ก่อนอื่น "ผิดปกติ" ขึ้นอยู่กับการกระจายและขนาดตัวอย่าง คุณให้ขนาดตัวอย่าง 350 กับเรา แต่การกระจายตัวคืออะไร? เห็นได้ชัดว่าไม่ใช่เรื่องปกติเนื่องจากเป็นจำนวนเต็มที่ค่อนข้างเล็ก สิ่งที่ผิดปกติภายใต้ปัวซองนั้นจะไม่อยู่ภายใต้ทวินามลบ ฉันสงสัยว่าความสัมพันธ์ทวินามเชิงลบที่สูงเกินจริง

แต่แม้ว่าคุณจะมีการแจกแจงค่าผิดปกติ (ที่เป็นไปได้) จะส่งผลต่อพารามิเตอร์ คุณสามารถดูการแจกแจง "ปล่อยทิ้งหมดหนึ่งครั้ง" ซึ่งคุณตรวจสอบว่าจุดข้อมูล q จะเป็นค่าผิดปกติหรือไม่หากข้อมูลมีจุดทั้งหมดยกเว้น q ถึงอย่างนั้นถ้าเกิดมีหลายค่าผิดปกติล่ะ

b) Bivariate นี่คือสิ่งที่คุณค่าของตัวแปรไม่ผิดปกติในตัวเอง แต่ด้วยกันพวกเขาจะแปลก มีรายงานที่ไม่มีหลักฐานยืนยันว่าการสำรวจสำมะโนประชากรครั้งหนึ่งเคยกล่าวว่ามีหญิงม่ายอายุ 20,000 ปี 12 คนในสหรัฐอเมริกา เด็กอายุ 12 ปีไม่ได้เป็นม่าย แต่หญิงม่ายก็ไม่เหมือนกัน แต่เป็นหญิงม่ายอายุ 12 ปี

จากทั้งหมดนี้มันอาจง่ายกว่าที่จะรายงานการวัดความสัมพันธ์ที่แข็งแกร่ง


ขอบคุณ ฉันคิดว่าบางทีความเชื่อมั่นวงรีน่าจะเป็นตัวบ่งชี้ที่ดีของค่าผิดปกติเพราะมันจะแสดงเปอร์เซ็นต์ของข้อมูลที่จะอยู่ในระดับความเชื่อมั่นที่แน่นอน
Amarald

ข้อมูลของคุณไม่สามารถเปลี่ยนแปลงได้ตามปกติเนื่องจากประกอบด้วยเลขจำนวนเต็มที่ไม่เป็นลบ
Peter Flom - Reinstate Monica

18

ฉันได้ทำการวิจัยจำนวนมากเกี่ยวกับค่าผิดปกติโดยเฉพาะอย่างยิ่งเมื่อฉันทำงานเกี่ยวกับการตรวจสอบข้อมูลพลังงานที่ Oak Ridge ตั้งแต่ปี 1978 ถึง 1980 มีการทดสอบอย่างเป็นทางการสำหรับค่าผิดปกติแบบไม่แปรสำหรับข้อมูลปกติ (เช่นการทดสอบ Grubbs และการทดสอบอัตราส่วน Dixon) มีการทดสอบสำหรับค่าผิดปกติหลายตัวแปรและอนุกรมเวลา หนังสือของบาร์เน็ตต์และเลวิสเรื่อง "ค่าผิดปกติในข้อมูลทางสถิติ" เป็นคัมภีร์ไบเบิลของค่าผิดปกติและครอบคลุมทุกอย่าง

เมื่อฉันอยู่ที่ Oak Ridge กำลังตรวจสอบข้อมูลเรามีชุดข้อมูลหลายตัวแปรขนาดใหญ่ สำหรับค่าผิดปกติ univariate มีทิศทางสำหรับสุดขั้ว (สูงกว่าค่าเฉลี่ยและต่ำกว่าค่าเฉลี่ย) แต่สำหรับค่าผิดปกติหลายตัวแปรมีหลายทิศทางในการค้นหาค่าผิดปกติ ปรัชญาของเราคือการพิจารณาว่าการใช้ข้อมูลเป็นอย่างไร หากคุณพยายามประเมินพารามิเตอร์บางอย่างเช่นค่าสหสัมพันธ์แบบ bivariate หรือสัมประสิทธิ์การถดถอยคุณต้องการดูทิศทางที่ให้ผลที่ดีที่สุดต่อพารามิเตอร์ที่น่าสนใจ ในเวลานั้นฉันได้อ่านบทความที่ไม่ได้เผยแพร่ของ Mallows เกี่ยวกับฟังก์ชั่นอิทธิพล การใช้ฟังก์ชั่นอิทธิพลในการตรวจสอบค่าผิดปกตินั้นอยู่ในสมุดวิเคราะห์หลายตัวแปรของ Gnanadesikan แน่นอนคุณสามารถพบได้ในบาร์เน็ตต์และลูอิสด้วย

ฟังก์ชันอิทธิพลสำหรับพารามิเตอร์ถูกกำหนดไว้ที่จุดในพื้นที่หลายตัวแปรของการสังเกตการณ์และวัดความแตกต่างระหว่างการประมาณค่าพารามิเตอร์เมื่อจุดข้อมูลรวมอยู่ด้วยเมื่อเปรียบเทียบกับเมื่อมันถูกปล่อยออกมา คุณสามารถทำการประมาณเช่นนี้กับแต่ละจุดตัวอย่าง แต่โดยปกติแล้วคุณสามารถหารูปแบบการทำงานที่ดีสำหรับฟังก์ชันอิทธิพลที่ให้ข้อมูลเชิงลึกและการคำนวณที่เร็วขึ้น

ตัวอย่างเช่นในกระดาษของฉันในวารสารอเมริกันคณิตศาสตร์และวิทยาศาสตร์การจัดการในปี 1982 "ฟังก์ชั่นอิทธิพลและการประยุกต์ใช้ในการตรวจสอบข้อมูล" ฉันแสดงสูตรการวิเคราะห์สำหรับฟังก์ชั่นอิทธิพลสำหรับความสัมพันธ์ bivariate และรูปทรงของอิทธิพลคงที่เป็น hyperbolae ดังนั้นรูปทรงจะแสดงทิศทางในระนาบที่ฟังก์ชั่นอิทธิพลเพิ่มขึ้นเร็วที่สุด

ในบทความของฉันฉันแสดงให้เห็นว่าเราใช้ฟังก์ชั่นอิทธิพลสำหรับความสัมพันธ์แบบ bivariate กับข้อมูล FPC Form 4 ในการสร้างและการใช้พลังงานอย่างไร มีความสัมพันธ์เชิงบวกที่ชัดเจนสูงระหว่างทั้งสองและเราพบว่ามีค่าผิดปกติเล็กน้อยที่มีอิทธิพลอย่างสูงต่อการประมาณค่าความสัมพันธ์ การตรวจสอบเพิ่มเติมแสดงให้เห็นว่าอย่างน้อยหนึ่งในข้อผิดพลาดและเราสามารถแก้ไขได้

แต่ประเด็นสำคัญที่ฉันพูดถึงเสมอเมื่อพูดคุยกับคนนอกคือการปฏิเสธอัตโนมัติผิด ค่าผิดปกติไม่ได้เป็นข้อผิดพลาดเสมอไปและบางครั้งก็ให้ข้อมูลที่สำคัญเกี่ยวกับข้อมูล ข้อมูลที่ถูกต้องไม่ควรถูกลบเพียงเพราะมันไม่สอดคล้องกับทฤษฎีความเป็นจริงของเรา ไม่ว่าจะเป็นเรื่องยากหรือไม่เหตุผลที่ควรตรวจสอบข้อเท็จจริงที่เกิดขึ้น

ฉันควรพูดถึงว่านี่ไม่ใช่ครั้งแรกที่มีการพูดคุยเกี่ยวกับหลายตัวแปรในไซต์นี้ การค้นหาค่าผิดปกติอาจนำไปสู่คำถามหลายข้อที่มีการพิจารณาค่าผิดปกติหลายตัวแปร ฉันรู้ว่าฉันได้อ้างอิงเอกสารของฉันและหนังสือเหล่านี้มาก่อนและได้รับลิงก์ไปยังพวกเขา

นอกจากนี้เมื่อมีการกล่าวถึงการถูกปฏิเสธในวงกว้างพวกเราหลายคนในเว็บไซต์นี้ได้แนะนำต่อโดยเฉพาะอย่างยิ่งถ้ามันถูกสร้างขึ้นจากการทดสอบทางสถิติเพียงอย่างเดียว Peter Huber กล่าวถึงการประเมินที่มีประสิทธิภาพเป็นทางเลือกในการปฏิเสธค่าใช้จ่าย แนวคิดก็คือกระบวนการที่มีประสิทธิภาพจะลดน้ำหนักของผู้ผิดกฎหมายที่ลดผลกระทบต่อการประมาณค่าโดยไม่ต้องใช้ขั้นตอนที่หนักหน่วงในการปฏิเสธพวกเขา

ฟังก์ชั่นอิทธิพลได้รับการพัฒนาขึ้นโดย Frank Hampel ในวิทยานิพนธ์ปริญญาเอกของเขาในช่วงต้นทศวรรษ 1970 (1974 ฉันคิดว่า) ความคิดของเขาคือการใช้ฟังก์ชั่นอิทธิพลเพื่อระบุตัวประมาณที่ไม่ทนทานต่อค่าผิดปกติและเพื่อช่วยพัฒนาตัวประมาณค่า

นี่คือลิงค์ไปยังการสนทนาก่อนหน้าในหัวข้อนี้ที่ฉันกล่าวถึงงานของฉันในการตรวจสอบค่าผิดปกติในอนุกรมเวลาโดยใช้ฟังก์ชั่นอิทธิพล


2

อีกวิธีง่ายๆในการจัดการกับผู้ผิดนัดคือการใช้สถิติที่ไม่ใช่พารามิเตอร์ อาจมีขนาดตัวอย่างของคุณ Rho ของ Spearman จะทำงานได้ดีเป็นดัชนีของสหสัมพันธ์ (โปรดทราบว่าสถิติที่ไม่ใช่พารามิเตอร์ตามลำดับไม่ได้ช่วยอะไรคุณได้มากนักเกี่ยวกับความสัมพันธ์ที่ไม่ใช่เชิงเส้น)

หากคุณต้องการใช้ r ของ Pearson (สถิติแบบพารามิเตอร์) และหากคุณไม่สามารถคำนวณระยะทางของ Cook ได้คุณอาจใช้กฎทั่วไปของหัวแม่มือที่จุดข้อมูลใด ๆ ที่มากกว่า 2.67 ส่วนเบี่ยงเบนมาตรฐาน (sd) จากค่าเฉลี่ย หรือ 4.67 sd จากค่าเฉลี่ยเป็นค่าที่เกินหรือสุดขีดตามลำดับ เหล่านี้เป็นค่า cutoff ทั่วไปสำหรับค่าผิดปกติและจุดข้อมูลที่มากที่สุดที่ใช้ในโปรแกรมวิเคราะห์ทางสถิติมาตรฐานเดียว (SPSS)

เพียงเพราะจุดข้อมูลเป็นค่าผิดปกติไม่ได้หมายความว่ามันเป็นข้อมูลที่ไม่ดีที่จะถูกทิ้ง คุณอาจคำนวณความสัมพันธ์ของคุณกับและไม่มีคะแนนมากและไปจากที่นั่น


1

คุณอาจต้องการลองใช้ระยะทางของ Cook ดูบทความวิกิพีเดียสำหรับการตัดที่แนะนำ นอกจากนี้หากคุณกำลังมุ่งหน้าไปยังแบบจำลองการถดถอยคุณอาจต้องการลองการถดถอยที่มีประสิทธิภาพ


1
ดูเหมือนว่าเป็นความคิดเห็นมากกว่าคำตอบ คำตอบมักจะมีความยาวและมีรายละเอียดมากขึ้น เช่นถ้าคุณรวมเหตุผลว่าทำไมระยะทางของคุกถึงเป็นค่าทดสอบที่ดีสำหรับค่าผิดปกติและอย่างใดอย่างหนึ่งนี่จะเป็นคำตอบ
Peter Flom - Reinstate Monica

1

ประการแรกอย่าลบค่าผิดปกติเว้นแต่คุณจะแน่ใจว่าไม่อยู่ในการศึกษา! พวกเขาอาจมีข้อมูลที่สำคัญ (ความแปรปรวน) คุณควรปล่อยมันหากเห็นได้ชัดว่าค่าผิดปกติเกิดจากข้อมูลที่ป้อนหรือวัดไม่ถูกต้อง หากคุณไม่ทราบวิธีการสุ่มตัวอย่างที่ใช้ในการรับข้อมูลของคุณคุณควรระบุค่าที่ผิดปกติและผลกระทบของมันดังนี้:

  1. ระดับของความผิดปกติ: คาดว่า 5% ของการสังเกตที่มีค่าคงที่แบบสแตนด์อโลน (อีผม* * * *)> 2. หากคุณมีส่วนที่เหลือสูงกว่าคุณสามารถสงสัยได้ว่ามีค่าผิดปกติ

  2. ระดับของระยะทางถึงจุดศูนย์ถ่วงในอวกาศของ x's: ชั่วโมงผมผม(การงัด). เมื่อบางคนชั่วโมงผมผม สูงมากคุณมีข้อสังเกตที่อาจบิดเบือนโมเดลของคุณเพราะอยู่นอกช่วงการศึกษาของคุณ

  3. ระดับของอิทธิพลที่มีต่อโมเดลที่ติดตั้ง: จุดที่มีอิทธิพลคือสิ่งที่มีน้ำหนักพอที่จะเปลี่ยนโมเดลของคุณ จากนั้น cofficients ของโมเดลที่ติดตั้งโดยใช้การสังเกตทั้งหมด n นั้นแตกต่างจากค่าสัมประสิทธิ์ของโมเดลที่ติดตั้งโดยใช้ทุกจุด แต่ไม่ใช่การสังเกตนี้ผม-th
    ระยะทางของ Cook หรือ D ของ Cook เป็นค่าประมาณที่ใช้กันโดยทั่วไปของอิทธิพลของจุดข้อมูล :Dผม=อีผม* * * *2·ชั่วโมงผมผม/[(1-ชั่วโมงผมผม)·พี]

การแก้ปัญหาที่เป็นไปได้:

  • การแปลงตัวแปรและ / หรือเพิ่มตัวแปรใหม่ให้กับโมเดล
  • สำหรับการสังเกตที่มีอิทธิพลซึ่งไม่ใช่เรื่องอื่นนอกจากค่าผิดปกติคุณสามารถลบบุคคลเหล่านั้นออกได้
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.