IQR มีความแม่นยำเพียงใดในการตรวจจับค่าผิดปกติ


11

ฉันกำลังเขียนสคริปต์ที่วิเคราะห์เวลาทำงานของกระบวนการ ฉันไม่แน่ใจเกี่ยวกับการแจกจ่ายของพวกเขา แต่ฉันต้องการทราบว่ากระบวนการทำงาน "ยาวเกินไป" หรือไม่ จนถึงตอนนี้ฉันใช้ค่าเบี่ยงเบนมาตรฐาน 3 ครั้งในการรันครั้งล่าสุด (n> 30) แต่ฉันก็บอกว่ามันไม่ได้ให้ประโยชน์อะไรเลยหากข้อมูลไม่ปกติ ฉันพบการทดสอบนอกกรอบอื่นที่ระบุว่า:

ค้นหาช่วงควอไทล์ระหว่างซึ่งเป็น IQR = ไตรมาส 3 - Q1 โดยที่ไตรมาสที่สามคือควอไทล์ที่สามและไตรมาสที่ 1 เป็นควอไทล์แรก จากนั้นหาตัวเลขสองตัวนี้:

a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR

จุดเป็นค่าผิดปกติถ้า <a หรือ> b

ข้อมูลของฉันมีแนวโน้มที่จะเป็นเช่น 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... ที่ 300sec นั้นเป็นค่าที่เกิน

วิธีไหนดีกว่ากัน? วิธี IQR หรือวิธีเบี่ยงเบนมาตรฐาน


4
คุณอาจต้องการตรวจสอบคำตอบของ @ user603 ที่นี่: มีตัวแปร boxplot สำหรับข้อมูลการกระจายปัวซองสำหรับข้อมูลเกี่ยวกับวิธีการปรับกฎนี้สำหรับข้อมูลที่บิดเบือน
gung - Reinstate Monica

3
วิธีการ "IQR" นี้ไม่เคยตั้งใจจะนำไปใช้แบบสุ่มสี่สุ่มห้า มันเป็นส่วนหนึ่งของกระบวนการวิเคราะห์ข้อมูลเชิงสำรวจ (ตามที่นิคค็อกซ์อธิบายไว้ในคำตอบของเขา) ในระหว่างที่คุณต้องหาวิธีในการแสดงข้อมูลซ้ำอีกครั้ง
whuber

2
จากความคิดเห็นของคุณต่อคำตอบการตอบที่ถูกต้องคือ "ไม่" เพราะความกังวลพื้นฐานของคุณไม่เกี่ยวกับค่าผิดปกติ แต่เป็นเรื่องของกระบวนการ
whuber

ที่เกี่ยวข้อง: การตรวจจับค่าผิดปกติโดยใช้การเบี่ยงเบนมาตรฐานคือด้านพลิกของคำถามนี้
user56reinstatemonica8

ตัวเลขจะถูกคำนวณตามเวลาดังนั้นพวกเขาจะไม่สมมาตรเว้นแต่คุณจะปรับมาตราส่วนใหม่อีกครั้ง
JP Bennett

คำตอบ:


14

มีหนังสือทั้งเล่มเกี่ยวกับค่าผิดปกติ

คำตอบที่เฉพาะเจาะจงทั่วไปคือค่าเบี่ยงเบนมาตรฐานจะถูกดึงออกโดยค่าผิดปกติดังนั้นกฎใด ๆ ก็ตามที่อยู่บนพื้นฐานของ SD อาจทำงานได้ไม่ดี

กฎของ Tukey เกี่ยวกับควอไทล์ +/- 1.5 IQR ที่คุณอ้างอิงมาจากงานฝีมือที่มีชุดข้อมูลขนาดเล็กและขนาดกลางในปี 1970 และได้รับการออกแบบมาเพื่อระบุค่าที่คุณอาจต้องการพิจารณาเป็นรายบุคคล ไม่ชัดเจนว่ามันจะส่งผ่านไปยังชุดข้อมูลที่มีขนาดใหญ่กว่ามากหรือจะใช้เมื่อคุณคาดหวังความเบ้มาก

คำตอบทั่วไปเพิ่มเติมคือกฎนอกกฎหมายนั้นดีถ้าทำการตัดสินใจที่ถูกต้องเสมอ แต่คุณจะบอกได้อย่างไร

นี่เป็นดินแดนที่ถกเถียงกัน แต่ฉันคาดหวังว่าคนนอกรีตจะตบมือบนกราฟว่าแตกต่างจากคนอื่นมาก แต่บ่อยครั้งที่มันเป็นเรื่องยากที่จะบอกความแตกต่างระหว่างสิ่งที่คุณคาดหวังในการกระจายอย่างหนัก บางครั้งการแปลงทำให้ค่าผิดปกติดูธรรมดากว่ามาก

นอกจากนี้หากคุณใช้วิธีการที่แข็งแกร่งคุณอาจกังวลน้อยลงเล็กน้อยเกี่ยวกับค่าที่ควรได้รับซึ่งเรียกว่าค่าผิดปกติ แต่ควรกังวลเกี่ยวกับค่าผิดปกติโดยทั่วไป


1

คุณบอกว่าคุณไม่แน่ใจเกี่ยวกับการแจกจ่าย แต่กระบวนการที่กำลังดำเนินอยู่นั้นง่ายต่อการรวบรวมและประเมินการแจกจ่าย เพียงบันทึกหลาย ๆ ครั้งและวิเคราะห์สิ่งเหล่านั้น เมื่อให้เวลาที่คุณโพสต์คุณจะได้รับจำนวนมากในไม่กี่ชั่วโมง

การค้นหากฎสำหรับคนนอกไม่จำเป็นต้องเป็นเรื่องทั่วไป มันสามารถเฉพาะกับงานของคุณ คุณสามารถรวบรวมข้อมูลจำนวนมากได้ รวบรวมตรวจสอบแล้วตัดสินใจเมื่อกระบวนการยาวเกินไป อาจเป็นวิธีที่ใช้ IQR ได้ แต่คุณสามารถใช้ชุดข้อมูลหรือพารามิเตอร์เพื่อทำการจำลองและดูว่ามันทำงานได้ดีหรือไม่ เช่นเดียวกันสำหรับ SD อาจเป็นได้ว่า> 50s นั้นยาวเกินไปและนั่นคือทั้งหมดที่คุณต้องการ


ฉันกำลังรวบรวมข้อมูลเกี่ยวกับกระบวนการหลายอย่าง พวกเขาแต่ละคนอาจมีการกระจายที่แตกต่างกัน ฉันแค่ต้องการวิธีง่ายๆในการพูดว่า "ใช้เวลามากเกินไป" เพื่อเตือนช่างให้มองลึกลงไปในสิ่งต่าง ๆ อาจเป็นเรื่องทั่วไปตราบใดที่มีการติดธงสิ่งที่ควรตั้งค่าสถานะ หากมีผลบวกปลอมปรากฏขึ้นให้เป็นเช่นนั้น อย่างไรก็ตามผลบวกที่ผิดควรถูกเก็บไว้ให้น้อยที่สุดเพราะถ้ามันมีมากเกินไปมันจะทำลายจุดประสงค์ของสคริปต์และฉันควรจะทิ้งผลลัพธ์ทั้งหมดและปล่อยให้นักเทคมีอยู่ วัตถุประสงค์ของสคริปต์คือการ "จำกัด เรื่องให้แคบลง"
chris bedd

คุณสามารถประเมินได้ว่ากระบวนการนั้นเหมือนหรือต่างกัน หากพวกเขาแตกต่างกันมากกฎทั่วไปบางอย่างอาจมีแนวโน้มที่จะก่อให้เกิดกระบวนการเฉพาะที่จะเรียกคำเตือนบ่อยกว่าที่จำเป็น ข้อมูลนี้ควรอยู่ในคำถามของคุณ
John

3
ลักษณะปัญหานี้โดยการค้นหาค่าผิดปกติ, Chris ไม่อยุติธรรมมัน: คุณเป็นจริงการแก้ปัญหาการควบคุมคุณภาพปัญหา ความแตกต่างที่สำคัญคือ (1) คุณมีกระแสข้อมูลต่อเนื่องมากกว่าชุดข้อมูลแบบคงที่เพื่อวิเคราะห์และ (2) คุณตั้งใจที่จะระบุการกระทำเป็นระยะเพื่อใช้เป็นผลมาจากการวิเคราะห์แต่ละครั้ง: นั่นคือการแทรกแซง (และพยายาม ปรับปรุงกระบวนการ) หรือไม่ (และให้กระบวนการทำงานตามที่เป็นอยู่) การเข้าใจว่านี่เป็นลักษณะของปัญหาของคุณแสดงให้เห็นว่าวรรณกรรมที่ยิ่งใหญ่เกี่ยวกับการควบคุมคุณภาพมีความเกี่ยวข้องโดยมีวิธีแก้ไขปัญหามากมาย
whuber

+1 @whuber คนนอกไม่เกี่ยวข้องที่นี่ เวลารันไทม์เฉลี่ยหรือเปอร์เซ็นต์ไทล์ใด ๆ นั้นไม่เกี่ยวข้องกับสิ่งที่ "ยาวเกินไป" วิธีค้นหาคำว่า "ยาวเกินไป" อาจเป็นการสำรวจผู้ใช้หรือตรวจสอบกับวิศวกรหรือเพียงแค่นั่งคาดเดากางเกงหรืออย่างอื่น แต่ไม่ใช่คำถามเชิงสถิติ
Peter Flom
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.