ความแตกต่างระหว่าง Anomaly และ Outlier


13

อะไรคือความแตกต่างระหว่าง Outlier และความผิดปกติในบริบทของการเรียนรู้ของเครื่อง ความเข้าใจของฉันคือทั้งคู่อ้างถึงสิ่งเดียวกัน


3
จากความอยากรู้อยากเห็นความแตกต่างของวรรณกรรมอยู่ที่ไหน ฉันอยู่ภายใต้ความประทับใจที่ว่า "ผู้ผิด" ไม่มีคำจำกัดความที่เป็นทางการนอกเหนือจากการยกระดับสูงและการสังเกตที่มีอิทธิพลสูง อิทธิพลและการใช้ประโยชน์จะมีคำจำกัดความทางคณิตศาสตร์ แต่การพิจารณาบางสิ่งที่ "สูง" นั้นเป็นเรื่องที่ไม่มีกฎเกณฑ์ ดูเหมือนว่ามีการสลับคำโดยพลการไปรอบ ๆ
AdamO

คนที่ใช้คำว่า "inlier" โดยปริยายจะสร้างความแตกต่างระหว่าง "ความผิดปกติ" และ "ผิดเพี้ยนไป" เพราะการ inlier เป็นความผิดปกติ เนื่องจากทั้ง "ผิดเพี้ยน" หรือ "ความผิดปกติ" ไม่มีคำจำกัดความทางเทคนิคที่ชัดเจนและเข้าใจกันโดยทั่วไปเราควรคาดหวังว่าคำถามนี้จะมีคำตอบหลายคำที่แตกต่างกัน (อย่างน้อยเล็กน้อย) จากกัน
whuber

คำตอบ:


9

คำสองคำนี้มีความหมายเหมือนกันตาม:

Aggarwal, Charu C. การวิเคราะห์ค่า Springer New York, 2017, ดอย: http://dx.doi.org/10.1007/978-3-319-47578-3_1

ใบเสนอราคาจากหน้า 1:

Outliers จะเรียกว่าความผิดปกติ discordants, deviants หรือ ความผิดปกติใน data mining และวรรณคดีสถิติ

ข้อความตัวหนาไม่ได้เป็นส่วนหนึ่งของข้อความต้นฉบับ

ดาวน์โหลด PDF ของหนังสือเล่มนี้ได้ฟรีจากผู้เขียนอยู่ที่นี่


ความจริงที่ว่า "ค่าผิดปกติ" เรียกว่า "ความผิดปกติ" ไม่ได้หมายความว่ามันมีความหมายเหมือนกัน "สุนัข" บางครั้งเรียกว่า "สัตว์" สำหรับเรื่องนั้น ฉันพยายามระบุรายละเอียดเพิ่มเติมในคำตอบนี้ (ฉันไม่สามารถโพสต์ได้ที่นี่เพราะคำถามได้รับการคุ้มครอง)
Marco13

9

คำตอบที่ลิ้น:

Outlier: ค่าที่คุณคาดว่าจะพบในข้อมูลของคุณที่ระบุว่าแบบจำลองของคุณทำงานไม่ถูกต้อง

ความผิดปกติ: ค่าที่เปรียบเทียบกับอัตราต่อรองทั้งหมดที่คุณพบในข้อมูลของคุณที่ระบุว่าแบบจำลองของคุณทำงานได้อย่างถูกต้อง

คำตอบที่จริงจังและมีความลับน้อยกว่า:

แนวคิดเรื่องค่าผิดปกติเริ่มต้นจากปัญหาการสร้างแบบจำลองที่ทำให้สมมติฐานเกี่ยวกับข้อมูล Outliers มักเป็นตัวบ่งชี้ว่าตัวแบบไม่สามารถอธิบายข้อมูลได้อย่างถูกต้องดังนั้นเราควรตั้งคำถามถึงผลลัพธ์ของแบบจำลองหรือคุณภาพของข้อมูลของเรา

แนวคิดเรื่องความผิดปกติเริ่มต้นนอกโลกเชิงทฤษฎีและในโลกประยุกต์: เราต้องการค้นหาพฤติกรรมที่ผิดปกติในข้อมูลของเราบางครั้งมีแรงจูงใจจากความจริงที่ว่าเราสนใจค้นหาพฤติกรรมที่มีคนพยายามซ่อน (เช่นไวรัสใน อีเมล) ปัญหาคือว่าเมื่อผู้คนพยายามซ่อนสิ่งที่พวกเขากำลังทำอยู่เราไม่รู้จริงๆว่าจะมองหาอะไร ดังนั้นเราจึงใช้ชุดข้อมูล "ดี" และตัดสินใจว่าสิ่งที่เราพบในชุดข้อมูลใหม่ของเราที่ไม่ได้ดู "ดี" เป็นความผิดปกติและคุ้มค่ากับเวลาที่เราเช็คเอาท์ในรายละเอียดเพิ่มเติม บ่อยครั้งที่การค้นหาความผิดปกติหมายถึงการมองหาค่าผิดปกติในชุดข้อมูลใหม่ของคุณ แต่ทราบว่าค่าเหล่านี้อาจจะเป็นมากที่พบบ่อยในชุดใหม่ของคุณแม้จะเป็นของหายากในชุดเก่าของคุณ!

โดยสรุปแล้วแนวคิดทั้งสองนั้นมีความคล้ายคลึงกันมากในแง่ของสถิติที่อยู่เบื้องหลังพวกเขา (เช่นค่าที่ผิดปกติในแบบจำลองการติดตั้งของคุณ) แต่มาที่แนวคิดจากมุมที่แตกต่างกัน นอกจากนี้เมื่อเราพูดคุยเกี่ยวกับค่าผิดปกติเรามักจะหมายถึงจุดข้อมูลที่ผิดปกติในข้อมูลที่ใช้เพื่อให้เหมาะสมกับรูปแบบของเราที่เป็นความผิดปกติมักจะหมายความว่าเป็นจุดเชื่อมต่อข้อมูลที่ผิดปกติในนอกชุดของข้อมูลที่นำมาใช้เพื่อให้เหมาะสมกับรูปแบบของเรา

หมายเหตุ: คำตอบนี้ขึ้นอยู่กับวิธีที่ฉันเห็นคำสองคำที่ใช้บ่อยมากกว่าคำจำกัดความที่เป็นทางการ ประสบการณ์ของผู้ใช้อาจแตกต่างกัน


6

ความผิดปกติเป็นผลลัพธ์ที่ไม่สามารถอธิบายได้เนื่องจากการแจกแจงฐาน (เป็นไปไม่ได้หากสมมติฐานของเราถูกต้อง) ค่าผิดปกติเป็นเหตุการณ์ที่ไม่น่าจะเกิดขึ้นเนื่องจากการแจกแจงฐาน (ความไม่น่าจะเป็นได้)


7
การอ้างอิงแหล่งที่มาสำหรับคำจำกัดความและตัวอย่างจะช่วยปรับปรุงคำตอบได้อย่างมาก
ทิม

4
เท่าที่ฉันรู้ว่าพวกเขามีความหมายเหมือนกัน ดังนั้น @H อิกบัลต้องอ้างถึงแหล่งที่มาและผู้อ่านทุกคนจะต้องประเมินความน่าเชื่อถือของแหล่งข้อมูล Sayd
Jacques Wainer

2
ความเป็นไปไม่ได้ดูเหมือนจะบ่งบอกถึง P (X = ANOMALY) = 0 (นั่นคือ 0) ความเข้าใจของฉันเกี่ยวกับการตรวจจับความผิดปกติคือนักวิจัยอาจสนใจในเหตุการณ์ที่อาจมีความเป็นไปได้ในเชิงบวก
หน้าผา AB

4

เงื่อนไขส่วนใหญ่จะใช้ในวิธีที่ใช้แทนกันได้ "Outlier" หมายถึงสิ่งที่อยู่นอกบรรทัดฐาน - ดังนั้นจึงเป็น "ความผิดปกติ" แต่ฉันมีแรงกดดันที่มักใช้ "ค่าผิดปกติ" สำหรับการสังเกตที่หายากมาก ในสถิติในการแจกแจงแบบปกติคุณจะถือว่าสามซิกมาเป็นค่าผิดปกติ นั่นคือ 99.7% ของวัตถุของคุณที่คาดว่าจะเป็น "ปกติ" "Anomaly" ถูกใช้อย่างอิสระมากขึ้น หากคุณมีผู้เข้าชมเว็บไซต์ของคุณนับล้านในทันทีทันใดผู้เยี่ยมชมเหล่านี้ไม่ใช่ผู้เยี่ยมชม เพิ่มขึ้นอย่างฉับพลันในผู้เข้าชม แต่ยังคง "ผิดปกติ" ในขณะที่ผู้เข้าชมแต่ละรายไม่ได้เป็น "นอก"

อาจมีอยู่ในบทความนี้ที่ฉันเห็นความแตกต่างเหล่านี้กล่าวถึง แต่ฉันไม่สามารถเข้าถึงได้ตอนนี้โชคไม่ดี

การวิเคราะห์เชิงสถิติและการทำเหมืองข้อมูลเล่มที่ 5 ฉบับที่ 5 ตุลาคม 2555 หน้า 363–387 การสำรวจการตรวจจับค่าผิดพลาดที่ไม่ได้รับอนุญาตในข้อมูลตัวเลขสูงมิติ


1
ฉันคิดว่าคุณได้บอกใบ้อย่างละเอียดถึงความแตกต่างระหว่างค่าผิดปกติและความผิดปกติ; ค่าผิดปกติใช้เพื่ออธิบายข้อมูลที่ไม่เหมาะกับแนวโน้มทั่วไปความผิดปกติอธิบายปริมาณการใช้งานที่ผิดปกติบนเซิร์ฟเวอร์ 50% jk
หน้าผา AB

2

เพียงเพื่อโคลนน้ำต่อไปในความผิดปกติทางอุตุนิยมวิทยาเพียงหมายถึงความแตกต่างระหว่างค่าและค่าเฉลี่ยหรือส่วนเบี่ยงเบน:

คำว่าอุณหภูมิผิดปกติหมายถึงการออกจากค่าอ้างอิงหรือค่าเฉลี่ยระยะยาว ความผิดปกติเชิงบวกบ่งชี้ว่าอุณหภูมิที่สังเกตนั้นอุ่นกว่าค่าอ้างอิงในขณะที่ความผิดปกติเชิงลบแสดงว่าอุณหภูมิที่สังเกตนั้นเย็นกว่าค่าอ้างอิง

ดูเช่น

นั่นอาจถือได้ว่าเป็นการเรียนรู้จากเครื่องจักรภายนอก แต่คนที่สนใจในคำถามอาจสนใจสิ่งนี้


1

ค่าผิดปกติเป็นจุดข้อมูลที่ทำให้การปรับรุ่นเป็นเรื่องยาก คุณต้องเผชิญกับคนผิดปกติซึ่งมักจะไม่เต็มใจเมื่อคุณพยายามที่จะปรับนางแบบให้เป็นชุดข้อมูลของคุณ การลบค่าผิดปกติช่วยให้สามารถสร้างแบบจำลองที่ดีกว่า จุดจะเป็นค่าผิดปกติสำหรับรูปแบบ x คุณไม่สนใจมันในแง่ของความจริงที่ว่าทุกจุดอื่น ๆ ของคุณ , ,มากขึ้นพอดีอย่างใกล้ชิด xy = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x(1,5)y=x(1,1)(5,5)(3,3.1)y=x

ความผิดปกติอาจเป็นจุดข้อมูลหนึ่งจุดหรือเป็นแนวโน้มหรือพฤติกรรมทั่วไปที่สังเกตได้ในข้อมูลหลังจากแบบจำลองถูกสร้างขึ้นแล้วหรือมีความเข้าใจในกระบวนการสร้างข้อมูลที่เกิดขึ้น คุณเผชิญกับความผิดปกติเนื่องจากระบบเริ่มทำงานแตกต่างกันหรือคุณค้นหาจุดข้อมูลดังกล่าวเพราะคุณต้องการได้รับการแจ้งเมื่อมีเหตุการณ์เกิดขึ้นในระหว่างที่โมเดลของคุณไม่ถูกต้อง คุณอาจสนใจเกี่ยวกับการสังเกตพฤติกรรมผิดปกติใด ๆ ในแอมพลิจูดของคลื่นทะเลไม่ใช่เพราะคุณต้องการทิ้งจุดข้อมูลเหล่านั้นและสร้างแบบจำลองที่ดีกว่า แต่เพราะคุณต้องการที่จะทราบเมื่อเกิดสึนามิ


2
ฉันไม่เห็นด้วยกับสิ่งนี้มากที่สุด ขั้นแรกประโยคแรกอาจเป็นคำนิยามของคุณที่มีค่าเกินกว่าที่คุณต้องการ แต่มันยากที่จะปรับให้ตรงกับคำจำกัดความหรือการใช้อื่น ๆ มากมาย หากข้อมูลคือ (1, 1), (2, 2), (3, 3), (ใหญ่กว่ามากใหญ่กว่ามาก) ดังนั้นจุดที่ใหญ่กว่านั้นมักถูกอธิบายว่าเป็นค่าผิดปกติ แต่ไม่มีปัญหาในการปรับโมเดลให้เหมาะสม คุณอาจ (และควร) สงสัยว่าทำไมข้อมูลถึงเป็นแบบนั้น แต่การติดตั้งแบบจำลองนั้นง่าย โดยทั่วไปแล้วหลักการคือค่าผิดปกติอาจถูกแยกออกจากส่วนหลักของข้อมูล แต่ยังคงสอดคล้องกับตัวแบบที่น่าเชื่อถือ
Nick Cox

ประการที่สองหากความหมายที่ละเว้นค่าผิดปกติเป็นเพียงสิ่งที่คุณควรทำดังนั้น (ก) มักเป็นปัญหาแม้จะบอกว่าค่าผิดปกตินั้นเป็น (ข) มีวิธีแก้ปัญหาอื่น ๆ อีกมากมาย thread.stackexchange.com/questions/78063/เธรดมีช่วงกว้างกว่าชื่อของมัน
Nick Cox

1
หากคุณไปที่ลิงก์ของฉันคุณจะเห็นว่าฉันโพสต์ข้อความผิดจำนวนหนึ่งไปแล้ว ฉันไม่เข้าใจในการอ่านคำตอบของคุณอีกครั้งว่าคุณกำลังคิดย้อนหลังในขณะที่คุณกำลังพูดถึงการลบค่าผิดปกติในขณะที่เหมาะสม ในการอ่านอีกครั้งฉันทราบด้วยว่าประโยคแรกของย่อหน้าที่สองของคุณรวมถึงแนวคิดที่ว่าความผิดปกติอาจเป็น 'แนวโน้มหรือพฤติกรรมทั่วไป' ซึ่งไม่น่าจะเป็นสิ่งที่คุณหมายถึง - หรือถ้าเป็นฉันก็ไม่ได้ ไม่เข้าใจ
Nick Cox

1

คำถามที่ดี. อย่างไรก็ตามการค้นหาโดย Google ใน "ความแตกต่างระหว่างไซต์ค่าผิดปกติและไซต์ผิดปกติ: .edu" แสดงให้เห็นว่าไม่มีความแตกต่างทางทฤษฎีระหว่างสองคำนี้ พวกมันถูกใช้แทนกันในวรรณคดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.