อะไรคือความแตกต่างระหว่าง Outlier และความผิดปกติในบริบทของการเรียนรู้ของเครื่อง ความเข้าใจของฉันคือทั้งคู่อ้างถึงสิ่งเดียวกัน
อะไรคือความแตกต่างระหว่าง Outlier และความผิดปกติในบริบทของการเรียนรู้ของเครื่อง ความเข้าใจของฉันคือทั้งคู่อ้างถึงสิ่งเดียวกัน
คำตอบ:
คำสองคำนี้มีความหมายเหมือนกันตาม:
Aggarwal, Charu C. การวิเคราะห์ค่า Springer New York, 2017, ดอย: http://dx.doi.org/10.1007/978-3-319-47578-3_1
ใบเสนอราคาจากหน้า 1:
Outliers จะเรียกว่าความผิดปกติ discordants, deviants หรือ ความผิดปกติใน data mining และวรรณคดีสถิติ
ข้อความตัวหนาไม่ได้เป็นส่วนหนึ่งของข้อความต้นฉบับ
ดาวน์โหลด PDF ของหนังสือเล่มนี้ได้ฟรีจากผู้เขียนอยู่ที่นี่
คำตอบที่ลิ้น:
Outlier: ค่าที่คุณคาดว่าจะพบในข้อมูลของคุณที่ระบุว่าแบบจำลองของคุณทำงานไม่ถูกต้อง
ความผิดปกติ: ค่าที่เปรียบเทียบกับอัตราต่อรองทั้งหมดที่คุณพบในข้อมูลของคุณที่ระบุว่าแบบจำลองของคุณทำงานได้อย่างถูกต้อง
คำตอบที่จริงจังและมีความลับน้อยกว่า:
แนวคิดเรื่องค่าผิดปกติเริ่มต้นจากปัญหาการสร้างแบบจำลองที่ทำให้สมมติฐานเกี่ยวกับข้อมูล Outliers มักเป็นตัวบ่งชี้ว่าตัวแบบไม่สามารถอธิบายข้อมูลได้อย่างถูกต้องดังนั้นเราควรตั้งคำถามถึงผลลัพธ์ของแบบจำลองหรือคุณภาพของข้อมูลของเรา
แนวคิดเรื่องความผิดปกติเริ่มต้นนอกโลกเชิงทฤษฎีและในโลกประยุกต์: เราต้องการค้นหาพฤติกรรมที่ผิดปกติในข้อมูลของเราบางครั้งมีแรงจูงใจจากความจริงที่ว่าเราสนใจค้นหาพฤติกรรมที่มีคนพยายามซ่อน (เช่นไวรัสใน อีเมล) ปัญหาคือว่าเมื่อผู้คนพยายามซ่อนสิ่งที่พวกเขากำลังทำอยู่เราไม่รู้จริงๆว่าจะมองหาอะไร ดังนั้นเราจึงใช้ชุดข้อมูล "ดี" และตัดสินใจว่าสิ่งที่เราพบในชุดข้อมูลใหม่ของเราที่ไม่ได้ดู "ดี" เป็นความผิดปกติและคุ้มค่ากับเวลาที่เราเช็คเอาท์ในรายละเอียดเพิ่มเติม บ่อยครั้งที่การค้นหาความผิดปกติหมายถึงการมองหาค่าผิดปกติในชุดข้อมูลใหม่ของคุณ แต่ทราบว่าค่าเหล่านี้อาจจะเป็นมากที่พบบ่อยในชุดใหม่ของคุณแม้จะเป็นของหายากในชุดเก่าของคุณ!
โดยสรุปแล้วแนวคิดทั้งสองนั้นมีความคล้ายคลึงกันมากในแง่ของสถิติที่อยู่เบื้องหลังพวกเขา (เช่นค่าที่ผิดปกติในแบบจำลองการติดตั้งของคุณ) แต่มาที่แนวคิดจากมุมที่แตกต่างกัน นอกจากนี้เมื่อเราพูดคุยเกี่ยวกับค่าผิดปกติเรามักจะหมายถึงจุดข้อมูลที่ผิดปกติในข้อมูลที่ใช้เพื่อให้เหมาะสมกับรูปแบบของเราที่เป็นความผิดปกติมักจะหมายความว่าเป็นจุดเชื่อมต่อข้อมูลที่ผิดปกติในนอกชุดของข้อมูลที่นำมาใช้เพื่อให้เหมาะสมกับรูปแบบของเรา
หมายเหตุ: คำตอบนี้ขึ้นอยู่กับวิธีที่ฉันเห็นคำสองคำที่ใช้บ่อยมากกว่าคำจำกัดความที่เป็นทางการ ประสบการณ์ของผู้ใช้อาจแตกต่างกัน
ความผิดปกติเป็นผลลัพธ์ที่ไม่สามารถอธิบายได้เนื่องจากการแจกแจงฐาน (เป็นไปไม่ได้หากสมมติฐานของเราถูกต้อง) ค่าผิดปกติเป็นเหตุการณ์ที่ไม่น่าจะเกิดขึ้นเนื่องจากการแจกแจงฐาน (ความไม่น่าจะเป็นได้)
เงื่อนไขส่วนใหญ่จะใช้ในวิธีที่ใช้แทนกันได้ "Outlier" หมายถึงสิ่งที่อยู่นอกบรรทัดฐาน - ดังนั้นจึงเป็น "ความผิดปกติ" แต่ฉันมีแรงกดดันที่มักใช้ "ค่าผิดปกติ" สำหรับการสังเกตที่หายากมาก ในสถิติในการแจกแจงแบบปกติคุณจะถือว่าสามซิกมาเป็นค่าผิดปกติ นั่นคือ 99.7% ของวัตถุของคุณที่คาดว่าจะเป็น "ปกติ" "Anomaly" ถูกใช้อย่างอิสระมากขึ้น หากคุณมีผู้เข้าชมเว็บไซต์ของคุณนับล้านในทันทีทันใดผู้เยี่ยมชมเหล่านี้ไม่ใช่ผู้เยี่ยมชม เพิ่มขึ้นอย่างฉับพลันในผู้เข้าชม แต่ยังคง "ผิดปกติ" ในขณะที่ผู้เข้าชมแต่ละรายไม่ได้เป็น "นอก"
อาจมีอยู่ในบทความนี้ที่ฉันเห็นความแตกต่างเหล่านี้กล่าวถึง แต่ฉันไม่สามารถเข้าถึงได้ตอนนี้โชคไม่ดี
การวิเคราะห์เชิงสถิติและการทำเหมืองข้อมูลเล่มที่ 5 ฉบับที่ 5 ตุลาคม 2555 หน้า 363–387 การสำรวจการตรวจจับค่าผิดพลาดที่ไม่ได้รับอนุญาตในข้อมูลตัวเลขสูงมิติ
เพียงเพื่อโคลนน้ำต่อไปในความผิดปกติทางอุตุนิยมวิทยาเพียงหมายถึงความแตกต่างระหว่างค่าและค่าเฉลี่ยหรือส่วนเบี่ยงเบน:
คำว่าอุณหภูมิผิดปกติหมายถึงการออกจากค่าอ้างอิงหรือค่าเฉลี่ยระยะยาว ความผิดปกติเชิงบวกบ่งชี้ว่าอุณหภูมิที่สังเกตนั้นอุ่นกว่าค่าอ้างอิงในขณะที่ความผิดปกติเชิงลบแสดงว่าอุณหภูมิที่สังเกตนั้นเย็นกว่าค่าอ้างอิง
นั่นอาจถือได้ว่าเป็นการเรียนรู้จากเครื่องจักรภายนอก แต่คนที่สนใจในคำถามอาจสนใจสิ่งนี้
ค่าผิดปกติเป็นจุดข้อมูลที่ทำให้การปรับรุ่นเป็นเรื่องยาก คุณต้องเผชิญกับคนผิดปกติซึ่งมักจะไม่เต็มใจเมื่อคุณพยายามที่จะปรับนางแบบให้เป็นชุดข้อมูลของคุณ การลบค่าผิดปกติช่วยให้สามารถสร้างแบบจำลองที่ดีกว่า จุดจะเป็นค่าผิดปกติสำหรับรูปแบบ x คุณไม่สนใจมันในแง่ของความจริงที่ว่าทุกจุดอื่น ๆ ของคุณ , ,มากขึ้นพอดีอย่างใกล้ชิด xy = x ( 1 , 1 ) ( 5 , 5 ) ( 3 , 3.1 ) y = x
ความผิดปกติอาจเป็นจุดข้อมูลหนึ่งจุดหรือเป็นแนวโน้มหรือพฤติกรรมทั่วไปที่สังเกตได้ในข้อมูลหลังจากแบบจำลองถูกสร้างขึ้นแล้วหรือมีความเข้าใจในกระบวนการสร้างข้อมูลที่เกิดขึ้น คุณเผชิญกับความผิดปกติเนื่องจากระบบเริ่มทำงานแตกต่างกันหรือคุณค้นหาจุดข้อมูลดังกล่าวเพราะคุณต้องการได้รับการแจ้งเมื่อมีเหตุการณ์เกิดขึ้นในระหว่างที่โมเดลของคุณไม่ถูกต้อง คุณอาจสนใจเกี่ยวกับการสังเกตพฤติกรรมผิดปกติใด ๆ ในแอมพลิจูดของคลื่นทะเลไม่ใช่เพราะคุณต้องการทิ้งจุดข้อมูลเหล่านั้นและสร้างแบบจำลองที่ดีกว่า แต่เพราะคุณต้องการที่จะทราบเมื่อเกิดสึนามิ
คำถามที่ดี. อย่างไรก็ตามการค้นหาโดย Google ใน "ความแตกต่างระหว่างไซต์ค่าผิดปกติและไซต์ผิดปกติ: .edu" แสดงให้เห็นว่าไม่มีความแตกต่างทางทฤษฎีระหว่างสองคำนี้ พวกมันถูกใช้แทนกันในวรรณคดี