ความแตกต่างระหว่างค่าผิดปกติและค่าเริ่มต้น


10

ฉันสะดุดกับคำที่มาก่อนในการวัด LOF (Local Outlier Factor) ฉันคุ้นเคยกับเงื่อนไขของค่าผิดปกติ (โดยทั่วไปคือ liers - อินสแตนซ์ที่ไม่ทำงานเหมือนกับอินสแตนซ์อื่น ๆ )

'Inliers' หมายถึงอะไรในบริบทของการตรวจจับความผิดปกติ และวิธีการที่เกี่ยวข้องกับ (แตกต่างจาก) ค่าผิดปกติ?


คำตอบ:


9

นี่คือพื้นที่ที่มีความไม่สอดคล้องกันเล็กน้อยในคำศัพท์ซึ่งมีผลโชคร้ายของการอภิปรายทางสถิติที่สับสน แนวคิดของ " inlier"โดยทั่วไปจะใช้เพื่ออ้างถึงค่าข้อมูลที่มีข้อผิดพลาด (เช่นภายใต้ข้อผิดพลาดการวัด) แต่อย่างไรก็ตามใน" การตกแต่งภายใน "ของการกระจายของค่าที่วัดได้อย่างถูกต้องโดยคำจำกัดความนี้ inlier มีสองด้าน: (1 ) อยู่ภายในการกระจายของค่าที่เกี่ยวข้องและ (2) เป็นค่าที่ผิดพลาดในทางกลับกันแนวคิดที่สอดคล้องกันของ "ค่าผิดปกติ" มักใช้เพื่ออ้างอิงค่าข้อมูลใด ๆ ที่อยู่ในส่วนท้ายของ การแจกจ่าย แต่ไม่มีแง่มุมที่ชัดเจนใด ๆ โดยถือว่าสมมติว่ามีข้อผิดพลาดคำศัพท์นี้ให้ผลลัพธ์ที่ไม่สอดคล้องกันโดยโชคร้ายที่ "inlier" เป็นจุดข้อมูลที่ผิดพลาด ภายใต้คำศัพท์นี้สหภาพของ "inliers" และ "outliers"ไม่สอดคล้องกับข้อมูลทั้งหมดหรือแม้แต่ข้อมูลที่ผิดพลาดทั้งหมด

การจัดการกับคนผิด:ฉันได้พูดคุยเกี่ยวกับการจัดการกับคนผิดปกติในคำถามอื่น ๆที่นี่และที่นี่แต่เพื่อความสะดวกฉันจะพูดซ้ำบางคำที่นี่ Outliers คือจุดที่อยู่ห่างจากจุดอื่น ๆ จำนวนมากในการแจกแจงและการวินิจฉัย "outlier" จะกระทำโดยการเปรียบเทียบจุดข้อมูลกับรูปแบบการแจกแจงบางรูปแบบ แม้ว่าค่าผิดปกติอาจเกิดจากความผิดพลาดในการวัดการวินิจฉัยค่าผิดปกติก็สามารถเกิดขึ้นได้เมื่อข้อมูลดังต่อไปนี้มีการแจกแจงที่มีความหนาสูง (เช่นไขมันหาง) แต่นักวิเคราะห์เปรียบเทียบจุดข้อมูลกับรูปแบบการกระจายที่สันนิษฐานว่า การแจกแจงแบบปกติ)

การตั้งค่าสถานะของ "ค่าผิดปกติ" ในการทดสอบค่าจริง ๆ นั้นหมายถึงว่าการกระจายแบบจำลองที่คุณใช้นั้นไม่มีหางที่อ้วนพอที่จะแสดงข้อมูลที่สังเกตได้อย่างถูกต้อง อาจเป็นเพราะข้อมูลบางส่วนมีข้อผิดพลาดในการวัดหรืออาจมาจากการกระจายของไขมันหาง เว้นแต่จะมีเหตุผลบางอย่างที่คิดว่าการเบี่ยงเบนจากแบบจำลองที่สันนิษฐานนั้นเป็นหลักฐานของข้อผิดพลาดในการวัด (ซึ่งจะต้องมีพื้นฐานทางทฤษฎีสำหรับสมมติฐานการกระจาย) การมีตัวตนผิดปกติโดยทั่วไปหมายความว่าคุณควรเปลี่ยนแบบจำลองของคุณ เสื้อหางยาว เป็นการยากที่จะแยกแยะระหว่างข้อผิดพลาดในการวัดกับความผิดปกติขั้นสูงซึ่งเป็นส่วนหนึ่งของการแจกแจงพื้นฐาน

การจัดการกับ inliers (ซึ่งโดยทั่วไปแล้วเกี่ยวข้องกับการไม่เกี่ยวข้องกับพวกเขา):หากคุณไม่มีแหล่งข้อมูลภายนอกที่บ่งบอกถึงข้อผิดพลาดในการวัด ตามคำจำกัดความเหล่านี้คือจุดข้อมูลที่อยู่ใน "การตกแต่งภายใน" ของการกระจายซึ่งข้อมูลอื่น ๆ ส่วนใหญ่เกิดขึ้น ดังนั้นจึงไม่ถูกตรวจพบโดยการทดสอบที่ค้นหาข้อมูลที่เป็น "ความผิดปกติ" จากจุดข้อมูลอื่น (ในบางกรณีคุณสามารถตรวจสอบ "inliers" ที่ดูเหมือนจะอยู่ภายในการกระจาย แต่จริง ๆ แล้วเป็น "ค่าผิดปกติ" เมื่อนำไปใช้กับการเป็นตัวแทนที่ซับซ้อนมากขึ้นของการกระจายในกรณีนี้จุดนี้เป็นค่าที่ผิดจริง

ในบางกรณีที่ไม่ค่อยเกิดขึ้นคุณอาจมีแหล่งข้อมูลภายนอกที่ระบุส่วนย่อยของข้อมูลของคุณว่ามีข้อผิดพลาดในการวัด (เช่นถ้าคุณกำลังทำแบบสำรวจขนาดใหญ่และคุณพบว่าหนึ่งในนักสำรวจของคุณกำลังสร้างข้อมูลของพวกเขา ) ในกรณีนี้จุดข้อมูลใด ๆ ในชุดย่อยนั้นที่อยู่ด้านในของการแจกจ่ายคือ "inliers" และเป็นที่รู้จักกันผ่านข้อมูลภายนอกเพื่อให้เกิดข้อผิดพลาดในการวัด ในกรณีนี้คุณมักจะลบข้อมูลทั้งหมดที่ทราบว่าผิดพลาดแม้ว่าบางส่วนจะเป็น "inliers" ที่อยู่ภายในการกระจายที่คุณคาดว่าจะเป็น จุดนี่คือจุดข้อมูลสามารถผิดพลาดได้แม้ว่าจะไม่ได้อยู่ในส่วนท้ายของการแจกแจง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.