PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ


17

PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง

สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร


คำถามที่น่าสนใจ แต่ฉันไม่สามารถเห็นว่าคำตอบสามารถสร้างแรงบันดาลใจได้อย่างไรหากไม่มีกรณีการใช้งานเฉพาะ คุณมี"การตรวจสอบที่เสียหายอย่างไม่มีการลด"หรือไม่? คุณมีข้อมูลที่มีเสียงดังหรือไม่? จำนวนของการใช้งาน RPCA เป็นหลักคือเทคนิคการประมาณค่าความแปรปรวนร่วมที่มีประสิทธิภาพ (ดูหลักการของ Jolliffe การวิเคราะห์องค์ประกอบ, Ed. 2 Ch. 10) ซึ่งพีซีนั้นถูกประเมินจากการประมาณค่าความแปรปรวนปกติ ดังนั้นความแตกต่างจากทั้งสองวิธีที่คุณกล่าวถึงอยู่ไกลจากที่ชัดเจน โดยทั่วไปการตรวจหาค่าผิดพลาดอัตโนมัติจะประสบความสำเร็จภายในบริบทของแอปพลิเคชันเฉพาะ
usεr11852พูดว่า Reinstate Monic

1
ปัญหา“ ข้อมูลที่มีเสียงดัง” ไม่ใช่การตรวจจับที่ไม่สำคัญ ฉันคิดว่าปัญหาการตรวจหาค่าผิดปกตินั้นมีข้อ จำกัด เพียงพอในตัวของมันเองเพื่อให้สามารถทำการเปรียบเทียบทั่วไประหว่างสองวิธีนี้โดยไม่มีกรณีการใช้งาน นี่เป็นคำถามเกี่ยวกับวิธีการ
Mustafa S Eisa

บางทีฉันอาจจะพูดมากเกินไปในพื้นที่น้อยเกินไปขอโทษสำหรับสิ่งนั้น สิ่งที่ฉันต้องการดึงดูดความสนใจคือทั้งสองวิธีที่คุณพูดถึงนั้นไม่แตกต่างกัน คุณควรพิจารณาเน้นที่การเปรียบเทียบระหว่างวิธีการติดตามการฉายภาพ (สิ่งที่คุณเรียกว่า RPCA) และวิธีการประมาณค่าความแปรปรวนร่วมที่มีประสิทธิภาพ (สิ่งที่คุณเรียกว่าระยะทาง Mahalanobis) การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งในตัวเองเป็นวิธีการที่ถูกต้องสมบูรณ์แบบสำหรับการใช้งาน RPCA (เช่น google "PCA M-Estimation") ไม่ต้องพูดถึงการมี PCA ที่ถ่วงน้ำหนักซึ่งคุณไม่ได้กล่าวถึงในบริบทของ RPCA
usεr11852พูดว่า Reinstate Monic

ไม่ต้องการคำขอโทษ :) ทั้งสองวิธีมีความแตกต่างอย่างมากโดยเฉพาะในชุดข้อมูลขนาดเล็ก หนึ่งในวิธีที่พวกเขาแตกต่างกันถูกกล่าวถึงในตอนท้ายของคำถามของฉัน ในขณะที่ (แข็งแกร่ง) PCA สามารถมองได้ว่าเป็นปัญหาการคาดการณ์ แต่ก็สามารถตีความได้ว่าเป็นปัญหาการประมาณค่าความแปรปรวนร่วมดังนั้นอาจมีความแตกต่างในวิธีการประมาณค่าพารามิเตอร์น้อยกว่าในแอปพลิเคชันและประสิทธิภาพ
Mustafa S Eisa

@ MustafaSEisa / คำถามที่ดี! ฉันคิดว่ามันสามารถตอบได้ในบริเวณที่เป็นระเบียบ: อันที่จริงมันเป็นหนึ่งใน peeves ของฉัน ฉันจะพยายามคำตอบที่ไม่แน่นอน ในเวลาเฉลี่ย ฉันคิดว่าวิธีที่มีประโยชน์ในการเข้าหามันในแง่ทั่วไปมากขึ้นคือการมองผลที่ตามมาของการใช้แบบจำลองกับกลุ่มค่าคงที่ที่ไม่เท่ากัน แต่ไม่เท่ากัน ขณะที่ฉันพยายามทำที่นี่ในบริบทที่แตกต่างกันเล็กน้อย
user603

คำตอบ:


7

บทความนี้เปรียบเทียบวิธีการบางอย่างในพื้นที่นี้ พวกเขาอ้างถึงวิธี PCA ที่แข็งแกร่งที่คุณเชื่อมโยงกับ "PCP" (การติดตามส่วนประกอบหลัก) และตระกูลของวิธีการที่คุณเชื่อมโยงเพื่อการประมาณค่าความแปรปรวนร่วมที่มีประสิทธิภาพในฐานะตัวประเมิน M

พวกเขาโต้แย้งว่า

PCP ได้รับการออกแบบมาสำหรับพิกัดข้อมูลที่เสียหายอย่างสม่ำเสมอแทนที่จะเป็นจุดข้อมูลที่เสียหาย (เช่นค่าผิดพลาด) ดังนั้นการเปรียบเทียบกับ PCP ค่อนข้างไม่ยุติธรรมสำหรับข้อมูลประเภทนี้

และแสดงให้เห็นว่า PCP (หรือที่รู้จักว่า PCA ที่แข็งแกร่ง) สามารถล้มเหลวในการตรวจหาค่าผิดพลาดในบางกรณี

พวกเขายังพูดถึง "ศัตรูของการกู้คืนพื้นที่" สามประเภทคือค่าผิดประเภทต่างๆและวิธีการชนิดใดที่อาจทำได้ดีในการจัดการกับแต่ละอัน การเปรียบเทียบค่าผิดปกติของคุณกับ "ศัตรู" สามชนิดที่กล่าวถึงในที่นี้อาจช่วยให้คุณเลือกแนวทางได้


ขอบคุณสำหรับ David นี้ฉันจะดูที่กระดาษ อย่างไรก็ตามมี PCA รุ่นหนึ่งที่แข็งแกร่งซึ่งเรียกเก็บค่าปรับแบบไม่แปรเปลี่ยนใน datum (แถวของ data matrix) แทนที่จะเป็นค่าปรับตามพิกัด (เช่นในกรณี Candes) คิด?
Mustafa S Eisa

ฉันไม่แน่ใจว่าฉันเข้าใจคำถามของคุณ คุณขอให้ฉันเปรียบเทียบสองวิธีที่คุณพูดถึงในคำถามของคุณกับวิธี PCA ที่แตกต่างกันหรือไม่?
David J. Harris

ในคำตอบของคุณคุณแยกความแตกต่างระหว่างสองวิธีโดยชี้ให้เห็นว่า 1บทลงโทษใน PCA ที่แข็งแกร่งไม่ใช่การหมุนเวียนแบบคงที่ดังนั้นจึงเหมาะสำหรับการคอร์รัปชั่นในระดับที่ยอมรับได้ ฉันแค่ถามว่าคุณได้พิจารณาหรือคิดเกี่ยวกับกรณีที่มีการใช้บรรทัดฐานของแถว (Euclidean) เป็นแถวแทน1บทลงโทษประสานงาน
Mustafa S Eisa

หากคำตอบของคุณคือ“ ไม่” ก็ไม่เป็นไรฉันแค่สงสัย
Mustafa S Eisa

อ้อเข้าใจแล้ว. นั่นจะเป็นกรณีพิเศษของระยะทาง Mahalanobis หรือไม่?
David J. Harris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.