การประมาณความหนาแน่นมีประโยชน์ที่ไหน?


14

หลังจากผ่านการทดสอบทางคณิตศาสตร์สั้น ๆ เล็กน้อยฉันคิดว่าฉันมีสัญชาตญาณเล็กน้อยในการประมาณความหนาแน่นของเคอร์เนล แต่ฉันก็ทราบด้วยว่าการประมาณความหนาแน่นหลายตัวแปรสำหรับตัวแปรมากกว่าสามตัวอาจไม่ใช่ความคิดที่ดีในแง่ของคุณสมบัติทางสถิติของตัวประมาณค่า

ดังนั้นในสถานการณ์ประเภทใดที่ฉันควรจะประเมินพูดความหนาแน่นของตัวแปรที่แยกจากกันโดยใช้วิธีการที่ไม่ใช้พารามิเตอร์? มันมีค่าพอที่จะเริ่มกังวลเกี่ยวกับการประมาณค่าสำหรับตัวแปรมากกว่าสองตัวหรือไม่?

หากคุณสามารถชี้ไปที่ลิงค์ที่มีประโยชน์เกี่ยวกับการประยุกต์ใช้การประมาณค่าความหนาแน่นหลายตัวแปรนั้นจะดีมาก

คำตอบ:


16

กรณีทั่วไปหนึ่งกรณีสำหรับการประยุกต์ใช้การประมาณความหนาแน่นคือการตรวจจับความแปลกใหม่หรือการตรวจจับที่ผิดปกติซึ่งเป็นความคิดที่ว่าคุณเท่านั้น (หรือส่วนใหญ่) มีข้อมูลประเภทหนึ่ง แต่คุณสนใจข้อมูลที่แตกต่างเชิงคุณภาพที่หาได้ยากมาก กรณีทั่วไปเหล่านั้น

ตัวอย่างคือการตรวจจับการฉ้อโกงการตรวจจับความล้มเหลวในระบบและอื่น ๆ นี่เป็นสถานการณ์ที่ยากมากและ / หรือมีราคาแพงในการรวบรวมข้อมูลประเภทที่คุณสนใจกรณีที่หายากเหล่านี้คือกรณีที่มีความน่าจะเป็นต่ำ

เวลาส่วนใหญ่คุณไม่สนใจที่จะประเมินการกระจายที่แน่นอนอย่างแม่นยำ แต่ในอัตราต่อรองสัมพัทธ์

มีบทเรียนและบทวิจารณ์มากมายในหัวข้อนี้ นี้อย่างใดอย่างหนึ่งอาจจะเป็นหนึ่งที่ดีที่จะเริ่มต้นด้วย

แก้ไข: สำหรับบางคนดูเหมือนว่าใช้การประเมินความหนาแน่นสำหรับการตรวจหาค่าผิดปกติ ก่อนอื่นให้เราเห็นด้วยกับสิ่งหนึ่ง: เมื่อมีคนเข้ากับโมเดลผสมกับข้อมูลของเขาเขากำลังทำการประเมินความหนาแน่น โมเดลผสมแสดงการกระจายของความน่าจะเป็น

kNN และ GMM เกี่ยวข้องกันจริง: เป็นสองวิธีในการประมาณความหนาแน่นของความน่าจะเป็น นี่เป็นแนวคิดพื้นฐานสำหรับวิธีการต่างๆในการตรวจจับสิ่งแปลกใหม่ ตัวอย่างเช่นนี้หนึ่งใน kNNs นี้ตามคนอื่น ๆขึ้นอยู่กับหน้าต่าง Parzen (ซึ่งเน้นความคิดนี้มากที่จุดเริ่มต้นของกระดาษ) และอีกหลาย ๆคนอื่น ๆ

ดูเหมือนว่าฉัน (แต่มันเป็นเพียงการรับรู้ส่วนบุคคลของฉัน) ที่มากที่สุดถ้าไม่ได้ทำงานกับความคิดนี้ คุณจะแสดงความคิดเห็นเกี่ยวกับเหตุการณ์ที่ผิดปกติ / หายากได้อย่างไร


บันทึกย่อที่คุณระบุไว้ (ส่วนที่ 6, "วิธีการตามความหนาแน่น") แสดงวิธีที่ลึกลับมาก (ห่างจากวรรณกรรมที่มีความหมายต่ำและการพัฒนาอย่างเงียบ ๆ ในเรื่อง) เพื่อการตรวจหานอกขอบเขต แน่นอนว่าต้องมีแอปพลิเคชันทั่วไปเพิ่มเติม
user603

2
ขออภัยฉันไม่เข้าใจความคิดเห็นของคุณ ตัวอย่างพื้นฐานสองตัวอย่างคือ kNN และ GMM วิธีการทั้งสองนี้ให้การประมาณความหนาแน่นของความน่าจะเป็นและสามารถใช้สำหรับกรณีดังกล่าว
jpmuc

ขอบคุณ GMM คืออะไร ฉันไม่คิดว่า kNN เป็นวิธีการตรวจจับค่าผิดปกติ คุณสามารถอ้างถึงหนังสือเรียนล่าสุดเกี่ยวกับสถิติที่แข็งแกร่งซึ่งใช้ในบริบทนั้นได้หรือไม่? (ฉันดูที่เอกสารในชุดสไลด์ที่คุณชี้ไปที่เกี่ยวข้องกับการตรวจจับนอกดูเหมือนว่าจะเป็นขั้นตอนการประชุมหรือหนังสือเก่า)
603

GMM = รูปแบบส่วนผสมของ Gaussian ในสไลด์ที่พวกเขาอ้างถึงคะแนนขึ้นอยู่กับ kNNs โดยส่วนตัวฉันใช้ SVM เพื่อการตรวจจับครั้งแรก เสียใจฉันไม่สามารถแนะนำหนังสือเรียนที่เป็นรูปธรรมได้ บางทีโน้ตเหล่านี้ ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) ก็เพียงพอแล้ว
jpmuc

1
ฉันเห็นด้วยอย่างยิ่งกับ @ user603 การประเมินความหนาแน่นเป็นสิ่งที่พบเห็นได้ตั้งแต่แรกเริ่มซึ่งเป็นวิธีที่แปลกและทางอ้อมในการพยายามหาคนผิด คำตอบของคุณจะได้รับการปรับปรุงโดยการสรุปวิธีการนำไปใช้ในทางปฏิบัติ - และทำไมคุณถึงคิดว่ามันใช้ได้ดี
Nick Cox

4

(xi)

ชั่วโมง(x)αΣxผมประสบการณ์(-(xผม-x)TΣ-1(xผม-x)),
Σ-1xผม

4

โดยทั่วไป KDE จะขนานนามเป็นทางเลือกแทนฮิสโทแกรม ข้อได้เปรียบหลักของ KDE เหนือฮิสโทแกรมในบริบทนี้คือการบรรเทาผลกระทบของพารามิเตอร์ที่เลือกโดยพลการบนเอาต์พุตภาพของกระบวนการ โดยเฉพาะอย่างยิ่ง (และดังที่แสดงในลิงก์ด้านบน) KDE ไม่ต้องการให้ผู้ใช้ระบุจุดเริ่มต้นและจุดสิ้นสุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.