การประเมินความหนาแน่นของเคอร์เนลที่รวมความไม่แน่นอน


12

เมื่อแสดงข้อมูลมิติเดียวเป็นเรื่องปกติที่จะใช้เทคนิคการประมาณความหนาแน่นเคอร์เนลเพื่ออธิบายความกว้างของถังขยะที่เลือกอย่างไม่เหมาะสม

เมื่อชุดข้อมูลหนึ่งมิติของฉันมีความไม่แน่นอนในการวัดมีวิธีมาตรฐานในการรวมข้อมูลนี้หรือไม่

ตัวอย่างเช่น (และให้อภัยฉันถ้าความเข้าใจของฉันไร้เดียงสา) KDE โน้มน้าวโปรไฟล์เกาส์เซียนด้วยฟังก์ชันเดลต้าของการสังเกต เคอร์เนล Gaussian นี้ใช้ร่วมกันระหว่างแต่ละตำแหน่ง แต่พารามิเตอร์Gaussianอาจมีการเปลี่ยนแปลงเพื่อให้ตรงกับความไม่แน่นอนของการวัด มีวิธีการมาตรฐานในการดำเนินการนี้หรือไม่? ฉันหวังว่าจะสะท้อนให้เห็นถึงคุณค่าที่ไม่แน่นอนกับเมล็ดที่กว้างσ

ฉันได้ใช้งานสิ่งนี้ใน Python แต่ฉันไม่รู้วิธีหรือฟังก์ชันมาตรฐานในการทำสิ่งนี้ มีปัญหาใด ๆ ในเทคนิคนี้หรือไม่? ฉันทราบว่ามันให้กราฟที่ดูแปลก ๆ ! ตัวอย่างเช่น

การเปรียบเทียบ KDE

ในกรณีนี้ค่าต่ำจะมีความไม่แน่นอนมากขึ้นดังนั้นจึงมีแนวโน้มที่จะให้เมล็ดแบนเรียบในขณะที่ KDE มีน้ำหนักเกินค่าต่ำ (และไม่แน่นอน)


คุณกำลังบอกว่าเส้นโค้งสีแดงเป็นเกาส์เชียนที่มีความกว้างผันแปรและเส้นโค้งสีเขียวคือผลรวมของพวกมัน (นั่นดูไม่น่าเชื่อถือจากกราฟเหล่านี้)
whuber

คุณรู้หรือไม่ว่าการวัดแต่ละข้อผิดพลาดเป็นอย่างไร
Aksakal

@ เมื่อเส้นโค้งสีแดงเป็นความกว้างตัวแปร Gaussians และเส้นโค้งสีฟ้าเป็นผลรวมของพวกเขา เส้นโค้งสีเขียวคือ KDE ที่มีความกว้างคงที่ขออภัยในความสับสน
Simon Walker

@Aksakal ใช่แต่ละการวัดมีความไม่แน่นอนที่แตกต่างกัน
Simon Walker

ปัญหาด้านข้าง แต่ไม่ใช่คำจำกัดความของการประมาณความหนาแน่นของเคอร์เนลที่คุณใช้เมล็ดแบบเกาส์เซียน คุณสามารถใช้ kernel คุณชอบการบูรณาการ 1 แม้ว่าเมล็ดบางคนที่เหมาะสมมากขึ้นหรือมีประโยชน์กว่าคนอื่น ๆ ....
นิคค็อกซ์

คำตอบ:


6

มันสมเหตุสมผลที่จะเปลี่ยนความกว้าง แต่ไม่จำเป็นต้องจับคู่ความกว้างของเคอร์เนลกับความไม่แน่นอน

พิจารณาวัตถุประสงค์ของแบนด์วิดท์เมื่อจัดการกับตัวแปรสุ่มที่การสังเกตไม่มีความไม่แน่นอน (เช่นที่คุณสามารถสังเกตได้ใกล้พอถึง) - ถึงกระนั้น kde จะไม่ใช้แบนด์วิดท์เป็นศูนย์เนื่องจากแบนด์วิดท์เกี่ยวข้องกับ ความแปรปรวนในการแจกแจงมากกว่าความไม่แน่นอนในการสังเกต (เช่น 'ระหว่างการสังเกต' การเปลี่ยนแปลงไม่ใช่ความไม่แน่นอนภายในการสังเกต)

สิ่งที่คุณมีก็คือแหล่งที่มาของความผันแปรเพิ่มเติม (ในกรณี 'ไม่มีความไม่แน่นอนในการสังเกต') ที่แตกต่างกันสำหรับการสังเกตทุกครั้ง

ดังนั้นในขั้นตอนแรกฉันจะพูดว่า "แบนด์วิดธ์ที่เล็กที่สุดที่ฉันใช้คืออะไรถ้าข้อมูลมีความไม่แน่นอน 0" จากนั้นสร้างแบนด์วิดท์ใหม่ซึ่งเป็นสแควร์รูทของผลรวมของกำลังสองของแบนด์วิดท์นั้นและคุณจะใช้สำหรับการสังเกตความไม่แน่นอนσi

อีกทางเลือกหนึ่งในการดูปัญหาคือการปฏิบัติต่อการสังเกตแต่ละครั้งเป็นเคอร์เนลเล็ก ๆ น้อย ๆ (เช่นที่คุณทำซึ่งจะเป็นตัวแทนของการสังเกต) แต่เชื่อว่าเคอร์เนลปกติ (kde-) (ปกติคงที่ - ไวด์ ธ แต่ ไม่จำเป็นต้องมี) กับเคอร์เนลความไม่แน่นอนและจากนั้นทำการประเมินความหนาแน่นแบบรวม (ฉันเชื่อว่านั่นเป็นผลลัพธ์เดียวกันกับที่ฉันแนะนำไว้ข้างต้น)


2

ฉันจะใช้ตัวประมาณความหนาแน่นของเคอร์เนลแบนด์วิดท์ของตัวแปรเช่นตัวเลือกแบนด์วิดท์ในเครื่องสำหรับการประมาณค่าความหนาแน่นของเคอร์เนล deconvolution พยายามที่จะสร้างหน้าต่างปรับตัว KDE เมื่อทราบการกระจายข้อผิดพลาดการวัด คุณระบุว่าคุณทราบถึงความแปรปรวนข้อผิดพลาดดังนั้นวิธีการนี้ควรใช้ในกรณีของคุณ ต่อไปนี้เป็นบทความเกี่ยวกับวิธีการที่คล้ายกันกับตัวอย่างที่ปนเปื้อน: การคัดเลือกแบบ BOOTSTRAP BANDWIDTH ในการประมาณค่าความหนาแน่นของ KERNEL จากตัวอย่างที่ปนเปื้อน


ลิงค์แรกของคุณพาฉันไปที่ms.unimelb.edu.auไม่ใช่เอกสาร ฉันคิดว่าคุณหมายถึงlink.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

โซลูชั่นเหล่านี้ดูดีมาก! คุณรู้รหัสที่ใช้สิ่งเหล่านี้หรือไม่?
Adi Ro

@AdiRo ฉันแก้ไขลิงก์ที่ใช้งานไม่ได้ ฉันไม่มีรหัส
Aksakal

0

คุณอาจต้องการปรึกษาบทที่ 6 ใน "การประเมินความหนาแน่นหลายตัวแปร: ทฤษฎีการปฏิบัติและการสร้างภาพ" โดย David W. Scott, 1992, Wiley

สำหรับกรณี univariate (pp 130-131) เขาได้รับกฎอ้างอิงปกติสำหรับการเลือกแบนด์วิดท์: โดยที่คือความแปรปรวนตามมิติข้อมูลของคุณคือปริมาณข้อมูลและคือแบนด์วิดท์ (คุณใช้ในคำถามของคุณดังนั้นอย่าสับสนในเอกสารของฉัน)σ n ชั่วโมงσ

h=(4/3)1/5σn1/5(6.17)
σnhσ

สัญลักษณ์ KDE ทั่วไปที่เขาใช้คือ: โดยที่เป็นฟังก์ชั่นเคอร์เนลK()

f^(x)=1nhi=1nK(xxih)
K()

0

อันที่จริงฉันคิดว่าวิธีที่คุณเสนอเรียกว่า Probability Density Plot (PDP) ที่ใช้ใน Geo-science อย่างกว้างขวางดูกระดาษที่นี่: https://www.sciencedirect.com/science/article/pii/S0009254112001878

อย่างไรก็ตามมีข้อบกพร่องตามที่ระบุไว้ในกระดาษข้างต้น เช่นถ้าข้อผิดพลาดที่วัดได้มีขนาดเล็กจะมี spikes ใน PDF ที่คุณได้รับในที่สุด แต่เราสามารถทำให้ PDP ราบรื่นเช่นเดียวกับ KDE เหมือนกับที่ @ Glen_b ♦พูดถึง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.