การประมาณความหนาแน่นเคอร์เนลแบบปรับได้


12

ทุกคนสามารถรายงานเกี่ยวกับประสบการณ์ของพวกเขาด้วยการประมาณความหนาแน่นเคอร์เนลแบบปรับได้หรือไม่?
(มีคำพ้องความหมายมากมาย: การปรับตัว | ตัวแปร | ความกว้างของตัวแปร, KDE | ฮิสโตแกรม | เครื่องมือแทรก ...

การประมาณความหนาแน่นของเคอร์เนลตัวแปร บอกว่า "เราเปลี่ยนแปลงความกว้างของเคอร์เนลในพื้นที่ต่าง ๆ ของพื้นที่ตัวอย่างมีสองวิธี ... " จริง ๆ แล้วเพิ่มเติม: เพื่อนบ้านภายในรัศมีบางเพื่อนบ้าน KNN เพื่อนบ้านที่ใกล้ที่สุด (ปกติ K คงที่) ต้นไม้ Kd multigrid ...
แน่นอนว่าไม่มีวิธีการเดียวที่สามารถทำทุกอย่างได้ แต่วิธีการปรับตัวนั้นดูน่าสนใจ
ดูตัวอย่างภาพที่ดีของตาข่าย 2d การปรับตัวใน วิธีไฟไนต์เอลิเมนต์

ฉันต้องการฟังสิ่งที่ใช้งานได้ / สิ่งที่ใช้ไม่ได้กับข้อมูลจริงโดยเฉพาะ> = 100k จุดข้อมูลกระจัดกระจายใน 2d หรือ 3d

เพิ่ม 2 พฤศจิกายน: นี่คือพล็อตของความหนาแน่น "clumpy" (ชิ้นส่วน x ^ 2 * y ^ 2), การประมาณเพื่อนบ้านที่ใกล้ที่สุดและ Gaussian KDE ด้วยปัจจัยของสกอตต์ ในขณะที่ตัวอย่างหนึ่ง (1) ไม่ได้พิสูจน์อะไรเลยมันแสดงให้เห็นว่า NN สามารถพอดีกับเนินเขาที่คมชัดพอสมควร (และการใช้ต้นไม้ KD นั้นรวดเร็วในแบบ 2d, 3d ... ) ข้อความแสดงแทน


คุณสามารถให้บริบทที่มีความหมายน้อยลงกับสิ่งที่คุณหมายถึงโดย "สิ่งที่ใช้งานได้" หรือเป้าหมายเฉพาะของโครงการของคุณ ฉันใช้พวกเขาเพื่อแสดงภาพกระบวนการจุดเชิงพื้นที่ แต่ฉันสงสัยว่าเป็นสิ่งที่คุณมีในใจเมื่อถามคำถามนี้
Andy W

คำตอบ:


7

n450np4p คือจำนวนมิติ) เนื่องจากการตั้งค่าที่วิธีเคอร์เนลตัวแปรแข่งขันกับขนาดความกว้างคงที่ (พิจารณาจากคำถามของคุณว่าคุณไม่ได้อยู่ในการตั้งค่าเหล่านี้)

สัญชาตญาณที่อยู่เบื้องหลังผลลัพธ์เหล่านี้คือถ้าคุณไม่ได้ตั้งค่าเบาบางมากดังนั้นความหนาแน่นในพื้นที่ก็ไม่แตกต่างกันมากพอสำหรับการได้รับอคติในการเอาชนะประสิทธิภาพที่สูญเสียไป (และ AMISE ของความกว้างของตัวแปรเพิ่มขึ้นเมื่อเทียบกับ AMISE ของความกว้างคงที่) นอกจากนี้เนื่องจากขนาดตัวอย่างขนาดใหญ่ที่คุณมี (และขนาดเล็ก) เคอร์เนลความกว้างคงที่จะอยู่ในระดับท้องถิ่นอยู่แล้วทำให้ลดความได้เปรียบในแง่ของอคติลง


ขอบคุณ Kwak "... สำหรับ Gaussian ตัวแปรสุ่มแบบกระจาย"; คุณจะรู้จักงานใหม่สำหรับการแจกแจง "clumpy" หรือไม่?
เดนิส

@Denis:> 'Clumpy' =? เข้มข้น =? กับหางแคบกว่า Gaussian?
user603

ฉันไม่มีความเชี่ยวชาญ แต่อย่างเช่น "data set clumpiness" ในบทความ Lang et al. "ข้อมูลเชิงลึกเกี่ยวกับอัลกอริธึมการคำนวณความหนาแน่นของเคอร์เนลอย่างรวดเร็ว", 2004, 8p
denis

@ Denis:> ฉันจะบอกว่ามันทำให้เกิดปัญหาที่เลวร้ายที่สุด (เช่นเคอร์เนล NN ควรทำงานได้ดีขึ้นในข้อมูล clumpy น้อยกว่า) ฉันมีคำอธิบายที่เข้าใจง่าย แต่มันไม่พอดีที่นี่รวมทั้งคุณอาจต้องการให้คำถามนี้บนกระดานหลักเป็นคำถามแยกต่างหาก (เชื่อมโยงกับคำถามนี้) เพื่อรับความคิดเห็นเพิ่มเติม
user603

0

-1

Loess / lowess นั้นเป็นวิธีการของตัวแปร KDE โดยที่ความกว้างของเคอร์เนลจะถูกกำหนดโดยวิธีเพื่อนบ้านที่ใกล้ที่สุด ฉันพบว่ามันใช้งานได้ค่อนข้างดีกว่ารุ่นความกว้างคงที่แน่นอนเมื่อความหนาแน่นของจุดข้อมูลแตกต่างกันอย่างชัดเจน

สิ่งหนึ่งที่ต้องระวังด้วย KDE และข้อมูลหลายมิติคือคำสาปของมิติ สิ่งอื่นที่เท่ากันมีคะแนนน้อยกว่าภายในรัศมีเมื่อ p ~ 10 มากกว่าเมื่อ p ~ 2 สิ่งนี้อาจไม่เป็นปัญหาสำหรับคุณถ้าคุณมีข้อมูล 3 มิติ แต่มันเป็นสิ่งที่ต้องคำนึงถึง


3
Loess เป็นวิธีการถดถอยเคอร์เนลตัวแปร คำถามที่ถามเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลตัวแปร
Rob Hyndman

โอ๊ะคุณพูดถูก เข้าใจผิดคำถาม
Hong Ooi

@Rob, แก้ตัวคำถามไร้เดียงสาของฉัน: ถ้าความกว้างของเคอร์เนลแตกต่างกัน (บางครั้ง) ดีสำหรับการถดถอยในพื้นที่ การประมาณความหนาแน่นไม่ใช่กรณีของ f () การประมาณสำหรับ f () == ความหนาแน่น () หรือไม่
เดนิส

@Hong Ooi มีกี่คะแนนที่คุณเคยใช้ Ndim ขอบคุณ
เดนิส

@Denis เป็นคำถามที่ดีมาก คุณช่วยเพิ่มมันเป็นคำถามที่เหมาะสมในเว็บไซต์และเราจะเห็นว่าคำตอบที่ผู้คนสามารถคิดได้
Rob Hyndman
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.