“ การประมาณความหนาแน่นของเคอร์เนล” คือการโน้มน้าวใจอะไร


25

ฉันพยายามทำความเข้าใจเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลให้ดีขึ้น

ใช้คำจำกัดความจาก Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

fh^(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

ลองเอาไปเป็นฟังก์ชันรูปสี่เหลี่ยมผืนผ้าซึ่งให้1ถ้าxอยู่ระหว่าง- 0.5ถึง0.5และ0มิฉะนั้นและh (ขนาดหน้าต่าง) เป็น 1K()1x0.50.50h

ฉันเข้าใจว่าความหนาแน่นนั้นเป็นหน้าที่ของทั้งสองฟังก์ชั่น แต่ฉันไม่แน่ใจว่าฉันรู้วิธีกำหนดฟังก์ชันทั้งสองนี้อย่างไร หนึ่งในนั้นควร (อาจ) เป็นฟังก์ชันของข้อมูลซึ่งสำหรับทุกจุดใน R บอกเราว่ามีจุดข้อมูลจำนวนเท่าใดในตำแหน่งนั้น (ส่วนใหญ่ ) และฟังก์ชั่นอื่น ๆ น่าจะเป็นการปรับเปลี่ยนบางส่วนของฟังก์ชั่นเคอร์เนลรวมกับขนาดหน้าต่าง แต่ฉันไม่แน่ใจว่าจะนิยามมันอย่างไร0

ข้อเสนอแนะใด ๆ

ร้องเป็นตัวอย่างรหัส R ซึ่ง (ฉันสงสัย) ทำซ้ำการตั้งค่าที่ฉันกำหนดไว้ด้านบน (ด้วยการผสมผสานของสอง Gaussians และ ) ซึ่งฉันหวังว่าจะเห็น "พิสูจน์" ว่าฟังก์ชั่นที่จะต้อง convoluted เป็นที่เราสงสัย .n=100

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

ป้อนคำอธิบายรูปภาพที่นี่


3
พรมของคุณที่ด้านล่างให้สัญชาตญาณหยาบ ลองนึกภาพแต่ละค่าจากฉัน= 1เพื่อnเป็นเข็มที่มีน้ำหนักที่เกี่ยวข้อง1 / n ตอนนี้ smear แต่ละขัดขวางโดยใช้รูปทรงและความกว้างของเคอร์เนลของคุณเพื่อที่ว่าเข็มจะเปลี่ยนที่จะใช้ในรูปแบบเดียวกันและความกว้างความสูงดังกล่าวว่าพื้นที่ดังต่อไปนี้คือ1 / n เพิ่มผลลัพธ์และคุณมีการประเมินความหนาแน่นของเคอร์เนล xii=1n1/n1/n
Nick Cox

สวัสดีนิคขอบคุณสำหรับความคิดเห็น ไกลจากสัญชาตญาณที่ฉันได้รับมันคือการเปลี่ยนอย่างเป็นทางการในรูปแบบของการโน้มน้าวใจซึ่งฉันอยากรู้ที่จะเห็น :) (ตอนนี้ฉันอยากจะผ่านคำตอบของ Whuber!)
Tal Galili

คำตอบ:


27

สอดคล้องกับชุดข้อมูลใด ๆX=(x1,x2,,xn)คือ "ฟังก์ชันความหนาแน่นเชิงประจักษ์"

fX(x)=1ni=1nδ(xxi).

ที่นี่δคือ "ฟังก์ชันทั่วไป" แม้จะมีชื่อนั้นมันไม่ได้เป็นฟังก์ชั่นเลย: มันเป็นวัตถุทางคณิตศาสตร์ใหม่ที่สามารถใช้ได้ภายในอินทิกรัลเท่านั้น คุณสมบัติที่กำหนดของมันคือสำหรับฟังก์ชั่นgของการสนับสนุนขนาดกะทัดรัดที่ต่อเนื่องในละแวก0 ,

Rδ(x)g(x)dx=g(0).

(ชื่อสำหรับδรวมการวัด "atomic" หรือ "point" และ " Dirac delta function " ในการคำนวณต่อไปนี้แนวคิดนี้ขยายเพื่อรวมฟังก์ชั่นgซึ่งต่อเนื่องจากด้านหนึ่งเท่านั้น)

การอธิบายลักษณะของfXนี้เป็นการสังเกตว่า

xfX(y)dy=x1ni=1nδ(yxi)dy=1ni=1nxδ(yxi)dy=1ni=1nRI(yx)δ(yxi)dy=1ni=1nI(xix)=FX(x)

โดยที่FXคือ CDF เชิงประจักษ์ปกติและIเป็นฟังก์ชันลักษณะปกติ (เท่ากับ1โดยที่อาร์กิวเมนต์เป็นจริงและ0อย่างอื่น) (ฉันข้ามอาร์กิวเมนต์การ จำกัด เบื้องต้นที่จำเป็นในการย้ายจากฟังก์ชั่นของการสนับสนุนขนาดกะทัดรัดไปยังฟังก์ชั่นที่กำหนดไว้เหนือR ; เพราะIเพียงแค่ต้องกำหนดค่าภายในช่วงของXซึ่งกะทัดรัดซึ่งไม่มีปัญหา)

การบิดของfX(x)กับฟังก์ชั่นอื่น ๆkจะได้รับตามคำนิยามตามที่

(fXk)(x)=RfX(xy)k(y)dy=R1ni=1nδ(xyxi)k(y)dy=1ni=1nRδ(xyxi)k(y)dy=1ni=1nk(xix).

ปล่อยให้k(x)=Kh(x) (ซึ่งเป็นเช่นเดียวกับKh(x)สำหรับเมล็ดสมมาตร - และเมล็ดส่วนใหญ่มีความสมมาตร) เราได้รับผลอ้างว่า: สูตรวิกิพีเดียบิด


1
สถานการณ์ในสองมิติคือคำอธิบาย (ในแง่ภาษาเพิ่มเติม) และแสดงบนเว็บไซต์ GIS ที่gis.stackexchange.com/questions/14374/...
whuber

1
ถึง Whuber ฉันเพิ่งผ่านไปและอ่านคำตอบของคุณด้วยความยินดี! ขอบคุณมากสำหรับคำอธิบายและรายละเอียดคำตอบ (อันนี้และอื่น ๆ โดยทั่วไป) เป็นแรงบันดาลใจอย่างแท้จริง ขอแสดงความนับถือ Tal
Tal Galili

1
δg,xig(xi).

1
@whuber ขอบคุณ ประโยคฟังก์ชัน ized ทั่วไปไม่ใช่ฟังก์ชันเลยมันเป็นวัตถุทางคณิตศาสตร์ใหม่ที่สามารถใช้ได้ภายในอินทิกรัลเท่านั้น ทำให้ชัดเจนขึ้น ตรงจุดเสมอ ;)
Jan Vainer

1
@Jan ขอบคุณสำหรับความช่วยเหลือของคุณ: ฉันได้รวบรวมความคิดนั้นไว้ในคำตอบนี้
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.