หากเคอร์เนล Epanechnikov เหมาะสมที่สุดในทางทฤษฎีเมื่อทำการประมาณค่าความหนาแน่นเคอร์เนลทำไมจึงไม่ใช้บ่อยกว่านี้


18

ฉันได้อ่าน (เช่นที่นี่ ) ว่าเคอร์เนล Epanechnikov เหมาะสมที่สุดอย่างน้อยก็ในทางทฤษฎีเมื่อทำการประมาณความหนาแน่นของเคอร์เนล หากเป็นจริงแล้วทำไมเกาส์เซียนถึงปรากฏบ่อยขึ้นในฐานะเคอร์เนลเริ่มต้นหรือในหลาย ๆ กรณีเป็นเคอร์เนลเพียงตัวเดียวในไลบรารีการประเมินความหนาแน่น


2
คำถามสองข้อที่แช่งที่นี่: ทำไมไม่ใช้กันมากขึ้น? ทำไมเกาส์เซียนมักเป็นเคอร์เนลเริ่มต้น / อย่างเดียว? มันอาจฟังดูเล็กน้อย แต่ชื่อ Epanechnikov อาจดูเหมือนยากที่จะสะกดและออกเสียงอย่างถูกต้องสำหรับคนที่ไม่พูดภาษาอังกฤษ (ฉันไม่แน่ใจด้วยซ้ำว่าอีเป็นชาวรัสเซีย; ฉันไม่สามารถหารายละเอียดเกี่ยวกับชีวประวัติใด ๆ ได้) นอกจากนี้หากฉันแสดง (เช่น) สิ่งมีชีวิตตัวใหญ่แสดงความคิดเห็นเกี่ยวกับรูประฆังความกว้างที่แน่นอน ขายง่ายกว่า Epanechnikov เป็นค่าเริ่มต้นใน kdensityStata
Nick Cox

3
ฉันจะเพิ่มว่าการเพิ่มประสิทธิภาพทางทฤษฎีนี้มีผลในทางปฏิบัติน้อยถ้ามี
ซีอาน

2
มันเป็นชื่อที่คุ้นเคย หากเหมาะสมที่จะใช้เคอร์เนลที่ไม่มีการสนับสนุนที่ จำกัด คุณควรเลือกใช้มัน เท่าที่ประสบการณ์ของฉันดำเนินไปมันก็ไม่สมเหตุสมผลดังนั้นทางเลือกจึงปรากฏขึ้นทางสังคมไม่ใช่ทางเทคนิค
Nick Cox

2
@NickCox ใช่ E เป็นเพื่อนรัสเซียมันไม่ใช่ตัวย่อ :) เขาเป็นคนที่ลึกลับนี่คือทั้งหมดที่คุณจะได้พบกับเขา ฉันยังจำหนังสือที่มีประโยชน์มากคนที่มีชื่อของเขาเขียนไว้ในเครื่องคิดเลขแบบตั้งโปรแกรมใช่มันเป็นเรื่องใหญ่ในเวลานี้
Aksakal

1
@amoeba เขาทำงานที่ИнститутрадиотехникииэлектроникиРоссийскойАкадемииНауким . Котельникова, ฉันพนันว่าเขาได้จัดประเภทการวิจัย, ชื่อเต็มคือЕпанечниковВикторАлександрович
Aksakal

คำตอบ:


7

สาเหตุที่การ Epanechnikov เคอร์เนลไม่ได้ถูกใช้อย่างกว้างขวางสำหรับ optimality ทฤษฎีของมันเป็นอย่างดีอาจเป็นไปได้ว่าEpanechnikov เคอร์เนลไม่จริงในทางทฤษฎีที่ดีที่สุด Tsybakov วิพากษ์วิจารณ์ข้อโต้แย้งอย่างชัดเจนว่าเมล็ดพันธุ์ Epanechnikov นั้น "ดีที่สุดในทางทฤษฎี" ในหน้า 16-19 ของการประมาณค่าเบื้องต้นแบบไม่อิงพารามิเตอร์ (ข้อ 1.2.4)

พยายามที่จะสรุปภายใต้สมมติฐานบางอย่างเกี่ยวกับเคอร์เนลKและคงหนาแน่นpหนึ่งได้ว่าค่าเฉลี่ยรวมตารางข้อผิดพลาดเป็นของแบบฟอร์ม

(1)1nhK2(u)du+h44SK2(p(x))2dx.

การวิจารณ์หลักของ Tsybakov ดูเหมือนว่าจะลดน้อยลงไปกว่าเมล็ดที่ไม่เป็นลบเนื่องจากมักเป็นไปได้ที่จะได้รับการประมาณค่าที่ดีกว่าซึ่งเป็นแบบที่ไม่เป็นลบโดยไม่ จำกัด เมล็ดที่ไม่เป็นเชิงลบ

ขั้นตอนแรกของการโต้แย้งสำหรับเคอร์เนล Epanechnikov เริ่มต้นโดยการลด(1)กว่าhและทุกเมล็ดที่ไม่ใช่เชิงลบ (มากกว่าเมล็ดทั้งหมดในระดับที่กว้างขึ้น) จะได้รับ "ดีที่สุด" แบนด์วิดธ์สำหรับK

hMISE(K)=(K2nSK2(p)2)1/5

และเคอร์เนล "ดีที่สุด" (Epanechnikov)

K(u)=34(1u2)+

ซึ่งความคลาดเคลื่อนกำลังสองเฉลี่ยหมายถึงอะไร:

hMISE(K)=(15n(p)2)1/5.

อย่างไรก็ตามสิ่งเหล่านี้ไม่ใช่ทางเลือกที่เป็นไปได้เนื่องจากมันขึ้นอยู่กับความรู้ (ผ่านp ) ของความหนาแน่นที่ไม่รู้จักp - ดังนั้นจึงเป็นปริมาณ "oracle"

ข้อเสนอจาก Tsybakov ก็หมายความว่า MISE แบบ asymptotic สำหรับ oran Epanechnikov คือ:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Tsybakov พูดว่า (2) มักจะอ้างว่าเป็น MISE ที่ทำได้ดีที่สุด แต่จากนั้นแสดงให้เห็นว่าใครสามารถใช้เมล็ดของลำดับ 2 (ซึ่งSK=0 ) เพื่อสร้างตัวประมาณเคอร์เนลสำหรับทุกε>0เช่นนั้น

lim supnn4/5Ep(p^n(x)p(x))2dxε.

แม้ว่าP nไม่จำเป็นต้องเป็นที่ไม่ใช่เชิงลบหนึ่งยังคงมีผลเหมือนกันสำหรับประมาณการบวกส่วนP + n : = สูงสุด( 0 , P n ) (ซึ่งรับประกันได้ว่าจะไม่เป็นลบแม้ว่าKไม่ได้):p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

ดังนั้นสำหรับεพอขนาดเล็กที่มีอยู่ประมาณค่าที่แท้จริงที่มี MISE asymptotic ขนาดเล็กกว่า Epanechnikov oracleแม้ใช้สมมติฐานเดียวกันกับความหนาแน่นที่ไม่รู้จัก หน้าp

โดยเฉพาะอย่างยิ่งคนมีเป็นผลที่ infimum ของ MISE asymptotic สำหรับการแก้ไขที่pมากกว่าทุกประมาณเคอร์เนล (หรือชิ้นส่วนในเชิงบวกของประมาณเคอร์เนล) เป็น00ดังนั้น Epanechnikov oracle จึงไม่ใกล้เคียงกับความเหมาะสมแม้เมื่อเปรียบเทียบกับตัวประมาณที่แท้จริง

เหตุผลที่ผู้คนทะเลาะกันเรื่องคำพยากรณ์ของ Epanechnikov ในตอนแรกก็คือคนเรามักจะโต้แย้งว่าเคอร์เนลนั้นควรจะไม่เป็นลบ แต่เมื่อ Tsybakov ชี้ให้เห็นเราไม่ต้องคิดว่าเคอร์เนลนั้นไม่เป็นลบเพื่อให้ได้ค่าประมาณความหนาแน่นแบบไม่ลบและการอนุญาตให้เมล็ดอื่นสามารถประมาณค่าความหนาแน่นไม่เป็นลบได้ซึ่ง (1) ไม่ใช่ออราเคิล และ (2) ดำเนินการโดยพลการที่ดีกว่า oracle Epanechnikov สำหรับการแก้ไขpหน้า Tsybakov ใช้ความคลาดเคลื่อนนี้เพื่อยืนยันว่ามันไม่สมเหตุสมผลที่จะโต้เถียงสำหรับ optimality ในแง่ของการแก้ไขpแต่สำหรับคุณสมบัติ optimality ซึ่งเป็นเครื่องแบบในชั้นเรียนของความหนาแน่น นอกจากนี้เขายังชี้ให้เห็นว่าการโต้แย้งยังคงใช้ได้เมื่อใช้ MSE แทนที่จะเป็น MISE

แก้ไข:ดูข้อ 1.1 บน p.25 โดยที่เคอร์เนล Epanechnikov แสดงให้เห็นว่าไม่สามารถยอมรับได้ตามเกณฑ์อื่น Tsybakov ดูเหมือนจะไม่ชอบเคอร์เนล Epanechnikov


4
+1 สำหรับการอ่านที่น่าสนใจ แต่นี่ไม่ได้ตอบว่าทำไมเคอร์เนล Gaussian ถูกใช้บ่อยกว่าเคอร์เนล Epanechnikov: ทั้งคู่นั้นไม่เป็นลบ
อะมีบาพูดว่า Reinstate Monica

@amoeba นั่นคือความจริง อย่างน้อยที่สุดนี้ตอบคำถามในชื่อซึ่งเป็นเพียงเกี่ยวกับเคอร์เนล Epanechnikov (นั่นคือที่อยู่สถานที่ตั้งของคำถามและแสดงให้เห็นว่ามันเป็นเท็จ)
Chill2Macht

3
(+1) สิ่งหนึ่งที่ต้องระวังกับแผนการของ Tsybakov ในการใช้ส่วนที่เป็นบวกของเคอร์เนลที่เป็นค่าลบ - ซึ่งอย่างน้อยความทรงจำของฉันเกี่ยวกับคำแนะนำของเขา - คือแม้ว่าตัวประมาณความหนาแน่นที่ได้อาจทำให้ MSE คอนเวอร์เจนซ์ โดยทั่วไปการประมาณความหนาแน่นจะไม่ใช่ความหนาแน่นที่ถูกต้อง (เนื่องจากคุณตัดมวลออกและจะไม่รวมเข้ากับ 1) หากคุณสนใจเกี่ยวกับ MSE จริง ๆ แล้วมันไม่สำคัญ แต่บางครั้งนี่จะเป็นปัญหาสำคัญ
Dougal

2

เคอร์เนลเกาส์เซียนใช้ในการประมาณความหนาแน่นผ่านอนุพันธ์:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

นี่เป็นเพราะเคอร์เนล Epanechnikov มี 3 อนุพันธ์ก่อนที่จะเป็นศูนย์เหมือนกันซึ่งแตกต่างจากเกาส์เซียนซึ่งมีสัญญาซื้อขายล่วงหน้าจำนวนมาก (ไม่ใช่ศูนย์) ดูหัวข้อ 2.10 ในลิงค์ของคุณสำหรับตัวอย่างเพิ่มเติม


2
อนุพันธ์แรกของ Epanechnikov (หมายเหตุที่สองn , โดยวิธี) เคอร์เนลไม่ต่อเนื่องที่ฟังก์ชันข้ามขอบเขตของเคอร์เนล; ที่อาจมีปัญหามากขึ้น
Glen_b -Reinstate Monica

i

1
@AlexR ในขณะที่สิ่งที่คุณพูดนั้นเป็นความจริงฉันไม่เข้าใจว่ามันอธิบายได้อย่างไรว่าทำไมเกาส์เซียนจึงเป็นเรื่องธรรมดาในการประมาณค่าความหนาแน่นแบบธรรมดา และแม้กระทั่งเมื่อการประเมินอนุพันธ์ส่วนที่ 2.10 แสดงให้เห็นว่าเกาส์เซียนไม่เคยเป็นเคอร์เนลที่ต้องการ
John Rauser

@JohnRauser: โปรดจำไว้ว่าคุณต้องใช้เมล็ด Epanechnikov เพื่อให้ได้ประสิทธิภาพสูงสุด โดยปกติแล้วคนใช้ Gaussian เพราะง่ายกว่าที่จะทำงานด้วยและมีคุณสมบัติที่ดีกว่า
Alex R.

1
@AlexR ฉันจะพูดคลุมเครือใน "[u] คน sually ใช้แบบเกาส์"; คุณมีข้อมูลที่เป็นระบบเกี่ยวกับความถี่ในการใช้งานหรือนี่เป็นเพียงความประทับใจจากงานที่คุณเห็น? ฉันเห็นน้ำหนักร่างกายบ่อยครั้ง แต่ฉันจะไม่เรียกร้องมากกว่านั้น
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.