Parzen ประมาณความหนาแน่นหน้าต่างเป็นชื่ออีกประมาณความหนาแน่นเคอร์เนล มันเป็นวิธีการแบบไม่พารามิเตอร์สำหรับการประเมินฟังก์ชั่นความหนาแน่นต่อเนื่องจากข้อมูล
ลองจินตนาการว่าคุณมี datapoints บางที่มาจากการที่ไม่รู้จักที่พบสันนิษฐานอย่างต่อเนื่องกระจายฉคุณสนใจที่จะประเมินการกระจายของข้อมูลของคุณ สิ่งหนึ่งที่คุณทำได้คือดูที่การกระจายเชิงประจักษ์และถือว่ามันเป็นตัวอย่างที่เทียบเท่ากับการแจกแจงจริง อย่างไรก็ตามหากข้อมูลของคุณต่อเนื่องอาจเป็นไปได้ว่าคุณจะเห็นแต่ละอันx1, … , xnฉxผมจุดปรากฏเพียงครั้งเดียวในชุดข้อมูลดังนั้นตามนี้คุณจะสรุปได้ว่าข้อมูลของคุณมาจากการกระจายเครื่องแบบเนื่องจากแต่ละค่ามีความน่าจะเป็นเท่ากับ หวังว่าคุณสามารถทำได้ดีกว่านี้: คุณสามารถแพ็คข้อมูลของคุณในช่วงระยะห่างเท่ากันจำนวนหนึ่งและนับค่าที่อยู่ในแต่ละช่วงเวลา วิธีการนี้จะขึ้นอยู่กับการประเมินhistogram น่าเสียดายที่ด้วยฮิสโตแกรมคุณจะได้ถังขยะจำนวนหนึ่งแทนที่จะมีการกระจายอย่างต่อเนื่องดังนั้นจึงเป็นเพียงการประมาณคร่าวๆ
การประเมินความหนาแน่นของเคอร์เนลเป็นทางเลือกที่สาม แนวคิดหลักคือคุณประมาณค่าโดยการผสมของการแจกแจงแบบต่อเนื่อง (โดยใช้สัญลักษณ์ของคุณ ) ที่เรียกว่าเมล็ดซึ่งมีศูนย์กลางอยู่ที่ datapoints และมีสเกล ( แบนด์วิดท์ ) เท่ากับ :ฉK ϕ x i hKφxผมชั่วโมง
ฉชั่วโมง^( x ) = 1n ชมΣi = 1nK( x - xผมชั่วโมง)
นี่คือภาพที่แสดงด้านล่างซึ่งใช้การแจกแจงปกติเป็นเคอร์เนลและค่าที่แตกต่างกันสำหรับแบนด์วิดท์จะใช้ในการประเมินการกระจายกำหนด datapoints เจ็ด (ทำเครื่องหมายโดยเส้นที่มีสีสันด้านบนของแปลง) ความหนาแน่นของสีสันบนแปลงเป็นเมล็ดที่มีศูนย์กลางอยู่ที่จุดโปรดสังเกตว่าเป็นพารามิเตอร์สัมพัทธ์ค่าจะถูกเลือกเสมอขึ้นอยู่กับข้อมูลของคุณและค่าเดียวกันของอาจไม่ให้ผลลัพธ์ที่คล้ายกันสำหรับชุดข้อมูลที่แตกต่างกันKชั่วโมงxผมชั่วโมงhชั่วโมง
เคอร์เนลสามารถคิดได้ว่าเป็นฟังก์ชันความหนาแน่นของความน่าจะเป็นและจำเป็นต้องรวมเข้ากับความสามัคคี นอกจากนี้ยังต้องสมมาตรเพื่อให้และสิ่งต่อไปนี้โดยมีศูนย์กลางที่ศูนย์ บทความ Wikipedia เกี่ยวกับเมล็ดแสดงรายการเมล็ดข้าวยอดนิยมจำนวนมากเช่น Gaussian (การแจกแจงแบบปกติ), Epanechnikov, สี่เหลี่ยม (การกระจายแบบสม่ำเสมอ) ฯลฯ โดยทั่วไปแล้วการแจกจ่ายใด ๆ ที่ตอบสนองความต้องการเหล่านั้นสามารถใช้เป็นเคอร์เนลได้KK( x ) = K( - x )
เห็นได้ชัดว่าการประมาณการครั้งสุดท้ายจะขึ้นอยู่กับทางเลือกของเคอร์เนล ( แต่ไม่มาก) และพารามิเตอร์แบนด์วิดธ์ชั่วโมงเธรดต่อไปนี้
จะแปลค่าแบนด์วิดท์ในการประมาณความหนาแน่นของเคอร์เนลได้อย่างไร อธิบายการใช้พารามิเตอร์แบนด์วิดธ์โดยละเอียดยิ่งขึ้นชั่วโมง
พูดแบบนี้เป็นภาษาอังกฤษธรรมดาสิ่งที่คุณคิดในที่นี้คือจุดที่สังเกตได้เป็นเพียงตัวอย่างและติดตามการแจกแจงเพื่อประมาณ เนื่องจากการกระจายนั้นต่อเนื่องเราสันนิษฐานว่ามีความหนาแน่นที่ไม่ทราบค่า แต่ไม่เป็นศูนย์รอบ ๆ บริเวณใกล้เคียงของจุด (ย่านนั้นถูกกำหนดโดยพารามิเตอร์ ) และเราใช้เมล็ดเพื่อคำนวณ จุดมากกว่าที่อยู่ในพื้นที่ใกล้เคียงบางส่วนมีความหนาแน่นมากขึ้นคือการสะสมทั่วภูมิภาคนี้และอื่น ๆ ที่สูงกว่าความหนาแน่นโดยรวมของ{} ขณะนี้ฟังก์ชันสามารถประเมินได้สำหรับจุดใด ๆxผมฉxผมชั่วโมงKฉชั่วโมง^ฉชั่วโมง^ x ^ ฉชั่วโมง ( x ) F ( x )x(โดยไม่ต้องห้อย) ได้รับการประมาณการความหนาแน่นของมันนี้เป็นวิธีที่เราได้รับฟังก์ชั่นที่เป็นประมาณของที่ไม่รู้จักฟังก์ชั่นความหนาแน่นของ(x)ฉชั่วโมง^( x )ฉ( x )
สิ่งที่ดีเกี่ยวกับความหนาแน่นของเคอร์เนลก็คือไม่เหมือนกับฮิสโทแกรมพวกมันคือฟังก์ชันต่อเนื่องและพวกมันคือความหนาแน่นของความน่าจะเป็นที่ถูกต้องเนื่องจากมันเป็นส่วนผสมของความหนาแน่นของความน่าจะเป็นที่ถูกต้อง ในหลายกรณีนี้อยู่ใกล้ที่สุดเท่าที่คุณจะได้รับใกล้เคียงฉฉ
ความแตกต่างระหว่างความหนาแน่นของเคอร์เนลและความหนาแน่นอื่น ๆ เช่นการแจกแจงปกติคือความหนาแน่น "ปกติ" เป็นฟังก์ชันทางคณิตศาสตร์ในขณะที่ความหนาแน่นของเคอร์เนลเป็นการประมาณความหนาแน่นที่แท้จริงโดยประมาณที่ใช้ข้อมูลของคุณดังนั้นจึงไม่ใช่การกระจายแบบสแตนด์อโลน
ฉันอยากจะแนะนำคุณกับหนังสือแนะนำเบื้องต้นสองเล่มเกี่ยวกับเรื่องนี้โดย Silverman (1986) และ Wand and Jones (1995)
Silverman, BW (1986) การประมาณค่าความหนาแน่นสำหรับสถิติและการวิเคราะห์ข้อมูล CRC / Chapman & Hall
Wand, MP และ Jones, MC (1995) Kernel Smoothing ลอนดอน: แชปแมน & ฮอล / ซีอาร์ซี