Kernel Bandwidth: กฎของ Scott กับ Silverman


14

ทุกคนสามารถอธิบายเป็นภาษาอังกฤษธรรมดาได้ว่าอะไรคือความแตกต่างระหว่างกฎของหัวแม่มือของ Scott และ Silverman สำหรับการเลือกแบนด์วิดธ์? โดยเฉพาะเมื่อใดจะดีกว่าอีก มันเกี่ยวข้องกับการกระจายต้นแบบหรือไม่? จำนวนตัวอย่าง?

PS ผมหมายถึงรหัสใน SciPy


1
ฉันไม่อยากรู้หลามเลย ฉันแค่ต้องการความช่วยเหลือในการทำความเข้าใจเมื่อต้องใช้กฎใดและทำไม
xrfang

คำตอบ:


11

ความคิดเห็นในรหัสดูเหมือนจะจบลงด้วยการกำหนดทั้งสองเป็นหลักเหมือนกัน (นอกเหนือความแตกต่างเล็กน้อยในค่าคงที่)

ทั้งสองรูปแบบทั้งที่มีสิ่งที่ดูเหมือนเดียวกัน(ประมาณการของขนาด) และ 's มากใกล้เคียงกับ 1 (เทียบใกล้เคียงกับความไม่แน่นอนโดยทั่วไปในการประมาณการของแบนด์วิดธ์ที่เหมาะสม )cAn1/5Ac

[binwdith ประมาณว่าโดยปกติแล้วดูเหมือนว่าจะมีความเกี่ยวข้องกับสก็อตต์เป็นกระดาษจากปี 1979 [1] ( ) - เช่นดูWikipedia - เลื่อนลงมาเล็กน้อย - หรือ R's ]3.49sn1/3nclass.scott

1.059 ในสิ่งที่รหัสเรียกว่า "ประมาณการสกอตต์" อยู่ในหนังสือ (ก่อนหน้า) โดย Silverman (ดูหน้า 45 ของการอ้างอิง Silverman ที่ลิงก์ของคุณ - สกอตต์ได้รับมาในหน้า 130-131 ของหนังสือที่พวกเขาอ้างถึง) มันมาจากการประมาณตามทฤษฎีปกติ

แบนด์วิดท์ที่เหมาะสม (ในเงื่อนไขข้อผิดพลาดหมายถึงรวม) เป็นฟังก์ชันของอนุพันธ์อันดับสองรวมและออกมาจากการคำนวณนั้นสำหรับปกติ แต่ในหลาย ๆ กรณีที่กว้างกว่าดีที่สุดสำหรับการแจกแจงแบบอื่น .1.059σ

ระยะคือการประมาณการของ (เรียงลำดับของประมาณการ robustified ในทางที่ช่วยลดแนวโน้มที่มันจะมีขนาดใหญ่เกินไปถ้ามีค่าผิดปกติ / เบ้ / หางหนัก) ดู eq 3.30 ใน p47, เป็นธรรมใน p46-7Aσ

ด้วยเหตุผลที่คล้ายคลึงกับที่ฉันแนะนำไว้ก่อนหน้านี้ Silverman แนะนำให้ลดลง 1.059 (อันที่จริงเขาใช้ 1.06 ตลอดไม่ใช่ 1.059 - เช่นเดียวกับ Scott ในหนังสือของเขา) เขาเลือกค่าที่ลดลงซึ่งสูญเสียประสิทธิภาพไม่เกิน 10% สำหรับ IMSE ตามปกติซึ่งเป็นที่ที่ 0.9 มาจาก

ดังนั้นทั้งสองนั้นจะขึ้นอยู่กับแบนด์วิดท์ของ IMSE ที่เหมาะสมที่สุดในระดับปกติด้านขวาสุดอีกด้านหนึ่ง (เล็กกว่าประมาณ 15% เพื่อให้ได้ประสิทธิภาพภายใน 90% ที่ดีที่สุดในระดับปกติ) [ฉันจะเรียกการประมาณทั้ง "Silverman" ฉันไม่รู้ว่าทำไมพวกเขาตั้งชื่อ 1.059 สำหรับ Scott]

ในความคิดของฉันทั้งสองมีขนาดใหญ่เกินไป ฉันไม่ใช้ฮิสโตแกรมเพื่อรับค่าความหนาแน่นที่เหมาะสมที่สุดของ IMSE หาก (การได้รับการประเมินความหนาแน่นที่เหมาะสมที่สุดในแง่ของ IMSE) เป็นสิ่งที่ฉันต้องการจะทำฉันไม่ต้องการใช้ฮิสโทแกรมเพื่อจุดประสงค์นั้น

ฮิสโทแกรมควรทำผิดด้านที่มีเสียงดัง (ให้ตาทำการปรับให้เรียบตามที่จำเป็น) ฉันเกือบสองเท่า (หรือมากกว่า) จำนวนเริ่มต้นของถังขยะกฎประเภทนี้ให้ ดังนั้นฉันจะไม่ใช้ 1.06 หรือ 0.9 ฉันมักจะใช้ประมาณ 0.5 อาจน้อยกว่าขนาดตัวอย่างที่ใหญ่มาก

จริงๆมีน้อยมากที่จะเลือกระหว่างพวกเขาเพราะพวกเขาทั้งสองให้ห่างไกลที่น้อยเกินไปถังขยะที่จะใช้มากในการหาสิ่งที่เกิดขึ้นในข้อมูล (ซึ่งอย่างน้อยที่มีขนาดตัวอย่างเล็ก ๆ , ดูที่นี่

[1]: Scott, DW (1979), "ในฮิสโทแกรมที่ดีที่สุดและอิงกับข้อมูล" Biometrika , 66 , 605-610


ตามเอกสาร SciPy ที่นี่กฎของ Scott คือ: n ** (- 1./(d+4)) เมื่อดูรหัสฉันพบว่าฉันเข้าใจผิดกฎเช่นเดียวกับ "scotts_factor" คุณพูดถูกว่าแบนด์วิดท์ใหญ่เกินไป ฉันจะเปิดคำถามใหม่เกี่ยวกับการเลือกแบนด์วิดท์เชิงตัวเลข ขอบคุณ
xrfang

เมื่อคุณทำข้อมูลที่ไม่เปลี่ยนแปลง ( ) นั่นคือส่วนที่ในสูตรด้านบน แต่นั่นไม่ได้คำนึงถึงความแปรปรวนของข้อมูล (ตามที่วัดโดยข้างต้น) หรือคำศัพท์สำหรับการกระจายที่คุณพยายามเพิ่มประสิทธิภาพใกล้ (สิ่งที่ฉันเรียกว่าข้างต้นเช่นเดียวกับปัจจัย 1.059) มันเป็นเพียงแค่วิธีที่แบนด์วิดธ์ควรเปลี่ยนตามขนาดตัวอย่างไม่ใช่ค่าคงที่ที่ควรคูณด้วย d=1n1/5Ac
Glen_b -Reinstate Monica

@ Glen_b-ReinstateMonica คุณช่วยดูคำถามที่ฉันโพสต์ได้ที่นี่ไหม ฉันแสดงให้เห็นถึงปัญหากฎของ Silverman อาจนำมาซึ่งเมื่อมีการใช้ตัวอย่างขนาดใหญ่ คุณช่วยตอบรายละเอียดที่เกิดขึ้นได้ไหม?
269666
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.