ทุกคนสามารถอธิบายเป็นภาษาอังกฤษธรรมดาได้ว่าอะไรคือความแตกต่างระหว่างกฎของหัวแม่มือของ Scott และ Silverman สำหรับการเลือกแบนด์วิดธ์? โดยเฉพาะเมื่อใดจะดีกว่าอีก มันเกี่ยวข้องกับการกระจายต้นแบบหรือไม่? จำนวนตัวอย่าง?
PS ผมหมายถึงรหัสใน SciPy
ทุกคนสามารถอธิบายเป็นภาษาอังกฤษธรรมดาได้ว่าอะไรคือความแตกต่างระหว่างกฎของหัวแม่มือของ Scott และ Silverman สำหรับการเลือกแบนด์วิดธ์? โดยเฉพาะเมื่อใดจะดีกว่าอีก มันเกี่ยวข้องกับการกระจายต้นแบบหรือไม่? จำนวนตัวอย่าง?
PS ผมหมายถึงรหัสใน SciPy
คำตอบ:
ความคิดเห็นในรหัสดูเหมือนจะจบลงด้วยการกำหนดทั้งสองเป็นหลักเหมือนกัน (นอกเหนือความแตกต่างเล็กน้อยในค่าคงที่)
ทั้งสองรูปแบบทั้งที่มีสิ่งที่ดูเหมือนเดียวกัน(ประมาณการของขนาด) และ 's มากใกล้เคียงกับ 1 (เทียบใกล้เคียงกับความไม่แน่นอนโดยทั่วไปในการประมาณการของแบนด์วิดธ์ที่เหมาะสม )
[binwdith ประมาณว่าโดยปกติแล้วดูเหมือนว่าจะมีความเกี่ยวข้องกับสก็อตต์เป็นกระดาษจากปี 1979 [1] ( ) - เช่นดูWikipedia - เลื่อนลงมาเล็กน้อย - หรือ R's ]nclass.scott
1.059 ในสิ่งที่รหัสเรียกว่า "ประมาณการสกอตต์" อยู่ในหนังสือ (ก่อนหน้า) โดย Silverman (ดูหน้า 45 ของการอ้างอิง Silverman ที่ลิงก์ของคุณ - สกอตต์ได้รับมาในหน้า 130-131 ของหนังสือที่พวกเขาอ้างถึง) มันมาจากการประมาณตามทฤษฎีปกติ
แบนด์วิดท์ที่เหมาะสม (ในเงื่อนไขข้อผิดพลาดหมายถึงรวม) เป็นฟังก์ชันของอนุพันธ์อันดับสองรวมและออกมาจากการคำนวณนั้นสำหรับปกติ แต่ในหลาย ๆ กรณีที่กว้างกว่าดีที่สุดสำหรับการแจกแจงแบบอื่น .
ระยะคือการประมาณการของ (เรียงลำดับของประมาณการ robustified ในทางที่ช่วยลดแนวโน้มที่มันจะมีขนาดใหญ่เกินไปถ้ามีค่าผิดปกติ / เบ้ / หางหนัก) ดู eq 3.30 ใน p47, เป็นธรรมใน p46-7
ด้วยเหตุผลที่คล้ายคลึงกับที่ฉันแนะนำไว้ก่อนหน้านี้ Silverman แนะนำให้ลดลง 1.059 (อันที่จริงเขาใช้ 1.06 ตลอดไม่ใช่ 1.059 - เช่นเดียวกับ Scott ในหนังสือของเขา) เขาเลือกค่าที่ลดลงซึ่งสูญเสียประสิทธิภาพไม่เกิน 10% สำหรับ IMSE ตามปกติซึ่งเป็นที่ที่ 0.9 มาจาก
ดังนั้นทั้งสองนั้นจะขึ้นอยู่กับแบนด์วิดท์ของ IMSE ที่เหมาะสมที่สุดในระดับปกติด้านขวาสุดอีกด้านหนึ่ง (เล็กกว่าประมาณ 15% เพื่อให้ได้ประสิทธิภาพภายใน 90% ที่ดีที่สุดในระดับปกติ) [ฉันจะเรียกการประมาณทั้ง "Silverman" ฉันไม่รู้ว่าทำไมพวกเขาตั้งชื่อ 1.059 สำหรับ Scott]
ในความคิดของฉันทั้งสองมีขนาดใหญ่เกินไป ฉันไม่ใช้ฮิสโตแกรมเพื่อรับค่าความหนาแน่นที่เหมาะสมที่สุดของ IMSE หาก (การได้รับการประเมินความหนาแน่นที่เหมาะสมที่สุดในแง่ของ IMSE) เป็นสิ่งที่ฉันต้องการจะทำฉันไม่ต้องการใช้ฮิสโทแกรมเพื่อจุดประสงค์นั้น
ฮิสโทแกรมควรทำผิดด้านที่มีเสียงดัง (ให้ตาทำการปรับให้เรียบตามที่จำเป็น) ฉันเกือบสองเท่า (หรือมากกว่า) จำนวนเริ่มต้นของถังขยะกฎประเภทนี้ให้ ดังนั้นฉันจะไม่ใช้ 1.06 หรือ 0.9 ฉันมักจะใช้ประมาณ 0.5 อาจน้อยกว่าขนาดตัวอย่างที่ใหญ่มาก
จริงๆมีน้อยมากที่จะเลือกระหว่างพวกเขาเพราะพวกเขาทั้งสองให้ห่างไกลที่น้อยเกินไปถังขยะที่จะใช้มากในการหาสิ่งที่เกิดขึ้นในข้อมูล (ซึ่งอย่างน้อยที่มีขนาดตัวอย่างเล็ก ๆ , ดูที่นี่
[1]: Scott, DW (1979), "ในฮิสโทแกรมที่ดีที่สุดและอิงกับข้อมูล" Biometrika , 66 , 605-610