วิธีการที่ไม่อิงพารามิเตอร์ต่างกันสำหรับการประเมินการแจกแจงความน่าจะเป็นของข้อมูล


10

ฉันมีข้อมูลบางส่วนและพยายามที่จะทำให้เส้นโค้งเรียบพอดี อย่างไรก็ตามฉันไม่ต้องการบังคับใช้ความเชื่อก่อนหน้านี้มากเกินไปหรือมีแนวคิดรวบยอดที่แข็งแกร่งเกินไป (ยกเว้นสิ่งที่อยู่ในคำถามที่เหลือของฉัน) หรือสิ่งใด ๆ ที่เฉพาะเจาะจง

ฉันแค่ต้องการให้มันพอดีกับเส้นโค้งที่เรียบ (หรือมีการกระจายความน่าจะเป็นที่ดีซึ่งมันอาจมาจาก) วิธีเดียวที่ฉันรู้ในการทำเช่นนี้คือการประมาณความหนาแน่นของเคอร์เนล (KDE) ฉันสงสัยว่าถ้าคนรู้วิธีการอื่นในการประเมินสิ่งนั้น ฉันแค่ต้องการรายชื่อของพวกเขาและจากนั้นฉันสามารถทำวิจัยของตัวเองเพื่อค้นหาสิ่งที่ฉันต้องการใช้

ให้การเชื่อมโยงหรือการอ้างอิงที่ดี (หรือสัญชาตญาณที่ดี) ยินดีต้อนรับเสมอ (และได้รับการสนับสนุน)!


3
" ฉันไม่ต้องการบังคับใช้ความเชื่อก่อนหน้านี้ " - จากนั้นคุณไม่สามารถสรุปได้ว่ามันราบรื่นหรือต่อเนื่อง (นั่นคือความเชื่อก่อนหน้า) ในกรณีนี้ ecdf เป็นเรื่องเกี่ยวกับการขอความช่วยเหลือเพียงอย่างเดียวของคุณ
Glen_b -Reinstate Monica

1
การมีความเชื่อมั่นในตัวฉันเป็นวิธีที่ดีกว่าในการใช้คำถามของฉัน ฉันหมายความว่าฉันไม่ต้องการที่จะคิดว่ามันคือเบอร์นูลีหรือสิ่งที่อาจ จำกัด ฉันไม่รู้ว่า ecdf คืออะไร หากคุณมีข้อเสนอแนะที่ดีหรือรายการข้อเสนอแนะอย่าลังเลที่จะโพสต์
Pinocchio

ฉันได้อัปเดตคำถามของฉันแล้ว มันดีกว่าไหม ชัดเจนยิ่งขึ้น? ไม่มีคำตอบที่ถูกต้องสำหรับคำถามของฉันโดยวิธีเดียวที่ดีและมีประโยชน์น้อยกว่า :)
Pinocchio

2
ecdf = สังเกตุเชิงประจักษ์ขออภัย เราสามารถตอบคำถามที่คุณถามไม่ใช่คำถามที่คุณต้องการถามเท่านั้นดังนั้นคุณต้องระวังให้ชัดเจนเมื่อคุณแสดงสมมติฐานของคุณ
Glen_b -Reinstate Monica

ฮิสโตแกรมที่ได้มาตรฐานสามารถดูได้จากการประเมินความหนาแน่น
Dason

คำตอบ:


5

คุณไม่ได้ระบุว่าคุณกำลังพูดถึงตัวแปรสุ่มแบบต่อเนื่อง แต่ฉันจะถือว่าเนื่องจากคุณพูดถึง KDE ว่าคุณต้องการสิ่งนี้

อีกสองวิธีสำหรับการปรับความหนาแน่นให้เรียบ:

1) การประมาณความหนาแน่นของท่อนซุง ที่นี่เส้นโค้งอิสระจะพอดีกับความหนาแน่นของบันทึก

กระดาษตัวอย่าง:

Kooperberg and Stone (1991),
"การศึกษาการประมาณค่าความหนาแน่นของสายไฟ,"
สถิติการคำนวณและการวิเคราะห์ข้อมูล , 12 , 327-347

Kooperberg ให้ลิงค์ไปยัง pdf เอกสารของเขาที่นี่ภายใต้ "1991"

หากคุณใช้ R จะมีแพ็คเกจสำหรับสิ่งนี้ ตัวอย่างของความพอดีที่สร้างโดยมันเป็นที่นี่ ด้านล่างนี้คือฮิสโตแกรมของบันทึกของชุดข้อมูลที่มีและการทำสำเนาประมาณการบันทึกของสายสัญญาณและความหนาแน่นของเคอร์เนลจากคำตอบ:

ฮิสโตแกรมของบันทึกข้อมูล

การประเมินความหนาแน่น Logspline:

พล็อต logspline

การประเมินความหนาแน่นของเคอร์เนล:

การประมาณความหนาแน่นของเคอร์เนล

2) จำกัด รูปแบบผสม ที่นี่มีการเลือกครอบครัวที่สะดวกในการแจกแจง (ในหลายกรณีปกติ) และความหนาแน่นจะถือว่าเป็นส่วนผสมของสมาชิกหลายคนในครอบครัวนั้น โปรดทราบว่าการประมาณความหนาแน่นของเคอร์เนลสามารถมองเห็นได้เช่นส่วนผสม (ด้วยเคอร์เนล Gaussian พวกเขาเป็นส่วนผสมของ Gaussians)

โดยทั่วไปแล้วสิ่งเหล่านี้อาจถูกติดตั้งผ่าน ML หรืออัลกอริทึม EM หรือในบางกรณีผ่านการจับคู่ช่วงเวลา แต่ในบางกรณีอาจมีวิธีการอื่นที่เป็นไปได้

(มีแพ็กเกจ R มากมายที่ทำแบบจำลองการผสมแบบต่าง ๆ )

เพิ่มในการแก้ไข:

3) ฮิสโทแกรม
ที่ถูกเลื่อนเฉลี่ย (ซึ่งไม่ราบเรียบอย่างแท้จริง แต่อาจราบรื่นพอสำหรับเกณฑ์ที่ไม่ได้ระบุไว้):

ลองนึกภาพการคำนวณลำดับของฮิสโตแกรมที่ความกว้างคงที่ ( ) ในช่องรับต้นกำเนิดที่เลื่อนโดยสำหรับจำนวนเต็มบางส่วนในแต่ละครั้งจากนั้นเฉลี่ย นี่จะดูได้อย่างรวดเร็วก่อนเช่นเดียวกับฮิสโตแกรมที่ทำด้วยความกว้างของแต่ราบรื่นกว่ามากbb/kkb/k

เช่นการคำนวณ 4 histograms แต่ละ binwidth 1 แต่ชดเชยด้วย + 0 + 0.25 + 0.5 + 0.75 แล้วเฉลี่ยความสูงที่ใดก็ตามxคุณจะได้สิ่งที่ต้องการ:x

ค่าเฉลี่ยฮิสโตแกรมที่ถูกเลื่อน

ไดอะแกรมที่นำมาจากคำตอบนี้ อย่างที่ผมบอกไปแล้วถ้าคุณไปถึงระดับความพยายามคุณก็อาจประมาณค่าความหนาแน่นของเคอร์เนล


เพื่อเพิ่มไปนี้ สำหรับแบบจำลองการผสม - ฉันเดาว่าคุณสามารถใส่ส่วนผสมของ 2 จากนั้น 3 แล้ว 4 การกระจายและหยุดหลังจากที่ไม่มีความเป็นไปได้ในการเข้าสู่ระบบหรือเพิ่มขึ้นอย่างมีนัยสำคัญ ...
waferthin

4

ขึ้นอยู่กับความคิดเห็นข้างต้นเกี่ยวกับสมมติฐานเช่นความนุ่มนวล ฯลฯ คุณสามารถทำการประมาณค่าความหนาแน่น nonparametric แบบเบย์โดยใช้แบบจำลองผสมกับกระบวนการ Dirichlet ก่อน

ภาพด้านล่างแสดงให้เห็นถึงความหนาแน่นของความน่าจะเป็นที่ได้รับจากการประเมิน MCMC ของแบบจำลอง DP ผสมแบบไบวาเรียปกติสำหรับข้อมูล 'ความซื่อสัตย์เก่า' คะแนนเป็นสี IIRC ตามการจัดกลุ่มที่ได้รับในขั้นตอน MCMC ล่าสุด

ป้อนคำอธิบายรูปภาพที่นี่

Teh 2010ให้พื้นหลังที่ดี


1

ทางเลือกที่ได้รับความนิยมเป็นป่าสุ่ม (ดูที่บทเป็นรูปธรรมห้าของ " ป่าตัดสินใจ: แบบครบวงจรกรอบสำหรับการจำแนกการถดถอย, ความหนาแน่นประมาณ Manifold การเรียนรู้และการเรียนรู้กึ่งภายใต้การควบคุม "

มันอธิบายรายละเอียดอัลกอริทึมและประเมินเทียบกับตัวเลือกยอดนิยมอื่น ๆ เช่น k-mean, GMM และ KDE ป่าสุ่มถูกนำมาใช้ใน R และ scikit เรียนรู้

ป่าสุ่มเป็นต้นไม้ตัดสินใจในทางที่ฉลาด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.