เช่นเดียวกับ Karl Broman ในคำตอบของเขาแนวทางแบบเบย์น่าจะดีกว่าการใช้ช่วงความมั่นใจ
ปัญหาด้วยช่วงความมั่นใจ
เพราะเหตุใดการใช้ช่วงความมั่นใจจึงทำงานได้ไม่ดีนัก เหตุผลหนึ่งคือถ้าคุณไม่มีการจัดอันดับสำหรับรายการใดช่วงเวลาความมั่นใจของคุณจะกว้างมากดังนั้นขอบเขตที่ต่ำกว่าของช่วงความมั่นใจจะมีขนาดเล็ก ดังนั้นรายการที่ไม่มีการจัดอันดับจะสิ้นสุดที่ด้านล่างของรายการของคุณ
อย่างไรก็ตามโดยสังเขปคุณอาจต้องการให้รายการที่ไม่มีเรตติ้งจำนวนมากอยู่ใกล้กับรายการเฉลี่ยดังนั้นคุณจึงต้องการจัดอันดับรายการโดยประมาณของคุณไปยังเรตติ้งเฉลี่ยของทุกรายการ (เช่นคุณต้องการผลักดันเรตติ้งที่ประเมินไปก่อน ) . นี่คือสิ่งที่วิธีการแบบเบย์ทำ
วิธี Bayesian I: การแจกแจงแบบปกติมากกว่าการให้คะแนน
วิธีหนึ่งในการย้ายการจัดอันดับโดยประมาณไปยังจุดประสงค์ก่อนหน้านี้คือในคำตอบของ Karl เพื่อใช้การประเมินแบบฟอร์ม :w∗R+(1−w)∗C
- คือค่าเฉลี่ยของเรตติ้งของรายการR
- คือค่าเฉลี่ยของทุกรายการ (หรืออะไรก็ตามที่คุณต้องการลดอันดับของคุณไปก่อน)C
- หมายเหตุว่าสูตรเป็นเพียงการรวมถ่วงน้ำหนักของและCRC
- คือน้ำหนักที่กำหนดให้กับRโดยที่vคือจำนวนความเห็นสำหรับเบียร์และmคือพารามิเตอร์ "threshold" คงที่w=vv+mRvm
- โปรดทราบว่าเมื่อมีขนาดใหญ่มากเช่นเมื่อเรามีการจัดอันดับจำนวนมากสำหรับรายการปัจจุบันจากนั้นwอยู่ใกล้กับ 1 มากดังนั้นการจัดอันดับโดยประมาณของเราอยู่ใกล้R มากและเราให้ความสนใจCเล็กน้อยก่อนหน้านี้ เมื่อโวลต์ที่มีขนาดเล็ก แต่กว้างมากใกล้เคียงกับ 0 ดังนั้นคะแนนประมาณที่มากของน้ำหนักบนก่อนCvwRCvwC
ในความเป็นจริงการประมาณนี้สามารถได้รับการตีความแบบเบย์เนื่องจากการประเมินหลังของการจัดอันดับเฉลี่ยของรายการเมื่อการจัดอันดับส่วนบุคคลมาจากการแจกแจงแบบปกติซึ่งมีศูนย์กลางอยู่ที่ค่าเฉลี่ยนั้น
อย่างไรก็ตามสมมติว่าการจัดอันดับมาจากการแจกแจงแบบปกติมีสองปัญหา:
- กระจายปกติอย่างต่อเนื่องแต่การจัดอันดับเป็นที่ไม่ต่อเนื่อง
- การให้คะแนนสำหรับรายการไม่จำเป็นต้องเป็นไปตามรูปร่างแบบเกาส์เดียว ตัวอย่างเช่นรายการของคุณอาจโพลาไรซ์มากดังนั้นผู้คนมักจะให้คะแนนที่สูงมากหรือให้คะแนนที่ต่ำมาก
Bayesian Approach II: การกระจายพหุนามมากกว่าการให้คะแนน
ดังนั้นแทนที่จะสมมติให้มีการแจกแจงแบบปกติสำหรับการให้คะแนนขอสมมติพหุนามการจัดจำหน่าย นั่นคือการได้รับไอเท็มบางอย่างที่มีความน่าจะเป็นที่ผู้ใช้สุ่มจะให้ 1 ดาว, ความน่าจะเป็นหนที่ 2ที่ผู้ใช้สุ่มจะให้ 2 ดาวและอื่น ๆp1p2
แน่นอนเราไม่มีความคิดว่าความน่าจะเป็นเหล่านี้คืออะไร เมื่อเราได้รับการจัดอันดับมากขึ้นสำหรับรายการนี้เราสามารถเดาได้ว่าใกล้เคียงกับn 1p1โดยที่n1คือจำนวนผู้ใช้ที่ให้ 1 ดาวและnคือจำนวนผู้ใช้ทั้งหมดที่ให้คะแนนรายการ แต่เมื่อเราเริ่มต้นครั้งแรกเราไม่มีอะไรเลย ดังนั้นเราจึงวางไดริชเลตไว้ก่อนหน้าDir(α1,…,αk)บนความน่าจะเป็นเหล่านี้n1nn1n Dir(α1,…,αk)
Dirichlet นี้คืออะไรก่อนหน้า เราสามารถคิดของแต่ละพารามิเตอร์ในฐานะที่เป็น "นับเสมือน" ของจำนวนครั้งที่บางคนเสมือนให้รายการที่ฉันดาว ตัวอย่างเช่นถ้าα 1 = 2 , แอลฟา2 = 1และอื่น ๆ ทั้งหมดที่α ฉันจะเท่ากับ 0 แล้วเราสามารถคิดว่านี้เป็นบอกว่าคนสองคนเสมือนให้รายการที่ 1 ดาวและอีกหนึ่งคนเสมือนให้รายการที่ 2 ดาว ดังนั้นก่อนที่เราจะได้รับผู้ใช้จริง ๆ เราสามารถใช้การกระจายแบบเสมือนนี้เพื่อประเมินการจัดอันดับของรายการαiiα1=2α2=1αi
[วิธีหนึ่งในการเลือกพารามิเตอร์จะเป็นการตั้งค่าα iให้เท่ากับสัดส่วนโดยรวมของคะแนนโหวตของฉันของดาว (โปรดทราบว่าพารามิเตอร์α iไม่จำเป็นต้องเป็นจำนวนเต็ม)]αiαiiαi
จากนั้นเมื่อมีการให้คะแนนจริงแล้วเพียงเพิ่มการนับลงในการนับเสมือนของ Dirichlet ของคุณก่อน เมื่อใดก็ตามที่คุณต้องการประเมินการจัดอันดับของรายการของคุณเพียงใช้ค่าเฉลี่ยการจัดอันดับของรายการทั้งหมด (ทั้งการจัดอันดับเสมือนจริงและการจัดอันดับที่แท้จริง)