จะหาช่วงความมั่นใจสำหรับการจัดอันดับอย่างไร


32

Evan Miller ของ " วิธีไม่จัดเรียงตามคะแนนเฉลี่ย " เสนอให้ใช้ขอบเขตล่างของช่วงความมั่นใจเพื่อรับ "คะแนน" รวมที่สมเหตุสมผลสำหรับรายการที่ได้รับการจัดอันดับ อย่างไรก็ตามการทำงานกับโมเดลของ Bernoulli นั้นการให้คะแนนนั้นยกนิ้วขึ้นหรือยกลง

ช่วงเวลาความเชื่อมั่นที่สมเหตุสมผลที่จะใช้สำหรับแบบจำลองการจัดอันดับซึ่งกำหนดคะแนนแบบไม่ต่อเนื่อง1ถึงดาวสมมติว่าจำนวนการจัดอันดับสำหรับรายการอาจมีขนาดเล็กk

ฉันคิดว่าฉันสามารถดูวิธีการปรับจุดศูนย์กลางของช่วงเวลา Wilson และ Agresti-Coull เป็น

p~=i=1nxi+zα/22p0n+zα/22

โดยที่หรือ (น่าจะดีกว่า) คือคะแนนเฉลี่ยของทุกรายการ อย่างไรก็ตามฉันไม่แน่ใจว่าจะปรับความกว้างของช่วงเวลาได้อย่างไร เดาที่ดีที่สุดของฉัน (แก้ไข) จะp0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

ด้วยแต่ฉันไม่สามารถพิสูจน์ได้ว่ามีมากกว่าโบกมือด้วยมือราวกับการเปรียบเทียบของ Agresti-Coull โดยใช้เป็นn~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

มีช่วงความมั่นใจมาตรฐานที่ใช้หรือไม่ (โปรดทราบว่าฉันไม่ได้สมัครสมาชิกวารสารใด ๆ หรือการเข้าถึงห้องสมุดของมหาวิทยาลัยได้อย่างง่ายดายโดยทั้งหมดให้การอ้างอิงที่เหมาะสม แต่โปรดเสริมด้วยผลจริง!)


4
เนื่องจากการตอบกลับในปัจจุบันมี (อาจจะไม่สุภาพ) เกี่ยวกับปัญหานี้ฉันจึงอยากจะชี้ให้เห็นว่าแอปพลิเคชันนี้เป็นการละเมิดข้อจำกัดความเชื่อมั่นอย่างร้ายแรง ไม่มีเหตุผลทางทฤษฎีสำหรับการใช้ LCL ในการจัดอันดับหมายถึง (และเหตุผลมากมายว่าทำไม LCL นั้นแย่กว่าค่าเฉลี่ยของตัวเองเพื่อจุดประสงค์ในการจัดอันดับ) ดังนั้นคำถามนี้ถูกบอกกล่าวในแนวทางที่ไม่สมบูรณ์ซึ่งอาจเป็นสาเหตุที่ทำให้มันดึงดูดความสนใจได้ค่อนข้างน้อย
whuber

2
คุณลักษณะที่ดีของคำถามนี้คือมีบริบทเพียงพอที่เราจะเพิกเฉยต่อคำถามที่เกิดขึ้นจริงและมุ่งเน้นไปที่สิ่งที่ดูเหมือนจะเป็นสิ่งที่สำคัญกว่า
Karl

1
ฉันดีใจที่คุณแก้ไขชื่อที่เปลี่ยนแปลงตามความชอบของคุณปีเตอร์ การแก้ไขดั้งเดิมของฉันไม่ได้เป็นการให้บริการตนเอง แต่เพื่อให้ชื่อแสดงถึงเนื้อหาของคำถาม คุณเป็นผู้ตัดสินขั้นสุดท้ายของความหมายที่แท้จริงของคุณ
whuber

คำตอบ:


23

เช่นเดียวกับ Karl Broman ในคำตอบของเขาแนวทางแบบเบย์น่าจะดีกว่าการใช้ช่วงความมั่นใจ

ปัญหาด้วยช่วงความมั่นใจ

เพราะเหตุใดการใช้ช่วงความมั่นใจจึงทำงานได้ไม่ดีนัก เหตุผลหนึ่งคือถ้าคุณไม่มีการจัดอันดับสำหรับรายการใดช่วงเวลาความมั่นใจของคุณจะกว้างมากดังนั้นขอบเขตที่ต่ำกว่าของช่วงความมั่นใจจะมีขนาดเล็ก ดังนั้นรายการที่ไม่มีการจัดอันดับจะสิ้นสุดที่ด้านล่างของรายการของคุณ

อย่างไรก็ตามโดยสังเขปคุณอาจต้องการให้รายการที่ไม่มีเรตติ้งจำนวนมากอยู่ใกล้กับรายการเฉลี่ยดังนั้นคุณจึงต้องการจัดอันดับรายการโดยประมาณของคุณไปยังเรตติ้งเฉลี่ยของทุกรายการ (เช่นคุณต้องการผลักดันเรตติ้งที่ประเมินไปก่อน ) . นี่คือสิ่งที่วิธีการแบบเบย์ทำ

วิธี Bayesian I: การแจกแจงแบบปกติมากกว่าการให้คะแนน

วิธีหนึ่งในการย้ายการจัดอันดับโดยประมาณไปยังจุดประสงค์ก่อนหน้านี้คือในคำตอบของ Karl เพื่อใช้การประเมินแบบฟอร์ม :wR+(1w)C

  • คือค่าเฉลี่ยของเรตติ้งของรายการR
  • คือค่าเฉลี่ยของทุกรายการ (หรืออะไรก็ตามที่คุณต้องการลดอันดับของคุณไปก่อน)C
  • หมายเหตุว่าสูตรเป็นเพียงการรวมถ่วงน้ำหนักของและCRC
  • คือน้ำหนักที่กำหนดให้กับRโดยที่vคือจำนวนความเห็นสำหรับเบียร์และmคือพารามิเตอร์ "threshold" คงที่w=vv+mRvm
  • โปรดทราบว่าเมื่อมีขนาดใหญ่มากเช่นเมื่อเรามีการจัดอันดับจำนวนมากสำหรับรายการปัจจุบันจากนั้นwอยู่ใกล้กับ 1 มากดังนั้นการจัดอันดับโดยประมาณของเราอยู่ใกล้R มากและเราให้ความสนใจCเล็กน้อยก่อนหน้านี้ เมื่อโวลต์ที่มีขนาดเล็ก แต่กว้างมากใกล้เคียงกับ 0 ดังนั้นคะแนนประมาณที่มากของน้ำหนักบนก่อนCvwRCvwC

ในความเป็นจริงการประมาณนี้สามารถได้รับการตีความแบบเบย์เนื่องจากการประเมินหลังของการจัดอันดับเฉลี่ยของรายการเมื่อการจัดอันดับส่วนบุคคลมาจากการแจกแจงแบบปกติซึ่งมีศูนย์กลางอยู่ที่ค่าเฉลี่ยนั้น

อย่างไรก็ตามสมมติว่าการจัดอันดับมาจากการแจกแจงแบบปกติมีสองปัญหา:

  • กระจายปกติอย่างต่อเนื่องแต่การจัดอันดับเป็นที่ไม่ต่อเนื่อง
  • การให้คะแนนสำหรับรายการไม่จำเป็นต้องเป็นไปตามรูปร่างแบบเกาส์เดียว ตัวอย่างเช่นรายการของคุณอาจโพลาไรซ์มากดังนั้นผู้คนมักจะให้คะแนนที่สูงมากหรือให้คะแนนที่ต่ำมาก

Bayesian Approach II: การกระจายพหุนามมากกว่าการให้คะแนน

ดังนั้นแทนที่จะสมมติให้มีการแจกแจงแบบปกติสำหรับการให้คะแนนขอสมมติพหุนามการจัดจำหน่าย นั่นคือการได้รับไอเท็มบางอย่างที่มีความน่าจะเป็นที่ผู้ใช้สุ่มจะให้ 1 ดาว, ความน่าจะเป็นหนที่ 2ที่ผู้ใช้สุ่มจะให้ 2 ดาวและอื่น ๆp1p2

แน่นอนเราไม่มีความคิดว่าความน่าจะเป็นเหล่านี้คืออะไร เมื่อเราได้รับการจัดอันดับมากขึ้นสำหรับรายการนี้เราสามารถเดาได้ว่าใกล้เคียงกับn 1p1โดยที่n1คือจำนวนผู้ใช้ที่ให้ 1 ดาวและnคือจำนวนผู้ใช้ทั้งหมดที่ให้คะแนนรายการ แต่เมื่อเราเริ่มต้นครั้งแรกเราไม่มีอะไรเลย ดังนั้นเราจึงวางไดริชเลตไว้ก่อนหน้าDir(α1,,αk)บนความน่าจะเป็นเหล่านี้n1nn1n Dir(α1,,αk)

Dirichlet นี้คืออะไรก่อนหน้า เราสามารถคิดของแต่ละพารามิเตอร์ในฐานะที่เป็น "นับเสมือน" ของจำนวนครั้งที่บางคนเสมือนให้รายการที่ฉันดาว ตัวอย่างเช่นถ้าα 1 = 2 , แอลฟา2 = 1และอื่น ๆ ทั้งหมดที่α ฉันจะเท่ากับ 0 แล้วเราสามารถคิดว่านี้เป็นบอกว่าคนสองคนเสมือนให้รายการที่ 1 ดาวและอีกหนึ่งคนเสมือนให้รายการที่ 2 ดาว ดังนั้นก่อนที่เราจะได้รับผู้ใช้จริง ๆ เราสามารถใช้การกระจายแบบเสมือนนี้เพื่อประเมินการจัดอันดับของรายการαiiα1=2α2=1αi

[วิธีหนึ่งในการเลือกพารามิเตอร์จะเป็นการตั้งค่าα iให้เท่ากับสัดส่วนโดยรวมของคะแนนโหวตของฉันของดาว (โปรดทราบว่าพารามิเตอร์α iไม่จำเป็นต้องเป็นจำนวนเต็ม)]αiαiiαi

จากนั้นเมื่อมีการให้คะแนนจริงแล้วเพียงเพิ่มการนับลงในการนับเสมือนของ Dirichlet ของคุณก่อน เมื่อใดก็ตามที่คุณต้องการประเมินการจัดอันดับของรายการของคุณเพียงใช้ค่าเฉลี่ยการจัดอันดับของรายการทั้งหมด (ทั้งการจัดอันดับเสมือนจริงและการจัดอันดับที่แท้จริง)


1
วิธีการที่ 2 ใช้งานได้ดีเหมือนกับวิธีที่ 1 ไม่ใช่ใช่ แต่มีเหตุผลที่ต่างออกไป
Peter Taylor

2
@Peter: โอ้จริง! ไม่ทราบว่าจนกว่าคุณจะพูดถึง =) (ถ้าสิ่งที่คุณต้องการทำคือใช้ค่าเฉลี่ยของคนหลังพวกมันเหมือนกันฉันเดาว่าการมีหลัง Dirichlet อาจมีประโยชน์ถ้าคุณต้องการคำนวณคะแนนประเภทอื่นเช่นวัดแบบขั้วบางอย่าง อาจเป็นของหายาก)
raegtin

1
m

15

สถานการณ์นี้ร้องออกมาสำหรับวิธีการแบบเบย์ มีวิธีที่ง่ายสำหรับการจัดอันดับแบบเบย์ของการจัดอันดับเป็นที่นี่ (มีค่าใช้จ่ายโดยเฉพาะอย่างยิ่งการแสดงความคิดเห็นซึ่งเป็นที่น่าสนใจ) และที่นี่แล้วความเห็นเพิ่มเติมเกี่ยวกับเหล่านี้ที่นี่ ในฐานะที่เป็นหนึ่งในความคิดเห็นในลิงค์แรกเหล่านี้ชี้ให้เห็น:

ที่สุดของ BeerAdvocate (BA) ... ใช้การประมาณแบบเบย์:

อันดับถ่วงน้ำหนัก (WR) = (v / (v + m)) × R + (m / (v + m)) × C

โดยที่:
R = ค่าเฉลี่ยการตรวจสอบสำหรับเบียร์
v = จำนวนความเห็นสำหรับเบียร์
m = ความเห็นขั้นต่ำที่จำเป็นต้องมีในรายการ (ปัจจุบัน 10)
C = ค่าเฉลี่ยทั่วทั้งรายการ (ปัจจุบัน 2.5)


2
ข้อเสียของวิธีการสนับสนุนเบียร์คือมันไม่ได้คำนึงถึงความแปรปรวน อย่างไรก็ตามฉันชอบแนวความคิดนี้กับแนวคิดขีด ​​จำกัด การลดลงที่ต่ำกว่า
Karl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.