ฉันกำลังพยายามรวบรวมแพ็คเกจการขุดข้อมูลสำหรับเว็บไซต์ StackExchange และโดยเฉพาะฉันติดอยู่ในการพยายามที่จะกำหนดคำถาม "น่าสนใจที่สุด" ฉันต้องการใช้คะแนนคำถาม แต่ลบอคติเนื่องจากจำนวนการดู แต่ฉันไม่ทราบวิธีเข้าหานี้อย่างจริงจัง
ในโลกอุดมคติฉันสามารถเรียงลำดับคำถามด้วยการคำนวณโดยที่คือจำนวนโหวตทั้งหมดและคือจำนวนการดู หลังจากนั้นมันจะวัดเปอร์เซ็นต์ของผู้ที่ upvote คำถามลบด้วยเปอร์เซ็นต์ของคนที่ downvote คำถาม
น่าเสียดายที่รูปแบบการลงคะแนนมีความซับซ้อนมากขึ้น การลงคะแนนมีแนวโน้มที่จะ "ที่ราบสูง" ในระดับหนึ่งและสิ่งนี้มีผลกระทบจากการประเมินคำถามยอดนิยมอย่างรุนแรง ในทางปฏิบัติคำถามที่มี 1 มุมมองและ 1 upvote จะให้คะแนนและเรียงลำดับสูงกว่าคำถามอื่น ๆ ที่มี 10,000 ครั้ง แต่น้อยกว่า 10,000 คะแนน
ขณะนี้ฉันใช้เป็นสูตรเชิงประจักษ์ แต่ฉันต้องการความแม่นยำ ฉันจะแก้ไขปัญหานี้ด้วยความเข้มงวดทางคณิตศาสตร์ได้อย่างไร
เพื่อที่จะแสดงความคิดเห็นบางส่วนฉันจะพยายามแก้ไขปัญหาด้วยวิธีที่ดีกว่า:
สมมติว่าผมมีคำถามกับคะแนนโหวตทั้งหมดและมุมมอง ฉันต้องการที่จะสามารถที่จะประเมินสิ่งที่คะแนนโหวตทั้งหมดมีแนวโน้มมากที่สุดเมื่อมุมมองถึงn_1
ด้วยวิธีนี้ฉันสามารถเลือกค่าเล็กน้อยสำหรับและสั่งซื้อคำถามทั้งหมดตามผลรวมคาดไว้
ฉันสร้างแบบสอบถามสองรายการบน SO datadump เพื่อให้แสดงผลที่ฉันพูดถึงได้ดีขึ้น:
ผลลัพธ์:
คะแนนเฉลี่ยจากการดู (ถังที่เก็บข้อมูล 100 ครั้ง)
ผลลัพธ์:
ผลลัพธ์ไม่แน่ใจว่า straighter ดีกว่า: (สีน้ำเงินสีแดง)