ฟังก์ชัน“ น่าสนใจ” สำหรับคำถาม StackExchange


20

ฉันกำลังพยายามรวบรวมแพ็คเกจการขุดข้อมูลสำหรับเว็บไซต์ StackExchange และโดยเฉพาะฉันติดอยู่ในการพยายามที่จะกำหนดคำถาม "น่าสนใจที่สุด" ฉันต้องการใช้คะแนนคำถาม แต่ลบอคติเนื่องจากจำนวนการดู แต่ฉันไม่ทราบวิธีเข้าหานี้อย่างจริงจัง

ในโลกอุดมคติฉันสามารถเรียงลำดับคำถามด้วยการคำนวณโดยที่คือจำนวนโหวตทั้งหมดและคือจำนวนการดู หลังจากนั้นมันจะวัดเปอร์เซ็นต์ของผู้ที่ upvote คำถามลบด้วยเปอร์เซ็นต์ของคนที่ downvote คำถามโวลต์nโวลต์n

น่าเสียดายที่รูปแบบการลงคะแนนมีความซับซ้อนมากขึ้น การลงคะแนนมีแนวโน้มที่จะ "ที่ราบสูง" ในระดับหนึ่งและสิ่งนี้มีผลกระทบจากการประเมินคำถามยอดนิยมอย่างรุนแรง ในทางปฏิบัติคำถามที่มี 1 มุมมองและ 1 upvote จะให้คะแนนและเรียงลำดับสูงกว่าคำถามอื่น ๆ ที่มี 10,000 ครั้ง แต่น้อยกว่า 10,000 คะแนน

ขณะนี้ฉันใช้เป็นสูตรเชิงประจักษ์ แต่ฉันต้องการความแม่นยำ ฉันจะแก้ไขปัญหานี้ด้วยความเข้มงวดทางคณิตศาสตร์ได้อย่างไรโวลต์เข้าสู่ระบบn+1

เพื่อที่จะแสดงความคิดเห็นบางส่วนฉันจะพยายามแก้ไขปัญหาด้วยวิธีที่ดีกว่า:

สมมติว่าผมมีคำถามกับคะแนนโหวตทั้งหมดและมุมมอง ฉันต้องการที่จะสามารถที่จะประเมินสิ่งที่คะแนนโหวตทั้งหมดมีแนวโน้มมากที่สุดเมื่อมุมมองถึงn_1โวลต์0n0โวลต์1n1

ด้วยวิธีนี้ฉันสามารถเลือกค่าเล็กน้อยสำหรับและสั่งซื้อคำถามทั้งหมดตามผลรวมคาดไว้n1โวลต์1


ฉันสร้างแบบสอบถามสองรายการบน SO datadump เพื่อให้แสดงผลที่ฉันพูดถึงได้ดีขึ้น:

จำนวนการดูเฉลี่ยตามคะแนน

ผลลัพธ์:

ดูตามคะแนน

คะแนนเฉลี่ยจากการดู (ถังที่เก็บข้อมูล 100 ครั้ง)

ผลลัพธ์:

คะแนนจากการเข้าชม


เปรียบเทียบสองสูตร

ผลลัพธ์ไม่แน่ใจว่า straighter ดีกว่า: (สีน้ำเงินสีแดง)โวลต์nโวลต์ล.โอก.n+1

สูตร


นี่เป็นคำถามที่น่าสนใจ แต่ฉันคิดว่าคุณน่าจะถามคำถามนี้ได้ดีกว่า

@ คุณอาจจะพูดถูก ฉันจะตั้งค่าสถานะสำหรับ mods เพื่อโยกย้ายหากพวกเขาคิดว่าดีที่สุด

1
ทำไมมุมมองจะไม่ส่งผลต่อความน่าสนใจ? (แต่แย่กว่านั้นทำไมพวกเขาถึงมีส่วนร่วมในทางลบ?) สิ่งที่น่าสนใจมากกว่ามักจะถูกมองบ่อยกว่า ... ปัญหาพื้นฐานที่นี่คือสิ่งที่น่าสนใจแม้แต่หมายถึงอะไร มันหมายถึงคำถามที่สนใจโดยทั่วไปหรือคำถามที่เป็นที่สนใจของผู้ชมในระดับที่สูงขึ้นหรือไม่ สำหรับใครบางคนที่จะตอบคำถามนี้ด้วย "ความเข้มงวดทางคณิตศาสตร์" จะต้องมีการวางอย่างจริงจังก่อน

มุมมองมีอคติกับคำถามเพราะคำถามหนึ่งอาจพูดได้ว่าเป็นลิงก์ที่ดีและรับมุมมองมากมายหากคุณดูคำถามยอดนิยมพวกเขาล้วนเป็นคำถามมุมมองสูง โดยที่น่าสนใจฉันหมายถึงคำถามที่มีค่ามากกว่าตามการรับรู้ของผู้ใช้ของเว็บไซต์ ในกรณีใด ๆ คำถามยังคงอยู่: วิธีที่ถูกต้องในการรวมมุมมองและการลงคะแนนเพื่อให้ได้ตัวทำนายคุณภาพที่ดีที่สุดคืออะไร

2
คนคณิตศาสตร์ถามคำถามที่ดี ตรรกะของคำถามนี้ดูเหมือนจะวนเวียนอยู่: ดูเหมือนว่าเราจะขอสูตรในการวัด "คุณภาพ" ของคำถาม SE แต่ไม่ได้กำหนดว่า "คุณภาพ" หมายถึงอะไร ของเว็บไซต์ " คุณไม่ได้อะไรเลย!
whuber

คำตอบ:


3

หนึ่งอาจกำหนดคำถามที่น่าสนใจว่าเป็นหนึ่งที่ได้รับคะแนนโหวตจำนวนมากเมื่อเทียบกับจำนวนการดู ด้วยเหตุนี้คุณสามารถสร้างเส้นโค้งพื้นฐานที่สะท้อนถึงจำนวนคะแนนที่คาดหวังจากมุมมอง เส้นโค้งที่ดึงดูดการโหวตมากกว่าฐานถือว่าน่าสนใจเป็นพิเศษ

หากต้องการสร้างพื้นฐานคุณอาจต้องการคำนวณจำนวนคะแนนเฉลี่ยต่อถังขยะ 100 มุมมอง นอกจากนี้คุณสามารถคำนวณค่าเบี่ยงเบนสัมบูรณ์มัธยฐาน (MAD) เป็นการวัดที่มีประสิทธิภาพสำหรับส่วนเบี่ยงเบนมาตรฐานต่อถัง จากนั้นสามารถคำนวณ "ความน่าสนใจ" ได้

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views) 

1

นี่คือทฤษฎีของฉัน ฉันคิดว่ามีคำถามสองประเภท: คำถามเหล่านั้นส่วนใหญ่ยังคงอยู่ใน SE (ซึ่งมักจะมีจำนวนการดูน้อยลง) และคำถามที่บุคคลภายนอกดูเพราะเป็นลิงก์จากที่อื่น (มักจะมีมุมมองเพิ่มเติม)

สำหรับคำถามที่ยังคงอยู่ใน SE ส่วนใหญ่การลงคะแนนเป็นคำถามที่น่าสนใจ นี่คือจุดลงคะแนน

เมื่อคำถามเชื่อมโยงกับเว็บไซต์ภายนอกการโหวตจะหยุดความหมายมาก ไซต์ลิงก์บางแห่งอาจมีสมาชิก SE น้อยมากส่วนไซต์อื่นอาจมีมากกว่านั้น ความแปรปรวนของจำนวนคะแนนโหวตสำหรับคำถามเหล่านี้อาจสูง (ดังที่เห็นได้จากคะแนนของคุณเทียบกับมุมมองพล็อตที่ด้านขวาของกราฟโค้งออก) คำถามเหล่านี้จะมีจำนวนการดูมากขึ้นและมุมมองอาจเป็นตัวบ่งชี้ที่ดีขึ้นสำหรับคำถามที่น่าสนใจ หรือคำถามที่ชุมชนขนาดใหญ่เกิดขึ้นเพื่อค้นหาสิ่งที่น่าสนใจ มีตัวแปรมากมายในสถานการณ์นี้และฉันคิดว่ามันจะคุ้มค่าที่จะพยายามหาข้อมูลเพิ่มเติมเพื่อแยกแยะกรณีเหล่านี้ SE เผยแพร่ข้อมูลการอ้างอิงหรือไม่


SE เผยแพร่ข้อมูลอ้างอิงหรือไม่ ฉันสนใจที่จะทราบรูปแบบการดูของโพสต์มากกว่า
อัปโหลด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.