จะพิสูจน์ได้อย่างไรว่าการให้คะแนนของ Elo หรือการจัดอันดับหน้ามีความหมายสำหรับชุดของฉัน


13

ฉันมีชุดผู้เล่น พวกเขาเล่นกัน (คู่) คู่ของผู้เล่นจะถูกสุ่มเลือก ในเกมใด ๆ ผู้เล่นคนหนึ่งชนะและอีกคนหนึ่งแพ้ ผู้เล่นเล่นกัน จำกัด จำนวนเกม (ผู้เล่นบางคนเล่นเกมมากขึ้นบางคนน้อย) ดังนั้นฉันมีข้อมูล (ผู้ชนะต่อใครและกี่ครั้ง) ตอนนี้ฉันคิดว่าผู้เล่นทุกคนมีอันดับที่กำหนดความน่าจะเป็นในการชนะ

ฉันต้องการตรวจสอบว่าข้อสมมติฐานนี้เป็นจริงหรือไม่ แน่นอนฉันสามารถใช้ระบบการจัดอันดับ Eloหรืออัลกอริทึม PageRankเพื่อจัดอันดับการคำนวณสำหรับผู้เล่นทุกคน แต่ด้วยการคำนวณเรตติ้งฉันไม่ได้พิสูจน์ว่าพวกเขา (เรตติ้ง) มีอยู่จริงหรือพวกเขาหมายถึงอะไร

กล่าวอีกนัยหนึ่งฉันต้องการมีวิธีพิสูจน์ (หรือตรวจสอบ) ว่าผู้เล่นมีจุดแข็งที่แตกต่างกัน ฉันจะทำมันได้อย่างไร

ADDED

จะเจาะจงมากขึ้นฉันมีผู้เล่น 8 คนและเพียง 18 เกม ดังนั้นจึงมีผู้เล่นหลายคู่ที่ไม่ได้เล่นกันเองและมีคู่มากที่เล่นกันเพียงครั้งเดียว ผลก็คือฉันไม่สามารถประมาณความน่าจะเป็นของการชนะสำหรับผู้เล่นคู่หนึ่ง ตัวอย่างเช่นฉันเห็นว่ามีผู้เล่นที่ชนะ 6 ครั้งใน 6 เกม แต่บางทีมันอาจเป็นเรื่องบังเอิญ


คุณต้องการทดสอบสมมติฐานว่างเปล่าว่าผู้เล่นทุกคนมีความแข็งแกร่งเท่ากันหรือตรวจสอบความพอดีของโมเดลความแข็งแกร่งของผู้เล่นหรือไม่?
onestop

@onestop: ผู้เล่นทุกคนที่มีความแข็งแกร่งเท่ากันจะเป็นไปไม่ได้เลยใช่มั้ย ทำไมคุณแนะนำสิ่งนี้เป็นสมมติฐาน?
endolith

คำตอบ:


10

คุณต้องมีโมเดลความน่าจะเป็น

แนวคิดที่อยู่เบื้องหลังระบบการจัดอันดับคือตัวเลขเพียงตัวเดียวแสดงให้เห็นถึงความสามารถของผู้เล่น เราอาจเรียกหมายเลขนี้ว่า "ความแข็งแกร่ง" (เพราะ "อันดับ" หมายถึงบางสิ่งที่เฉพาะเจาะจงในสถิติ) เราคาดการณ์ว่าผู้เล่น A จะชนะผู้เล่น B เมื่อความแรง (A) เกินความแข็งแกร่ง (B) แต่คำแถลงนี้อ่อนแอเกินไปเพราะ (a) มันไม่ใช่เชิงปริมาณและ (b) ไม่ได้คำนึงถึงความเป็นไปได้ของผู้เล่นที่อ่อนแอกว่าในบางครั้ง เราสามารถเอาชนะปัญหาทั้งสองได้โดยสมมติว่าความน่าจะเป็นที่ A ชนะ B ขึ้นอยู่กับความแตกต่างในจุดแข็งของพวกเขาเท่านั้น หากเป็นเช่นนั้นเราสามารถแสดงจุดแข็งทั้งหมดที่จำเป็นเพื่อให้ความแตกต่างในจุดแข็งเท่ากับอัตราต่อรองของการชนะ

โดยเฉพาะรุ่นนี้คือ

logit(Pr(A beats B))=λAλB

โดยที่นิยามคืออัตราต่อรองและฉันได้เขียนเพื่อความแข็งแกร่งของผู้เล่น A เป็นต้นλ Alogit(p)=log(p)log(1p)λA

โมเดลนี้มีพารามิเตอร์มากที่สุดเท่าที่ผู้เล่น (แต่มีอิสระน้อยกว่าหนึ่งระดับเพราะมันสามารถระบุจุดแข็งสัมพัทธ์เท่านั้นดังนั้นเราจะแก้ไขพารามิเตอร์หนึ่งในค่าที่กำหนดเอง) มันเป็นโมเดลเชิงเส้นทั่วไปชนิดหนึ่ง(ในตระกูล Binomial พร้อมลิงค์ logit)

พารามิเตอร์สามารถประมาณโดยสูงสุดโอกาส ทฤษฎีเดียวกันให้วิธีการสร้างช่วงความเชื่อมั่นรอบการประมาณพารามิเตอร์และทดสอบสมมติฐาน (เช่นผู้เล่นที่แข็งแกร่งที่สุดตามการประมาณการนั้นแข็งแกร่งกว่าผู้เล่นที่อ่อนแอที่สุดโดยประมาณ)

โอกาสของชุดเกมคือผลิตภัณฑ์

all gamesexp(λwinnerλloser)1+exp(λwinnerλloser).

หลังจากแก้ไขค่าของหนึ่งในการประมาณการของคนอื่นคือค่าที่เพิ่มความเป็นไปได้สูงสุดนี้ ดังนั้นการประมาณค่าที่แตกต่างกันจะช่วยลดโอกาสในการเกิดสูงสุด หากลดลงมากเกินไปก็ไม่สอดคล้องกับข้อมูล ในแบบนี้เราสามารถหาช่วงความมั่นใจสำหรับพารามิเตอร์ทั้งหมด: พวกเขาเป็นข้อ จำกัด ที่การประเมินที่แตกต่างกันไม่ได้ลดโอกาสในการบันทึกมากเกินไป สมมติฐานทั่วไปสามารถทดสอบได้ในทำนองเดียวกัน: ข้อ จำกัด ของจุดแข็ง (เช่นโดยสมมติว่าพวกเขาเท่ากันทั้งหมด) ข้อ จำกัด นี้ จำกัด โอกาสที่จะได้รับขนาดใหญ่และหากข้อ จำกัด สูงสุดนี้อยู่ไกลเกินกว่าค่าสูงสุดจริงสมมติฐานคือ ปฏิเสธλ


ในปัญหาเฉพาะนี้มี 18 เกมและ 7 พารามิเตอร์ฟรี โดยทั่วไปนั้นเป็นพารามิเตอร์มากเกินไป: มีความยืดหยุ่นมากที่พารามิเตอร์สามารถเปลี่ยนแปลงได้อย่างอิสระมากโดยไม่เปลี่ยนโอกาสสูงสุดมาก ดังนั้นการใช้เครื่องจักร ML จึงมีแนวโน้มที่จะพิสูจน์ได้อย่างชัดเจนว่ามีข้อมูลไม่เพียงพอที่จะเชื่อมั่นในการประเมินความแข็งแรง


2
(+1) เพื่อช่วย OP ในการค้นหาเพิ่มเติมในรุ่นนี้ต่อไปนี้คือจุดเพิ่มเติมเล็กน้อย (1) รุ่นนี้มักจะเรียกว่าแบบจำลองแบรดลีย์ - เทอร์รี่ (แม้ว่าจะกลับไปทำงานที่ Zermelo เป็นอย่างน้อย) (2) การปล่อยให้ , ความน่าจะเป็นที่คาดการณ์ของเต้นเป็นs_B) (3) หากเล่นการแข่งขันแบบเต็มรอบโรบิน (ซึ่งไม่ใช่ในกรณีนี้) การจัดอันดับของจุดแข็งจะตรงกับเปอร์เซ็นต์การชนะของผู้เล่นแต่ละคน (4) ความดีของความพอดีนั้นสัมพันธ์กับการไหลผ่านกราฟโดยมีผู้เล่นเป็นโหนดและเกมเป็นขอบ A B s A / ( s A + s B )sA=exp(λA)ABsA/(sA+sB)
พระคาร์ดินัล

(ต่อ) เลสเตอร์อาร์ฟอร์ดจูเนียร์ยังมีบทความที่พูดถึงอัลกอริธึมที่เหมาะสมบนพื้นฐานของแนวคิดนี้ในAmer คณิตศาสตร์ชิ้นรายเดือนจาก 1,957 เขียนเพื่อเป็นเกียรติแก่พ่อของเขา
พระคาร์ดินัล

4

หากคุณต้องการทดสอบสมมติฐานว่างที่ผู้เล่นแต่ละคนมีโอกาสชนะหรือแพ้ในแต่ละเกมเท่ากันฉันคิดว่าคุณต้องการทดสอบสมมาตรของตารางฉุกเฉินที่เกิดจากการจัดตารางผู้ชนะกับผู้แพ้

ตั้งค่าข้อมูลเพื่อให้คุณมีสองตัวแปร 'ผู้ชนะ' และ 'ผู้แพ้' ที่มี ID ของผู้ชนะและผู้แพ้ในแต่ละเกมเช่น 'การสังเกต' แต่ละเกมเป็นเกม จากนั้นคุณสามารถสร้างตารางฉุกเฉินของผู้ชนะกับผู้แพ้ สมมติฐานว่างของคุณคือคุณคาดหวังว่าตารางนี้จะสมมาตร (โดยเฉลี่ยมากกว่าการแข่งขันซ้ำ) ในกรณีของคุณคุณจะได้รับตาราง 8 × 8 ที่รายการส่วนใหญ่เป็นศูนย์ (ตรงกับผู้เล่นที่ไม่เคยพบกัน) เช่น ตารางจะเบาบางมากดังนั้นการทดสอบ 'แน่นอน' เกือบจะมีความจำเป็นมากกว่าการพึ่งพา

เช่นการทดสอบที่แน่นอนมีอยู่ใน Stata กับคำสั่งสมมาตร ในกรณีนี้ไวยากรณ์จะเป็น:

symmetry winner loser, exact

ไม่ต้องสงสัยเลยว่ามันถูกนำไปใช้ในแพ็คเกจสถิติอื่น ๆ ที่ฉันไม่คุ้นเคย


(+1) มันตลกผมก็ตระหนักว่าคำสั่ง Stata นี้อาจจะใช้สำหรับการส่งทดสอบ / สมดุลทางพันธุศาสตร์ :) ฉันกล่าวถึงแพคเกจ R ในการตอบสนองที่ก่อนหน้านี้stats.stackexchange.com/questions/5171/...
chl

อันที่จริง TDT เป็นแอปพลิเคชั่นหนึ่งที่กล่าวถึงใน Stata ช่วยฉันเชื่อมโยงด้านบน มันเป็นบริบทที่ฉันเข้ามาทดสอบครั้งแรก ขอบคุณสำหรับลิงก์ไปยัง Q ก่อนหน้า - ดูเหมือนว่าฉันกำลังยุ่งกับ Qs อื่น ๆ เมื่อโพสต์
onestop

ถึงแม้ว่าคำถามจะอ้างถึงการทดสอบสมมติฐาน แต่การเลือกเน้นที่ความดีของคำถามแบบพอดี: ความแข็งแกร่งเชิงตัวเลข (scalar) มีประสิทธิภาพเดียวกับแบบจำลองผลลัพธ์ของการแข่งขันระหว่างผู้เล่นหรือไม่?
whuber

1

คุณตรวจสอบสิ่งพิมพ์ของ Mark Glickman บ้างไหม? ดูเหมือนจะเกี่ยวข้องกัน http://www.glicko.net/

ความเบี่ยงเบนมาตรฐานของการให้คะแนนโดยนัยคือมูลค่าที่คาดหวังของเกม (ค่าเบี่ยงเบนมาตรฐานนี้ได้รับการแก้ไขที่หมายเลขเฉพาะใน Elo พื้นฐานและตัวแปรในระบบ Glicko) ฉันบอกว่าค่าคาดหวังมากกว่าความน่าจะเป็นของการชนะเพราะเสมอ สิ่งสำคัญที่ต้องเข้าใจเกี่ยวกับการให้คะแนนของ Elo ที่คุณมีคือข้อสมมติฐานการแจกแจง (ตัวอย่างเช่นปกติหรือโลจิสติก) และค่าเบี่ยงเบนมาตรฐาน

รุ่นโลจิสติกของสูตร Elo แสดงให้เห็นว่าค่าที่คาดหวังของความแตกต่างของคะแนน 110 คะแนนคือ. 653 เช่นผู้เล่น A ที่มี 1,330 และผู้เล่น B ที่มี 1220

http://en.wikipedia.org/wiki/Elo_rating_system (ตกลงนั่นคือการอ้างอิง Wikipedia แต่ฉันใช้เวลาไปกับคำตอบนี้มากเกินไปแล้ว)

ดังนั้นตอนนี้เรามีค่าที่คาดหวังสำหรับแต่ละเกมตามคะแนนของผู้เล่นแต่ละคนและผลที่ได้ตามเกม

ณ จุดนี้สิ่งต่อไปที่ฉันจะทำคือตรวจสอบเรื่องนี้ด้วยการจัดเรียงช่องว่างจากต่ำไปสูงและผลรวมที่คาดหวังและตามจริง ดังนั้นสำหรับเกม 5 เกมแรกเราอาจมีคะแนนรวม 2 และคะแนนคาดหวัง 1.5 สำหรับ 10 เกมแรกเราอาจมีคะแนนรวม 8 คะแนนและคะแนน 8.8 ที่คาดหมายเป็นต้น

โดยการทำกราฟทั้งสองเส้นนี้สะสมกัน (ตามที่คุณต้องการสำหรับการทดสอบ Kolmogorov-Smirnov) คุณสามารถดูได้ว่าค่าสะสมที่คาดหวังและที่เกิดขึ้นจริงติดตามกันหรือไม่ดี เป็นไปได้ว่าคนอื่นจะสามารถทำการทดสอบที่เป็นทางการมากขึ้น


1

ตัวอย่างที่มีชื่อเสียงที่สุดสำหรับการทดสอบความถูกต้องของวิธีการประเมินในระบบการจัดอันดับคือการจัดอันดับหมากรุก - Elo กับการแข่งขันที่เหลือของโลกบนKaggleซึ่งโครงสร้างดังต่อไปนี้:

คู่แข่งฝึกอบรมระบบการให้คะแนนโดยใช้ชุดข้อมูลการฝึกอบรมกว่า 65,000 ผลลัพธ์ล่าสุดสำหรับผู้เล่น 8,631 คน จากนั้นผู้เข้าร่วมจะใช้วิธีการทำนายผลลัพธ์ของเกมอีก 7,809 เกม

ผู้ชนะคืออีโล ++

ดูเหมือนว่าจะเป็นรูปแบบการทดสอบที่ดีสำหรับความต้องการของคุณในทางทฤษฎีถึงแม้ว่าการแข่งขัน 18 นัดจะไม่ใช่ฐานการทดสอบที่ดีก็ตาม คุณยังสามารถตรวจสอบความแตกต่างระหว่างผลการค้นหาสำหรับขั้นตอนวิธีการต่างๆ (นี่คือการเปรียบเทียบระหว่างrankade , ระบบการจัดอันดับของเราและเป็นที่รู้จักมากที่สุดรวมทั้งอีโล , GlickoและTrueskill )


0

คุณต้องการทดสอบสมมติฐานว่าความน่าจะเป็นของผลลัพธ์ขึ้นอยู่กับการจับคู่ นั้นคือทุกเกมเป็นเกมพลิกเหรียญH0

การทดสอบง่ายๆนี้จะคำนวณสัดส่วนของเวลาที่ผู้เล่นที่เล่นเกมก่อนหน้านี้มากกว่าจะชนะและเปรียบเทียบกับฟังก์ชันการแจกแจงแบบทวินาม นั่นควรแสดงการมีอยู่ของเอฟเฟกต์บางอย่าง

หากคุณสนใจเกี่ยวกับคุณภาพของระบบการจัดเรต Elo สำหรับเกมของคุณวิธีการง่ายๆก็คือการรันครอสวัลเดชั่นแบบ 10 เท่าสำหรับประสิทธิภาพการทำนายของโมเดล Elo (ซึ่งจริง ๆ แล้วถือว่าผลลัพธ์ไม่ใช่ไอดอล จะไม่สนใจสิ่งนั้น) และเปรียบเทียบสิ่งนั้นกับการโยนเหรียญ


ให้มีความเฉพาะเจาะจงมากขึ้น ฉันมีผู้เล่น 8 คนและมีเพียง 18 เกม ดังนั้นจึงมีผู้เล่นจำนวนมากที่ไม่ได้เล่นด้วยกันและมีคู่จำนวนมากที่เล่นคนเดียวเท่านั้น ดังนั้นฉันไม่สามารถประเมินความน่าจะเป็นที่จะชนะสำหรับผู้เล่นคู่หนึ่ง ฉันยังเห็นเช่นมีผู้เล่นที่ชนะ 6 ครั้งใน 6 เกม แต่อาจเป็นเพียงเรื่องบังเอิญ
โรมัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.