สถิติและข้อมูลขนาดใหญ่ ranking

5

วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง

ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

4

การสร้างดัชนีคุณภาพจากหลายตัวแปรเพื่อเปิดใช้งานการจัดอันดับ

ฉันมีตัวแปรตัวเลขสี่ตัว ทั้งหมดเป็นมาตรวัดคุณภาพดิน ตัวแปรยิ่งสูงคุณภาพก็ยิ่งสูงขึ้น ช่วงสำหรับพวกเขาทั้งหมดนั้นแตกต่างกัน: Var1 จาก 1 ถึง 10 Var2 จาก 1,000 ถึง 2000 Var3 จาก 150 ถึง 300 Var4 ตั้งแต่ 0 ถึง 5 ฉันต้องรวมตัวแปรสี่ตัวเป็นคะแนนคุณภาพดินเดียวซึ่งจะประสบความสำเร็จในการจัดอันดับ ความคิดของฉันง่ายมาก สร้างมาตรฐานของตัวแปรทั้งสี่ให้สรุปรวมและสิ่งที่คุณได้รับคือคะแนนที่ควรจัดลำดับ คุณเห็นปัญหาเกี่ยวกับการใช้วิธีนี้หรือไม่ มีวิธีอื่นที่ดีกว่าที่คุณอยากแนะนำไหม? ขอบคุณ แก้ไข: ขอบคุณเพื่อน. มีการถกเถียงกันมากมายในเรื่อง "ความเชี่ยวชาญด้านโดเมน" ... เนื้อหาด้านการเกษตร ... ในขณะที่ฉันคาดว่าจะมีการพูดคุยเรื่องสถิติมากขึ้น ในแง่ของเทคนิคที่ฉันจะใช้ ... มันอาจจะเป็นผลรวมของคะแนน z แบบง่าย + การถดถอยโลจิสติกในการทดลอง เพราะกลุ่มตัวอย่างส่วนใหญ่มีคุณภาพไม่ดี 90% ฉันจะรวม 3 หมวดหมู่คุณภาพเข้าเป็นหนึ่งเดียวและโดยทั่วไปมีปัญหาเลขฐานสอง …

22 ranking valuation

4

จะเริ่มต้นด้วยการจัดเรตและการจัดอันดับโดยใช้ข้อมูลการแข่งขันแบบจับคู่ได้อย่างไร

ฉันน่าสนใจในการเรียนรู้เกี่ยวกับวิธีจัดอันดับและจัดอันดับบุคคลในกลุ่มที่โต้ตอบ / แข่งขันแบบคู่เท่านั้น (เช่นระบบเช่นระบบจัดอันดับELOสำหรับหมากรุก) มีวิธีใดที่จะไปหรือมีวิธีการที่ถูกต้องและทันสมัยกว่าหรือไม่ มีแพ็คเกจ R ที่ทำให้การติดตั้งง่ายหรือไม่? มีวิธีการใดบ้างที่สามารถใช้ข้อมูลเสริมเช่นเดียวกับผลลัพธ์ของการแข่งขัน / เกม? มีวิธีการใดที่สามารถใช้ข้อมูลการชนะมาร์จิ้นได้ดีขึ้นเมื่อเทียบกับการชนะ / แพ้แบบแบ่งขั้วคู่ ฉันควรมองหาอะไรในวรรณกรรม?

19 ranking rating bradley-terry-model elo

4

การวัดประสิทธิภาพของผู้เล่นแต่ละคนในกีฬา 2 คนต่อทีมกีฬา

ฉันมีสเปรดชีทของคะแนนทีมบางส่วน ทีมแรกที่ชนะ 10 คะแนน มีผู้เล่น 2 คนในแต่ละทีม ผู้เล่นเล่นกับเพื่อนร่วมทีมที่แตกต่างกันตลอดเวลาแม้ว่าพวกเขาจะไม่ได้รับการสุ่มเลือกอย่างสมบูรณ์แบบ ไม่มีการเก็บคะแนนเป็นรายบุคคล โดยพื้นฐานแล้วเรามีบิลและบ๊อบชนะแอนดี้และอลิซ 10-4 เจคและบิลเอาชนะโจและจอห์น 10-8 ... เป็นไปได้หรือไม่ที่จะมีการจัดอันดับสำหรับผู้เล่นเดี่ยวตามข้อมูลการแข่งขันที่มีทั้งหมด โดยพื้นฐานแล้วเพื่อดูว่าผู้เล่นแต่ละคนมีส่วนร่วมในแต่ละเกมในแง่ของคะแนนหรือเกี่ยวข้องกับผู้เล่นอื่น ๆ หรือไม่?

19 ranking games bradley-terry-model

4

หนึ่งกราฟจะแสดงผลลัพธ์ของการจัดอันดับแบบอัตนัยได้อย่างไร

ฉันกำลังมองหาวิธีที่จะเห็นภาพการจัดอันดับอัตนัยแยกจากการทดสอบที่ไม่ใช่พารามิเตอร์ของฉัน ฉันขอให้ผู้เข้าร่วม 12 คนจัดอันดับ 8 รายการที่แตกต่างกันตามเกณฑ์ความรู้สึกส่วนตัวที่แตกต่างกัน (จัดอันดับแยกกันสำหรับแต่ละรายการ) สำหรับการจัดอันดับชุดใด ๆ ฉันกำลังมองหาวิธีที่ดีในการมองเห็นแนวโน้มระดับสูงของการจัดอันดับ ฉันได้ลองทั้งบาร์และเรดาร์ในการจัดอันดับโดยเฉลี่ยและฉันเห็นคนอีกคนหนึ่งใช้พล็อตกระจาย / บอลลูนมากกว่าจำนวนการตอบสนองต่ออันดับ แต่ฉันไม่แน่ใจว่าสิ่งใดที่สื่อถึงภาพรวมที่ดีที่สุด ฉันสามารถใช้การจัดอันดับค่าเฉลี่ย 8 หรือการนับ 8 ของการจัดอันดับต่อรายการ แก้ไข: ตัวอย่างเช่น: แต่ละคอลัมน์เป็นรายการแต่ละแถวเป็นการจัดอันดับของแต่ละคนในแปดรายการ ไม่ใช่ข้อตกลงที่แข็งแกร่งเป็นพิเศษในตัวอย่างนี้ แต่โดยทั่วไปต้องการเข้าใจวิธีที่ดีที่สุดในการถ่ายทอดแนวโน้มโดยรวม Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 …

17 data-visualization nonparametric excel ranking

3

ตัวชี้วัดสำหรับการประเมินอัลกอริทึมการจัดอันดับ

ฉันสนใจที่จะดูตัวชี้วัดการจัดอันดับอัลกอริทึมที่แตกต่างกัน - มีอยู่ไม่กี่รายการในหน้าวิกิพีเดียการเรียนรู้การจัดอันดับซึ่งรวมถึง: •ค่าเฉลี่ยความแม่นยำเฉลี่ย (MAP); • DCG และ NDCG; •ความแม่นยำ @ n, NDCG @ n โดยที่ "@n" แสดงว่าตัวชี้วัดได้รับการประเมินเฉพาะบนเอกสาร n อันดับเท่านั้น •หมายถึงอันดับซึ่งกันและกัน; •เอกภาพของเคนดัลล์ • Rho ของ Spearman •อันดับที่คาดหวังซึ่งกันและกัน •กองยานของยานเดกซ์ แต่มันไม่ชัดเจนสำหรับฉันสิ่งที่ข้อดี / ข้อเสียของแต่ละคนหรือเมื่อคุณอาจเลือกอย่างใดอย่างหนึ่งมากกว่า (หรือสิ่งที่มันจะหมายถึงถ้าอัลกอริทึมหนึ่งมีประสิทธิภาพดีกว่าอีกใน NDGC แต่แย่กว่าเมื่อประเมินด้วย MAP) มีที่ไหนที่ฉันสามารถไปเรียนรู้เพิ่มเติมเกี่ยวกับคำถามเหล่านี้หรือไม่

15 algorithms ranking

3

การเปรียบเทียบรายการอันดับ

สมมติว่าทั้งสองกลุ่มประกอบด้วยและแต่ละชุดมี 25 รายการจากมากไปน้อยสำคัญ อะไรคือวิธีที่ดีที่สุดในการเปรียบเทียบอันดับเหล่านี้n 2n1n1n_1n2n2n_2 เห็นได้ชัดว่ามีความเป็นไปได้ที่จะทำการทดสอบ Mann-Whitney U 25 ครั้ง แต่สิ่งนี้จะส่งผลให้ผลการทดสอบ 25 รายการตีความได้ซึ่งอาจมากเกินไป (และในการใช้อย่างเข้มงวด มันยังไม่ชัดเจนสำหรับฉันที่จะจัดอันดับความพึงพอใจทุกข้อสันนิษฐานของการทดสอบนี้ ฉันจะสนใจพอยน์เตอร์ในวรรณคดีเรื่องเรตติ้งและอันดับ บริบทบางอย่าง: 25 รายการเหล่านี้เกี่ยวข้องกับการศึกษาและทั้งสองกลุ่มเป็นนักการศึกษาประเภทต่างๆ ทั้งสองกลุ่มมีขนาดเล็ก แก้ไขในการตอบสนองต่อ @ttnphns: ฉันไม่ได้ตั้งใจจะเปรียบเทียบลำดับทั้งหมดของรายการในกลุ่ม 1 กับกลุ่ม 2 - นั่นคงเป็นค่าคงที่ @ttnphns ชี้ให้เห็น แต่อันดับในกลุ่ม 1 และกลุ่ม 2 จะแตกต่างกัน นั่นคือกลุ่ม 1 อาจจัดอันดับรายการ 1 สูงกว่ากลุ่ม 2 ฉันสามารถเปรียบเทียบพวกเขาแต่ละรายการได้รับค่าเฉลี่ยหรืออันดับเฉลี่ยของแต่ละรายการและทำการทดสอบ 25 ครั้ง แต่ฉันสงสัยว่ามีวิธีที่ดีกว่าในการทำเช่นนี้

15 ranking group-differences

3

มีทางเลือกอื่นในการ Elo สำหรับกิจกรรมที่ไม่ใช่ทีม / บุคคลหรือไม่?

มีระบบการให้คะแนนหรือการจัดอันดับที่รู้จักกันดีเช่นเดียวกับ Elo สำหรับกิจกรรมที่มีผู้เข้าร่วมหลายคนหรือไม่? ตัวอย่างเช่นระบบที่สามารถให้คะแนนการแข่งในรูปแบบต่าง ๆ (อัตโนมัติ, ตกต่ำ, ม้า ฯลฯ ) หรือกีฬาอื่น ๆ (เช่นกอล์ฟ)?

14 ranking elo

2

การแปลงรายการการจัดอันดับบางส่วนเป็นการจัดอันดับโลก

ฉันกำลังทำงานบางอย่างเช่นปัญหาต่อไปนี้ ฉันมีกลุ่มผู้ใช้และหนังสือ N เล่ม ผู้ใช้แต่ละคนสร้างการจัดอันดับตามลำดับของหนังสือทั้งหมดที่เขาอ่าน (ซึ่งน่าจะเป็นชุดย่อยของหนังสือ N) เช่นเล่ม 1> เล่ม 40> เล่ม 25 ตอนนี้ฉันต้องการเปลี่ยนการจัดอันดับผู้ใช้เหล่านี้ให้เป็นอันดับหนึ่งของหนังสือทั้งหมด มีวิธีการที่ดีหรือมาตรฐานที่จะลอง? จนถึงตอนนี้ฉันกำลังนึกถึงโมเดลแบรดลีย์ - เทอร์รี่ที่ใช้ในการเปรียบเทียบแบบคู่ แต่ฉันสงสัยว่ามีอะไรอีกไหม

13 multiple-comparisons ranking recommender-system bradley-terry-model

5

จะพิสูจน์ได้อย่างไรว่าการให้คะแนนของ Elo หรือการจัดอันดับหน้ามีความหมายสำหรับชุดของฉัน

ฉันมีชุดผู้เล่น พวกเขาเล่นกัน (คู่) คู่ของผู้เล่นจะถูกสุ่มเลือก ในเกมใด ๆ ผู้เล่นคนหนึ่งชนะและอีกคนหนึ่งแพ้ ผู้เล่นเล่นกัน จำกัด จำนวนเกม (ผู้เล่นบางคนเล่นเกมมากขึ้นบางคนน้อย) ดังนั้นฉันมีข้อมูล (ผู้ชนะต่อใครและกี่ครั้ง) ตอนนี้ฉันคิดว่าผู้เล่นทุกคนมีอันดับที่กำหนดความน่าจะเป็นในการชนะ ฉันต้องการตรวจสอบว่าข้อสมมติฐานนี้เป็นจริงหรือไม่ แน่นอนฉันสามารถใช้ระบบการจัดอันดับ Eloหรืออัลกอริทึม PageRankเพื่อจัดอันดับการคำนวณสำหรับผู้เล่นทุกคน แต่ด้วยการคำนวณเรตติ้งฉันไม่ได้พิสูจน์ว่าพวกเขา (เรตติ้ง) มีอยู่จริงหรือพวกเขาหมายถึงอะไร กล่าวอีกนัยหนึ่งฉันต้องการมีวิธีพิสูจน์ (หรือตรวจสอบ) ว่าผู้เล่นมีจุดแข็งที่แตกต่างกัน ฉันจะทำมันได้อย่างไร ADDED จะเจาะจงมากขึ้นฉันมีผู้เล่น 8 คนและเพียง 18 เกม ดังนั้นจึงมีผู้เล่นหลายคู่ที่ไม่ได้เล่นกันเองและมีคู่มากที่เล่นกันเพียงครั้งเดียว ผลก็คือฉันไม่สามารถประมาณความน่าจะเป็นของการชนะสำหรับผู้เล่นคู่หนึ่ง ตัวอย่างเช่นฉันเห็นว่ามีผู้เล่นที่ชนะ 6 ครั้งใน 6 เกม แต่บางทีมันอาจเป็นเรื่องบังเอิญ

13 goodness-of-fit ranking rating

3

อันดับโดยรวมจากรายการหลายอันดับ

ฉันได้อ่านวรรณกรรมมากมายที่มีออนไลน์รวมถึงฟอรัมนี้โดยไม่มีโชคและหวังว่าใครบางคนสามารถช่วยปัญหาทางสถิติที่ฉันเผชิญอยู่ในขณะนี้: ฉันมีข้อมูลอันดับ 5 รายการโดยแต่ละรายการประกอบด้วย 10 รายการที่จัดอันดับจากตำแหน่ง 1 (ดีที่สุด) ถึงตำแหน่ง 10 (แย่ที่สุด) เพื่อความเป็นบริบท 10 รายการในแต่ละรายการจะเหมือนกัน แต่ในการจัดอันดับที่แตกต่างกันเนื่องจากเทคนิคที่ใช้ในการตัดสินใจอันดับของพวกเขาแตกต่างกัน ข้อมูลตัวอย่าง: List 1 List 2 List 3 ... etc Item 1 Ranked 1 Ranked 2 Ranked 1 Item 2 Ranked 3 Ranked 1 Ranked 2 Item 3 Ranked 2 Ranked 3 Ranked 3 ... etc …

13 statistical-significance ranking valuation

5

วิธีการวัด“ ความรอบรู้” ของผู้มีส่วนร่วม SE?

Stack Exchange อย่างที่เราทุกคนรู้กันดีว่าเป็นคอลเลกชันของเว็บไซต์ถาม - ตอบพร้อมหัวข้อที่หลากหลาย สมมติว่าแต่ละไซต์มีความเป็นอิสระจากกันเนื่องจากสถิติที่ผู้ใช้มีวิธีคำนวณ "ความรอบรู้" เมื่อเปรียบเทียบกับคนต่อไป เครื่องมือทางสถิติที่ฉันควรใช้คืออะไร ความจริงแล้วฉันไม่รู้วิธีกำหนดทางคณิตศาสตร์ "ความรอบรู้" แต่มันต้องมีคุณสมบัติดังต่อไปนี้: ทุกสิ่งเท่ากันยิ่งมีผู้ใช้มากขึ้นเท่าไหร่เขาก็ยิ่งมีความรอบรู้มากขึ้นเท่านั้น ทุกสิ่งเท่าเทียมกันยิ่งมีผู้ใช้เข้าร่วมมากเท่าไหร่ก็ยิ่งมีผู้เข้าร่วมมากเท่านั้น การตอบหรือคำถามไม่ได้ส่งผลกระทบต่อความกลม

12 ranking diversity

3

คุณสมบัติการจัดอันดับในการถดถอยโลจิสติก

ฉันใช้การถดถอยโลจิสติก ฉันมีหกคุณสมบัติฉันต้องการทราบคุณสมบัติที่สำคัญในตัวจําแนกนี้ที่มีผลต่อผลลัพธ์มากกว่าคุณสมบัติอื่น ๆ ฉันใช้ Information Gain แต่ดูเหมือนว่ามันไม่ได้ขึ้นอยู่กับตัวจําแนกที่ใช้แล้ว มีวิธีการจัดอันดับคุณลักษณะตามความสำคัญของพวกเขาตามตัวจําแนกเฉพาะ (เช่น Logistic Regression) หรือไม่ ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก

10 logistic feature-selection ranking regression-strategies

1

วิธีการวัดความน่าเชื่อถือของการจัดอันดับฉันทามติ (ปัญหาจากหนังสือ Kemeny-Snell)

สมมติว่า kkk ผู้เชี่ยวชาญแต่ละคนขอให้จัดอันดับชุด nnnวัตถุในการสั่งซื้อหรือการตั้งค่า อนุญาตให้มีความสัมพันธ์ในการจัดอันดับ John Kemeny และ Laurie Snell ในหนังสือปี 1962 ของพวกเขา"แบบจำลองทางคณิตศาสตร์ในสังคมศาสตร์"เสนอให้แก้ปัญหาต่อไป: โครงการ 111. พัฒนาตัวชี้วัดความน่าเชื่อถือของการจัดอันดับฉันทามติโดยkkkผู้เชี่ยวชาญ ตัวอย่างเช่นสิ่งนี้อาจขึ้นอยู่กับการเปลี่ยนแปลงที่ใหญ่ที่สุดที่อาจเกิดขึ้นได้โดยการเปลี่ยนการจัดอันดับของผู้เชี่ยวชาญคนเดียว (ความสนใจจะต้องจ่ายให้กับความเป็นไปได้ของการจัดอันดับฉันทามติหลายอย่าง) พิสูจน์ทฤษฎีบทบางประการเกี่ยวกับการยินยอมที่เชื่อถือได้มากที่สุดและน้อยที่สุดเท่าที่จะเป็นไปได้kkk. หนังสือเล่มนี้ให้สัญกรณ์สำหรับการจัดอันดับและวิธีการสำหรับการรวมการจัดอันดับ แต่ไม่มีคำตอบสำหรับปัญหาข้างต้น ก่อนอื่นฉันคิดถึงKendall'sWWWค่าสัมประสิทธิ์ของความสอดคล้องกันแต่ดูเหมือนว่ามันไม่เหมาะ ความคิดใด ๆ ยินดีต้อนรับ!

10 reliability ranking order-statistics

3

อัลกอริทึมการเรียนรู้ของเครื่องเพื่อการจัดอันดับ

ฉันมีชุดขององค์ประกอบ XXX ซึ่งฉันสามารถอธิบายตาม nnnลักษณะเฉพาะ. ดังนั้น: xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X ที่ไหน cijcijc_{ij} เป็นการประเมิน (ตัวเลข) สำหรับองค์ประกอบ iii ตามลักษณะ jjj. ดังนั้นองค์ประกอบของฉันสามารถดูได้เป็นคะแนนในnnn พื้นที่มิติ จากการอ่านของฉันมีอัลกอริทึมเช่น "ตัวแยกประเภทเบย์" ซึ่งสามารถให้คำตอบประเภท "ใช่" หรือ "ไม่" ในองค์ประกอบใด ๆ ของชุดของฉันหากว่าฉันใช้ "ชุดฝึกอบรม" ซึ่งประกอบด้วย องค์ประกอบของชุดของฉันและผลลัพธ์ที่คาดหวังของอัลกอริทึม จากข้อมูลนั้นอัลกอริทึมควรสามารถใช้องค์ประกอบอื่น ๆ ไม่ใช่ส่วนหนึ่งของชุดการฝึกอบรมและให้คำตอบ "ใช่" หรือ "ไม่" ตามสิ่งที่เรียนรู้ด้วยชุดฝึกอบรม นี่เป็นสิ่งที่ดีถ้าคุณมีความคิดบางอย่างเกี่ยวกับสิ่งที่คุณคาดหวัง (ชุดฝึกอบรม) แต่คุณไม่แน่ใจเกี่ยวกับกฎเฉพาะที่ให้ผลตามนั้น สิ่งที่ฉันต้องการจะทำกับข้อมูลของฉันไม่ได้รับคำตอบประเภท "ใช่" หรือ "ไม่" …

10 machine-learning algorithms ranking feature-construction

คำถามติดแท็ก ranking