คำถามติดแท็ก dispersion

6
วิธีการตรวจสอบความคิดเห็นของผู้ใช้โพลาไรซ์ (ระดับดาวสูงและต่ำ)
หากฉันมีระบบการจัดอันดับดาวที่ผู้ใช้สามารถแสดงความพึงพอใจต่อผลิตภัณฑ์หรือรายการได้ฉันจะตรวจสอบสถิติได้อย่างไรหากคะแนนโหวต "แบ่ง" สูง ความหมายแม้ว่าค่าเฉลี่ยคือ 3 จาก 5 สำหรับผลิตภัณฑ์ที่กำหนดฉันจะตรวจสอบได้อย่างไรว่านั่นคือการแบ่ง 1-5 เมื่อเทียบกับฉันทามติ 3 โดยใช้ข้อมูล (ไม่มีวิธีกราฟิก)

4
ทำไมการกระจายตัวจึงใช้งานง่ายกว่าศูนย์กลาง
ดูเหมือนว่าจะมีบางอย่างในความเข้าใจของมนุษย์ของเราที่สร้างความยากลำบากในการเข้าใจความแปรปรวน ในความหมายที่แคบคำตอบคือทันที: การยกกำลังสองทำให้เราหลุดพ้นจากความเข้าใจที่สะท้อนกลับของเรา แต่มันเป็นเพียงความแปรปรวนที่นำเสนอปัญหาหรือเป็นความคิดทั้งหมดของการแพร่กระจายในข้อมูลหรือไม่ เราขอความคุ้มครองในช่วงหรือเพียงแค่ระบุค่าต่ำสุดและค่าสูงสุด แต่เราเพียงแค่หลีกเลี่ยงความยากลำบากจริงหรือ ในความหมาย (โหมดหรือค่ามัธยฐาน) เราพบศูนย์กลางการสรุป ... การทำให้เข้าใจง่าย ความแปรปรวนกระจายไปรอบ ๆ และทำให้พวกเขาอึดอัด มนุษย์ดึกดำบรรพ์จะใช้ประโยชน์จากค่าเฉลี่ยในการล่าสัตว์โดยการใช้รูปสามเหลี่ยมกับการสวดอ้อนวอน แต่ฉันคิดว่ามันช้ากว่ามากที่เรารู้สึกถึงความจำเป็นในการหาปริมาณการแพร่กระจายของสิ่งต่าง ๆ ในความเป็นจริงคำแปรปรวนเป็นครั้งแรกโดย Ronald Fisher เมื่อเร็ว ๆ นี้ในปี 1918ในกระดาษ "ความสัมพันธ์ระหว่างญาติในการสนับสนุนของการถ่ายทอดทางพันธุกรรม Mendelian" คนส่วนใหญ่ที่ติดตามข่าวจะได้ยินเรื่องราวของคำพูดที่โชคร้ายของLarry Summers เกี่ยวกับความถนัดทางคณิตศาสตร์ตามเพศซึ่งอาจเกี่ยวข้องกับการจากไปของเขาจากฮาร์วาร์ด โดยสรุปแล้วเขาเสนอความแปรปรวนที่กว้างขึ้นในการกระจายความสามารถทางคณิตศาสตร์ในเพศชายเมื่อเทียบกับเพศหญิงแม้ว่าเพศทั้งสองจะมีค่าเฉลี่ยเท่ากัน โดยไม่คำนึงถึงความเหมาะสมหรือผลกระทบทางการเมืองนี้ดูเหมือนว่าจะได้รับการพิสูจน์ในทางวิทยาศาสตร์ ที่สำคัญกว่านั้นบางทีความเข้าใจในประเด็นต่าง ๆ เช่นการเปลี่ยนแปลงสภาพภูมิอากาศ - โปรดยกโทษให้ฉันเมื่อนำหัวข้อที่อาจนำไปสู่การอภิปรายที่ไม่มีเหตุผลสำหรับการอภิปรายโดยประชาชนทั่วไปอาจได้รับความช่วยเหลือจากความคุ้นเคยที่ดีขึ้นกับแนวคิดเรื่องความแปรปรวน ปัญหาที่ได้รับการประกอบเมื่อเราพยายามที่จะเข้าใจความแปรปรวนดังแสดงในโพสต์นี้เนื้อเรื่องที่ดีและคำตอบที่มีสีสันโดย @whuber ที่นี่ มันอาจจะดึงดูดการยกเลิกคำถามนี้ทั่วไปเกินไป แต่ก็เป็นที่ชัดเจนว่าเราจะคุยทางอ้อมเช่นเดียวกับในโพสต์นี้ที่คณิตศาสตร์เล็กน้อย แต่แนวคิดช่วยในการเป็นที่เข้าใจยาก belying การยอมรับสะดวกสบายมากขึ้นของช่วงเป็น ตรงข้ามกับความแปรปรวนของแนวคิดที่เหมาะสมยิ่งขึ้น ในจดหมายจากฟิชเชอร์ถึง EBFordซึ่งอ้างถึงการโต้เถียงเกี่ยวกับความสงสัยของเขาเกี่ยวกับการทดลองของ Mendelian เราอ่านว่า: "ตอนนี้เมื่อข้อมูลมีการแกล้งฉันรู้ดีว่าคนทั่วไปประเมินความถี่ของการเบี่ยงเบนโอกาสน้อยเกินไป …

5
วิธีการวัดการกระจายตัวในข้อมูลความถี่ของคำ?
ฉันจะหาปริมาณการกระจายตัวในเวกเตอร์ที่มีการนับคำได้อย่างไร ฉันกำลังมองหาสถิติที่จะสูงสำหรับเอกสาร A เนื่องจากมีคำต่าง ๆ มากมายที่เกิดขึ้นไม่บ่อยนักและต่ำสำหรับเอกสาร B เพราะมันมีหนึ่งคำ (หรือคำไม่กี่คำ) ที่เกิดขึ้นบ่อยครั้ง โดยทั่วไปแล้วจะวัดการกระจายตัวหรือ "สเปรด" ในข้อมูลระบุได้อย่างไร มีวิธีมาตรฐานในการทำสิ่งนี้ในชุมชนการวิเคราะห์ข้อความหรือไม่?

2
เหตุใดส่วนที่เหลือของ Pearson จากการถดถอยแบบทวินามเชิงลบจึงมีขนาดเล็กกว่าการถดถอยแบบปัวซอง
ฉันมีข้อมูลเหล่านี้: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ฉันใช้การถดถอยปัวซอง poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") และการถดถอยแบบทวินามลบ require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) จากนั้นฉันคำนวณหาสถิติการกระจายตัวสำหรับการถดถอยปัวซอง: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 และการถดถอยแบบทวินามลบ sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 มีใครที่สามารถอธิบายได้โดยไม่ต้องใช้เครื่องมือทำไมสถิติการกระจายตัวของการถดถอยแบบทวินามลบน้อยกว่าสถิติการกระจายตัวสำหรับการถดถอยปัวซอง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.