สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

16
การทดสอบตามปกติคือ 'ไร้ประโยชน์เป็นหลัก' หรือไม่?
อดีตเพื่อนร่วมงานเคยโต้เถียงกับฉันดังนี้: เรามักจะใช้การทดสอบเชิงบรรทัดฐานกับผลลัพธ์ของกระบวนการที่ภายใต้ค่า null จะสร้างตัวแปรสุ่มที่เป็น แบบอะซีพโทติกหรือใกล้เคียงปกติ ในยุคของหน่วยความจำราคาถูก, ข้อมูลขนาดใหญ่และการประมวลผลได้อย่างรวดเร็วการทดสอบภาวะปกติควร เสมอปฏิเสธ null ของการกระจายปกติสำหรับขนาดใหญ่ ( แต่ไม่ใหญ่เมามัน) ตัวอย่าง ดังนั้นจึงควรใช้การทดสอบเชิงบรรทัดฐานในทางที่ผิดสำหรับตัวอย่างเล็ก ๆ น้อย ๆ เท่านั้นเมื่อพวกมันมีพลังงานต่ำและควบคุมอัตราการพิมพ์ที่น้อยลง นี่เป็นอาร์กิวเมนต์ที่ถูกต้องหรือไม่? นี่เป็นข้อโต้แย้งที่รู้จักกันดีหรือไม่? มีการทดสอบที่รู้จักกันดีสำหรับสมมติฐานว่าง 'fuzzier' มากกว่าปกติหรือไม่?

7
เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน
ในวรรณกรรมบางเล่มฉันได้อ่านว่าการถดถอยที่มีตัวแปรอธิบายหลายอย่างหากในหน่วยต่าง ๆ จำเป็นต้องได้มาตรฐาน (การกำหนดมาตรฐานประกอบด้วยการลบค่าเฉลี่ยและการหารด้วยส่วนเบี่ยงเบนมาตรฐาน) ในกรณีอื่นใดที่ฉันต้องทำให้เป็นมาตรฐานข้อมูลของฉัน มีกรณีใดบ้างที่ฉันควรจัดกึ่งกลางข้อมูลของฉัน (เช่นโดยไม่ต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน)

9
อะไรคือความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์สุ่มและโมเดลเอฟเฟกต์ผสม?
ในแง่ง่ายคุณจะอธิบายความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมได้อย่างไร

6
วิธีการทำให้ข้อมูลกลับสู่ช่วง 0-1 เป็นปกติ
ฉันหลงทางในการทำให้ปกติ ฉันมีค่าต่ำสุดและค่าสูงสุดคือ -23.89 และ 7.54990767 ตามลำดับ หากฉันได้รับค่า 5.6878 ฉันจะขยายมูลค่านี้เป็นระดับ 0 ถึง 1 ได้อย่างไร

11
จะเข้าใจองศาอิสระได้อย่างไร?
จากWikipediaมีการตีความสามระดับของอิสรภาพในสถิติ: ในสถิติจำนวนองศาความเป็นอิสระคือจำนวนของค่าในการคำนวณขั้นสุดท้ายของสถิติที่สามารถเปลี่ยนแปลงได้ฟรี การประมาณค่าพารามิเตอร์ทางสถิติอาจขึ้นอยู่กับจำนวนข้อมูลหรือข้อมูลที่แตกต่างกัน จำนวนชิ้นส่วนข้อมูลอิสระที่เข้าสู่การประมาณค่าพารามิเตอร์เรียกว่า degree of freedom (df) โดยทั่วไปแล้วองศาอิสระของการประมาณค่าพารามิเตอร์จะเท่ากับจำนวนคะแนนอิสระที่เข้าไปในการประมาณลบด้วยจำนวนพารามิเตอร์ที่ใช้เป็นขั้นตอนกลางในการประมาณค่าพารามิเตอร์ของตัวเอง (ซึ่งในความแปรปรวนตัวอย่าง) หนึ่งเนื่องจากค่าเฉลี่ยตัวอย่างเป็นเพียงขั้นตอนกลางเท่านั้น) ศาสตร์องศาอิสระคือมิติของโดเมนของเวกเตอร์สุ่มหรือหลักจำนวนขององค์ประกอบ 'ฟรี': วิธีหลายส่วนประกอบจะต้องมีการรู้จักมาก่อนเวกเตอร์จะถูกกำหนดอย่างเต็มที่ คำที่เป็นตัวหนาคือสิ่งที่ฉันไม่ค่อยเข้าใจ ถ้าเป็นไปได้สูตรทางคณิตศาสตร์บางอย่างจะช่วยอธิบายแนวคิด การตีความทั้งสามนี้เห็นด้วยกันหรือไม่


16
ความหมายของค่า p และค่า t ในการทดสอบทางสถิติคืออะไร?
หลังจากลงเรียนวิชาสถิติแล้วพยายามช่วยเหลือเพื่อนนักเรียนฉันสังเกตเห็นวิชาหนึ่งที่ดลใจให้อาจารย์ใหญ่ตีกันมากคือตีความผลการทดสอบสมมติฐานทางสถิติ ดูเหมือนว่านักเรียนจะเรียนรู้วิธีการคำนวณตามที่กำหนดโดยการทดสอบที่กำหนดได้อย่างง่ายดาย เครื่องมือที่ใช้คอมพิวเตอร์หลายเครื่องรายงานผลการทดสอบในรูปของ "ค่า p" หรือ "ค่าที" คุณจะอธิบายประเด็นต่อไปนี้ให้กับนักเรียนที่เรียนหลักสูตรแรกในสถิติได้อย่างไร: "p-value" หมายถึงอะไรที่เกี่ยวข้องกับสมมติฐานที่กำลังทดสอบ มีกรณีที่ควรมองหาค่า p สูงหรือค่า p ต่ำหรือไม่ ความสัมพันธ์ระหว่างค่า p และค่า t คืออะไร?

7
การบรรจุถุงการส่งเสริมและการซ้อนในการเรียนรู้ของเครื่อง
ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร: บรรจุถุง, ส่งเสริม เก็บซ้อน? อันไหนดีที่สุด? และทำไม? คุณสามารถยกตัวอย่างให้ฉันได้ไหม


8
ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?
ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

2
การตีความเอาต์พุตของ R's lm ()
หน้าความช่วยเหลือใน R คิดว่าฉันรู้ว่าตัวเลขเหล่านั้นมีความหมายอย่างไร แต่ฉันไม่เข้าใจ ฉันพยายามที่จะเข้าใจตัวเลขทุกตัวที่นี่อย่างสังหรณ์ใจ ฉันจะโพสต์ผลลัพธ์และแสดงความคิดเห็นในสิ่งที่ฉันค้นพบ อาจมี (จะ) ผิดพลาดอย่างฉันจะเขียนสิ่งที่ฉันคิด ส่วนใหญ่ฉันต้องการทราบว่าค่า t ในสัมประสิทธิ์หมายความว่าอย่างไรและทำไมพวกเขาพิมพ์ข้อผิดพลาดมาตรฐานที่เหลือ Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 นี่คือสรุป 5 จุดของส่วนที่เหลือ (ค่าเฉลี่ยของพวกเขาคือ 0 เสมอใช่ไหม) ตัวเลขสามารถใช้ (ฉันเดาที่นี่) เพื่อดูว่ามีค่าผิดปกติใหญ่ ๆ อย่างรวดเร็วหรือไม่ นอกจากนี้คุณสามารถดูได้ที่นี่หากส่วนที่เหลืออยู่ไกลจากการกระจายปกติ (พวกเขาควรจะกระจายตามปกติ) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

6
คือ
ฉันกำลังอ่านบันทึกการบรรยายโดย Cosma Shalizi (โดยเฉพาะอย่างยิ่งหัวข้อ 2.1.1 ของการบรรยายครั้งที่สอง ) และได้รับการเตือนว่าคุณจะได้รับต่ำมากR2R2R^2แม้ว่าคุณจะมีโมเดลเชิงเส้นสมบูรณ์ ในการถอดความตัวอย่างของ Shalizi: สมมติว่าคุณมีโมเดลY=aX+ϵY=aX+ϵY = aX + \epsilonโดยที่aaaรู้จัก จากนั้นVar[Y]=a2Var[x]+Var[ϵ]Var[Y]=a2Var[x]+Var[ϵ]\newcommand{\Var}{\mathrm{Var}}\Var[Y] = a^2 \Var[x] + \Var[\epsilon]และจำนวนความแปรปรวนที่อธิบายคือa2Var[X]a2Var[X]a^2 \Var[X]ดังนั้นR2=a2Var[x]a2Var[X]+Var[ϵ]R2=a2Var[x]a2Var[X]+Var[ϵ]R^2 = \frac{a^2 \Var[x]}{a^2 \Var[X] + \Var[\epsilon]}epsilon]} นี้ไป 0 เป็นVar[X]→0Var[X]→0\Var[X] \rightarrow 0และ 1 Var[X]→∞Var[X]→∞\Var[X] \rightarrow \infty\ ในทางกลับกันคุณสามารถรับR ^ 2สูงR2R2R^2ถึงแม้ว่าแบบจำลองของคุณจะไม่ใช่แบบเส้นตรง (ใครมีตัวอย่างที่ดีทันทีทันใด?) ดังนั้นเมื่อR2R2R^2เป็นสถิติที่มีประโยชน์และเมื่อใดควรจะละเว้น?

9
ความแตกต่างระหว่างช่วงความมั่นใจกับช่วงเวลาที่เชื่อถือได้คืออะไร
การแลกเปลี่ยนของ Joris และ Srikant ที่นี่ทำให้ฉันสงสัย (อีกครั้ง) ถ้าคำอธิบายภายในของฉันสำหรับความแตกต่างระหว่างช่วงความมั่นใจและช่วงเวลาที่น่าเชื่อถือนั้นเป็นสิ่งที่ถูกต้อง คุณจะอธิบายความแตกต่างอย่างไร


30
ความผิดทางสถิติทั่วไปคืออะไร?
ฉันเป็นนักศึกษาระดับปริญญาตรีด้านจิตวิทยาและเมื่อฉันศึกษาต่อทางสถิติมากขึ้นเรื่อย ๆ ฉันรู้สึกประหลาดใจมากขึ้นจากความไม่เพียงพอของการฝึกฝนอย่างเป็นทางการของฉัน ทั้งประสบการณ์ส่วนตัวและมือสองชี้ให้เห็นว่าความขัดสนของสถิติที่เข้มงวดในการฝึกอบรมระดับปริญญาตรีและบัณฑิตศึกษาค่อนข้างแพร่หลายในด้านจิตวิทยา เช่นนี้ฉันคิดว่ามันจะมีประโยชน์สำหรับผู้เรียนอิสระอย่างตัวฉันเองในการสร้างรายการ "สถิติบาป" การทำเป็นตารางการฝึกสถิติที่สอนให้นักเรียนที่จบการศึกษาเป็นแบบฝึกมาตรฐานที่จริง ๆ แล้วถูกแทนที่โดยดีกว่า แข็งแกร่ง ฯลฯ ) วิธีการที่ทันสมัยหรือแสดงว่าไม่ถูกต้องตามตรง เมื่อคาดหวังว่าสาขาอื่น ๆ อาจประสบกับสถานการณ์ที่คล้ายกันฉันเสนอวิกิชุมชนซึ่งเราสามารถรวบรวมรายการความผิดทางสถิติในสาขาวิชาได้
227 fallacy 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.