สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

11
สถิติพอดแคสต์
พอดคาสต์บางส่วนเกี่ยวข้องกับการวิเคราะห์ทางสถิติอย่างไร ฉันพบบันทึกเสียงบางส่วนของการบรรยายในวิทยาลัยบน ITunes U แต่ฉันไม่ทราบว่าพอดแคสต์ทางสถิติใด ๆ สิ่งที่อยู่ใกล้ฉันรู้คือการดำเนินงานวิจัยพอดคาสต์วิทยาศาสตร์ของที่ดีกว่า มันสัมผัสกับปัญหาทางสถิติ แต่ไม่ใช่เฉพาะรายการทางสถิติ
29 references 

4
การทดสอบที่แน่นอนของ Fisher ในตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2
ฉันได้รับการสอนให้ใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางฉุกเฉินที่ 2x2 เท่านั้น คำถาม: ทำฟิชเชอร์ของตัวเองที่เคยวาดภาพการทดสอบนี้จะใช้ในตารางขนาดใหญ่กว่า 2x2 (ฉันรู้เรื่องของเขาการณ์การทดสอบในขณะที่พยายามที่จะคาดเดาว่าหญิงชราคนหนึ่งสามารถบอกได้ว่านมถูกบันทึกอยู่ในชาหรือชาถูกบันทึกอยู่ในนม ) Stata อนุญาตให้ฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางใด ๆ ที่อาจเกิดขึ้น ถูกต้องหรือไม่ ควรใช้ FET หรือไม่หากคาดว่าจำนวนเซลล์ในตารางฉุกเฉินเป็น <5?

3
การทดสอบ Kolmogorov-Smirnov ใช้ได้กับการแจกแจงแบบแยกหรือไม่?
ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร

6
ฉันจะทดสอบความเป็นธรรมของ d20 ได้อย่างไร?
ฉันจะทดสอบความเป็นธรรมของผู้ตายยี่สิบคน (d20) ได้อย่างไร? เห็นได้ชัดว่าฉันจะเปรียบเทียบการกระจายตัวของค่าเทียบกับการกระจายตัวแบบสม่ำเสมอ ฉันจำไม่ได้ว่าใช้การทดสอบ Chi-Square ในวิทยาลัย ฉันจะใช้สิ่งนี้เพื่อดูว่าผู้ตายมีความยุติธรรมได้อย่างไร

3
วิธีการถดถอยแบบฉาก (รวมสี่เหลี่ยมจัตุรัสน้อยที่สุด) ผ่านทาง PCA ได้อย่างไร
ฉันมักจะใช้lm()ในการวิจัยเพื่อดำเนินการถดถอยเชิงเส้นของyyyบนxxxxฟังก์ชั่นที่ส่งกลับค่าสัมประสิทธิ์ββ\betaดังกล่าวว่าy=βx.y=βx.y = \beta x. วันนี้ฉันได้เรียนรู้เกี่ยวกับกำลังสองรวมน้อยที่สุดและสามารถprincomp()ใช้ฟังก์ชัน (การวิเคราะห์องค์ประกอบหลัก, PCA) เพื่อดำเนินการได้ มันควรจะดีสำหรับฉัน (แม่นยำยิ่งขึ้น) ฉันได้ทำการทดสอบโดยใช้princomp()เช่น: r <- princomp( ~ x + y) ปัญหาของฉันคือวิธีการตีความผลลัพธ์ ฉันจะรับสัมประสิทธิ์การถดถอยได้อย่างไร โดย "ค่าสัมประสิทธิ์" ผมหมายถึงจำนวนββ\betaว่าผมจะต้องใช้ในการคูณxxxคุ้มค่าที่จะให้ตัวเลขที่ใกล้เคียงกับปีyyy

6
ทดสอบความแปรปรวนแน่นอน?
เป็นไปได้หรือไม่ที่จะทดสอบความละเอียด (หรือการมีอยู่) ของความแปรปรวนของตัวแปรสุ่มที่ให้กับกลุ่มตัวอย่าง? ในฐานะที่เป็นโมฆะ {ความแปรปรวนที่มีอยู่และ จำกัด } หรือ {การแปรปรวนไม่มีอยู่ / ไม่มีที่สิ้นสุด} จะยอมรับได้ เชิงปรัชญา (และการคำนวณ) สิ่งนี้ดูแปลกมากเพราะไม่ควรมีความแตกต่างระหว่างประชากรที่ไม่มีความแปรปรวนอัน จำกัด และอีกอันที่มีความแปรปรวนขนาดใหญ่มาก (พูด> ) ดังนั้นฉันจึงไม่หวังว่าปัญหานี้ แก้ไข104001040010^{400} วิธีการหนึ่งที่แนะนำให้ฉันคือทฤษฎีบทขีด จำกัด กลาง: สมมติว่ากลุ่มตัวอย่างเป็น iid และประชากรมีค่าเฉลี่ยที่ จำกัด ใครสามารถตรวจสอบได้ว่าค่าเฉลี่ยตัวอย่างมีข้อผิดพลาดมาตรฐานที่เหมาะสมกับการเพิ่มขนาดตัวอย่างหรือไม่ ฉันไม่แน่ใจว่าฉันเชื่อว่าวิธีการนี้จะได้ผล (โดยเฉพาะฉันไม่เห็นวิธีที่จะทำให้เป็นการทดสอบที่เหมาะสม)

1
ข้อผิดพลาดของค่าเฉลี่ยสัมบูรณ์ร้อยละของข้อผิดพลาด (MAPE) คืออะไร
เปอร์เซ็นต์ความผิดพลาด Mean แอบโซลูท ( MAPE ) เป็นความถูกต้องทั่วไปหรือมาตรการข้อผิดพลาดสำหรับชุดเวลาหรือการคาดการณ์อื่น ๆ MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, โดยที่คือจำนวนจริงและF t การคาดการณ์หรือการทำนายที่สอดคล้องกันAtAtA_tFtFtF_t MAPE คือเปอร์เซ็นต์ดังนั้นเราสามารถเปรียบเทียบระหว่างซีรีย์ได้อย่างง่ายดายและผู้คนสามารถเข้าใจและตีความเปอร์เซ็นต์ได้อย่างง่ายดาย อย่างไรก็ตามฉันได้ยินมาว่า MAPE มีข้อเสีย ฉันต้องการทำความเข้าใจข้อเสียเหล่านี้ให้ดีขึ้นเพื่อให้ฉันสามารถตัดสินใจได้อย่างชาญฉลาดว่าจะใช้ MAPE หรือทางเลือกอื่นเช่น MSE ( mse ), Mae ( mae ) หรือ MASE ( mase )
29 accuracy  mape 

4
การตีความ Pseudo-R2 ของ McFadden
ฉันมีรูปแบบการถดถอยแบบโลจิสติกแบบไบนารีที่มีการปลอม R-squared ของ McFadden 0.192 โดยมีตัวแปรตามเรียกว่าการชำระเงิน (1 = การชำระเงินและ 0 = ไม่มีการชำระเงิน) การตีความ R-squared แบบหลอกคืออะไร? มันเป็นการเปรียบเทียบแบบสัมพัทธ์สำหรับโมเดลที่ซ้อนกัน (เช่นแบบจำลองตัวแปร 6 ตัวมีการปลอม R-squared ของ McFadden 0.192 ในขณะที่แบบจำลองตัวแปร 5 ตัว (หลังจากลบตัวแปรหนึ่งตัวจากแบบจำลองตัวแปร 6 ดังกล่าวข้างต้น) รุ่นตัวแปร 5 ตัวนี้มีหลอก R - จาก 0.131 เราอยากจะเก็บตัวแปรที่ 6 ไว้ในตัวแบบหรือไม่? หรือเป็นปริมาณที่แน่นอน (เช่นแบบจำลองที่กำหนดซึ่งมีการหลอกของ McFadden R-squared ของ 0.192 นั้นดีกว่ารุ่นใด ๆ ที่มีแบบหลอกของ McFadden R-squared …

1
Bootstrap ช่วงการทำนาย
มีเทคนิค bootstrap ใดบ้างในการคำนวณช่วงการทำนายสำหรับการทำนายจุดที่ได้รับเช่นจากการถดถอยเชิงเส้นหรือวิธีการถดถอยอื่น ๆ (เพื่อนบ้านที่ใกล้ที่สุด k-tree ที่ถดถอยเป็นต้น) ยังไงก็เถอะฉันรู้สึกว่าบางครั้งวิธีที่เสนอให้เพียงแค่ดึงรองเท้าทำนายจุด (ดูเช่นช่วงเวลาการทำนายสำหรับการถดถอย kNN ) ไม่ได้ให้ช่วงการทำนาย แต่เป็นช่วงความมั่นใจ ตัวอย่างใน R # STEP 1: GENERATE DATA set.seed(34345) n <- 100 x <- runif(n) y <- 1 + 0.2*x + rnorm(n) data <- data.frame(x, y) # STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL fit <- lm(y ~ x) …

1
ข้อผิดพลาดของตัวชี้วัดสำหรับโมเดลพัวซองที่ผ่านการตรวจสอบความถูกต้อง
ฉันข้ามการตรวจสอบรูปแบบที่พยายามทำนายการนับ หากนี่เป็นปัญหาการจำแนกเลขฐานสองฉันจะคำนวณ AUC แบบพับได้และถ้านี่เป็นปัญหาการถดถอยฉันจะคำนวณ RMSE หรือ Mae แบบ out-of-fold สำหรับโมเดลปัวซงฉันสามารถใช้เมตริกข้อผิดพลาดใดในการประเมิน "ความถูกต้อง" ของการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง มีส่วนขยายของปัวซองของ AUC ที่ดูว่าการทำนายลำดับค่าที่แท้จริงดีเพียงใด ดูเหมือนว่าการแข่งขัน Kaggle จำนวนมากสำหรับการนับ (เช่นจำนวนคะแนนโหวตที่เป็นประโยชน์ที่รีวิวร้องเอ๋งจะได้รับหรือจำนวนวันที่ผู้ป่วยจะใช้จ่ายในโรงพยาบาล) ใช้ข้อผิดพลาดรากหมายถึงบันทึกกำลังสองหรือ RMLSE / แก้ไข: สิ่งหนึ่งที่ฉันได้ทำคือการคำนวณ deciles ของค่าที่คาดการณ์ไว้และจากนั้นดูที่การนับจริงโดย binned by decile ถ้า decile 1 อยู่ในระดับต่ำ decile 10 จะสูงและ decile ในระหว่างนั้นเพิ่มขึ้นอย่างเคร่งครัดฉันได้เรียกโมเดล "ดี" แต่ฉันประสบปัญหาในการหาจำนวนกระบวนการนี้และฉันเชื่อว่ามันดีกว่า เข้าใกล้ / แก้ไข 2: ฉันกำลังมองหาสูตรที่ใช้ค่าที่คาดการณ์และตามจริงและส่งกลับเมตริก "ข้อผิดพลาด" หรือ "ความแม่นยำ" บางส่วน แผนของฉันคือการคำนวณฟังก์ชั่นนี้เกี่ยวกับข้อมูลที่อยู่นอกกรอบในระหว่างการตรวจสอบความถูกต้องและจากนั้นใช้เพื่อเปรียบเทียบแบบจำลองที่หลากหลาย …

3
การถดถอยพหุนามใช้ scikit เรียนรู้
ฉันพยายามใช้ scikit เรียนรู้สำหรับการถดถอยพหุนาม จากสิ่งที่ฉันอ่านการถดถอยพหุนามเป็นกรณีพิเศษของการถดถอยเชิงเส้น ฉันกำลังกระโดดนั่นอาจเป็นหนึ่งในโมเดลเชิงเส้นทั่วไปของ scikit สามารถกำหนดพารามิเตอร์เพื่อให้พอดีกับชื่อพหุนามคำสั่งที่สูงขึ้น แต่ฉันไม่เห็นตัวเลือกสำหรับการทำเช่นนั้น ฉันจัดการเพื่อใช้ Support Vector Regressor กับ poly kernel ซึ่งทำงานได้ดีกับชุดย่อยของข้อมูลของฉัน แต่ใช้เวลานานมากในการพอดีกับชุดข้อมูลที่มีขนาดใหญ่กว่าดังนั้นฉันยังต้องการค้นหาบางสิ่งได้เร็วขึ้น (แม้ว่าการซื้อขายจะมีความแม่นยำ) ฉันขาดอะไรบางอย่างชัดเจนที่นี่?


3
การตรวจสอบความถูกต้องข้ามของ K-fold กับ Monte Carlo
ฉันกำลังพยายามเรียนรู้วิธีการตรวจสอบข้ามหลายวิธีโดยมีความตั้งใจที่จะนำไปใช้กับเทคนิคการวิเคราะห์หลายตัวแปรภายใต้การดูแล สองที่ฉันเจอคือเทคนิคการตรวจสอบข้ามแบบ K-fold และ Monte Carlo ฉันได้อ่านแล้วว่า K-fold เป็นรูปแบบที่เปลี่ยนแปลงของ Monte Carlo แต่ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้ว่าอะไรเป็นตัวกำหนดนิยามของ Monte Carlo ใครช่วยอธิบายความแตกต่างระหว่างสองวิธีนี้ได้ไหม

2
จะเปรียบเทียบประสิทธิภาพของตัวจําแนกการเรียนรู้ของเครื่องได้อย่างไร
จากความถูกต้องของการจำแนกประเภทโดยประมาณฉันต้องการทดสอบว่าตัวจําแนกตัวใดตัวหนึ่งดีกว่าตัวจําแนกทางสถิติอย่างมีนัยสําคัญหรือไม่ สำหรับตัวจําแนกแต่ละตัวฉันเลือกตัวอย่างการฝึกอบรมและการทดสอบแบบสุ่มจากชุดฐานฝึกโมเดลและทดสอบโมเดล ฉันทำสิ่งนี้สิบครั้งสำหรับลักษณนามแต่ละตัว ดังนั้นฉันจึงมีการประเมินความถูกต้องในการจำแนกประเภทสิบหมวดหมู่สำหรับตัวจําแนกแต่ละตัว ฉันจะทดสอบสถิติว่าเป็นลักษณนามที่ดีกว่าตัวบนชุดข้อมูลฐานได้อย่างไร การทดสอบแบบใดที่เหมาะสมที่จะใช้คลิตรs s ฉันฉฉันอีอาร์2คลิตรs s ฉันฉฉันอีR 1คล.assผมฉผมอีR1classifier 1classifier2classifier2classifier 2

4
คุณตีความ RMSLE อย่างไร (รูตเฉลี่ยกำลังสองผิดพลาดลอการิทึม)
ฉันทำการแข่งขันการเรียนรู้ของเครื่องโดยใช้ RMSLE (Root Mean Squared Logarithmic Error) เพื่อประเมินประสิทธิภาพการทำนายราคาขายของอุปกรณ์ประเภทหนึ่ง ปัญหาคือฉันไม่แน่ใจว่าจะตีความความสำเร็จของผลลัพธ์สุดท้ายได้อย่างไร ตัวอย่างเช่นถ้าฉันได้รับ RMSLE ที่1.0521.0521.052ฉันสามารถยกกำลังยกกำลังeeeและตีความมันแบบ rmse ได้หรือไม่? (เช่น. e1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE )? ฉันจะบอกว่าแล้วว่าการคาดการณ์ของฉันได้เฉลี่ยจากราคาที่เกิดขึ้นจริง? หรือมีวิธีที่ดีกว่าในการตีความตัวชี้วัด? หรือสามารถตีความเมตริกได้ด้วยข้อยกเว้นเมื่อเปรียบเทียบกับ RMSLE อื่นของรุ่นอื่น ๆ ±$2.863±$2.863\pm \$2.863

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.