สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การตีความผลลัพธ์ spline
ฉันกำลังพยายามที่จะทำให้เป็นเส้นโค้งสำหรับ GLM โดยใช้ R เมื่อฉันพอดีกับเส้นโค้งฉันต้องการที่จะสามารถใช้แบบจำลองที่เป็นผลลัพธ์ของฉันและสร้างไฟล์การสร้างแบบจำลองในสมุดงาน Excel ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่ y เป็นฟังก์ชันแบบสุ่มของ x และความชันจะเปลี่ยนทันทีที่จุดเฉพาะ (ในกรณีนี้ @ x = 500) set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) ตอนนี้ฉันเหมาะกับการใช้ library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) และผลลัพธ์ของฉันแสดง summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) …
20 splines 

2
วิธีหาข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยเชิงเส้น
สำหรับโมเดลการถดถอยเชิงเส้นแบบไม่ ได้รับชุดข้อมูลการประมาณค่าสัมประสิทธิ์คือ \ hat \ beta_0 = \ bar y - \ hat \ beta_1 \ bar x นี่คือคำถามของฉันตาม หนังสือและWikipediaข้อผิดพลาดมาตรฐานของ\ hat \ beta_1คือs _ {\ hat \ beta_1} = \ sqrt {\ frac {\ sum_i \ hat \ epsilon_i ^ 2} {(n-2) \ sum_i (x_i- \ bar x ) ^ …

1
อะไรคือความเท่าเทียมแบบไม่อิงพารามิเตอร์ของ ANOVA สองทางที่สามารถรวมการโต้ตอบได้?
สวัสดีฉันกำลังพยายามที่จะหาค่าเทียบเท่าที่ไม่ใช่พารามิเตอร์ของ ANOVA สองทาง (การออกแบบ 3x4) ซึ่งมีความสามารถในการรวมการโต้ตอบ จากการอ่านของฉันใน Zar 1984 "การวิเคราะห์ชีวสถิติ" นี่เป็นไปได้โดยใช้วิธีการที่วางไว้ใน Scheirer, Ray, และ Hare (1976) อย่างไรก็ตามจากการโพสต์อื่น ๆ ทางออนไลน์มันถูกอนุมานว่าวิธีนี้ไม่เหมาะสมอีกต่อไป ถูก) ไม่มีใครรู้วิธีการที่เหมาะสมสำหรับการทำเช่นนั้นและถ้าเป็นเช่นนั้นฟังก์ชั่นที่สอดคล้องกันใน R หรือ Stata?

2
การคัดเลือกโมเดลเชิงเส้นหลายตัวแปรเป็นการถดถอยหลายครั้ง
การรีไซเคิลโมเดลการถดถอยเชิงเส้นหลายตัวแปรเป็นการถดถอยเชิงเส้นแบบหลายค่าเท่ากันทั้งหมดหรือไม่ ผมไม่ได้หมายถึงเพียงแค่ทำงานเสื้อttถดถอยแยกต่างหาก ฉันได้อ่านเรื่องนี้ในสถานที่ไม่กี่ (คชกรรมวิเคราะห์ข้อมูล - Gelman et al, และหลายตัวแปรโรงเรียนเก่า -. Marden) ที่เป็นรูปแบบเชิงเส้นหลายตัวแปรสามารถจะreparameterizedเป็นถดถอยพหุคูณ อย่างไรก็ตามไม่มีแหล่งที่มาใด ๆ เกี่ยวกับเรื่องนี้เลย พวกเขาเพียงแค่พูดถึงมันจากนั้นใช้โมเดลหลายตัวแปรต่อไป ในทางคณิตศาสตร์ฉันจะเขียนเวอร์ชั่นหลายตัวแปรก่อน YXRBYn × t= Xn × kBk × t+ Rn × t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, ซึ่งตัวแปรตัวหนาเป็นเมทริกซ์ที่มีขนาดต่ำกว่าพวกมัน ตามปกติคือข้อมูลคือเมทริกซ์การออกแบบมักจะมีการแจกจ่ายเศษเหลือทิ้งและคือสิ่งที่เราสนใจทำการอนุมานด้วยYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} ในการจัดทำซ้ำพารามิเตอร์นี้เป็นการถดถอยเชิงเส้นหลาย ๆ อันที่คุ้นเคยหนึ่งตัวแปรจะเขียนใหม่เป็น: Yn t × …

2
มีแอปพลิเคชันทางสถิติที่ต้องมีความสอดคล้องที่แข็งแกร่งหรือไม่
ฉันสงสัยว่ามีคนรู้หรือมีแอปพลิเคชันในสถิติที่จำเป็นต้องใช้ตัวประมาณความมั่นคงที่แข็งแกร่งแทนความสอดคล้องที่อ่อนแอ นั่นคือความสอดคล้องที่แข็งแกร่งเป็นสิ่งจำเป็นสำหรับแอปพลิเคชันและแอปพลิเคชันจะไม่ทำงานด้วยความสอดคล้องที่อ่อนแอ

3
การเรียนรู้ของเครื่องเพื่อทำนายความน่าจะเป็นในชั้นเรียน
ฉันกำลังมองหาตัวแยกประเภทที่เอาต์พุตความน่าจะเป็นซึ่งเป็นตัวอย่างของหนึ่งในสองคลาส ฉันรู้ว่าการถดถอยโลจิสติกและเบย์ไร้เดียงสา แต่คุณสามารถบอกฉันเกี่ยวกับคนอื่น ๆ ที่ทำงานในลักษณะเดียวกันได้หรือไม่? นั่นคือตัวแยกประเภทที่ไม่ได้คาดคะเนคลาสที่เป็นของตัวอย่าง แต่ความน่าจะเป็นที่ตัวอย่างนั้นเหมาะสมกับคลาสเฉพาะหรือไม่ คะแนนโบนัสสำหรับความคิดที่คุณสามารถแบ่งปันเกี่ยวกับข้อดีและข้อเสียของตัวแยกประเภทที่แตกต่างกันเหล่านี้ (รวมถึงการถดถอยโลจิสติกและ Bayes ไร้เดียงสา) ตัวอย่างเช่นมีการจัดหมวดหมู่หลายชั้นที่ดีกว่าบ้างไหม?

12
ตัวอย่างชีวิตจริงของการแจกแจงที่มีความเบ้เชิงลบ
โดยได้รับแรงบันดาลใจจาก " ตัวอย่างชีวิตจริงของการแจกแจงร่วมกัน " ฉันสงสัยว่าตัวอย่างแบบสอนที่ผู้คนใช้เพื่อแสดงความเบ้เชิงลบคืออะไร มีตัวอย่างมากมาย "บัญญัติ" ของการแจกแจงแบบสมมาตรหรือปกติที่ใช้ในการสอน - แม้ว่าคนที่ชอบความสูงและน้ำหนักจะไม่รอดจากการตรวจสอบทางชีวภาพอย่างใกล้ชิด! ความดันโลหิตอาจสูงกว่าปกติ ฉันชอบข้อผิดพลาดในการวัดทางดาราศาสตร์ - ที่น่าสนใจในประวัติศาสตร์พวกมันไม่น่าจะโกหกในทิศทางเดียวมากกว่าอีกทิศทางหนึ่งโดยมีข้อผิดพลาดเล็ก ๆ น่าจะมีขนาดใหญ่กว่ามาก ตัวอย่างการสอนทั่วไปสำหรับความเบ้เชิงบวก ได้แก่ รายได้ของผู้คน ไมล์สะสมสำหรับรถยนต์มือสองเพื่อขาย เวลาปฏิกิริยาในการทดลองทางจิตวิทยา ราคาบ้าน; จำนวนการเคลมอุบัติเหตุจากลูกค้าประกัน จำนวนเด็กในครอบครัว ความมีเหตุผลทางกายภาพของพวกเขามักจะเกิดจากการถูก จำกัด ที่ด้านล่าง (โดยปกติเป็นศูนย์), ด้วยค่าต่ำที่เป็นไปได้, แม้เป็นเรื่องธรรมดา, แต่มีขนาดใหญ่มาก สำหรับความเบ้เชิงลบฉันพบว่ามันยากที่จะให้ตัวอย่างที่ชัดเจนและชัดเจนที่ผู้ชมอายุน้อย (schoolers สูง) สามารถเข้าใจได้อย่างสังหรณ์ใจบางทีอาจเป็นเพราะการแจกแจงชีวิตจริงน้อยลงมีขอบเขตบนที่ชัดเจน ตัวอย่างที่ไม่ดีที่ฉันสอนที่โรงเรียนคือ "จำนวนนิ้ว" ชาวบ้านส่วนใหญ่มีสิบ แต่บางคนสูญเสียหนึ่งอุบัติเหตุหรือมากกว่านั้น ผลที่สุดคือ "99% ของผู้คนมีจำนวนนิ้วที่สูงกว่าค่าเฉลี่ย"! Polydactylyทำให้ปัญหาซับซ้อนเนื่องจากสิบไม่ใช่ขอบเขตบนที่เข้มงวด เนื่องจากทั้งนิ้วที่หายไปและนิ้วเสริมเป็นเหตุการณ์ที่หายากมันอาจไม่ชัดเจนสำหรับนักเรียนที่มีผลกระทบมากกว่า ผมมักจะใช้การกระจายทวินามสูงพีแต่นักเรียนมักจะพบว่า "จำนวนองค์ประกอบที่น่าพอใจในแบตช์นั้นเบ้ในทางลบ" น้อยกว่าความจริงที่ว่า "จำนวนองค์ประกอบที่ผิดพลาดในแบตช์นั้นเบ้เชิงบวก" (หนังสือเป็นชุดรูปแบบอุตสาหกรรมฉันชอบไข่ที่ร้าวและไม่บุบสลายในกล่องสิบสอง) บางทีนักเรียนอาจรู้สึกว่า …

3
ช่วงความเชื่อมั่นของ RMSE
ฉันได้รับตัวอย่างของจุดข้อมูลจากประชากร แต่ละจุดเหล่านี้มีค่าจริง (รู้จักจากความจริงพื้นดิน) และค่าประมาณ ฉันคำนวณข้อผิดพลาดสำหรับแต่ละจุดที่สุ่มตัวอย่างแล้วคำนวณ RMSE ของตัวอย่างnnn จากนั้นฉันจะอนุมานช่วงความเชื่อมั่นบางประเภทรอบ RMSE นี้ตามขนาดตัวอย่างอย่างไรnnn ถ้าฉันใช้ค่าเฉลี่ยมากกว่า RMSE ฉันก็จะไม่มีปัญหาในการทำเช่นนี้เพราะฉันสามารถใช้สมการมาตรฐาน m=Zσn√m=Zσn m = \frac{Z \sigma}{\sqrt{n}} แต่ฉันไม่รู้ว่าสิ่งนี้ใช้ได้สำหรับ RMSE มากกว่าค่าเฉลี่ยหรือไม่ มีวิธีใดบ้างที่ฉันสามารถปรับเปลี่ยนสิ่งนี้ได้ (ฉันได้เห็นคำถามนี้แต่ฉันไม่ได้มีปัญหาว่าประชากรของฉันมีการกระจายตามปกติหรือไม่ซึ่งเป็นคำตอบที่เกี่ยวข้องกับ)

4
คำนวณค่าเฉลี่ยของตัวแปรลำดับ
ฉันได้อ่านในหลาย ๆ แห่งที่คำนวณค่าเฉลี่ยของตัวแปรลำดับไม่เหมาะสม ฉันพยายามรับสัญชาตญาณว่าทำไมมันอาจไม่เหมาะสม ฉันคิดว่าเป็นเพราะโดยทั่วไปแล้วตัวแปรอันดับไม่ได้กระจายตามปกติและดังนั้นการคำนวณค่าเฉลี่ยจะให้การแสดงที่ไม่ถูกต้อง มีใครให้เหตุผลอย่างละเอียดมากขึ้นว่าทำไมการคำนวณค่าเฉลี่ยของตัวแปรลำดับอาจไม่เหมาะสม

2
สมมติฐานที่หลากหลายในการเรียนรู้แบบกึ่งดูแลคืออะไร
ฉันพยายามที่จะเข้าใจว่าสมมติฐานที่หลากหลายมีความหมายอย่างไรในการเรียนรู้แบบกึ่งมีผู้สอน ทุกคนสามารถอธิบายด้วยวิธีง่าย ๆ ได้ไหม? ฉันไม่สามารถรับสัญชาตญาณที่อยู่เบื้องหลังได้ มันบอกว่าข้อมูลของคุณวางอยู่บนท่อร่วมมิติขนาดเล็กที่ฝังอยู่ในพื้นที่มิติที่สูงขึ้น ฉันไม่ได้รับสิ่งที่หมายถึง

4
ความแตกต่างระหว่างการทดสอบ ANOVA และ Kruskal-Wallis
ฉันกำลังเรียน R และได้ทำการทดลองกับการวิเคราะห์ความแปรปรวน ฉันวิ่งมาทั้งคู่แล้ว kruskal.test(depVar ~ indepVar, data=df) และ anova(lm(depVar ~ indepVar, data=dF)) มีความแตกต่างในทางปฏิบัติระหว่างการทดสอบทั้งสองนี้หรือไม่? ความเข้าใจของฉันคือพวกเขาทั้งสองประเมินสมมติฐานว่างว่าประชากรมีค่าเฉลี่ยเท่ากัน

2
วิธีการใช้ฟังก์ชั่นการตรวจสอบความถูกต้องข้ามของ Scikit-Learn กับตัวแยกประเภทหลายฉลาก
ผมทดสอบลักษณนามแตกต่างกันในชุดข้อมูลที่มี 5 ชั้นเรียนและเช่นกันสามารถอยู่ในหนึ่งหรือมากกว่าหนึ่งของการเรียนเหล่านี้ดังนั้นฉันใช้ scikit sklearn.multiclass.OneVsRestClassifierการเรียนรู้ของลักษณนามหลายป้ายโดยเฉพาะ sklearn.cross_validation.StratifiedKFoldตอนนี้ผมต้องการที่จะดำเนินการตรวจสอบข้ามใช้ สิ่งนี้ทำให้เกิดข้อผิดพลาดดังต่อไปนี้: Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, …

8
สถิติไม่ใช่คณิตศาสตร์ใช่ไหม
สถิติเป็นคณิตศาสตร์หรือไม่? เนื่องจากว่าเป็นตัวเลขทั้งหมดส่วนใหญ่สอนโดยแผนกคณิตศาสตร์และคุณได้รับเครดิตคณิตศาสตร์สำหรับมันฉันสงสัยว่าผู้คนหมายถึงมันเป็นเรื่องตลกเพียงครึ่งเดียวเมื่อพวกเขาพูดเช่นบอกว่ามันเป็นเพียงส่วนน้อยของคณิตศาสตร์หรือแค่ใช้คณิตศาสตร์ ฉันสงสัยว่าบางอย่างเช่นสถิติซึ่งคุณไม่สามารถสร้างทุกอย่างบนสัจพจน์พื้นฐานนั้นถือเป็นคณิตศาสตร์ได้หรือไม่ ตัวอย่างเช่นซึ่งเป็นแนวคิดที่เกิดขึ้นเพื่อทำความเข้าใจกับข้อมูล แต่ไม่ใช่ผลลัพธ์เชิงตรรกะของหลักการพื้นฐานเพิ่มเติมppp

1
ค่าที่คาดหวังและความแปรปรวนของบันทึก (ก)
ฉันมีตัวแปรสุ่มที่เป็นปกติกระจาย2) สิ่งที่ฉันสามารถพูดเกี่ยวกับและ ? การประมาณจะเป็นประโยชน์เช่นกันN ( μ , σ 2 ) E ( X ) V a r ( X )X( a ) = บันทึก( a )X(a)=log⁡(a)X(a) = \log(a)ยังไม่มีข้อความ( μ , σ2)N(μ,σ2)\mathcal N(\mu,\sigma^2)E( X)E(X)E(X)VR ( X)Var(X)Var(X)

1
สัญชาตญาณตัวประเมินแซนวิช
วิกิพีเดียและ R แพคเกจแซนวิชบทความให้ข้อมูลที่ดีเกี่ยวกับสมมติฐานที่สนับสนุน OLS ค่าสัมประสิทธิ์ข้อผิดพลาดมาตรฐานและพื้นหลังทางคณิตศาสตร์ของประมาณแซนวิช ฉันยังไม่ชัดเจนว่าปัญหาของ heteroscedasticity ได้รับการแก้ไขอย่างไร แต่อาจเป็นเพราะฉันไม่เข้าใจการประมาณค่าสัมประสิทธิ์ความแปรปรวนของ OLS มาตรฐานในตอนแรก สัญชาตญาณเบื้องหลังตัวประมาณแซนวิชคืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.