สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ฟังก์ชั่น caret Train สำหรับ glmnet cross-validate สำหรับทั้ง alpha และ lambda หรือไม่?
ไม่ R caretแพคเกจข้ามการตรวจสอบทั้งในalphaและlambdaสำหรับglmnetรูปแบบ? ใช้รหัสนี้ eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) บันทึกการฝึกอบรมมีลักษณะเช่นนี้ Fold10.Rep3: alpha=1.0, lambda=NA อะไรlambda=NAหมายถึง?

2
การระบุรูปแบบความแตกต่างของความแตกต่างที่มีช่วงเวลาหลายช่วงเวลา
เมื่อฉันประมาณความแตกต่างของแบบจำลองความแตกต่างกับสองช่วงเวลารูปแบบการถดถอยที่เท่าเทียมกันจะเป็น Yฉันเป็นคนที= α + γs* Tr e a t m e n t + λ dเสื้อ+ δ* ( Tr e a t m e n t ∗ dเสื้อ) + ϵฉันเป็นคนทีYผมsเสื้อ=α+γs* * * *TRอีaเสื้อม.อีnเสื้อ+λdเสื้อ+δ* * * *(TRอีaเสื้อม.อีnเสื้อ* * * *dเสื้อ)+εผมsเสื้อY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ที่ไหน Tr …

4
การสร้างตัวแปรสุ่มจากส่วนผสมของการแจกแจงแบบปกติ
ฉันจะได้ลิ้มลองจากการกระจายส่วนผสมและในส่วนผสมโดยเฉพาะอย่างยิ่งของการกระจายปกติในR? ตัวอย่างเช่นถ้าฉันต้องการตัวอย่างจาก: 0.3× N( 0 , 1 )+0.5× N( 10 , 1 )+0.2× N( 3 , .1 )0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) ฉันจะทำอย่างนั้นได้อย่างไร

3
วิธีอ่อนโยนของสถิติเบย์
ฉันเพิ่งเริ่มอ่าน "รู้เบื้องต้นเกี่ยวกับสถิติแบบเบย์" รุ่นที่ 2 โดย Bolstad ฉันมีชั้นเรียนสถิติเบื้องต้นที่ครอบคลุมการทดสอบทางสถิติเป็นหลักและเกือบจะผ่านชั้นเรียนในการวิเคราะห์การถดถอย ฉันสามารถใช้หนังสืออื่นเล่มใดเพื่อเสริมความเข้าใจในหนังสือเล่มนี้ ฉันทำผ่าน 100-125 หน้าแรกได้ดี หลังจากนั้นหนังสือเริ่มพูดถึงการทดสอบสมมติฐานซึ่งเป็นสิ่งที่ฉันตื่นเต้นมากที่จะครอบคลุม แต่มีบางสิ่งที่ทำให้ฉัน: การใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นในการคำนวณ ในคำอื่น ๆ วิธีการประเมินสมการดังกล่าว ประโยคทั้งหมดนี้: "สมมติว่าเราใช้เบต้า (1,1) ก่อนหน้าสำหรับ pi จากนั้นเมื่อให้ y = 8 ความหนาแน่นหลังคือเบต้า (9,3) ความน่าจะเป็นด้านหลังของสมมติฐานว่างคือ ... " ฉันเชื่อเบต้า (1,1) หมายถึง PDF โดยที่ค่าเฉลี่ยคือ 1 และ stdev คือ 1? ฉันไม่เข้าใจว่ามันจะเปลี่ยนเป็นเบต้า (9,3) เป็นฟังก์ชั่นความหนาแน่นด้านหลัง ฉันได้รับแนวคิดของนักบวชและผู้โพสต์และเข้าใจวิธีการใช้พวกเขาโดยใช้ตารางด้วยตนเอง ฉันได้รับ (ฉันคิดว่า!) pi นั้นแสดงถึงสัดส่วนหรือความน่าจะเป็นของประชากร ฉันไม่ได้รับวิธีการเชื่อมต่อนี้พร้อมกับข้อมูลที่ฉันจะได้รับในแต่ละวันและได้รับผลลัพธ์

2
จะเกิดอะไรขึ้นเมื่อฉันรวมตัวแปรกำลังสองลงในการถดถอย
ฉันเริ่มต้นด้วยการถดถอย OLS ของฉัน: โดยที่ D เป็นตัวแปรจำลองการประมาณการจะแตกต่างจากศูนย์ด้วยค่า p ต่ำ ฉัน preform การทดสอบ Ramsey RESET และพบว่าฉันมีการคลาดเคลื่อนของสมการฉันจึงรวมกำลังสอง x: y=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon คำสองคำนี้อธิบายอะไร? (การเพิ่มขึ้นแบบไม่ใช่เชิงเส้นเป็น Y?) ด้วยการทำเช่นนี้การประมาณค่า D ของฉันจะไม่แตกต่างจากค่าศูนย์อีกต่อไปด้วยค่า p สูง ฉันจะตีความคำศัพท์ยกกำลังสองในสมการของฉัน (โดยทั่วไป) ได้อย่างไร แก้ไข: การปรับปรุงคำถาม

3
จะตีความคำดักจับใน GLM ได้อย่างไร?
ฉันใช้ R และฉันทำการวิเคราะห์ข้อมูลของฉันด้วย GLM ด้วยลิงค์ทวินาม ฉันต้องการทราบความหมายของการสกัดกั้นในตารางผลลัพธ์ การสกัดกั้นสำหรับแบบจำลองของฉันมีความแตกต่างอย่างมีนัยสำคัญอย่างไรก็ตามตัวแปรไม่ได้ สิ่งนี้หมายความว่า? การสกัดกั้นคืออะไร ฉันไม่รู้ว่าฉันเพิ่งสับสนตัวเอง แต่เมื่อค้นหาทางอินเทอร์เน็ตไม่มีอะไรที่จะพูดมันคือสิ่งนี้สังเกตมัน ... หรือไม่ กรุณาช่วยนักเรียนที่ผิดหวังมาก glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** …

2
ทำไม backpropagation ไม่ทำงานเมื่อคุณเริ่มต้นน้ำหนักที่มีค่าเท่ากัน?
ทำไม backpropagation ไม่ทำงานเมื่อคุณเริ่มต้นน้ำหนักทั้งหมดด้วยค่าเดียวกัน (พูด 0.5) แต่ทำงานได้ดีเมื่อได้รับตัวเลขสุ่ม อัลกอริทึมไม่ควรคำนวณข้อผิดพลาดและทำงานจากที่นั่นแม้ว่าความจริงแล้วน้ำหนักจะเหมือนเดิมหรือไม่


5
ทำไมต้องกังวลกับการจัดอันดับต่ำ?
หากคุณมีเมทริกซ์ที่มีคอลัมน์ n แถวและ m คุณสามารถใช้ SVD หรือวิธีอื่น ๆ ในการคำนวณการประมาณค่าต่ำของเมทริกซ์ที่กำหนด อย่างไรก็ตามการประมาณอันดับต่ำจะยังคงมี n แถวและคอลัมน์ m การประมาณอันดับต่ำจะมีประโยชน์สำหรับการเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติอย่างไรเนื่องจากคุณมีคุณสมบัติจำนวนเท่าเดิม

4
สัญชาตญาณทางสถิติ / ความรู้สึกของข้อมูล
ฉันเป็นนักศึกษาระดับปริญญาตรีปีที่สองเรียนวิชาคณิตศาสตร์และฉันได้พูดคุยกับอาจารย์คนหนึ่งของฉันเกี่ยวกับความแตกต่างระหว่างความสามารถทางคณิตศาสตร์และความสามารถทางสถิติ หนึ่งในความแตกต่างที่สำคัญที่เขานำมาคือ "data sense" ซึ่งเขาอธิบายว่าเป็นการรวมกันของความสามารถด้านเทคนิคในขณะที่ทำงานภายในชุดของสิ่งที่ฉันจะเรียกอย่างไม่เป็นทางการว่า "restraints สามัญสำนึก" อย่างไม่เป็นทางการ ทฤษฎีมากมาย นี่คือตัวอย่างของสิ่งที่ฉันพูดถึงซึ่งปรากฏในบล็อกของ Gowers: ในหลายส่วนของสหราชอาณาจักรตำรวจรวบรวมสถิติเกี่ยวกับสถานที่เกิดอุบัติเหตุบนท้องถนนระบุจุดดำน้ำอุบัติเหตุวางกล้องจับความเร็วไว้ที่นั่นและรวบรวมสถิติเพิ่มเติม มีแนวโน้มที่แน่นอนสำหรับจำนวนอุบัติเหตุที่จุดดำน้ำเหล่านี้จะลดลงหลังจากที่ติดตั้งกล้องจับความเร็ว การแสดงนี้สรุปได้ว่ากล้องจับความเร็วช่วยเพิ่มความปลอดภัยทางถนนหรือไม่ บุคคลเดียวกันที่แย้งกับกลยุทธ์แบบสุ่มในเกมการเจรจาต่อรองโดยทั่วไปรู้คำตอบสำหรับคำถามนี้แล้ว เขาบอกว่าไม่เพราะถ้าคุณเลือกกรณีที่รุนแรงคุณจะคาดหวังให้กรณีเหล่านี้ลดน้อยลงหากคุณทำการทดสอบอีกครั้ง ฉันตัดสินใจที่จะดำเนินการต่อจากคำถามนี้อย่างรวดเร็วเนื่องจากไม่มีอะไรจะพูดอีกมาก แต่ฉันบอกคนอื่นเกี่ยวกับแผนการที่ฉันเคยทำซึ่งเป็นการทดลองกระแสจิตปลอม ฉันจะให้พวกเขาเดาผลลัพธ์ของการโยนเหรียญ 20 อันซึ่งฉันจะพยายามคานให้พวกเขาทางกระแสจิต ฉันจะเลือกนักแสดงที่ดีที่สุดสามคนและสามคนที่แย่ที่สุดและจะโยนเหรียญอีกครั้งคราวนี้ขอให้คนที่ดีที่สุดช่วยฉันส่งคำตอบให้คนที่แย่ที่สุด ผู้คนสามารถเห็นได้อย่างง่ายดายว่าการแสดงนั้นคาดว่าจะปรับปรุงและจะไม่มีอะไรเกี่ยวข้องกับกระแสจิต สิ่งที่ฉันถามคือจะเรียนรู้เพิ่มเติมเกี่ยวกับ "data sense"นี้ได้อย่างไรผ่านการเผยแพร่ใด ๆ ในหัวเรื่องหากมีอยู่หรือผ่านสิ่งที่ผู้ใช้รายอื่นพบว่ามีประโยชน์ในการพัฒนาทักษะนี้ ฉันขอโทษถ้าคำถามนี้ต้องชี้แจง ถ้าเป็นเช่นนั้นกรุณาโพสต์คำถามของคุณ! ขอบคุณ

5
มีฟังก์ชั่น R ที่จะคำนวณเมทริกซ์ที่ไม่เหมือนกันของโคไซน์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันต้องการสร้างแผนที่ความร้อนที่มีการจัดกลุ่มแถวตามระยะทางโคไซน์ ฉันใช้ R และheatmap.2()ทำรูป ฉันเห็นได้ว่ามีdistพารามิเตอร์อยู่heatmap.2แต่ฉันไม่สามารถหาฟังก์ชั่นเพื่อสร้างเมทริกซ์ที่แตกต่างกันได้ distฟังก์ชั่นบิวอินไม่รองรับระยะทางโคไซน์ฉันยังพบแพ็คเกจที่เรียกว่าarulesพร้อมdissimilarity()ฟังก์ชัน แต่ใช้งานได้กับข้อมูลไบนารีเท่านั้น

4
อะไรคือการกระจายตัวของตัวแปรสุ่มปัวซองลงเฉลี่ย?
ถ้าฉันมีตัวแปรสุ่มX1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nที่ปัวซองกระจายกับพารามิเตอร์λ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_n , การกระจายตัวของY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor(เช่นชั้นจำนวนเต็มของค่าเฉลี่ย)? ผลรวมของ Poissons ก็เป็น Poisson เช่นกัน แต่ฉันไม่มั่นใจในสถิติเพียงพอที่จะตัดสินว่ามันเหมือนกันสำหรับกรณีข้างต้นหรือไม่

2
วางแผนช่วงความมั่นใจสำหรับความน่าจะเป็นที่คาดการณ์ไว้จากการถดถอยโลจิสติก
ตกลงฉันมีการถดถอยโลจิสติกและใช้predict()ฟังก์ชั่นในการพัฒนาเส้นโค้งความน่าจะเป็นตามการประมาณการของฉัน ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") นี่เป็นสิ่งที่ดี แต่ฉันอยากรู้อยากเห็นเกี่ยวกับการวางแผนช่วงความมั่นใจสำหรับความน่าจะเป็น ฉันพยายามแล้วplot.ci()แต่ก็ไม่มีโชค ทุกคนสามารถชี้ให้ฉันเห็นวิธีการที่จะทำสิ่งนี้โดยเฉพาะอย่างยิ่งกับcarแพคเกจหรือฐานอาร์

1
การใช้บรรทัดที่สร้างโดย qqline () ใน R คืออะไร?
qqnorm()ฟังก์ชั่น R ผลิตปกติ QQ พล็อตและqqline()เพิ่มสายที่ผ่านควอไทล์แรกและที่สาม จุดกำเนิดของบรรทัดนี้คืออะไร การตรวจสอบสภาพปกติเป็นประโยชน์หรือไม่? นี่ไม่ใช่เส้นคลาสสิค (เส้นทแยงมุมอาจเป็นไปได้หลังจากปรับสเกลเชิงเส้น)Y= xY=xy=x นี่คือตัวอย่าง ครั้งแรกที่ฉันเปรียบเทียบฟังก์ชันการกระจายเชิงประจักษ์ที่มีฟังก์ชั่นการกระจายทางทฤษฎีของ : ตอนนี้ผมพล็อต QQ พล็อตที่มีสายY = μ + σ x ; กราฟนี้มีความสัมพันธ์กับสัดส่วน (ไม่ใช่เชิงเส้น) ของกราฟก่อนหน้า: แต่นี่คือ qq-plot กับ R qqline: กราฟสุดท้ายนี้ไม่แสดงการออกเดินทางเช่นเดียวกับในกราฟแรกยังไม่มีข้อความ( μ^, σ^2)ยังไม่มีข้อความ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)Y= μ^+ σ^xY=μ^+σ^xy=\hat\mu + \hat\sigma x

2
จับคู่ t-test เป็นกรณีพิเศษของการสร้างแบบจำลองผลกระทบเชิงเส้นแบบผสม
เรารู้ว่าแบบทดสอบt - paired เป็นเพียงกรณีพิเศษของการวัดทางเดียว (หรือในเรื่อง) ANOVA เช่นเดียวกับแบบจำลองผสมเอฟเฟกต์แบบเชิงเส้นซึ่งสามารถแสดงให้เห็นด้วยฟังก์ชัน lme () ในแพ็คเกจ nlme ใน R ดังแสดงด้านล่าง #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") เมื่อฉันรันการทดสอบ t จับคู่ต่อไปนี้: …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.