สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
Is ความแม่นยำ = 1- อัตราการทดสอบข้อผิดพลาด
ขอโทษถ้านี่เป็นคำถามที่ชัดเจนมาก แต่ฉันอ่านข้อความต่าง ๆ และดูเหมือนจะไม่พบคำยืนยันที่ดี ในกรณีของการจำแนกประเภทความถูกต้องของลักษณนาม= 1- ข้อผิดพลาดคืออะไร? ฉันได้รับความแม่นยำนั่นคือแต่คำถามของฉันคือความแม่นยำและอัตราความผิดพลาดในการทดสอบที่เกี่ยวข้อง TP+ Tยังไม่มีข้อความP+ NTP+Tยังไม่มีข้อความP+ยังไม่มีข้อความ\frac{TP+TN}{P+N}

4
มีอัลกอริทึมการจัดกลุ่มตามระยะทางใด ๆ หรือไม่?
ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่

5
ตำราสำหรับเศรษฐมิติแบบเบย์
ฉันกำลังมองหาตำราเรียนที่เข้มงวดทางทฤษฎีเกี่ยวกับเศรษฐมิติแบบเบย์โดยมีความเข้าใจอย่างถ่องแท้เกี่ยวกับเศรษฐมิติเชิงเศรษฐศาสตร์ ฉันอยากจะแนะนำหนึ่งงานต่อหนึ่งคำตอบเพื่อให้ข้อเสนอแนะนั้นสามารถโหวตขึ้นหรือลงทีละรายการได้

2
วิธีตีความการประมาณค่าพารามิเตอร์ในผลลัพธ์ Poisson GLM [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 …

3
สูตรการโยนลูกเต๋า
ก่อนอื่นฉันไม่แน่ใจว่าควรโพสต์คำถามนี้ที่ไหน ฉันถามว่าปัญหาสถิติเป็นปัญหาที่สมบูรณ์หรือไม่ ฉันโพสต์ไว้ที่นี่เพราะปัญหาสถิติคือจุดศูนย์กลาง ฉันพยายามหาสูตรที่ดีกว่าสำหรับการแก้ปัญหา ปัญหาคือ: ถ้าฉันมี 4d6 (4 ลูกเต๋า 6 ด้านธรรมดา 6) และหมุนทั้งหมดในครั้งเดียวให้ลบตายด้วยจำนวนต่ำสุด (เรียกว่า "วาง") จากนั้นรวม 3 ที่เหลือความน่าจะเป็นของผลลัพธ์ที่เป็นไปได้แต่ละข้อ ? ฉันรู้คำตอบคือ: Sum (Frequency): Probability 3 (1): 0.0007716049 4 (4): 0.0030864198 5 (10): 0.0077160494 6 (21): 0.0162037037 7 (38): 0.0293209877 8 (62): 0.0478395062 9 (91): 0.0702160494 10 (122): 0.0941358025 11 (148): 0.1141975309 …
14 dice  np 

4
พล็อตนี้ชื่ออะไรที่ใช้เส้นแนวตั้งเพื่อแสดงการกระจาย?
มีชื่ออย่างเป็นทางการสำหรับพล็อตที่ง่ายมากนี้ซึ่งเส้นแนวตั้งระบุการกระจายตัวของตัวอย่างบางส่วนในช่วงหรือไม่?

5
ฉันจะ detrend อนุกรมเวลาได้อย่างไร
ฉันจะ detrend อนุกรมเวลาได้อย่างไร มันโอเคที่จะเริ่มต้นความแตกต่างและทำการทดสอบ Dickey ฟุลเลอร์และถ้าเป็นเครื่องเขียนเราดีหรือไม่? ฉันยังพบทางออนไลน์ที่ฉันสามารถ detrend ชุดเวลาโดยทำเช่นนี้ใน Stata: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) วิธีที่ดีที่สุดในการทำลายลำดับเวลา

2
“ การแปรเปลี่ยนแบบไม่แปรเปลี่ยน” หมายถึงอะไรในบริบทของเครือข่ายประสาทเทียมที่ทำการรับรู้ภาพ
ฉันได้เห็นคำว่า "การเปลี่ยนแปลงค่าคงที่" ในเวอร์ชันของภารกิจการรับรู้หลักของ MNIST มันหมายความว่าอะไร?

3
ความไม่เหมาะสมของ ANOVA หลังจากการวิเคราะห์กลุ่ม k-mean
การแจ้งเตือนหลังจากตาราง ANOVA หลังจากการวิเคราะห์ค่า K บ่งชี้ว่าระดับความสำคัญไม่ควรถูกมองว่าเป็นการทดสอบที่มีความหมายเท่ากันเนื่องจากโซลูชันคลัสเตอร์ได้รับมาจากระยะทางแบบยุคลิดเพื่อเพิ่มระยะทาง ฉันควรใช้การทดสอบแบบใดเพื่อแสดงว่าค่าเฉลี่ยของตัวแปรการจัดกลุ่มแตกต่างกันในกลุ่มหรือไม่ ฉันได้เห็นคำเตือนนี้ในตารางค่า ANOVA ของ k- หมายถึงเอาต์พุต แต่ในการอ้างอิงบางอย่างฉันเห็นว่าการทดสอบ ANOVA หลังการเรียกใช้ ฉันควรละเว้น k-mean ANOVA และรัน one-way ANOVA ด้วยการทดสอบหลังการแปลและตีความมันด้วยวิธีดั้งเดิมหรือไม่? หรือฉันสามารถบอกนัยเกี่ยวกับขนาดของค่า F เท่านั้นและตัวแปรใดที่ทำให้เกิดความแตกต่างมากขึ้น? ความสับสนอีกประการหนึ่งคือตัวแปรการจัดกลุ่มไม่ได้กระจายการละเมิดสมมติฐานของ ANOVA จากนั้นฉันสามารถใช้การทดสอบที่ไม่ใช่พารามิเตอร์ของ Kruskal-Wallis แต่มีข้อสันนิษฐานเกี่ยวกับการแจกแจงแบบเดียวกัน การกระจายระหว่างกลุ่มสำหรับตัวแปรเฉพาะนั้นดูเหมือนจะไม่เหมือนกันบางตัวมีความเบ้เชิงบวกบางตัวมีค่าเป็นลบ ... ฉันมีตัวอย่างขนาดใหญ่ 1275 กลุ่ม 5 กลุ่มตัวแปรการทำคลัสเตอร์ 10 ตัวที่วัดในคะแนน PCA
14 anova  k-means 

3
ความแตกต่างระหว่างเครื่องแยกตัวประกอบและตัวแยกส่วนแบบ Matrix?
ฉันเจอคำว่าเครื่องแยกตัวประกอบในระบบผู้แนะนำ ฉันรู้ว่า Matrix Factorization สำหรับระบบผู้แนะนำ แต่ไม่เคยได้ยินเกี่ยวกับเครื่องแยกตัวประกอบ ดังนั้นความแตกต่างคืออะไร?

2
สืบทอดการกระจายปัวซอง
เมื่อไม่นานมานี้ฉันได้พบกับการแจกแจงปัวซองแบบกระจายตัว แต่ฉันสับสนเล็กน้อยว่ามันจะเกิดขึ้นได้อย่างไร การกระจายมอบให้โดย: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} จากสิ่งที่ฉันสามารถรวบรวมได้θ0θ0\theta_{0}เทอมคือการวัดความสัมพันธ์ระหว่างXXXและYYY ; ดังนั้นเมื่อXXXและYYYเป็นอิสระθ0=0θ0=0\theta_{0} = 0และการกระจายจะกลายเป็นผลคูณของการแจกแจงแบบปัวซองแบบสองตัวแปร แบริ่งในใจ, สับสนของฉันคือการบอกกล่าวกับคำบวก - ฉันสมมติว่าในระยะนี้จะอธิบายถึงความสัมพันธ์ระหว่างXXXและYYYY ดูเหมือนว่าฉันว่า summand ถือเป็นผลคูณของฟังก์ชันการแจกแจงแบบทวินามที่น่าจะเป็นของ "ความสำเร็จ" โดย(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)และความน่าจะเป็นของ "ความล้มเหลว" มอบให้โดยi!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}เพราะ(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!แต่ฉันสามารถออกไปได้ด้วยสิ่งนี้ ใครช่วยให้ความช่วยเหลือเกี่ยวกับวิธีการที่จะได้รับการกระจาย? นอกจากนี้ถ้ามันสามารถรวมอยู่ในคำตอบใด ๆ ว่ารูปแบบนี้อาจขยายไปยังสถานการณ์หลายตัวแปร (พูดว่าตัวแปรสุ่มสามตัวหรือมากกว่า) นั่นจะดีมาก! (ในที่สุดฉันได้ตั้งข้อสังเกตว่ามีคำถามที่คล้ายกันที่โพสต์ก่อนหน้านี้ ( ทำความเข้าใจเกี่ยวกับการแจกแจงปัวซอง bivariate ) แต่ที่มาไม่ได้สำรวจจริง ๆ )

2
AIC, BIC และ GCV: อะไรที่ดีที่สุดสำหรับการตัดสินใจในวิธีการลงโทษที่ถูกลงโทษ?
ความเข้าใจทั่วไปของฉันคือAICเกี่ยวข้องกับการแลกเปลี่ยนระหว่างความดีงามของแบบและความซับซ้อนของแบบจำลอง A Iค= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = จำนวนพารามิเตอร์ในโมเดล LLL = ความเป็นไปได้ เกณฑ์ข้อมูล Bayesian BICนั้นเกี่ยวข้องกับ AIC อย่างมาก AIC จะลงโทษจำนวนพารามิเตอร์ที่น้อยกว่า BIC ฉันเห็นว่ามีการใช้สองสิ่งนี้ทุกที่ในอดีต แต่การตรวจสอบข้ามโดยทั่วไป (GCV) นั้นใหม่สำหรับฉัน GCV เกี่ยวข้องกับ BIC หรือ AIC ได้อย่างไร วิธีการเหล่านี้ใช้ร่วมกันหรือแยกออกจากกันในการเลือกระยะเวลาการลงโทษในการถดถอยแบบแผงเหมือนสัน? แก้ไข: นี่เป็นตัวอย่างการคิดและอภิปราย: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = …

2
การใช้การตรวจสอบข้ามแบบซ้อน
หน้า Scikit Learn เกี่ยวกับการเลือกแบบจำลองกล่าวถึงการใช้การตรวจสอบความถูกต้องแบบซ้อน: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) การข้ามการตรวจสอบความถูกต้องสองลูปถูกดำเนินการแบบขนาน: หนึ่งโดยตัวประมาณของ GridSearchCV เพื่อตั้งค่าแกมม่าและอีกอันหนึ่งโดย cross_val_score เพื่อวัดประสิทธิภาพการทำนายของตัวประมาณ คะแนนที่ได้นั้นเป็นค่าประมาณที่ไม่เอนเอียงของคะแนนการทำนายของข้อมูลใหม่ จากสิ่งที่ฉันเข้าใจclf.fitจะใช้การตรวจสอบข้ามแบบดั้งเดิมเพื่อกำหนดแกมมาที่ดีที่สุด ในกรณีนั้นทำไมเราต้องใช้ CV ที่ซ้อนกันตามที่ระบุข้างต้น บันทึกดังกล่าวระบุว่าพันธุ์ที่ซ้อนกันสร้าง "การประเมินที่เป็นกลาง" ของคะแนนการทำนาย นั่นไม่ได้เป็นอย่างนั้นclf.fitหรือ นอกจากนี้ฉันไม่สามารถรับค่า clf ที่ดีที่สุดจากcross_validation.cross_val_score(clf, X_digits, y_digits)ขั้นตอน คุณช่วยกรุณาแนะนำวิธีการที่สามารถทำได้?

1
เหตุใดจึงใช้ bootstrap แบบพารามิเตอร์
ขณะนี้ฉันกำลังพยายามทำให้บางสิ่งบางอย่างเกี่ยวกับ bootstrap ของพารามิเตอร์ สิ่งต่าง ๆ ส่วนใหญ่อาจไม่สำคัญ แต่ฉันก็ยังคิดว่าฉันอาจพลาดอะไรบางอย่างไป สมมติว่าฉันต้องการรับช่วงความมั่นใจสำหรับข้อมูลโดยใช้ขั้นตอนการบูตพารามิเตอร์ ดังนั้นฉันมีตัวอย่างนี้และฉันถือว่าการกระจายตัวตามปกติ ฉันก็จะประเมินความแปรปรวนและค่าเฉลี่ยและได้รับการกระจายของฉันประมาณการซึ่งจะเห็นได้ชัดเพียง{V}) เอ็ม พีเอ็น(ม. ,วี )โวลต์^v^\hat{v}ม.^m^\hat{m}P^P^\hat{P}ยังไม่มีข้อความ( ม^, v^)N(m^,v^)N(\hat{m},\hat{v}) แทนที่จะสุ่มตัวอย่างจากการแจกแจงนั้นฉันก็สามารถคำนวณควอนไทล์เชิงวิเคราะห์และทำได้ a) ฉันสรุป: ในกรณีที่ไม่สำคัญนี้ bootstrap แบบพารามิเตอร์จะเหมือนกับการคำนวณสิ่งต่าง ๆ ในการแจกแจงแบบปกติ? ในทางทฤษฎีนี่จะเป็นกรณีสำหรับโมเดลบูตสแตรปทั้งหมดตราบใดที่ฉันสามารถจัดการการคำนวณได้ b) ฉันได้ข้อสรุป: การใช้สมมติฐานของการแจกแจงบางอย่างจะทำให้ฉันมีความแม่นยำเป็นพิเศษใน bootstrap แบบพารามิเตอร์เหนือ nonparametric one (ถ้ามันถูกต้องแน่นอน) แต่นอกเหนือจากนั้นฉันแค่ทำเพราะฉันไม่สามารถจัดการกับการคำนวณการวิเคราะห์และไม่พยายามจำลองทางออกของฉัน? c) ฉันจะใช้มันถ้าการคำนวณแบบ "ปกติ" ทำได้โดยใช้การประมาณบางอย่างเพราะนี่อาจทำให้ฉันมีความแม่นยำมากขึ้น ... ? สำหรับฉันประโยชน์ของ bootstrap (ไม่ใช่พารามิเตอร์) ดูเหมือนจะโกหกในความจริงที่ว่าฉันไม่จำเป็นต้องรับการแจกจ่ายใด ๆ สำหรับ bootstrap แบบพาราเมตริกที่หายไป - หรือมีสิ่งที่ฉันพลาดและตำแหน่ง …

2
เวรกรรมใน microeconometrics เทียบกับเวรกรรมของ granger ในเศรษฐมิติอนุกรมเวลา
ฉันเข้าใจถึงสาเหตุที่ใช้ในเศรษฐศาสตร์จุลภาค (โดยเฉพาะอย่างยิ่ง IV หรือการออกแบบความไม่ต่อเนื่องของการถดถอย) และสาเหตุของ Granger ที่ใช้ในเศรษฐมิติอนุกรมเวลา ฉันจะสัมพันธ์กับอีกวิธีหนึ่งได้อย่างไร ตัวอย่างเช่นฉันได้เห็นวิธีการทั้งสองที่ใช้สำหรับข้อมูลพาเนล (พูดว่า , ) การอ้างอิงถึงเอกสารใด ๆ ในเรื่องนี้จะได้รับการชื่นชมT = 20ยังไม่มีข้อความ= 30N=30N=30T= 20T=20T=20

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.