สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
บทสรุปที่ดี (ความคิดเห็นหนังสือ) เกี่ยวกับการใช้งานที่หลากหลายของห่วงโซ่มาร์คอฟมอนติคาร์โล (MCMC)?
มีบทสรุปที่ดี (บทวิจารณ์หนังสือ) ในแอปพลิเคชั่นต่างๆของ Markov chain Monte Carlo (MCMC) หรือไม่? ฉันเคยเห็นมาร์คอฟเชนมอนติคาร์โลในทางปฏิบัติแต่หนังสือเล่มนี้ดูเก่าไปหน่อย มีหนังสืออัปเดตเพิ่มเติมเกี่ยวกับแอปพลิเคชันต่างๆของ MCMC ในด้านต่าง ๆ เช่นการเรียนรู้ด้วยคอมพิวเตอร์, การมองเห็นคอมพิวเตอร์และชีววิทยาการคำนวณหรือไม่?

1
สมมติฐานของโมเดลเชิงเส้นทั่วไป
ฉันสร้างโมเดลเชิงเส้นแบบทั่วไปพร้อมตัวแปรตอบกลับเดียว (กระจายต่อเนื่อง / ปกติ) และตัวแปรอธิบาย 4 ตัว (3 ตัวซึ่งเป็นปัจจัยและตัวที่สี่คือจำนวนเต็ม) ฉันใช้การแจกแจงข้อผิดพลาดแบบเกาส์กับฟังก์ชั่นลิงค์ตัวตนแล้ว ขณะนี้ฉันกำลังตรวจสอบว่าแบบจำลองเป็นไปตามสมมติฐานของโมเดลเชิงเส้นทั่วไปซึ่ง ได้แก่ : ความเป็นอิสระของ Y ฟังก์ชั่นลิงค์ที่ถูกต้อง สเกลที่ถูกต้องของการวัดตัวแปรอธิบาย ไม่มีข้อสังเกตที่มีอิทธิพล คำถามของฉันคือฉันจะตรวจสอบว่าแบบจำลองตรงตามสมมติฐานเหล่านี้ได้อย่างไร ดูเหมือนว่าจุดเริ่มต้นที่ดีที่สุดคือการวางแผนการตอบสนองต่อตัวแปรอธิบายแต่ละตัว อย่างไรก็ตามตัวแปรอธิบาย 3 ตัวนั้นจัดอยู่ในหมวดหมู่ (ที่มีระดับ 1-4) ดังนั้นฉันควรมองหาอะไรในแปลง นอกจากนี้ฉันต้องตรวจสอบความหลากหลายและความสัมพันธ์ระหว่างตัวแปรอธิบายหรือไม่? ถ้าใช่ฉันจะทำสิ่งนี้กับตัวแปรอธิบายอย่างละเอียดได้อย่างไร

1
ความแตกต่างระหว่าง wilcox.test และ coin :: wilcox_test in R คืออะไร?
ฟังก์ชันทั้งสองนี้มีอยู่ใน R แต่ฉันไม่รู้ความแตกต่าง มันดูเหมือนว่าพวกเขาจะกลับมาเหมือนเดิม P-ค่าเมื่อโทรwilcox.testด้วยcorrect=FALSEและwilcox_test(ในแพคเกจเหรียญ) distribution="aymptotic"ด้วย สำหรับค่าอื่น ๆ พวกเขากลับค่า p ที่แตกต่างกัน นอกจากนี้ยังwilcox.testส่งคืน W = 0 สำหรับชุดข้อมูลของฉันเสมอโดยไม่ขึ้นกับการตั้งค่าพารามิเตอร์: x = c(1, 1, 1, 3, 3, 3, 3) และ y = c(4, 4, 6, 7, 7, 8, 10) นอกจากนี้เมื่อฉันลองใช้เครื่องมือต่าง ๆ นอกเหนือจาก R (บางออนไลน์พร้อมใช้งานอื่น ๆ เป็น Add-on ของ Excel) บางครั้งพวกเขารายงานค่า p ที่แตกต่างกัน ดังนั้นฉันจะรู้ได้อย่างไรว่าเครื่องมือใดที่ให้ค่า p …

3
การวัดทางสถิติหากภาพประกอบด้วยพื้นที่ที่เชื่อมต่อกันเป็นอวกาศ
ลองพิจารณาภาพระดับสีเทาทั้งสองนี้: ภาพแรกแสดงรูปแบบแม่น้ำที่คดเคี้ยว ภาพที่สองแสดงสัญญาณรบกวนแบบสุ่ม ฉันกำลังมองหาการวัดทางสถิติที่ฉันสามารถใช้เพื่อตรวจสอบว่าเป็นไปได้หรือไม่ที่ภาพแสดงรูปแบบของแม่น้ำ ภาพแม่น้ำมีสองพื้นที่: แม่น้ำ = ค่าสูงและอื่น ๆ = ค่าต่ำ ผลลัพธ์คือฮิสโตแกรมนั้นมีค่า bimodal: ดังนั้นรูปภาพที่มีลวดลายของแม่น้ำควรมีความแปรปรวนสูง อย่างไรก็ตามภาพสุ่มด้านบน: River_var = 0.0269, Random_var = 0.0310 ในทางตรงกันข้ามภาพสุ่มมีความต่อเนื่องของพื้นที่ต่ำในขณะที่ภาพแม่น้ำมีความต่อเนื่องของพื้นที่สูงซึ่งแสดงให้เห็นอย่างชัดเจนในรูปแบบการทดลองที่หลากหลาย: ในทำนองเดียวกันความแปรปรวน "สรุป" ฮิสโตแกรมในตัวเลขหนึ่งฉันกำลังมองหาตัวชี้วัดเชิงพื้นที่ที่ "สรุป" ตัวแปรทดลอง ฉันต้องการให้มาตรการนี้ "ลงโทษ" ความผันแปรสูงที่ความล่าช้าเล็ก ๆ หนักกว่าความล่าช้าใหญ่ดังนั้นฉันจึงได้คิด: s v a r = ∑nh = 1γ( h ) / h2 svar=∑h=1nγ(h)/h2\ svar = \sum_{h=1}^n \gamma(h)/h^2 ถ้าฉันเพิ่มจาก …

1
การสร้างแบบจำลองผลกระทบเชิงเส้นผสมกับข้อมูลการศึกษาคู่
สมมติว่าฉันมีตัวแปรตอบสนองบางอย่างที่วัดจากพี่น้องคนที่ในครอบครัวที่นอกจากนี้ข้อมูลพฤติกรรมบางอย่างถูกรวบรวมในเวลาเดียวกันจากแต่ละเรื่อง ฉันพยายามวิเคราะห์สถานการณ์ด้วยโมเดลผสมผลกระทบเชิงเส้นต่อไปนี้: j ฉันx ฉันjyijyijy_{ij}jjjiiixijxijx_{ij} yij=α0+α1xij+δ1ixij+εijyij=α0+α1xij+δ1ixij+εijy_{ij} = \alpha_0 + \alpha_1 x_{ij} + \delta_{1i} x_{ij} + \varepsilon_{ij} โดยที่และเป็นจุดตัดและความชันคงที่ตามลำดับ คือความชันแบบสุ่มและคือส่วนที่เหลือα 1 δ 1 i ε i jα0α0\alpha_0α1α1\alpha_1δ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} สมมติฐานสำหรับผลกระทบแบบสุ่มและส่วนที่เหลือคือ (สมมติว่ามีพี่น้องเพียงสองคนเท่านั้นในแต่ละครอบครัว) ε ฉันjδ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} δ1 ฉัน( εฉัน1, εฉัน2)T~dยังไม่มีข้อความ( 0 , τ2)~dยังไม่มีข้อความ( ( 0 , 0 )T, R )δ1i∼dN(0,τ2)(εi1,εi2)T∼dN((0,0)T,R)\begin{align} \delta_{1i} &\stackrel{d}{\sim} N(0, \tau^2) \\[5pt] (\varepsilon_{i1}, \varepsilon_{i2})^T …

1
การถดถอยโลจิสติกแบบเบย์ปกติใน JAGS
มีเอกสารทางคณิตศาสตร์มากมายที่อธิบาย Bayesian Lasso แต่ฉันต้องการทดสอบและแก้ไขรหัส JAGS ที่ฉันสามารถใช้ได้ ใครบางคนสามารถโพสต์ตัวอย่างรหัส BUGS / JAGS ที่ใช้การถดถอยโลจิสติกปกติ? รูปแบบใด ๆ (L1, L2, Elasticnet) จะดี แต่ Lasso เป็นที่ต้องการ ฉันยังสงสัยว่ามีกลยุทธ์การใช้งานทางเลือกที่น่าสนใจหรือไม่

2
อธิบายการถดถอยเชิงควอนตัมให้กับผู้ที่ไม่ใช่นักสถิติ
ฉันเพิ่งส่งบทความซึ่งฉันใช้การถดถอยเชิงปริมาณเพื่อวารสารจิตวิทยา แม้ว่าฉันคิดว่าฉันได้ใส่ความคิดที่เพียงพอในการอธิบายการถดถอยเชิงปริมาณอย่างชัดเจนแล้วผู้ตรวจสอบขอคำอธิบายที่ดีขึ้นเกี่ยวกับเทคนิคการถดถอยเชิงปริมาณที่คุ้นเคยกับการถดถอย OLS มาตรฐานเท่านั้น ดังนั้นวิธีที่ดีที่สุดในการอธิบายการถดถอยเชิงปริมาณในบทความเชิงประจักษ์สำหรับนักสถิติที่ไม่ใช่คืออะไร?

2
สร้างตัวอย่างข้อมูลจากการถดถอยปัวซอง
ฉันสงสัยว่าคุณจะสร้างข้อมูลจากสมการการถดถอยปัวซองใน R ได้อย่างไร? ฉันสับสนวิธีจัดการกับปัญหา ดังนั้นถ้าผมถือว่าเรามีสองทำนายและซึ่งกระจาย(0,1) และการสกัดกั้นคือ 0 และสัมประสิทธิ์ทั้งสองเท่ากัน 1 จากนั้นค่าประมาณของฉันคือ:X1X1X_1X2X2X_2ยังไม่มีข้อความ( 0 , 1) )ยังไม่มีข้อความ(0,1)N(0,1) เข้าสู่ระบบ( Y) = 0 + 1 ⋅ X1+ 1 ⋅ X2เข้าสู่ระบบ⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 แต่เมื่อฉันคำนวณ log (Y) - ฉันจะสร้างจำนวนปัวซองตามนั้นได้อย่างไร พารามิเตอร์ rate สำหรับการแจกแจงปัวซองคืออะไร? ถ้าใครสามารถเขียนสคริปต์ R สั้น ๆ ที่สร้างตัวอย่างการถดถอยปัวซองที่น่ากลัว!

1
ลูกศรใน PCA biplot หมายถึงอะไร
พิจารณา PCA biplot ต่อไปนี้: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) มีลูกศรสีแดงจำนวนหนึ่งพล็อตพวกมันหมายถึงอะไร ฉันรู้ว่าลูกศรแรกที่มีป้ายกำกับ "Var1" ควรชี้ทิศทางที่แตกต่างกันมากที่สุดของชุดข้อมูล (ถ้าเราคิดว่ามันเป็นจุดข้อมูล 2,000 จุดแต่ละอันเป็นเวกเตอร์ขนาด 6) ฉันอ่านจากที่อื่นทิศทางที่แตกต่างกันมากที่สุดควรเป็นทิศทางของเวกเตอร์ไอเกนลำดับที่ 1 อย่างไรก็ตามการอ่านรหัส biplot ใน R บรรทัดเกี่ยวกับลูกศรคือ: if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], yเมทริกการโหลดอยู่ที่ไหน, …
14 r  pca  linear-algebra  biplot 

4
ตรวจสอบว่าการปรับปรุงความแม่นยำมีความสำคัญหรือไม่
สมมติว่าฉันมีอัลกอริทึมที่แบ่งสิ่งออกเป็นสองประเภท ฉันสามารถวัดความแม่นยำของอัลกอริทึมในการทดสอบ 1,000 รายการ - สมมติว่า 80% ของสิ่งต่าง ๆ ได้รับการจัดประเภทอย่างถูกต้อง สมมติว่าฉันปรับเปลี่ยนอัลกอริทึมอย่างใดเพื่อให้ 81% ของสิ่งต่าง ๆ ถูกจัดประเภทอย่างถูกต้อง สถิติสามารถบอกอะไรฉันได้หรือไม่ว่าการปรับปรุงอัลกอริทึมของฉันมีนัยสำคัญทางสถิติหรือไม่ แนวคิดเรื่องนัยสำคัญทางสถิติเกี่ยวข้องกันในสถานการณ์นี้หรือไม่? กรุณาชี้ให้ฉันไปในทิศทางของทรัพยากรบางอย่างที่อาจเกี่ยวข้อง ขอบคุณมาก.

4
การสุ่มคืออะไร
ในความเป็นไปได้และสถิติแนวคิดของ "สุ่ม" และ "สุ่ม" มักใช้ บ่อยครั้งที่แนวคิดของตัวแปรสุ่มใช้เพื่อจำลองเหตุการณ์ที่เกิดขึ้นเนื่องจากโอกาส คำถามของฉันเกี่ยวกับคำว่า "สุ่ม" สุ่มคืออะไร การสุ่มมีอยู่จริงหรือไม่? ฉันอยากรู้ว่าคนที่มีประสบการณ์มากมายในการทำงานกับเหตุการณ์สุ่มคิดและเชื่อเกี่ยวกับการสุ่ม

2
วิธีรับเอาท์พุทอย่างต่อเนื่องมูลค่าจริงจาก Neural Network
ในตัวอย่างส่วนใหญ่ที่ฉันเคยเห็นจนถึงเครือข่ายนิวรัลเครือข่ายใช้สำหรับการจำแนกประเภทและโหนดจะถูกแปลงด้วยฟังก์ชัน sigmoid อย่างไรก็ตามฉันต้องการใช้โครงข่ายประสาทเทียมเพื่อส่งออกมูลค่าที่แท้จริงอย่างต่อเนื่อง (ตามจริงแล้วเอาต์พุตมักจะอยู่ในช่วง -5 ถึง +5) คำถามของฉันคือ: 1. Should I still scale the input features using feature scaling? What range? 2. What transformation function should I use in place of the sigmoid? ฉันกำลังมองหาแรกใช้มัน PyBrain ซึ่งอธิบายเหล่านี้ประเภทชั้น ดังนั้นฉันคิดว่าฉันควรมี 3 เลเยอร์ให้เริ่ม (อินพุต, ซ่อนเร้นและเลเยอร์เอาท์พุท) นั่นคือเลเยอร์เชิงเส้นทั้งหมดหรือไม่ นั่นเป็นวิธีที่สมเหตุสมผลหรือไม่ หรือฉันจะ "ยืด" ฟังก์ชั่น sigmoid ในช่วง -5 ถึง …

2
ฟังก์ชัน Gradient descent vs lm () ใน R?
ฉันกำลังดูวิดีโอในหลักสูตรการเรียนรู้ภาษาออนไลน์ของ Andrew Ng ที่ Stanford เขากล่าวถึง Gradient Descent เป็นอัลกอริทึมในการแก้ปัญหาการถดถอยเชิงเส้นและการเขียนฟังก์ชั่นในระดับแปดเสียงเพื่อดำเนินการ สมมุติว่าฉันสามารถเขียนฟังก์ชันเหล่านั้นใน R ใหม่ได้ แต่คำถามของฉันไม่ใช่ฟังก์ชัน lm () ให้ผลลัพธ์ของการถดถอยเชิงเส้นแล้ว ทำไมฉันต้องการเขียนฟังก์ชันการไล่ระดับสีของตัวเอง มีข้อได้เปรียบหรือว่าเป็นแบบฝึกหัดการเรียนรู้เท่านั้น? lm () ทำโคตรลาดชันหรือไม่?

2
การตีความและการตรวจสอบความถูกต้องของรูปแบบการถดถอยอันตรายตามสัดส่วนของ Cox โดยใช้ R เป็นภาษาอังกฤษแบบธรรมดา
มีใครช่วยอธิบายโมเดล Cox ของฉันให้ฉันฟังเป็นภาษาอังกฤษธรรมดาได้ไหม ฉันติดตั้งโมเดลการถดถอยของ Cox ต่อไปนี้กับข้อมูลทั้งหมดของฉันโดยใช้cphฟังก์ชั่น Dataข้อมูลของฉันจะถูกบันทึกไว้ในวัตถุที่เรียกว่า ตัวแปรw, xและyมีความต่อเนื่อง zเป็นปัจจัยสองระดับ เวลามีหน่วยวัดเป็นเดือน ผู้ป่วยบางรายของฉันขาดข้อมูลสำหรับตัวแปรz( หมายเหตุ : ฉันได้ระบุไว้อย่างชัดเจนว่าคำแนะนำของดร. ฮาร์เรลด้านล่างนี้ว่าฉันใส่ค่าเหล่านี้เพื่อหลีกเลี่ยงการทำให้ลำเอียงแบบของฉันและจะทำในอนาคต) > fit <- cph(formula = Surv(time, event) ~ w + x + y + z, data = Data, x = T, y = T, surv = T, time.inc = 12) Cox Proportional Hazards Model …

3
ทำไมมันมักจะสันนิษฐานว่าการกระจายแบบเสียน
การอ้างอิงจากบทความ Wikipedia เกี่ยวกับการประมาณค่าพารามิเตอร์สำหรับลักษณนามไร้เดียงสา Bayes : "ข้อสันนิษฐานทั่วไปคือค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสนั้นถูกแจกจ่ายตามการแจกแจงแบบเกาส์" ฉันเข้าใจว่าการแจกแจงแบบเกาส์นั้นสะดวกสำหรับเหตุผลในการวิเคราะห์ อย่างไรก็ตามมีเหตุผลอื่นใดในโลกแห่งความจริงที่จะทำการคาดคะเนนี้? ถ้าประชากรประกอบด้วยประชากรย่อยสองคน (คนฉลาด / โง่แอปเปิ้ลใหญ่ / เล็ก)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.