สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
อะไรคือความแตกต่างระหว่าง 'ยุค' 'แบทช์' และ 'มินิบัส'
เท่าที่ฉันรู้เมื่อใช้ Stochastic Gradient Descent เป็นอัลกอริทึมการเรียนรู้ใครบางคนใช้ 'ยุค' สำหรับชุดข้อมูลแบบเต็มและ 'ชุด' สำหรับข้อมูลที่ใช้ในขั้นตอนการอัปเดตเดียวในขณะที่อีกชุดใช้ 'ชุด' และ 'minibatch' ตามลำดับ คนอื่นใช้ 'ยุค' และ 'minibatch' สิ่งนี้ทำให้เกิดความสับสนมากขณะพูดคุย ดังนั้นคำพูดที่ถูกต้องคืออะไร? หรือพวกเขาเป็นเพียงภาษาถิ่นที่ยอมรับได้ทั้งหมด?

5
ค่า p ไม่มีประโยชน์และอันตรายต่อการใช้งานหรือไม่?
บทความ " The Odds, อัพเดทอย่างต่อเนื่อง" จาก NY Timesเกิดขึ้นเพื่อดึงดูดความสนใจของฉัน จะสั้นก็กล่าวว่า [สถิติแบบเบย์] พิสูจน์ให้เห็นแล้วว่ามีประโยชน์อย่างยิ่งในการเข้าถึงปัญหาที่ซับซ้อนรวมถึงการค้นหาเช่น Coast Guard ที่ใช้ในปี 2013 เพื่อค้นหาชาวประมงที่ขาดหายไป John Aldridge (แม้ว่าจะยังไม่ถึงตอนนี้ก็ตาม ...... สถิติแบบเบย์กำลังกระเพื่อมผ่านทุกสิ่งตั้งแต่ฟิสิกส์จนถึงการวิจัยมะเร็งนิเวศวิทยาจนถึงจิตวิทยา ... ในบทความนี้ยังมีการวิพากษ์วิจารณ์เกี่ยวกับค่า p ของผู้ถี่ประจำเช่น: ผลลัพธ์มักจะถูกพิจารณาว่า“ มีนัยสำคัญทางสถิติ” ถ้าค่า p น้อยกว่า 5 เปอร์เซ็นต์ แต่มีอันตรายในประเพณีนี้ Andrew Gelman ศาสตราจารย์ด้านสถิติของโคลัมเบียกล่าว แม้ว่านักวิทยาศาสตร์จะทำการคำนวณอย่างถูกต้องเสมอ - และพวกเขาไม่ทำเขาให้เหตุผล - ยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์ซึ่งหมายความว่าหนึ่งใน 20 ของผลลัพธ์“ นัยสำคัญทางสถิติ” ไม่มีอะไรเลยนอกจากเสียงรบกวนแบบสุ่ม นอกจากนี้ข้างต้นบางทีกระดาษที่มีชื่อเสียงที่สุดที่วิจารณ์ p-value …

2
ช่วงเวลาความเชื่อมั่นที่น่าเชื่อถือสำหรับวัตถุ lmer ผ่านแพ็คเกจเอฟเฟกต์เป็นอย่างไร?
Effectsแพคเกจมีวิธีการอย่างรวดเร็วและสะดวกสบายสำหรับการวางแผนเชิงเส้นผสมผลผลรูปแบบที่ได้รับผ่านแพคเกจlme4 effectช่วงความเชื่อมั่นฟังก์ชั่นคำนวณ (CIS) ได้รวดเร็วมาก แต่วิธีการที่น่าเชื่อถือมีช่วงความเชื่อมั่นเหล่านี้หรือไม่ ตัวอย่างเช่น: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], …

2
ฉันจะรู้ได้อย่างไรว่าวิธีการตรวจสอบข้ามที่ดีที่สุด?
ฉันกำลังพยายามหาวิธีการตรวจสอบข้ามที่ดีที่สุดสำหรับสถานการณ์ของฉัน ข้อมูลต่อไปนี้เป็นเพียงตัวอย่างสำหรับการทำงานผ่านปัญหา (ใน R) แต่Xข้อมูลจริงของฉัน( xmat) มีความสัมพันธ์ซึ่งกันและกันและมีความสัมพันธ์กับองศาที่แตกต่างกับyตัวแปร ( ymat) ฉันให้รหัส R แต่คำถามของฉันไม่เกี่ยวกับ R แต่เกี่ยวกับวิธีการ Xmatรวมตัวแปร X V1 ถึง V100 ในขณะที่ymatมีตัวแปร y ตัวเดียว set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data …

2
การถดถอยโลจิสติกกับ LDA เป็นตัวแยกประเภทสองระดับ
ฉันพยายามที่จะตัดหัวของฉันรอบความแตกต่างทางสถิติระหว่างการวิเคราะห์จำแนกเชิงเส้นและโลจิสติกการถดถอย ความเข้าใจของฉันถูกต้องหรือไม่สำหรับปัญหาการจำแนกประเภทสองชั้น LDA คาดการณ์ฟังก์ชันความหนาแน่นปกติสองฟังก์ชัน (หนึ่งรายการสำหรับแต่ละคลาส) ที่สร้างขอบเขตเชิงเส้นตรงที่พวกเขาตัดกันในขณะที่การถดถอยโลจิสติก สร้างขอบเขต แต่ไม่ถือว่าฟังก์ชันความหนาแน่นสำหรับแต่ละคลาสหรือไม่

5
ความหมายของ“ การพึ่งพาเชิงบวก” เป็นเงื่อนไขในการใช้วิธีการปกติสำหรับการควบคุม FDR
Benjamini และ Hochberg ได้พัฒนาวิธีแรก (และยังคงใช้กันอย่างแพร่หลายที่สุดผมคิดว่า) สำหรับการควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) ฉันต้องการเริ่มต้นด้วยค่า P จำนวนมากแต่ละค่าสำหรับการเปรียบเทียบที่แตกต่างกันและตัดสินใจว่าค่าใดที่ต่ำพอที่จะเรียกว่า "การค้นพบ" ซึ่งควบคุม FDR ให้เป็นค่าที่ระบุ (พูด 10%) ข้อสันนิษฐานข้อหนึ่งของวิธีการปกติคือชุดการเปรียบเทียบนั้นเป็นอิสระหรือมี "การพึ่งพาเชิงบวก" แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าวลีนั้นหมายถึงอะไรในบริบทของการวิเคราะห์ชุดของค่า P

4
จะตีความค่าสัมประสิทธิ์จากแบบจำลองพหุนามได้อย่างไร
ฉันพยายามสร้างพหุนามลำดับที่สองกับข้อมูลบางอย่างที่ฉันมี สมมติว่าฉันพล็อตแบบนี้ด้วยggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) ฉันเข้าใจ: ดังนั้นคำสั่งที่สองนั้นทำงานได้ค่อนข้างดี ฉันคำนวณด้วย R: summary(lm(data$bar ~ poly(data$foo, 2))) และฉันได้รับ: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 …

6
ฉันจะวิเคราะห์ด้วยวิธีพิสูจน์ได้อย่างไรว่าการแบ่งจำนวนเงินแบบสุ่มส่งผลให้เกิดการแจกแจงแบบเลขชี้กำลัง (เช่นรายได้และความมั่งคั่ง)
ในบทความปัจจุบันในวิทยาศาสตร์นี้มีการเสนอต่อไปนี้: สมมติว่าคุณแบ่งรายได้ 500 ล้านคนจาก 10,000 คน มีทางเดียวเท่านั้นที่จะให้ทุกคนมีส่วนร่วมได้ 50,000 หุ้น ดังนั้นหากคุณกำลังหารายได้แบบสุ่มความเท่าเทียมนั้นเป็นไปได้ยากมาก แต่มีวิธีนับไม่ถ้วนที่จะมอบเงินจำนวนมากให้กับคนจำนวนน้อยและคนจำนวนมากมีน้อยหรือไม่มีเลย ตามจริงแล้วทุกวิธีที่คุณสามารถแบ่งรายได้ส่วนใหญ่ผลิตรายได้แบบเอ็กซ์โปเนนเชียล ฉันทำสิ่งนี้ด้วยรหัส R ต่อไปนี้ซึ่งดูเหมือนว่าจะยืนยันผล: library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate …

1
ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic
ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

2
ช่วงความเชื่อมั่นประมาณค่าทวินามของ 0 หรือ 1
อะไรคือวิธีที่ดีที่สุดในการคำนวณช่วงความเชื่อมั่นของการทดลองทวินามหากประมาณการของคุณคือ (หรือในทำนองเดียวกัน ) และขนาดของกลุ่มตัวอย่างมีขนาดค่อนข้างเล็กเช่น ?p = 1 n = 25p=0p=0p=0p=1p=1p=1n=25n=25n=25

3
วิธีหาค่าแปรปรวน - ความแปรปรวนร่วมของสัมประสิทธิ์ในการถดถอยเชิงเส้น
ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้นและมีปัญหาในการเข้าใจเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของ :bb\mathbf{b} สิ่งที่เป็นแนวทแยงนั้นง่ายพอ แต่สิ่งที่อยู่นอกแนวทแยงนั้นยากกว่าเล็กน้อยสิ่งที่ไขปริศนาให้ฉันคือ σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 แต่ไม่มีร่องรอยของβ0β0\beta_0และβ1β1\beta_1ที่นี่
36 regression 

4
วิธีการที่ดีสำหรับแปลงความหนาแน่นของตัวแปรที่ไม่เป็นลบใน R?
plot(density(rexp(100)) เห็นได้ชัดว่าความหนาแน่นทั้งหมดทางด้านซ้ายของศูนย์แสดงถึงอคติ ฉันต้องการสรุปข้อมูลบางอย่างสำหรับผู้ที่ไม่ใช่นักสถิติและฉันต้องการหลีกเลี่ยงคำถามเกี่ยวกับสาเหตุที่ข้อมูลที่ไม่ใช่เชิงลบมีความหนาแน่นทางด้านซ้ายของศูนย์ แปลงสำหรับการตรวจสอบแบบสุ่ม ฉันต้องการแสดงการกระจายของตัวแปรโดยกลุ่มการรักษาและกลุ่มควบคุม การแจกแจงแบบ exponential-ish ฮิสโทแกรมมีความซับซ้อนด้วยเหตุผลหลายประการ ค้นหา Google อย่างรวดเร็วทำให้ผมทำงานโดยสถิติในเมล็ดที่ไม่ใช่เชิงลบเช่น: นี้ แต่มีการนำมาใช้ใน R หรือไม่? ของวิธีการดำเนินการใด ๆ ของพวกเขา "ดีที่สุด" อย่างใดสำหรับสถิติเชิงพรรณนา? แก้ไข: แม้ว่าfromคำสั่งสามารถแก้ไขปัญหาปัจจุบันของฉันได้ก็คงจะดีที่จะรู้ว่ามีใครใช้เมล็ดในวรรณคดีโดยใช้การประมาณความหนาแน่นแบบไม่ลบ

2
การถดถอยโลจิสติก Multinomial เทียบกับการถดถอยโลจิสติกไบนารีหนึ่งส่วนที่เหลือ
ให้บอกว่าเรามีตัวแปรตามมีหมวดหมู่น้อยและชุดของตัวแปรอิสระ YYY อะไรคือข้อดีของการถดถอยโลจิสติกพหุนามมากกว่าชุดของการถดถอยโลจิสติกไบนารี (เช่นรูปแบบOne-vs-Rest )? โดยชุดของไบนารีโลจิสติกการถดถอยฉันหมายความว่าสำหรับแต่ละประเภทเราสร้างแยกต่างหากแบบการถดถอยโลจิสติกไบนารีที่มีเป้าหมาย = 1 เมื่อY = Y ฉันและ 0 มิฉะนั้นYผม∈ Yyi∈Yy_{i} \in YY= yผมY=yiY=y_{i}

6
ทำไม "อธิบายออกไป" ทำให้เข้าใจง่าย?
ฉันเพิ่งเรียนรู้เกี่ยวกับหลักการของการให้เหตุผลความน่าจะเป็นที่เรียกว่า " อธิบายออกไป " และฉันพยายามที่จะเข้าใจสัญชาตญาณ ให้ฉันตั้งค่าสถานการณ์ ให้เป็นเหตุการณ์ที่เกิดแผ่นดินไหว ให้เหตุการณ์ เป็นเหตุการณ์ที่ยักษ์เขียวขจีกำลังเดินเล่นรอบเมือง ให้เป็นเหตุการณ์ที่พื้นสั่นสะเทือน ให้B ที่คุณเห็นอย่างใดอย่างหนึ่งหรือสามารถทำให้เกิดซีAAABBBCCCA ⊥⊥ BA⊥⊥BA \perp\!\!\!\perp BAAABBBCCC ฉันใช้การอธิบายแบบ "อธิบายทันที" หากเกิดขึ้นหนึ่งในหรือเพิ่มขึ้น แต่อีกเหตุผลหนึ่งลดลงเนื่องจากฉันไม่ต้องการเหตุผลทางเลือกเพื่ออธิบายว่าทำไมเกิดขึ้น อย่างไรก็ตามปรีชาปัจจุบันของฉันบอกฉันว่าทั้งและควรเพิ่มขึ้นถ้าเกิดขึ้นเนื่องจากเกิดขึ้นทำให้มีโอกาสมากขึ้นที่สาเหตุของเกิดขึ้นCCCP( A )P(A)P(A)P( B )P(B)P(B)CCCP( A )P(A)P(A)P( B )P(B)P(B)CCCCCCCCC ฉันจะปรับความเข้าใจปรีชาปัจจุบันของฉันด้วยแนวคิดที่จะอธิบายได้อย่างไร ฉันจะใช้การอธิบายเพื่อพิสูจน์ว่าและขึ้นอยู่กับเงื่อนไขอย่างไรAAABBBCCC

3
การตีความค่า p-value ในการทดสอบสมมติฐาน
ฉันเพิ่งมาข้ามกระดาษ"การไม่มีความหมายของสมมติฐานสำคัญการทดสอบ" เจฟฟ์กิลล์ (1999) ผู้เขียนยกความเข้าใจผิดที่พบบ่อยเกี่ยวกับการทดสอบสมมติฐานและค่า p ซึ่งฉันมีสองคำถามที่เฉพาะเจาะจง: P-ค่าเป็นเทคนิคซึ่งเป็นออกแหลมกระดาษโดยทั่วไปไม่ได้บอกเราอะไรเกี่ยวกับ , นอกเสียจากว่าเราจะรู้ว่าการแจกแจงส่วนเพิ่มซึ่งไม่ค่อยเกิดขึ้นในการทดสอบสมมติฐาน "ทุกวัน" เมื่อเราได้ค่า p-value ขนาดเล็กและ "ปฏิเสธสมมติฐานว่าง" อะไรคือข้อความที่น่าจะเป็นที่เราทำเพราะเราไม่สามารถพูดอะไรเกี่ยวกับ ?P(observation|H0)P(observation|H0)P({\rm observation}|H_{0})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation}) คำถามที่สองเกี่ยวข้องกับข้อความเฉพาะจากหน้า 6 (652) ของกระดาษ: เนื่องจากค่า p-value หรือช่วงของค่า p ที่ระบุโดยดวงดาวไม่ได้ถูกตั้งค่ามาก่อนจึงไม่ใช่ความน่าจะเป็นในระยะยาวที่จะทำให้เกิดข้อผิดพลาดประเภทที่ 1 แต่โดยทั่วไปถือว่าเป็นเช่นนั้น ใครสามารถช่วยอธิบายสิ่งที่มีความหมายโดยคำสั่งนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.