สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
วิธีการมองเห็นความแตกต่างที่ดีที่สุดในหลาย ๆ สัดส่วนในสามกลุ่ม?
ฉันพยายามเปรียบเทียบว่าสิ่งพิมพ์ข่าวที่แตกต่างกันสามฉบับครอบคลุมหัวข้อต่าง ๆ อย่างไร (พิจารณาผ่านโมเดลหัวข้อ LDA) ฉันมีสองวิธีที่เกี่ยวข้องในการทำเช่นนั้น แต่ได้รับคำติชมจำนวนมากจากเพื่อนร่วมงานว่านี่ไม่ใช่วิธีที่ง่ายมาก ฉันหวังว่าจะมีใครบางคนที่นั่นมีความคิดที่ดีกว่าสำหรับการแสดงภาพนี้ ในกราฟแรกฉันแสดงสัดส่วนของแต่ละหัวข้อในแต่ละสิ่งพิมพ์เช่น: มันค่อนข้างตรงไปตรงมาและใช้งานง่ายสำหรับคนเกือบทุกคนที่ฉันเคยคุยด้วย อย่างไรก็ตามมันยากที่จะเห็นความแตกต่างระหว่างสิ่งตีพิมพ์ หนังสือพิมพ์ฉบับใดครอบคลุมหัวข้อใดเพิ่มเติม เพื่อให้ได้สิ่งนี้ฉันวาดกราฟความแตกต่างระหว่างการตีพิมพ์ที่มีสัดส่วนหัวข้อสูงสุดและลำดับที่สองสูงที่สุดตามสีของสิ่งพิมพ์ที่มีคะแนนสูงสุด แบบนี้: ยกตัวอย่างเช่นบาร์ขนาดใหญ่สำหรับฟุตบอลคือระยะห่างระหว่างอัลอาห์รามอังกฤษและเดลินิวส์อียิปต์ (อันดับ 2 ในการรายงานข่าวฟุตบอล) และเป็นสีแดงเพราะอัลอาห์รามเป็น # 1 ในทำนองเดียวกันการทดลองมีสีเขียวเนื่องจาก Egypt Independent มีสัดส่วนที่สูงที่สุดและขนาดของแถบคือระยะห่างระหว่าง Egypt Independent และ Daily News Egypt (# 2 อีกครั้ง) ความจริงที่ฉันต้องอธิบายว่าทั้งหมดในสองย่อหน้าเป็นสัญญาณที่ค่อนข้างแน่ใจว่ากราฟล้มเหลวในการทดสอบความพอเพียง มันยากที่จะบอกสิ่งที่เกิดขึ้นจริงโดยเพียงแค่มองมัน คำแนะนำทั่วไปเกี่ยวกับวิธีเน้นสิ่งพิมพ์ที่โดดเด่นสำหรับแต่ละหัวข้อด้วยวิธีที่เข้าใจง่ายกว่านี้? แก้ไข: ข้อมูลจะเล่นกับ:นี่คือdputผลลัพธ์จาก R , เช่นเดียวกับไฟล์ CSV แก้ไข 2:นี่คือเวอร์ชันพล็อตจุดเริ่มต้นโดยมีขนาดของจุดที่เป็นสัดส่วนกับสัดส่วนของหัวข้อในคลังข้อมูล (ซึ่งเป็นวิธีการเรียงลำดับหัวข้อเดิม) แม้ว่าฉันจะต้องปรับแต่งมันเพิ่มอีกนิด แต่ก็รู้สึกได้ง่ายกว่าที่ฉันเคยทำมาก่อน ขอบคุณทุกคน!

2
คำนวณค่าสัมประสิทธิ์ในการถดถอยโลจิสติกกับ R
ในการถดถอยเชิงเส้นแบบหลายค่าสามารถหาค่าสัมประสิทธิ์ได้ด้วยสูตรต่อไปนี้ b = ( X'X)- 1( X') Yข=(X'X)-1(X')Yb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta ตัวอย่างเช่น > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- …

1
MCMC ในพื้นที่พารามิเตอร์กระโดด?
ฉันกำลังพยายามใช้ MCMC กับปัญหา แต่นักบวชของฉัน (ในกรณีของฉันพวกเขาคือ )) ถูก จำกัด พื้นที่ ฉันสามารถใช้ MCMC ปกติและไม่สนใจตัวอย่างที่อยู่นอกเขตหวงห้าม (ซึ่งในกรณีของฉันคือ [0,1] ^ 2) นั่นคือฟังก์ชั่นการใช้การเปลี่ยนผ่านใหม่เมื่อการเปลี่ยนแปลงใหม่หลุดออกจากพื้นที่ที่ถูก จำกัดα∈[0,1],β∈[0,1]α∈[0,1],β∈[0,1]\alpha\in[0,1],\beta\in[0,1]

3
“ การทำให้เป็นมาตรฐาน” หมายถึงอะไรและวิธีการตรวจสอบว่าตัวอย่างหรือการกระจายได้รับการทำให้เป็นมาตรฐาน
ฉันมีคำถามที่ขอให้ตรวจสอบว่าการแจกแจงแบบฟอร์ม ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) เป็นมาตรฐานหรือไม่ สำหรับหนึ่งแล้วการกระจายแบบใดที่จะทำให้เป็นมาตรฐาน และสองเราจะตรวจสอบได้อย่างไรว่าการแจกแจงเป็นแบบปกติหรือไม่? ฉันเข้าใจโดยการคำนวณ X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} เราได้รับข้อมูลที่ทำให้เป็นมาตรฐานแต่ที่นี่มันจะขอให้ตรวจสอบว่าการกระจายเป็นปกติหรือไม่

2
สี่แกนใน PCA biplot คืออะไร
เมื่อคุณสร้าง biplot สำหรับการวิเคราะห์ PCA คุณจะได้คะแนนองค์ประกอบหลัก PC1 จากคะแนน x-axis และ PC2 บนแกน y แต่อีกสองแกนทางด้านขวาและด้านบนของหน้าจอคืออะไร?
18 r  pca  biplot 

2
การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา
TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

2
ใช้น้ำหนักใน svyglm vs glm
ฉันต้องการทราบว่าการรักษาน้ำหนักแตกต่างกันระหว่างsvyglmและอย่างไรglm ฉันใช้twangแพ็คเกจใน R เพื่อสร้างคะแนนความชอบซึ่งใช้เป็นน้ำหนักดังต่อไปนี้ (รหัสนี้มาจากtwangเอกสารประกอบ): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate …
18 r  survey 

1
คำถามพื้นฐานเกี่ยวกับการวิเคราะห์การเอาชีวิตรอดแบบไม่ต่อเนื่อง
ฉันพยายามวิเคราะห์การรอดชีวิตแบบไม่ต่อเนื่องโดยใช้แบบจำลองการถดถอยแบบโลจิสติกส์และฉันไม่แน่ใจว่าฉันเข้าใจกระบวนการทั้งหมดอย่างสมบูรณ์ ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างมากกับคำถามพื้นฐานสองสามข้อ นี่คือการตั้งค่า: ฉันกำลังดูสมาชิกในกลุ่มภายในหน้าต่างเวลาห้าปี สมาชิกแต่ละคนมีบันทึกการเป็นสมาชิกรายเดือนสำหรับแต่ละเดือนที่สมาชิกอยู่ในกลุ่ม ฉันกำลังพิจารณาสมาชิกทั้งหมดที่สมาชิกเริ่มขึ้นในช่วงห้าปี (เพื่อหลีกเลี่ยงปัญหา "การเซ็นเซอร์ซ้าย" กับสมาชิกที่เข้าร่วมก่อนหน้านี้) แต่ละเร็กคอร์ดจะถูกทำดัชนีตามเวลาโดยเวลาหนึ่งคือเดือนที่สมาชิกเข้าร่วม ดังนั้นสมาชิกที่อยู่สองปีครึ่งจะมีบันทึกรายเดือนสามสิบหมายเลขจากหนึ่งถึงสามสิบ แต่ละเร็กคอร์ดจะได้รับตัวแปรไบนารีซึ่งจะมีค่าหนึ่งสำหรับเดือนสุดท้ายของการเป็นสมาชิกและเป็นศูนย์มิฉะนั้น ค่าหนึ่งสำหรับตัวแปรไบนารีทำเครื่องหมายเหตุการณ์ที่สมาชิกออกจากกลุ่ม สำหรับสมาชิกแต่ละคนที่ยังคงเป็นสมาชิกเกินกว่าหน้าต่างการวิเคราะห์ห้าปี ดังนั้นรูปแบบการถดถอยโลจิสติกถูกสร้างขึ้นเพื่อทำนายค่าของตัวแปรเหตุการณ์ไบนารี จนถึงตอนนี้ดีมาก หนึ่งในวิธีทั่วไปในการประเมินรูปแบบการทำนายแบบไบนารี่คือการวัดการยกของตัวอย่างโฮลด์ สำหรับโมเดลการถดถอยโลจิสติกที่ฉันสร้างขึ้นเพื่อทำนายเหตุการณ์สิ้นสุดการเป็นสมาชิกฉันได้คำนวณการยกชุดข้อมูลที่เก็บไว้พร้อมกับอัตราส่วนห้าต่อหนึ่งของการไม่เกิดเหตุการณ์ต่อเหตุการณ์ ฉันจัดอันดับค่าที่ทำนายไว้เป็น deciles ช่วงทศวรรษที่มีค่าที่คาดการณ์ไว้สูงที่สุดนั้นมีค่าเจ็ดสิบเปอร์เซ็นต์ decile สองตัวแรกรวมกันมีหกสิบห้าเปอร์เซ็นต์ของทั้งหมดใน holdout ในบริบทบางอย่างนี้จะถือว่าเป็นรูปแบบการทำนายที่ค่อนข้างดี แต่ฉันสงสัยว่ามันดีพอที่จะทำการวิเคราะห์การอยู่รอด Let h[j,k]h[j,k]h[j,k]เป็นฟังก์ชั่นอันตรายสำหรับบุคคลjjjในเดือนkkkและให้S[j,k]S[j,k]S[j,k]จะเป็นไปได้ว่าบุคคลjjjรอดผ่านเดือนkkkk นี่คือคำถามพื้นฐานของฉัน: ฟังก์ชั่นอันตรายแบบไม่ต่อเนื่อง, h[j,k]h[j,k]h[j,k] , ความน่าจะเป็นแบบมีเงื่อนไขของการไม่รอด (ออกจากกลุ่ม) ในแต่ละเดือนหรือไม่? ค่าที่ทำนายจากการประมาณค่าแบบจำลองการถดถอยโลจิสติกส์ของฟังก์ชันอันตรายหรือไม่? (กล่าวคือเท่ากับแบบจำลองที่ทำนายค่าสำหรับjแต่ละตัวในเดือนkหรือทำอะไรมากกว่านี้ที่ต้องทำเพื่อให้ได้ค่าประมาณฟังก์ชันอันตราย?)h[j,k]h[j,k]h[j,k]jjjkkk ความน่าจะเป็นของการอยู่รอดถึงเดือน q สำหรับแต่ละเท่ากับผลิตภัณฑ์ของหนึ่งลบฟังก์ชันอันตรายจากเดือนหนึ่งถึงqนั่นคือ S [ j , q ] = ( 1 - …

4
ทำไมเราไม่ใช้ตัวเลขที่สำคัญ?
ความคิดใดที่ทำให้เราไม่ใช้ตัวเลขนัยสำคัญในสถิติ มีบางอย่างในสายงานของเราที่ใช้ประมาณการเพื่อไม่ให้ใช้กฎเกี่ยวกับความแม่นยำ;)
18 reporting 


1
จะทดสอบนัยสำคัญทางสถิติสำหรับตัวแปรเด็ดขาดในการถดถอยเชิงเส้นอย่างไร
หากในการถดถอยเชิงเส้นฉันมีตัวแปรเด็ดขาด ... ฉันจะทราบความหมาย stastical ของตัวแปรเด็ดขาดได้อย่างไร สมมุติว่าปัจจัยมี 10 ระดับ ... จะมีค่า t ผลลัพธ์ที่ต่างกัน 10 ค่าภายใต้ตัวแปรปัจจัยเดียว ...X1X1X_1X1X1X_1 ดูเหมือนว่าสำหรับฉันแล้วสถิตินัยได้รับการทดสอบสำหรับตัวแปรระดับแต่ละระดับแล้วหรือยัง? ไม่มี? @Macro: ทำตามคำแนะนำของคุณฉันได้สร้างตัวอย่างต่อไปนี้: ดูเหมือนว่า x3 มีประโยชน์และต้องรวมอยู่ในโมเดลจากการเปรียบเทียบโมเดลด้านล่าง แต่จริงๆแล้วมันผิด ... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 …

3
การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?
ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้ ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

1
หลังหลายตัวแปรปกติ
นี่เป็นคำถามง่าย ๆ แต่ฉันไม่สามารถหาที่มาที่ใดก็ได้บนอินเทอร์เน็ตหรือในหนังสือ ฉันต้องการที่จะเห็นการกำเนิดของวิธีการแบบเบย์หนึ่งปรับปรุงการกระจายปกติหลายตัวแปร ตัวอย่างเช่นลองจินตนาการว่า P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} หลังจากการเฝ้าสังเกตชุดของ , ผมอยากจะคำนวณx_n}) ฉันรู้ว่าคำตอบคือ\ mathbb {P} ({\ bf \ mu | x_1 ... x_n}) = N ({\ bf \ mu_n}, {\ bf …

1
ช่วงเวลาความมั่นใจสำหรับสัมประสิทธิ์การถดถอยเชิงเส้นควรเป็นไปตามการแจกแจงแบบปกติหรือ
ลองมีโมเดลเชิงเส้นตัวอย่างเช่น ANOVA ง่ายๆ: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) ผลลัพธ์มีดังนี้: Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q …

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.