สถิติและข้อมูลขนาดใหญ่

1

ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

การใช้งานเชิงประจักษ์ของความเป็นไปได้เชิงประจักษ์มีอะไรบ้าง

ฉันเคยได้ยินความน่าจะเป็นเชิงประจักษ์ของโอเว่น แต่จนกระทั่งเมื่อไม่นานมานี้มันก็ไม่ต้องสนใจจนกระทั่งฉันเจอมันในกระดาษดอกเบี้ย ( Mengersen et al. 2012 ) ในความพยายามของฉันที่จะเข้าใจฉันได้รวบรวมว่าโอกาสที่ข้อมูลที่สังเกตได้จะแสดงเป็น ที่และ0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 อย่างไรก็ตามฉันไม่สามารถทำให้การก้าวกระโดดทางจิตที่เชื่อมโยงการเป็นตัวแทนนี้กับวิธีที่มันสามารถใช้ในการอ้างถึงเกี่ยวกับการสังเกต บางทีฉันอาจหยั่งรากเกินไปในการคิดถึงพารามิเตอร์ความน่าจะเป็นของโมเดล ไม่ว่าฉันกำลังค้นหา Google Scholar สำหรับกระดาษบางเล่มที่ใช้โอกาสเชิงประจักษ์ที่จะช่วยฉันกำหนดแนวคิด ... เพื่อประโยชน์ เห็นได้ชัดว่ามีหนังสือของ Art Owen เกี่ยวกับความเป็นไปได้ในเชิงประจักษ์แต่ Google Books หลุดพ้นความน่าเบื่อไปหมดแล้วและฉันยังอยู่ในขั้นตอนการขอสินเชื่อระหว่างห้องสมุดที่ช้า ในขณะเดียวกันใครบางคนสามารถชี้แนะฉันไปที่เอกสารและเอกสารที่แสดงให้เห็นอย่างชัดเจนถึงความเป็นไปได้ในเชิงประจักษ์และวิธีการใช้งาน? ตัวอย่างคำอธิบายของ EL ก็ยินดีด้วยเช่นกัน!

28 bayesian maximum-likelihood nonparametric likelihood empirical-likelihood

4

การวัดความเหมือนหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมสองตัว

มีการวัดความคล้ายคลึงกันหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมแบบสมมาตรสองแบบหรือไม่ (ทั้งสองมีขนาดเท่ากัน)? ฉันกำลังคิดว่านี่ของ analogues กับ KL divergence ของการแจกแจงความน่าจะเป็นสองอันหรือระยะทางแบบยุคลิดระหว่างเวกเตอร์ยกเว้นการใช้กับเมทริกซ์ ฉันคิดว่าจะมีการวัดความคล้ายคลึงกันค่อนข้างน้อย เป็นการดีที่ฉันต้องการทดสอบสมมติฐานว่างว่าเมทริกซ์ความแปรปรวนร่วมสองตัวนั้นเหมือนกัน

28 distributions hypothesis-testing covariance-matrix kullback-leibler information-theory

7

วิธีสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องโดยอำเภอใจ?

ฉันจะสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องตามอำเภอใจได้อย่างไร? ตัวอย่างเช่นฉันมีชุดตัวเลขที่ฉันต้องการสร้าง สมมติว่าพวกเขามีป้ายกำกับตั้งแต่ 1-3 ดังนี้ 1: 4%, 2: 50%, 3: 46% โดยทั่วไปร้อยละเป็นความน่าจะเป็นที่พวกเขาจะปรากฏในผลลัพธ์จากการสร้างตัวเลขสุ่ม ฉันมีตัวสร้างตัวเลขแบบสุ่มที่จะสร้างการกระจายแบบสม่ำเสมอในช่วงเวลา [0, 1] มีวิธีการทำเช่นนี้หรือไม่? ไม่มีขอบเขตเกี่ยวกับองค์ประกอบที่ฉันมีได้ แต่% จะรวมกันได้มากถึง 100%

28 distributions

6

มีสถิติทางสถิติที่น่าสนใจและเป็นที่เขียนบ้างบ้าง?

มีบทความอะไรบ้างที่อธิบายการใช้งานสถิติที่จะสนุกและให้ข้อมูลในการอ่าน? เพื่อความชัดเจนฉันไม่ได้มองหาเอกสารที่อธิบายวิธีการทางสถิติแบบใหม่ (เช่นบทความเกี่ยวกับการถดถอยมุมน้อย) แต่เป็นเอกสารที่อธิบายถึงวิธีการแก้ปัญหาในโลกแห่งความเป็นจริง ตัวอย่างเช่นกระดาษหนึ่งแผ่นที่เหมาะกับสิ่งที่ฉันกำลังมองหาคือกระดาษสภาพภูมิอากาศจากชมรมวารสารที่ผ่านการตรวจสอบข้ามฉบับที่สอง ฉันกำลังมองหาเอกสารสถิติ - ish เพิ่มเติมมากกว่าเอกสารการเรียนรู้ด้วยเครื่อง แต่ฉันคิดว่ามันเป็นความแตกต่างที่คลุมเครือ (ฉันจะจัดประเภทเอกสาร Netflix Prize เป็นแนวเขตบิตและกระดาษในการวิเคราะห์ความเชื่อมั่นเป็นบางสิ่ง ฉันไม่ได้มองหา) ฉันถามเพราะแอปพลิเคชันสถิติส่วนใหญ่ที่ฉันเห็นเป็นตัวอย่างเล็ก ๆ น้อย ๆ ที่คุณเห็นในตำราเรียนหรือสิ่งต่าง ๆ ที่เกี่ยวข้องกับงานของฉันเองดังนั้นฉันจึงต้องการแยกสาขาออกเล็กน้อย

28 references application

5

อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?

ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น: m <- lm(weight ~ Time*Diet, data=ChickWeight) คำถามของฉัน: รูปแบบใดที่จะเป็นที่น่าสงสัย? ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่? การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

28 r regression heteroscedasticity assumptions

5

การเลือกรุ่นที่ดีที่สุดจากโมเดล“ ดีที่สุด” ที่แตกต่างกัน

คุณจะเลือกรุ่นจากรุ่นที่แตกต่างกันซึ่งเลือกโดยวิธีการที่แตกต่างกัน (เช่นการเลือกถอยหลังหรือการส่งต่อ) นอกจากนี้แบบจำลองทางการเงินคืออะไร?

28 regression model-selection

3

การคำนวณค่า p โดยใช้ bootstrap ด้วย R

ฉันใช้แพคเกจ "boot" เพื่อคำนวณค่าp-value bootstrapped แบบสองด้านโดยประมาณแต่ผลลัพธ์นั้นอยู่ห่างจาก p-value ของการใช้ t.test มากเกินไป ฉันไม่สามารถหาสิ่งที่ฉันทำผิดในรหัส R ของฉัน ใครช่วยได้โปรดให้คำแนะนำสำหรับเรื่องนี้กับฉัน time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = …

28 r hypothesis-testing p-value bootstrap permutation-test

7

แหล่งข้อมูลที่ดีสำหรับการเรียนรู้ลูกโซ่มาร์คอฟมอนติคาร์โล (MCMC)

คำแนะนำใด ๆ สำหรับแหล่งข้อมูลที่ดีในการเรียนรู้วิธีการ MCMC

28 references mcmc

3

มีฟังก์ชั่นเริ่มต้นสำหรับการกระจายแบบไม่ต่อเนื่องใน R หรือไม่?

การแจกแจงมาตรฐานส่วนใหญ่ใน R มีตระกูลคำสั่ง - pdf / pmf, cdf / cmf, quantile, deviates แบบสุ่ม (ตัวอย่างเช่น dnorm, pnorm, qnorm, rnorm) ฉันรู้ว่ามันง่ายพอที่จะใช้ประโยชน์จากคำสั่งมาตรฐานในการทำซ้ำฟังก์ชั่นเหล่านี้สำหรับการแจกแจงแบบไม่ต่อเนื่องกัน แต่มีฟังก์ชั่นตระกูลในตัวที่ต้องการสำหรับการสร้างแบบจำลองการกระจายชุดแบบไม่ต่อเนื่องใน R

28 r distributions uniform

3

ใครควรติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล

มันจะเป็นประโยชน์ในการศึกษารหัสการวิเคราะห์ข้อมูลของผู้เชี่ยวชาญ เมื่อไม่นานมานี้ฉันได้อ่านgithubและมีผู้คนจำนวนหนึ่งเปิดเผยรหัสการวิเคราะห์ข้อมูลที่นั่น ซึ่งรวมถึงแพ็คเกจ R สองสามอัน (ซึ่งแน่นอนมีให้โดยตรงจาก CRAN) แต่ยังมีอีกหลายตัวอย่างของการวิจัยที่ทำซ้ำได้โดยเฉพาะการใช้ R ( ดูรายการ R นี้บน GitHub ) ใครคือคนดีที่จะติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล อีกทางเลือกหนึ่งพวกเขาแบ่งปันรหัสประเภทใดและทำไมจึงมีประโยชน์นี้

28 r reproducible-research

4

Pseudo R สูตรกำลังสองสำหรับ GLMs

ฉันพบสูตรสำหรับหลอกR2R2R^2ในหนังสือขยายแบบจำลองเชิงเส้นด้วย R, Julian J. Faraway (หน้า 59) 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}NullDeviance นี่เป็นสูตรทั่วไปสำหรับหลอกR2R2R^2สำหรับ GLM หรือไม่

28 r regression generalized-linear-model r-squared

3

เริ่มวิตกเกี่ยวกับอนุกรมเวลาด้วย R

หากคุณคิดย้อนกลับไปถึงเมื่อคุณเริ่มต้นด้วยการวิเคราะห์อนุกรมเวลา คุณต้องการใช้เครื่องมือแพ็คเกจ R และทรัพยากรอินเทอร์เน็ตอะไรบ้าง สิ่งที่ฉันพยายามถามคือควรเริ่มต้นที่ไหน โดยเฉพาะมีทรัพยากรใด ๆ สำหรับ R ที่ต้มลงจริง ๆ สำหรับผู้ที่ "ใหม่" การวิเคราะห์อนุกรมเวลากับ R

28 r time-series

5

คำแนะนำสำหรับการสร้างรหัส R ใช้หลายโปรเซสเซอร์หรือไม่

ฉันมีสคริปต์ R สำหรับอ่านข้อมูล csv จำนวนมากจากไฟล์ต่าง ๆ จากนั้นทำงานการเรียนรู้ของเครื่องเช่น svm สำหรับการจัดหมวดหมู่ มีห้องสมุดใดที่ใช้ประโยชน์หลายคอร์บนเซิร์ฟเวอร์สำหรับอาร์ หรือ วิธีที่เหมาะสมที่สุดในการบรรลุนั้นคืออะไร?

28 r parallel-computing multicore

5

การวัด "ระยะทาง" ระหว่างการแจกแจงหลายตัวแปรสองค่า

ฉันกำลังมองหาคำศัพท์ที่ดีเพื่ออธิบายสิ่งที่ฉันพยายามทำเพื่อให้ง่ายต่อการค้นหาแหล่งข้อมูล ดังนั้นบอกว่าฉันมีสองกลุ่มของจุด A และ B แต่ละคนที่เกี่ยวข้องกับสองค่า X และ Y และฉันต้องการวัด "ระยะทาง" ระหว่าง A และ B - นั่นคือโอกาสที่พวกเขาถูกสุ่มตัวอย่างจากการกระจายเดียวกัน (ฉันสามารถสันนิษฐานได้ว่าการแจกแจงเป็นเรื่องปกติ) ตัวอย่างเช่นถ้า X และ Y มีความสัมพันธ์ใน A แต่ไม่ใช่ใน B การแจกแจงจะแตกต่างกัน โดยสังหรณ์ใจฉันจะได้เมทริกซ์ความแปรปรวนร่วมของ A แล้วดูว่าแต่ละจุดใน B น่าจะพอดีกับที่นั่นและในทางกลับกัน (อาจใช้ Someting เหมือนระยะทาง Mahalanobis) แต่นั่นเป็นบิต "ad-hoc" และอาจมีวิธีการอธิบายที่เข้มงวดกว่านี้ (แน่นอนในทางปฏิบัติฉันมีชุดข้อมูลมากกว่าสองชุดที่มีตัวแปรมากกว่าสองตัว - ฉันพยายามระบุว่าชุดข้อมูลชุดใดของฉัน เป็นค่าผิดปกติ) ขอบคุณ!

28 multivariate-analysis terminology distance-functions