สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
การใช้งานเชิงประจักษ์ของความเป็นไปได้เชิงประจักษ์มีอะไรบ้าง
ฉันเคยได้ยินความน่าจะเป็นเชิงประจักษ์ของโอเว่น แต่จนกระทั่งเมื่อไม่นานมานี้มันก็ไม่ต้องสนใจจนกระทั่งฉันเจอมันในกระดาษดอกเบี้ย ( Mengersen et al. 2012 ) ในความพยายามของฉันที่จะเข้าใจฉันได้รวบรวมว่าโอกาสที่ข้อมูลที่สังเกตได้จะแสดงเป็น ที่และ0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 อย่างไรก็ตามฉันไม่สามารถทำให้การก้าวกระโดดทางจิตที่เชื่อมโยงการเป็นตัวแทนนี้กับวิธีที่มันสามารถใช้ในการอ้างถึงเกี่ยวกับการสังเกต บางทีฉันอาจหยั่งรากเกินไปในการคิดถึงพารามิเตอร์ความน่าจะเป็นของโมเดล ไม่ว่าฉันกำลังค้นหา Google Scholar สำหรับกระดาษบางเล่มที่ใช้โอกาสเชิงประจักษ์ที่จะช่วยฉันกำหนดแนวคิด ... เพื่อประโยชน์ เห็นได้ชัดว่ามีหนังสือของ Art Owen เกี่ยวกับความเป็นไปได้ในเชิงประจักษ์แต่ Google Books หลุดพ้นความน่าเบื่อไปหมดแล้วและฉันยังอยู่ในขั้นตอนการขอสินเชื่อระหว่างห้องสมุดที่ช้า ในขณะเดียวกันใครบางคนสามารถชี้แนะฉันไปที่เอกสารและเอกสารที่แสดงให้เห็นอย่างชัดเจนถึงความเป็นไปได้ในเชิงประจักษ์และวิธีการใช้งาน? ตัวอย่างคำอธิบายของ EL ก็ยินดีด้วยเช่นกัน!

4
การวัดความเหมือนหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมสองตัว
มีการวัดความคล้ายคลึงกันหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมแบบสมมาตรสองแบบหรือไม่ (ทั้งสองมีขนาดเท่ากัน)? ฉันกำลังคิดว่านี่ของ analogues กับ KL divergence ของการแจกแจงความน่าจะเป็นสองอันหรือระยะทางแบบยุคลิดระหว่างเวกเตอร์ยกเว้นการใช้กับเมทริกซ์ ฉันคิดว่าจะมีการวัดความคล้ายคลึงกันค่อนข้างน้อย เป็นการดีที่ฉันต้องการทดสอบสมมติฐานว่างว่าเมทริกซ์ความแปรปรวนร่วมสองตัวนั้นเหมือนกัน

7
วิธีสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องโดยอำเภอใจ?
ฉันจะสร้างตัวเลขตามการแจกแจงแบบไม่ต่อเนื่องตามอำเภอใจได้อย่างไร? ตัวอย่างเช่นฉันมีชุดตัวเลขที่ฉันต้องการสร้าง สมมติว่าพวกเขามีป้ายกำกับตั้งแต่ 1-3 ดังนี้ 1: 4%, 2: 50%, 3: 46% โดยทั่วไปร้อยละเป็นความน่าจะเป็นที่พวกเขาจะปรากฏในผลลัพธ์จากการสร้างตัวเลขสุ่ม ฉันมีตัวสร้างตัวเลขแบบสุ่มที่จะสร้างการกระจายแบบสม่ำเสมอในช่วงเวลา [0, 1] มีวิธีการทำเช่นนี้หรือไม่? ไม่มีขอบเขตเกี่ยวกับองค์ประกอบที่ฉันมีได้ แต่% จะรวมกันได้มากถึง 100%

6
มีสถิติทางสถิติที่น่าสนใจและเป็นที่เขียนบ้างบ้าง?
มีบทความอะไรบ้างที่อธิบายการใช้งานสถิติที่จะสนุกและให้ข้อมูลในการอ่าน? เพื่อความชัดเจนฉันไม่ได้มองหาเอกสารที่อธิบายวิธีการทางสถิติแบบใหม่ (เช่นบทความเกี่ยวกับการถดถอยมุมน้อย) แต่เป็นเอกสารที่อธิบายถึงวิธีการแก้ปัญหาในโลกแห่งความเป็นจริง ตัวอย่างเช่นกระดาษหนึ่งแผ่นที่เหมาะกับสิ่งที่ฉันกำลังมองหาคือกระดาษสภาพภูมิอากาศจากชมรมวารสารที่ผ่านการตรวจสอบข้ามฉบับที่สอง ฉันกำลังมองหาเอกสารสถิติ - ish เพิ่มเติมมากกว่าเอกสารการเรียนรู้ด้วยเครื่อง แต่ฉันคิดว่ามันเป็นความแตกต่างที่คลุมเครือ (ฉันจะจัดประเภทเอกสาร Netflix Prize เป็นแนวเขตบิตและกระดาษในการวิเคราะห์ความเชื่อมั่นเป็นบางสิ่ง ฉันไม่ได้มองหา) ฉันถามเพราะแอปพลิเคชันสถิติส่วนใหญ่ที่ฉันเห็นเป็นตัวอย่างเล็ก ๆ น้อย ๆ ที่คุณเห็นในตำราเรียนหรือสิ่งต่าง ๆ ที่เกี่ยวข้องกับงานของฉันเองดังนั้นฉันจึงต้องการแยกสาขาออกเล็กน้อย

5
อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?
ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น: m <- lm(weight ~ Time*Diet, data=ChickWeight) คำถามของฉัน: รูปแบบใดที่จะเป็นที่น่าสงสัย? ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่? การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

5
การเลือกรุ่นที่ดีที่สุดจากโมเดล“ ดีที่สุด” ที่แตกต่างกัน
คุณจะเลือกรุ่นจากรุ่นที่แตกต่างกันซึ่งเลือกโดยวิธีการที่แตกต่างกัน (เช่นการเลือกถอยหลังหรือการส่งต่อ) นอกจากนี้แบบจำลองทางการเงินคืออะไร?

3
การคำนวณค่า p โดยใช้ bootstrap ด้วย R
ฉันใช้แพคเกจ "boot" เพื่อคำนวณค่าp-value bootstrapped แบบสองด้านโดยประมาณแต่ผลลัพธ์นั้นอยู่ห่างจาก p-value ของการใช้ t.test มากเกินไป ฉันไม่สามารถหาสิ่งที่ฉันทำผิดในรหัส R ของฉัน ใครช่วยได้โปรดให้คำแนะนำสำหรับเรื่องนี้กับฉัน time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = …


3
มีฟังก์ชั่นเริ่มต้นสำหรับการกระจายแบบไม่ต่อเนื่องใน R หรือไม่?
การแจกแจงมาตรฐานส่วนใหญ่ใน R มีตระกูลคำสั่ง - pdf / pmf, cdf / cmf, quantile, deviates แบบสุ่ม (ตัวอย่างเช่น dnorm, pnorm, qnorm, rnorm) ฉันรู้ว่ามันง่ายพอที่จะใช้ประโยชน์จากคำสั่งมาตรฐานในการทำซ้ำฟังก์ชั่นเหล่านี้สำหรับการแจกแจงแบบไม่ต่อเนื่องกัน แต่มีฟังก์ชั่นตระกูลในตัวที่ต้องการสำหรับการสร้างแบบจำลองการกระจายชุดแบบไม่ต่อเนื่องใน R

3
ใครควรติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล
มันจะเป็นประโยชน์ในการศึกษารหัสการวิเคราะห์ข้อมูลของผู้เชี่ยวชาญ เมื่อไม่นานมานี้ฉันได้อ่านgithubและมีผู้คนจำนวนหนึ่งเปิดเผยรหัสการวิเคราะห์ข้อมูลที่นั่น ซึ่งรวมถึงแพ็คเกจ R สองสามอัน (ซึ่งแน่นอนมีให้โดยตรงจาก CRAN) แต่ยังมีอีกหลายตัวอย่างของการวิจัยที่ทำซ้ำได้โดยเฉพาะการใช้ R ( ดูรายการ R นี้บน GitHub ) ใครคือคนดีที่จะติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล อีกทางเลือกหนึ่งพวกเขาแบ่งปันรหัสประเภทใดและทำไมจึงมีประโยชน์นี้

4
Pseudo R สูตรกำลังสองสำหรับ GLMs
ฉันพบสูตรสำหรับหลอกR2R2R^2ในหนังสือขยายแบบจำลองเชิงเส้นด้วย R, Julian J. Faraway (หน้า 59) 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}NullDeviance นี่เป็นสูตรทั่วไปสำหรับหลอกR2R2R^2สำหรับ GLM หรือไม่

3
เริ่มวิตกเกี่ยวกับอนุกรมเวลาด้วย R
หากคุณคิดย้อนกลับไปถึงเมื่อคุณเริ่มต้นด้วยการวิเคราะห์อนุกรมเวลา คุณต้องการใช้เครื่องมือแพ็คเกจ R และทรัพยากรอินเทอร์เน็ตอะไรบ้าง สิ่งที่ฉันพยายามถามคือควรเริ่มต้นที่ไหน โดยเฉพาะมีทรัพยากรใด ๆ สำหรับ R ที่ต้มลงจริง ๆ สำหรับผู้ที่ "ใหม่" การวิเคราะห์อนุกรมเวลากับ R
28 r  time-series 

5
คำแนะนำสำหรับการสร้างรหัส R ใช้หลายโปรเซสเซอร์หรือไม่
ฉันมีสคริปต์ R สำหรับอ่านข้อมูล csv จำนวนมากจากไฟล์ต่าง ๆ จากนั้นทำงานการเรียนรู้ของเครื่องเช่น svm สำหรับการจัดหมวดหมู่ มีห้องสมุดใดที่ใช้ประโยชน์หลายคอร์บนเซิร์ฟเวอร์สำหรับอาร์ หรือ วิธีที่เหมาะสมที่สุดในการบรรลุนั้นคืออะไร?

5
การวัด "ระยะทาง" ระหว่างการแจกแจงหลายตัวแปรสองค่า
ฉันกำลังมองหาคำศัพท์ที่ดีเพื่ออธิบายสิ่งที่ฉันพยายามทำเพื่อให้ง่ายต่อการค้นหาแหล่งข้อมูล ดังนั้นบอกว่าฉันมีสองกลุ่มของจุด A และ B แต่ละคนที่เกี่ยวข้องกับสองค่า X และ Y และฉันต้องการวัด "ระยะทาง" ระหว่าง A และ B - นั่นคือโอกาสที่พวกเขาถูกสุ่มตัวอย่างจากการกระจายเดียวกัน (ฉันสามารถสันนิษฐานได้ว่าการแจกแจงเป็นเรื่องปกติ) ตัวอย่างเช่นถ้า X และ Y มีความสัมพันธ์ใน A แต่ไม่ใช่ใน B การแจกแจงจะแตกต่างกัน โดยสังหรณ์ใจฉันจะได้เมทริกซ์ความแปรปรวนร่วมของ A แล้วดูว่าแต่ละจุดใน B น่าจะพอดีกับที่นั่นและในทางกลับกัน (อาจใช้ Someting เหมือนระยะทาง Mahalanobis) แต่นั่นเป็นบิต "ad-hoc" และอาจมีวิธีการอธิบายที่เข้มงวดกว่านี้ (แน่นอนในทางปฏิบัติฉันมีชุดข้อมูลมากกว่าสองชุดที่มีตัวแปรมากกว่าสองตัว - ฉันพยายามระบุว่าชุดข้อมูลชุดใดของฉัน เป็นค่าผิดปกติ) ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.