สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

14
ซอฟต์แวร์สำหรับการสำรวจข้อมูลที่เรียบง่าย แต่มีประสิทธิภาพ
ในความพยายามของฉันในการต่อสู้กับการทำร้ายร่างกายของสเปรดชีตฉันมักจะประกาศข่าวประเสริฐในการผลักดันเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นซอฟต์แวร์สถิติจริง (R, Stata และอื่น ๆ ) เมื่อเร็ว ๆ นี้ฉันถูกท้าทายในมุมมองนี้โดยคนที่ระบุว่าพวกเขาจะไม่เรียนรู้ที่จะทำรายการ ฉันต้องการมอบเครื่องมือวิเคราะห์ข้อมูลที่ไม่จำเป็นต้องมีการเขียนโปรแกรม (แต่เป็นการดีที่จะขยายการเขียนโปรแกรมหากพวกเขาตัดสินใจที่จะจุ่มนิ้วเท้าลงไปในน้ำในภายหลัง) มีแพ็คเกจอะไรบ้างสำหรับการสำรวจข้อมูลที่ฉันสามารถแนะนำได้อย่างตรงไปตรงมา?

6
เป็นทรัพยากรที่ดีที่จะเข้าใจ ANOVA และ ANCOVA หรือไม่
ฉันกำลังทำการทดลองสำหรับกระดาษและฉันกำลังมองหาหนังสือ / เว็บไซต์ที่น่าสนใจเพื่อทำความเข้าใจอย่างถูกต้องว่า ANOVA และ ANCOVA ทำงานอย่างไร ฉันมีพื้นฐานทางคณิตศาสตร์ที่ดีดังนั้นฉันไม่จำเป็นต้องมีคำอธิบายที่หยาบคาย ฉันต้องการทราบวิธีพิจารณาว่าจะใช้ ANOVA แทน ANCOVA เมื่อใด

2
การปรับ covariates ในการวิเคราะห์เส้นโค้ง ROC
คำถามนี้เกี่ยวกับการประเมินคะแนนแบบตัดในแบบสอบถามแบบคัดกรองหลายมิติเพื่อทำนายจุดสิ้นสุดแบบไบนารี่ ฉันถูกถามเกี่ยวกับความสนใจในการควบคุมคะแนนย่อยที่เกี่ยวข้องเมื่อคิดคะแนนการตัดในแต่ละมิติของมาตราส่วนการวัด (ลักษณะบุคลิกภาพ) ซึ่งอาจใช้ในการคัดกรองโรคพิษสุราเรื้อรัง นั่นคือในกรณีนี้บุคคลไม่สนใจที่จะปรับค่า covariates ภายนอก (ตัวทำนาย) - ซึ่งนำไปสู่พื้นที่ (บางส่วน) ภายใต้เส้นโค้ง ROC ที่ปรับค่า covariate เช่น (1-2) - แต่เป็นคะแนนอื่น ๆ จากแบบสอบถามเดียวกันเพราะมีความสัมพันธ์ซึ่งกันและกัน (เช่น "ความกระตุ้น" กับ "การแสวงหาความรู้สึก") มันเป็นจำนวนที่จะสร้าง GLM ซึ่งรวมถึงคะแนนความสนใจทางด้านซ้าย (ซึ่งเราต้องการให้ถูกตัดออก) และอีกคะแนนที่คำนวณจากแบบสอบถามเดียวกันในขณะที่ด้านขวาผลลัพธ์อาจเป็นสถานะการดื่ม หากต้องการชี้แจง (ตามคำขอ @robin) สมมติว่าเรามีคะแนนพูดว่า (เช่นความวิตกกังวลความกระวนกระวายการเป็นโรคประสาทการค้นหาความรู้สึก) และเราต้องการหาค่าที่ตัดออก (เช่น "กรณีบวก" หาก "กรณีลบ" มิฉะนั้น) สำหรับแต่ละรายการ เรามักจะปรับตัวสำหรับปัจจัยเสี่ยงอื่น ๆ เช่นเพศหรืออายุเมื่อคิดการตัด (ใช้การวิเคราะห์เส้นโค้ง ROC) ตอนนี้สิ่งที่เกี่ยวกับการปรับแรงกระตุ้น (IMP) เกี่ยวกับเพศอายุและการแสวงหาความรู้สึก …
20 epidemiology  roc 

2
สมมติฐาน NULL สำหรับการโต้ตอบในการวิเคราะห์ความแปรปรวนสองทางคืออะไร?
สมมติว่าเรามีสองปัจจัย (A และ B) แต่ละคนมีสองระดับ (A1, A2 และ B1, B2) และตัวแปรตอบสนอง (y) เมื่อทำการ ANOVA สองทางของประเภท: y~A+B+A*B เรากำลังทดสอบสมมติฐานว่างสามประการ: ไม่มีความแตกต่างในวิธีการของปัจจัย A ปัจจัยในระดับ B ไม่มีความแตกต่างกัน ไม่มีการโต้ตอบระหว่างปัจจัย A และ B เมื่อเขียนลงไปข้อสมมติฐานสองข้อแรกนั้นง่ายต่อการกำหนด (สำหรับ 1 มันคือH0:μA1=μA2H0:μA1=μA2H_0:\; \mu_{A1}=\mu_{A2} ) แต่ควรกำหนดสมมติฐาน 3 อย่างไร? แก้ไข : และจะกำหนดสูตรอย่างไรสำหรับกรณีที่มีมากกว่าสองระดับ ขอบคุณ

3
วิธีการรวมช่วงความมั่นใจสำหรับองค์ประกอบความแปรปรวนของแบบผสมผลกระทบเมื่อใช้การใส่หลายครั้ง
ตรรกะของการใส่หลายครั้ง (MI) คือการกำหนดค่าที่หายไปไม่ใช่ครั้งเดียว แต่หลายครั้ง (โดยทั่วไปคือ M = 5) ส่งผลให้ชุดข้อมูล M สมบูรณ์ ชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M จะถูกวิเคราะห์ด้วยวิธีการข้อมูลที่สมบูรณ์ซึ่งการประเมิน M และข้อผิดพลาดมาตรฐานถูกรวมเข้าด้วยกันโดยใช้สูตรรูบินเพื่อรับการประเมินโดยรวมและข้อผิดพลาดมาตรฐาน เยี่ยมมาก แต่ฉันไม่แน่ใจว่าจะใช้สูตรนี้อย่างไรเมื่อส่วนประกอบต่าง ๆ ของแบบผสมเอฟเฟกต์เกี่ยวข้องกัน การกระจายตัวตัวอย่างขององค์ประกอบความแปรปรวนเป็นแบบอสมมาตรดังนั้นจึงไม่สามารถกำหนดช่วงความเชื่อมั่นที่สอดคล้องกันในรูปแบบ "การประมาณ± 1.96 * se (ประมาณ)" โดยทั่วไป ด้วยเหตุนี้แพ็คเกจ R lme4 และ nlme จึงไม่ได้จัดเตรียมข้อผิดพลาดมาตรฐานของส่วนประกอบความแปรปรวน แต่ให้ช่วงความมั่นใจเท่านั้น ดังนั้นเราสามารถดำเนินการ MI บนชุดข้อมูลจากนั้นรับช่วงความเชื่อมั่น M ต่อองค์ประกอบความแปรปรวนหลังจากปรับโมเดลเอฟเฟกต์แบบเดียวกันบนชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M คำถามคือทำอย่างไรจึงจะรวมช่วง M เหล่านี้เข้ากับช่วงความมั่นใจโดยรวม ฉันเดาว่าน่าจะเป็นไปได้ - ผู้เขียนบทความ (yucel & demirtas (2010) …

4
อัลกอริทึม Metropolis-Hastings ที่ใช้ในการปฏิบัติ
ฉันกำลังอ่านบล็อกของ Christian Robertวันนี้และค่อนข้างชอบอัลกอริทึม Metropolis-Hastings ใหม่ที่เขาพูดถึง ดูเหมือนง่ายและใช้งานง่าย เมื่อใดก็ตามที่ฉันเขียนโค้ด MCMC ฉันมักจะติดกับอัลกอริธึม MH ขั้นพื้นฐานมาก ๆ เช่นการเคลื่อนไหวอิสระหรือการเดินสุ่มในระดับบันทึก อัลกอริธึม MH แบบใดที่ผู้คนใช้เป็นประจำ โดยเฉพาะอย่างยิ่ง: ทำไมคุณใช้พวกเขา ในบางแง่คุณต้องคิดว่ามันเหมาะสมที่สุด - หลังจากที่คุณใช้มันเป็นประจำ! ดังนั้นคุณจะตัดสินความดีอย่างไร: ความง่ายในการเข้ารหัส, การลู่เข้า, ... ฉันสนใจเป็นพิเศษในสิ่งที่ใช้ในทางปฏิบัติเช่นเมื่อคุณเขียนรหัสแผนการของคุณเอง

3
ใช้“ เคล็ดลับเคอร์เนล” กับวิธีการเชิงเส้น?
เคล็ดลับเคอร์เนลจะใช้ในโมเดลการเรียนรู้หลายเครื่อง (เช่นSVM ) มันถูกนำมาใช้ครั้งแรกในกระดาษ "รากฐานทางทฤษฎีของวิธีการทำงานที่มีศักยภาพในการเรียนรู้การจดจำรูปแบบ" กระดาษในปี 1964 คำนิยามของวิกิพีเดียบอกว่ามันเป็น วิธีการใช้อัลกอริธึมลักษณนามลักษณนามเชิงเส้นเพื่อแก้ปัญหาที่ไม่ใช่เชิงเส้นโดยการทำแผนที่การสังเกตที่ไม่ใช่เชิงเส้นดั้งเดิมลงในพื้นที่มิติที่สูงขึ้นซึ่งจะใช้ตัวจําแนกเชิงเส้นในภายหลัง สิ่งนี้ทำให้การจำแนกเชิงเส้นในพื้นที่ใหม่เทียบเท่ากับการจัดหมวดหมู่ที่ไม่ใช่เชิงเส้นในพื้นที่เดิม ตัวอย่างหนึ่งของโมเดลเชิงเส้นตรงที่ได้รับการขยายไปสู่ปัญหาที่ไม่ใช่เชิงเส้นเป็นPCA เคอร์เนล เคล็ดลับเคอร์เนลสามารถนำไปใช้กับโมเดลเชิงเส้นใด ๆ หรือมีข้อ จำกัด บางอย่าง

2
ป่าสุ่มสร้างป่าสุ่มอย่างไร
ฉันไม่ใช่ผู้เชี่ยวชาญของป่าสุ่ม แต่ฉันเข้าใจชัดเจนว่าปัญหาสำคัญของป่าสุ่มคือการสร้างต้นไม้ (สุ่ม) คุณช่วยอธิบายฉันได้อย่างไรว่าต้นไม้สร้างขึ้นได้อย่างไร? (เช่นการกระจายที่ใช้สำหรับการสร้างต้นไม้คืออะไร) ขอบคุณล่วงหน้า !

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

6
นักอุตุนิยมวิทยาของฉันถูกต้องหรือไม่?
คำถามที่รบกวนฉันในบางครั้งซึ่งฉันไม่รู้วิธีการแก้ไข: ทุกวันนักอุตุนิยมวิทยาของฉันให้โอกาสเปอร์เซ็นต์ฝนตก (สมมติว่าคำนวณเป็นตัวเลข 9000 และเขาไม่เคยซ้ำตัวเลข) ทุกวันต่อมาฝนหรือฝนไม่ตก ฉันมีข้อมูลหลายปี - โอกาสที่จะเกิดฝนหรือไม่ จากประวัติศาสตร์ของนักอุตุนิยมวิทยานี้ถ้าเขาบอกว่าคืนนี้โอกาสในวันพรุ่งนี้ของฝนคือ X แล้วสิ่งที่ฉันคาดเดาได้ดีที่สุดว่าโอกาสฝนตกจริงๆคืออะไร?

5
เมื่อใดที่คุณสามารถใช้เกณฑ์ตามข้อมูลเพื่อระบุรูปแบบการถดถอย
ฉันได้ยินมาว่าเมื่อข้อกำหนดตัวแบบการถดถอยจำนวนมาก (พูดใน OLS) ได้รับการพิจารณาว่าเป็นไปได้สำหรับชุดข้อมูลสิ่งนี้ทำให้เกิดปัญหาการเปรียบเทียบหลายอย่างและค่า p และค่าช่วงความเชื่อมั่นไม่น่าเชื่อถืออีกต่อไป ตัวอย่างที่สำคัญอย่างหนึ่งคือการถดถอยแบบขั้นตอน ฉันจะใช้ข้อมูลตัวเองเพื่อช่วยระบุรูปแบบได้เมื่อใดและนี่เป็นวิธีการที่ไม่ถูกต้องหรือไม่ คุณจำเป็นต้องมีทฤษฎีตามหัวข้อเพื่อสร้างแบบจำลองหรือไม่?

5
โพสต์ -hocs สำหรับการทดสอบภายในวิชา?
วิธีการที่ต้องการสำหรับการทำ post-hocs สำหรับการทดสอบในวิชาคืออะไร? ฉันเคยเห็นงานตีพิมพ์ที่มีการใช้ HSD ของ Tukey แต่การตรวจสอบ Keppel และ Maxwell & Delaney ชี้ให้เห็นว่าการละเมิดความกลมกลืนในการออกแบบเหล่านี้ทำให้คำผิดพลาดไม่ถูกต้องและวิธีนี้เป็นปัญหา Maxwell & Delaney ให้แนวทางในการแก้ไขปัญหาในหนังสือของพวกเขา แต่ฉันไม่เคยเห็นมันทำอย่างนั้นในแพคเกจสถิติใด ๆ พวกเขาเสนอวิธีการที่เหมาะสมหรือไม่ การแก้ไข Bonferroni หรือ Sidak ของการทดสอบตัวอย่างแบบหลายคู่จะสมเหตุสมผลหรือไม่ คำตอบที่ยอมรับได้จะให้รหัส R ทั่วไปที่สามารถดำเนินการโพสต์ hocs ในการออกแบบที่เรียบง่ายหลายทางและผสมที่ผลิตโดยezANOVAฟังก์ชั่นในezแพคเกจและการอ้างอิงที่เหมาะสมที่มีแนวโน้มที่จะผ่านการชุมนุมกับผู้ตรวจสอบ

4
ขอบเขตล่างที่แน่นหนาของเวลาตัวรวบรวมคูปองคืออะไร
ในคลาสสิกคูปองปัญหาสะสมเป็นที่รู้จักกันดีว่าเวลาที่ที่จำเป็นเพื่อให้ชุดของคูปองสุ่มหยิบตอบสนอง ,และC}TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T&gt;nlnn+cn)&lt;e−cPr(T&gt;nln⁡n+cn)&lt;e−c\Pr(T > n \ln n + cn) < e^{-c} นี้ถูกผูกไว้บนเป็นดีกว่าที่กำหนดโดยความไม่เท่าเทียมกันเซฟซึ่งจะเป็นประมาณ 1/c21/c21/c^2 2 คำถามของฉันคือ: มีขอบเขตต่ำกว่าที่ดีกว่า -Chebyshev ที่สอดคล้องกันสำหรับTTT ? (เช่นมีอะไรบางอย่างเช่นPr(T&lt;nlnn−cn)&lt;e−cPr(T&lt;nln⁡n−cn)&lt;e−c\Pr(T < n \ln n - cn) < e^{-c} )?

4
โมเดลนั้นพอดีกับข้อมูลหรือเป็นข้อมูลที่ติดตั้งกับโมเดลหรือไม่?
มีความแตกต่างทางแนวคิดหรือขั้นตอนระหว่างการปรับโมเดลให้เป็นข้อมูลและการปรับข้อมูลให้พอดีกับโมเดลหรือไม่? ตัวอย่างของถ้อยคำแรกสามารถดูได้ในhttps://courses.washington.edu/matlab1/ModelFitting.htmlและที่สองในhttps://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

2
Bayesian กำลังคิดเรื่องกำลังพลเกินกำลัง
ฉันทุ่มเทเวลาอย่างมากในการพัฒนาวิธีการและซอฟต์แวร์สำหรับตรวจสอบแบบจำลองการทำนายในโดเมนสถิติที่ใช้บ่อย ในการนำแนวคิดแบบเบย์มาใช้ในการฝึกฝนและการสอนฉันเห็นความแตกต่างที่สำคัญในการโอบกอด ขั้นแรกการสร้างแบบจำลองการทำนายแบบเบย์ขอให้นักวิเคราะห์คิดอย่างหนักเกี่ยวกับการแจกแจงก่อนหน้าซึ่งอาจปรับให้เข้ากับคุณสมบัติของผู้สมัครและนักบวชเหล่านี้จะดึงแบบจำลองไปทางพวกเขา (กล่าวคือบรรลุการหด / ลงโทษ ) ประการที่สองวิธีเบย์ "ของจริง" ไม่ได้ส่งผลให้มีรูปแบบเดียว แต่ก็มีการกระจายหลังทั้งหมดสำหรับการทำนาย เมื่อคำนึงถึงคุณสมบัติของเบย์เซียนแล้วความหมายของการ overfitting หมายความว่าอะไร? เราควรประเมินมันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร เราจะรู้ได้อย่างไรว่าแบบจำลองแบบเบย์มีความน่าเชื่อถือสำหรับการใช้งานภาคสนาม? หรือว่าเป็นจุดที่สงสัยตั้งแต่ผู้โพสต์จะดำเนินการตามความไม่แน่นอนให้เตือนทั้งหมดเมื่อเราใช้แบบจำลองที่เราพัฒนาขึ้นสำหรับการทำนาย? ความคิดจะเปลี่ยนไปอย่างไรถ้าเราบังคับให้แบบจำลอง Bayesian กลั่นเป็นตัวเลขเดียวเช่นความเสี่ยงด้านหลัง / โหมด / ค่ามัธยฐานด้านหลัง? ผมเห็นความคิดที่เกี่ยวข้องบางอย่างที่นี่ การอภิปรายขนานอาจจะพบได้ที่นี่ คำถามติดตามผล :: ถ้าเราเป็นคนเบย์อย่างเต็มที่และใช้เวลาคิดเกี่ยวกับนักบวชก่อนที่จะเห็นข้อมูลและเราพอดีกับแบบจำลองที่มีการระบุความน่าจะเป็นของข้อมูลอย่างเหมาะสมเราถูกบังคับให้พอใจกับแบบจำลองของเรา ? หรือเราจำเป็นต้องทำในสิ่งที่เราทำในโลกที่มีผู้ถูกเลือกแบบสุ่มอาจถูกคาดการณ์ได้ดีโดยเฉลี่ย แต่ถ้าเราเลือกวิชาที่มีการทำนายต่ำมากหรือมีค่าที่คาดการณ์ไว้สูงมากจะมีการถดถอย หมายถึงอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.