คำถามติดแท็ก computing

สำหรับคำถามในหัวข้อที่เกี่ยวข้องกับการคำนวณทางสถิติ โปรดใส่แท็กวิธีการทางสถิติด้วย

21
จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?
ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

4
วิธีตัวอย่างจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนที่ทราบโดยใช้ภาษาโปรแกรมทั่วไป
ฉันไม่เคยเรียนวิชาสถิติมาก่อนดังนั้นฉันหวังว่าฉันจะถามถูกที่แล้ว สมมติว่าฉันมีเพียงสองอธิบายข้อมูลการกระจายปกติ: ค่าเฉลี่ยและความแปรปรวน 2 ฉันต้องการใช้คอมพิวเตอร์เพื่อสุ่มตัวอย่างจากการแจกแจงนี้ซึ่งฉันเคารพสถิติทั้งสองนี้σ 2μμ\muσ2σ2\sigma^2 เห็นได้ชัดว่าฉันสามารถจัดการค่าเฉลี่ยด้วยการทำ normalizing ประมาณ 0: เพียงเพิ่มให้กับแต่ละตัวอย่างก่อนส่งออกตัวอย่าง แต่ผมไม่เห็นว่าโปรแกรมสร้างตัวอย่างที่จะเคารพ 2σ 2μμ\muσ2σ2\sigma^2 โปรแกรมของฉันจะเป็นภาษาโปรแกรมทั่วไป ฉันไม่สามารถเข้าถึงแพ็คเกจสถิติใด ๆ ได้

12
เครื่องมือบรรทัดคำสั่งเพื่อคำนวณสถิติพื้นฐานสำหรับกระแสค่า [ปิด]
มีเครื่องมือบรรทัดคำสั่งใดบ้างที่ยอมรับการไหลของตัวเลข (ในรูปแบบ ascii) จากอินพุตมาตรฐานและให้สถิติเชิงพรรณนาพื้นฐานสำหรับโฟลว์นี้เช่น min, max, average, median, RMS, quantiles และอื่น ๆ ? เอาต์พุตยินดีที่จะแยกวิเคราะห์โดยคำสั่งถัดไปในห่วงโซ่บรรทัดคำสั่ง สภาพแวดล้อมการทำงานคือ Linux แต่มีตัวเลือกอื่น ๆ ยินดีต้อนรับ

4
ไลบรารี C ++ สำหรับการคำนวณเชิงสถิติ
ฉันมีอัลกอริทึม MCMC เฉพาะซึ่งฉันต้องการพอร์ตไปยัง C / C ++ การคำนวณราคาแพงส่วนใหญ่อยู่ใน C ผ่านทาง Cython แล้ว แต่ฉันต้องการให้มีตัวอย่างทั้งหมดเขียนด้วยภาษาที่รวบรวมเพื่อที่ฉันจะได้เขียน wrappers สำหรับ Python / R / Matlab / อะไรก็ได้ หลังจากแหย่ไปมาฉันก็เอนไปทาง C ++ ห้องสมุดที่เกี่ยวข้องสองแห่งที่ฉันรู้จักคือ Armadillo (http://arma.sourceforge.net/) และ Scythe (http://scythe.wustl.edu/) ทั้งคู่พยายามเลียนแบบบางแง่มุมของ R / Matlab เพื่อทำให้เส้นโค้งการเรียนรู้ง่ายขึ้นซึ่งฉันชอบมาก Scythe กำลังดีขึ้นเล็กน้อยกับสิ่งที่ฉันอยากทำ โดยเฉพาะอย่างยิ่ง RNG ของมันรวมถึงการกระจายจำนวนมากที่อาร์มาดิลโล่มีเพียงชุดเครื่องแบบ / ปกติซึ่งไม่สะดวก อาร์มาดิลโล่ดูเหมือนว่าจะอยู่ภายใต้การพัฒนาที่ค่อนข้างคึกคักในขณะที่ Scythe ได้เปิดตัวครั้งสุดท้ายในปี 2550 ดังนั้นสิ่งที่ฉันสงสัยคือถ้าใครมีประสบการณ์กับห้องสมุดเหล่านี้ - หรือคนอื่น …
23 mcmc  software  c++  computing 

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
Julia: เก็บสต็อคของวิธีการทำ
โพสต์นี้เกี่ยวข้องกับเหตุการณ์ที่เปลี่ยนแปลงอย่างรวดเร็ว ฉันเจอคำถามปี 2012 ที่มีการอภิปรายที่ดีมากเกี่ยวกับ Julia เป็นทางเลือกแทน R / Python สำหรับงานสถิติประเภทต่างๆ ต่อไปนี้เป็นคำถามเริ่มต้นจากปี 2012 เกี่ยวกับคำสัญญาของจูเลีย น่าเสียดายที่ Julia เป็นคนใหม่มากในตอนนั้น & ชุดเครื่องมือที่จำเป็นสำหรับงานสถิตินั้นค่อนข้างเก่าแก่ ข้อบกพร่องถูกรีดออก การกระจายติดตั้งยาก เป็นต้น บางคนมีความคิดเห็นที่ฉลาดมากสำหรับคำถามนั้น: สิ่งนี้กล่าวว่าจะใช้เวลา 5 ปีก่อนที่คำถามนี้อาจตอบได้ในแบบย้อนหลัง ณ ตอนนี้ Julia ยังขาดประเด็นสำคัญต่อไปนี้ของระบบการเขียนโปรแกรมเชิงสถิติที่สามารถแข่งขันกับ R สำหรับผู้ใช้ประจำวัน: นั่นคือในปี 2012 ตอนนี้มันผ่านไปแล้ว 2015 และสามปีที่ผ่านมาฉันสงสัยว่าคนที่คิดว่าจูเลียทำอะไร? มีร่างกายที่มีประสบการณ์มากขึ้นเกี่ยวกับภาษาและระบบนิเวศของ Julia โดยรวมหรือไม่? ฉันชอบที่จะรู้ โดยเฉพาะ: คุณจะแนะนำผู้ใช้ใหม่ของเครื่องมือทางสถิติเพื่อเรียนรู้ Julia มากกว่า R หรือไม่? สถิติการใช้งานประเภทใดที่คุณจะแนะนำให้ใครบางคนใช้ Julia ใน หาก …
19 r  python  computing  julia 

4
ใครใช้ R กับแพ็คเกจ multicore, SNOW หรือ CUDA สำหรับการคำนวณที่เข้มข้นของทรัพยากร
ใครของคุณในฟอรัมนี้ใช้ "> R กับmulticore , snow packages หรือCUDAดังนั้นสำหรับการคำนวณขั้นสูงที่ต้องใช้พลังงานมากกว่า CPU แบบเวิร์กสเตชัน? คุณใช้คอมพิวเตอร์เครื่องไหนในการคำนวณสคริปต์เหล่านี้ที่บ้าน / ที่ทำงานหรือคุณมี เข้าถึงศูนย์ข้อมูลได้ที่ไหน? พื้นหลังของคำถามเหล่านี้มีดังต่อไปนี้: ฉันกำลังเขียน วท.ม. วิทยานิพนธ์เกี่ยวกับ R และการคำนวณที่มีประสิทธิภาพสูงและต้องการความรู้อย่างมากเกี่ยวกับผู้ที่ใช้อาร์จริงฉันอ่านว่า R มีผู้ใช้ 1 ล้านคนในปี 2008 แต่นั่นเป็นสถิติผู้ใช้เพียงอย่างเดียวที่ฉันสามารถหาได้ในหัวข้อนี้ คำตอบ! ขอแสดงความนับถือเฮ็น

6
ความเร็วในการคำนวณใน R?
ฉันได้รับมอบหมายให้ย้ายหนึ่งในโมเดล stochastic ที่มีขนาดใหญ่ในปัจจุบันของเราออกจาก SAS และเป็นภาษาใหม่ โดยส่วนตัวแล้วฉันชอบภาษาที่รวบรวมแบบดั้งเดิม แต่ PI ต้องการให้ฉันตรวจสอบ R ซึ่งฉันไม่เคยใช้ แรงจูงใจของเราในการนำโมเดลออกมาจาก SAS คือ (1) หลายคนไม่สามารถเข้าถึงได้เพราะ SAS มีราคาแพง (2) เรากำลังมองหาที่จะย้ายออกจากภาษาที่ตีความและ (3) SAS ช้าสำหรับ ประเภทของแบบจำลองที่เรามี สำหรับ (1) เห็นได้ชัดว่า R ตอบสนองความต้องการที่จะให้เป็นอิสระ สำหรับ (2) เราควรจะสร้างไฟล์ที่เรียกทำงานได้ แต่โดยปกติแล้ว R จะใช้เป็นภาษาสคริปต์ ฉันเห็นว่ามีคนเพิ่งคอมไพเลอร์ R - ได้รับการตอบรับดีไหม? ใช้ง่ายไหม เราไม่ต้องการบังคับให้ผู้ใช้ดาวน์โหลด R เอง สำหรับ (3) ปัญหาของเรากับ SAS คือเวลาทั้งหมดในการเขียนและอ่านชุดข้อมูล I / …
16 r  computing 

9
หนังสือเล่มใดที่ให้ภาพรวมของสถิติการคำนวณตามที่ใช้กับวิทยาศาสตร์คอมพิวเตอร์
ในฐานะวิศวกรซอฟต์แวร์ฉันสนใจในหัวข้อต่าง ๆ เช่นอัลกอริธึมเชิงสถิติการขุดข้อมูลการเรียนรู้เครื่องเครือข่ายแบบเบย์อัลกอริธึมการจำแนกเครือข่ายนิวรัลเครือข่ายมาร์คอฟวิธีการของมอนติคาร์โลและการสร้างตัวเลขสุ่ม โดยส่วนตัวฉันไม่ได้มีความสุขที่ได้ทำงานด้วยเทคนิคเหล่านี้ แต่ฉันต้องทำงานกับซอฟต์แวร์ที่อยู่ภายใต้ประทุนใช้พวกเขาและต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับพวกเขาในระดับสูง ฉันกำลังมองหาหนังสือที่ครอบคลุมความกว้างมาก - ไม่จำเป็นต้องเจาะลึก ฉันคิดว่าฉันสามารถเรียนรู้มากมายเกี่ยวกับการพัฒนาซอฟต์แวร์หากฉันสามารถเข้าใจรากฐานทางคณิตศาสตร์ที่อยู่เบื้องหลังอัลกอริทึมและเทคนิคที่ใช้ ชุมชนการวิเคราะห์เชิงสถิติสามารถแนะนำหนังสือที่ฉันสามารถใช้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการใช้องค์ประกอบทางสถิติต่าง ๆ ในซอฟต์แวร์ได้หรือไม่

1
ออนไลน์วิธีการทางสถิติที่ปรับขนาดได้
นี่คือแรงบันดาลใจจากการถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพซึ่งฉันพบว่าน่าสนใจมาก มีข้อความหรือแหล่งข้อมูลใดบ้างที่อุทิศให้กับการคำนวณทางสถิติขนาดใหญ่โดยการคำนวณด้วยชุดข้อมูลที่ใหญ่เกินไปที่จะพอดีกับหน่วยความจำหลัก ตัวอย่างเช่นเป็นไปได้หรือไม่ที่จะใส่โมเดลเอฟเฟกต์แบบผสมเข้ากับแฟชั่นออนไลน์ มีใครบ้างไหมที่มองหาผลกระทบของการแทนที่เทคนิคการเพิ่มประสิทธิภาพลำดับที่ 2 มาตรฐานสำหรับ MLE ด้วยลำดับที่ 1 เทคนิคประเภท SGD

4
การทดสอบซอฟต์แวร์ทางสถิติ
เทคนิค / แนวทางใดที่มีประโยชน์ในการทดสอบซอฟต์แวร์เชิงสถิติ ฉันสนใจโปรแกรมที่ใช้การประมาณค่าพารามิเตอร์โดยใช้โอกาสสูงสุด การเปรียบเทียบผลลัพธ์จากโปรแกรมอื่นหรือแหล่งข้อมูลที่เผยแพร่นั้นไม่สามารถทำได้ตลอดเวลาเพราะส่วนใหญ่เวลาที่ฉันเขียนโปรแกรมของตัวเองเป็นเพราะการคำนวณที่ฉันต้องการไม่ได้นำมาใช้ในระบบที่มีอยู่แล้ว ฉันไม่ได้ยืนยันในวิธีการที่สามารถรับประกันความถูกต้องได้ ฉันยินดีที่จะใช้เทคนิคที่สามารถตรวจจับข้อผิดพลาดบางส่วนได้

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.