คำถามติดแท็ก software

ตรวจสอบให้แน่ใจว่าคำถามของคุณเกี่ยวข้องกับสถิติการเรียนรู้ของเครื่องหรือการวิเคราะห์ข้อมูลและไม่เพียง แต่เกี่ยวกับการเขียนโปรแกรมการสนับสนุนหรือข้อบกพร่องเท่านั้น รวมแท็กเพิ่มเติมที่อ้างอิงถึงปัญหาทางสถิติที่เกี่ยวข้อง

21
จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?
ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

19
โครงการโอเพ่นซอร์สการวิเคราะห์เชิงสถิติที่มีค่าคืออะไร?
โครงการโอเพ่นซอร์สการวิเคราะห์เชิงสถิติที่มีคุณค่าในปัจจุบันมีอะไรบ้าง แก้ไข: ตามที่ชาร์ปชี้ให้เห็นว่ามีค่าอาจหมายถึงการช่วยให้คุณทำสิ่งต่าง ๆ ได้เร็วขึ้นหรือถูกลง

8
ภาษา R น่าเชื่อถือสำหรับสาขาเศรษฐศาสตร์หรือไม่?
ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาเศรษฐศาสตร์ซึ่งเพิ่งเปลี่ยนมาใช้ R จากแพ็คเกจทางสถิติที่รู้จักกันดีอื่น ๆ (ฉันใช้ SPSS เป็นหลัก) ปัญหาเล็ก ๆ ของฉันในตอนนี้คือฉันเป็นผู้ใช้ R คนเดียวในชั้นเรียนของฉัน เพื่อนร่วมชั้นของฉันใช้ Stata และ Gauss และอาจารย์คนหนึ่งของฉันบอกว่า R เหมาะสำหรับงานวิศวกรรม แต่ไม่ใช่เพื่อเศรษฐศาสตร์ เขากล่าวว่าแพ็คเกจจำนวนมากถูกสร้างขึ้นโดยผู้ที่มีความรู้เกี่ยวกับการเขียนโปรแกรมมาก แต่ไม่มากนักเกี่ยวกับเศรษฐศาสตร์และดังนั้นจึงไม่น่าเชื่อถือ นอกจากนี้เขายังกล่าวถึงความจริงที่ว่าเนื่องจากไม่มีเงินเกี่ยวข้องกับการสร้างแพ็คเกจ R ดังนั้นจึงไม่มีแรงจูงใจที่จะทำอย่างถูกต้อง (ต่างจาก Stata เช่น) และเขาใช้ R เป็นเวลาและได้ผลลัพธ์ที่ "ไร้สาระ" ใน เขาพยายามประเมินบางสิ่ง ยิ่งไปกว่านั้นเขาบ่นว่าเขาสร้างตัวเลขสุ่มใน R ซึ่งเขาบอกว่า " ฉันใช้ R มานานกว่าหนึ่งเดือนและต้องบอกว่าฉันตกหลุมรักมันแล้ว ทุกสิ่งที่ฉันได้ยินจากอาจารย์ของฉันมันทำให้ฉันท้อใจ ดังนั้นคำถามของฉันคือ: "R เชื่อถือได้สำหรับสาขาเศรษฐศาสตร์หรือไม่"

12
ซอฟต์แวร์ที่จำเป็นสำหรับการขูดข้อมูลจากกราฟ [ปิด]
ใครมีประสบการณ์กับซอฟต์แวร์ (โดยเฉพาะอย่างยิ่งฟรีโอเพนซอร์ซ) ที่จะถ่ายภาพของข้อมูลที่ถูกพล็อตบนพิกัดคาร์ทีเซียน (มาตรฐานพล็อตประจำวัน) และแยกพิกัดของจุดที่พล็อตลงบนกราฟ โดยพื้นฐานแล้วนี่เป็นปัญหาการขุดข้อมูลและปัญหาการแสดงข้อมูลย้อนกลับ

9
R และ Python เติมเต็มซึ่งกันและกันในข้อมูลวิทยาศาสตร์ได้อย่างไร?
ในแบบฝึกหัดหรือคู่มือต่างๆการบรรยายดูเหมือนจะบอกเป็นนัยว่า R และ python อยู่ร่วมกันเป็นองค์ประกอบเสริมของกระบวนการวิเคราะห์ อย่างไรก็ตามสำหรับตาที่ไม่ได้รับการฝึกฝนของฉันดูเหมือนว่าทั้งสองภาษาจะทำสิ่งเดียวกัน ดังนั้นคำถามของฉันคือถ้ามี niches พิเศษสำหรับสองภาษาหรือถ้าเป็นเพียงการตั้งค่าส่วนตัวว่าจะใช้อย่างใดอย่างหนึ่งหรือไม่
54 r  python  software 

8
Excel เป็นโต๊ะทำงานสถิติ
ดูเหมือนว่าผู้คนจำนวนมาก (รวมถึงฉัน) ต้องการทำการวิเคราะห์ข้อมูลเชิงสำรวจใน Excel ข้อ จำกัด บางประการเช่นจำนวนแถวที่อนุญาตในสเปรดชีตเป็นความเจ็บปวด แต่ในกรณีส่วนใหญ่ไม่สามารถใช้ Excel เพื่อเล่นข้อมูลได้ อย่างไรก็ตามบทความของ McCullough และ Heiserนั้นกรีดร้องว่าคุณจะได้รับผลที่ผิด - และอาจไหม้อยู่ในนรกได้เช่นกัน - ถ้าคุณพยายามใช้ Excel กระดาษนี้ถูกต้องหรือมันลำเอียง? ผู้เขียนทำเสียงเหมือนพวกเขาเกลียดชัง Microsoft

9
ไม่มีใครรู้ว่าซอฟต์แวร์โอเพ่นซอร์สที่ดีสำหรับการแสดงข้อมูลจากฐานข้อมูล?
เมื่อเร็ว ๆ นี้ฉันเจอTableauและพยายามมองเห็นข้อมูลจากฐานข้อมูลและไฟล์ csv ผู้ใช้ iterface ช่วยให้ผู้ใช้สามารถเห็นภาพเวลาและข้อมูลเชิงพื้นที่และสร้างแปลงในทันที เครื่องมือดังกล่าวมีประโยชน์มากเพราะช่วยให้สามารถสังเกตข้อมูลกราฟิกได้โดยไม่ต้องเขียนโค้ด เนื่องจากมีแหล่งข้อมูลจำนวนมากที่ฉันต้องดึงและแสดงข้อมูลมันจะมีประโยชน์มากที่จะมีเครื่องมือที่เปิดใช้งานเพื่อสร้างแผนภูมิโดยเพียงลากคอลัมน์บนแกนและปรับเปลี่ยนการสร้างภาพด้วยการลากชื่อคอลัมน์ด้วย ไม่มีใครรู้ว่าซอฟต์แวร์โอเพนซอร์ซหรือฟรีหรือไม่?


4
OpenBugs กับ JAGS
ฉันกำลังจะลองใช้สภาพแวดล้อมแบบ BUGS สำหรับการประเมินแบบจำลองของเบย์ มีข้อดีที่สำคัญที่ต้องพิจารณาในการเลือกระหว่าง OpenBugs หรือ JAGS หรือไม่? มีแนวโน้มว่าจะแทนที่คนอื่นในอนาคตอันใกล้? ฉันจะใช้ตัวอย่างกิ๊บส์ที่เลือกกับอาร์ฉันยังไม่มีแอปพลิเคชันเฉพาะ แต่ฉันกำลังตัดสินใจว่าจะเข้าร่วมและเรียนรู้ใด
41 r  software  bugs  jags  gibbs 

4
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่
สำหรับการวางแผนด้วย R ฉันควรเรียนรู้ ggplot2 หรือ ggvis หรือไม่ ฉันไม่ต้องการเรียนรู้ทั้งสองอย่างถ้าหนึ่งในนั้นดีกว่าไม่ว่าในเรื่องใด เหตุใดชุมชน R จึงยังคงสร้างแพ็คเกจใหม่ด้วยฟังก์ชันที่ทับซ้อนกันอยู่ โพสต์แนะนำบล็อกไม่ได้พูดถึงคำว่าทำไม ggvis ถูกสร้างขึ้นให้ว่าพล็อตที่มีความซับซ้อนแพคเกจ ggplot2 มีอยู่แล้ว

7
ทำไมและเมื่อสร้างแพ็คเกจ R
ฉันเข้าใจคำถามนี้ค่อนข้างกว้าง แต่ฉันสงสัยว่าอะไรควรเป็นจุดเด็ดขาดในการตัดสินใจสร้างแพคเกจใหม่สำหรับอาร์ (เฉพาะเจาะจง) ฉันจะเพิ่มเติมว่าคำถามไม่เกี่ยวกับเหตุผลที่ ใช้ R ในตัวเองเพิ่มเติมเกี่ยวกับการตัดสินใจรวบรวมสคริปต์ต่างๆและรวมเข้ากับแพ็คเกจใหม่ ในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจเหล่านี้ฉันได้นึกถึง: การไม่มีอยู่ของแพ็กเกจอื่นในฟิลด์ย่อยเดียวกัน ความจำเป็นในการแลกเปลี่ยนกับนักวิจัยคนอื่นและอนุญาตให้ทำซ้ำการทดลอง; และในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจที่ตรงกันข้าม: ส่วนหนึ่งของวิธีการที่ใช้ในแพ็คเกจอื่นแล้ว; จำนวนฟังก์ชั่นใหม่ไม่เพียงพอที่จะปรับให้เหมาะสมเพื่อสร้างแพ็คเกจอิสระใหม่ ฉันอาจลืมจุดต่าง ๆ ที่อาจไปในรายการใดรายการหนึ่งและเกณฑ์เหล่านี้ดูเหมือนเป็นส่วนตัว ดังนั้นสิ่งที่คุณจะพูดควรปรับและ ณ จุดที่จะเริ่มรวบรวมฟังก์ชั่นต่างๆและข้อมูลในแพคเกจใหม่เอกสารและกว้างใช้ได้?
28 r  software 

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

9
เครื่องมือซอฟต์แวร์สถิติและการขุดข้อมูลสำหรับการจัดการกับชุดข้อมูลขนาดใหญ่
ปัจจุบันฉันต้องวิเคราะห์ระเบียนประมาณ 20 ล้านรายการและสร้างแบบจำลองการทำนาย จนถึงตอนนี้ฉันได้ลอง Statistica, SPSS, RapidMiner และ R ในบรรดา Statistica เหล่านี้ดูเหมือนจะเหมาะสมที่สุดในการจัดการกับ data mining และส่วนต่อประสานผู้ใช้ RapidMiner นั้นมีประโยชน์มาก แต่ดูเหมือนว่า Statistica, RapidMiner และ SPSS นั้นเหมาะสำหรับชุดข้อมูลขนาดเล็ก . ใครช่วยแนะนำเครื่องมือที่ดีสำหรับชุดข้อมูลขนาดใหญ่? ขอบคุณ!


4
ไลบรารี C ++ สำหรับการคำนวณเชิงสถิติ
ฉันมีอัลกอริทึม MCMC เฉพาะซึ่งฉันต้องการพอร์ตไปยัง C / C ++ การคำนวณราคาแพงส่วนใหญ่อยู่ใน C ผ่านทาง Cython แล้ว แต่ฉันต้องการให้มีตัวอย่างทั้งหมดเขียนด้วยภาษาที่รวบรวมเพื่อที่ฉันจะได้เขียน wrappers สำหรับ Python / R / Matlab / อะไรก็ได้ หลังจากแหย่ไปมาฉันก็เอนไปทาง C ++ ห้องสมุดที่เกี่ยวข้องสองแห่งที่ฉันรู้จักคือ Armadillo (http://arma.sourceforge.net/) และ Scythe (http://scythe.wustl.edu/) ทั้งคู่พยายามเลียนแบบบางแง่มุมของ R / Matlab เพื่อทำให้เส้นโค้งการเรียนรู้ง่ายขึ้นซึ่งฉันชอบมาก Scythe กำลังดีขึ้นเล็กน้อยกับสิ่งที่ฉันอยากทำ โดยเฉพาะอย่างยิ่ง RNG ของมันรวมถึงการกระจายจำนวนมากที่อาร์มาดิลโล่มีเพียงชุดเครื่องแบบ / ปกติซึ่งไม่สะดวก อาร์มาดิลโล่ดูเหมือนว่าจะอยู่ภายใต้การพัฒนาที่ค่อนข้างคึกคักในขณะที่ Scythe ได้เปิดตัวครั้งสุดท้ายในปี 2550 ดังนั้นสิ่งที่ฉันสงสัยคือถ้าใครมีประสบการณ์กับห้องสมุดเหล่านี้ - หรือคนอื่น …
23 mcmc  software  c++  computing 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.