คำถามติดแท็ก project-management

การจัดระเบียบงานคำนวณในโครงการ * ทางสถิติ * ใช้สำหรับคำถามเกี่ยวกับการจัดเก็บข้อมูลการแบ่งปันข้อมูลที่เก็บรหัส ฯลฯ โปรดทราบว่าคำถามเกี่ยวกับการเขียนโปรแกรมหรือไม่เกี่ยวข้องกับสถิตินั้นไม่เกี่ยวข้องกับหัวข้อ

7
จะจัดการโครงการวิเคราะห์ทางสถิติได้อย่างมีประสิทธิภาพได้อย่างไร
เรามักจะได้ยินเกี่ยวกับการจัดการโครงการและรูปแบบการออกแบบในวิทยาการคอมพิวเตอร์ แต่ไม่ค่อยบ่อยนักในการวิเคราะห์ทางสถิติ อย่างไรก็ตามดูเหมือนว่าขั้นตอนเด็ดขาดในการออกแบบโครงการสถิติที่มีประสิทธิภาพและทนทานคือการจัดระเบียบสิ่งต่าง ๆ ฉันมักจะสนับสนุนการใช้ R และองค์กรที่สอดคล้องกันของไฟล์ในโฟลเดอร์ที่แยกต่างหาก (ไฟล์ข้อมูลดิบ, ไฟล์ข้อมูลที่ถูกแปลง, สคริปต์ R, ตัวเลข, บันทึก, ฯลฯ ) เหตุผลหลักสำหรับวิธีนี้คือการวิเคราะห์ของคุณในภายหลังอาจทำได้ง่ายขึ้น (เมื่อคุณลืมว่าคุณได้สร้างพล็อตที่กำหนดขึ้นมาอย่างไร) อะไรคือแนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดการโครงการเชิงสถิติหรือคำแนะนำที่คุณต้องการให้จากประสบการณ์ของคุณเอง? แน่นอนว่าสิ่งนี้ใช้ได้กับซอฟต์แวร์ทางสถิติใด ๆ ( หนึ่งคำตอบต่อโพสต์โปรด )

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
เหตุใดเครื่องหมายจุลภาคจึงเป็นตัวแยก / ตัวคั่นระเบียนที่ไม่ถูกต้องในไฟล์ CSV
ผมอ่านนี้บทความและฉันอยากรู้คำตอบที่เหมาะสมสำหรับคำถามนี้ สิ่งเดียวที่อยู่ในใจของฉันอาจเป็นได้ว่าในบางประเทศตัวแยกเลขทศนิยมเป็นเครื่องหมายจุลภาคและอาจมีปัญหาเมื่อแบ่งปันข้อมูลในCSVแต่ฉันไม่แน่ใจจริงๆในคำตอบของฉัน

6
วิธีเพิ่มความสามารถในการทำซ้ำในระยะยาวของการวิจัย (โดยเฉพาะการใช้ R และ Sweave)
บริบท: เพื่อตอบคำถามก่อนหน้าเกี่ยวกับการวิจัยที่ทำซ้ำได้Jake เขียน ปัญหาหนึ่งที่เราค้นพบเมื่อสร้าง JASA archive ของเราคือเวอร์ชันและค่าเริ่มต้นของแพ็คเกจ CRAN เปลี่ยนไป ดังนั้นในที่เก็บถาวรนั้นเรายังรวมรุ่นของแพ็คเกจที่เราใช้ ระบบที่ใช้ vignette อาจจะแตกเป็นเสี่ยง ๆ เมื่อคนเปลี่ยนแพ็คเกจของพวกเขา (ไม่แน่ใจว่าจะรวมแพ็คเกจเพิ่มเติมภายในแพ็คเกจที่เป็น Compendium) ได้อย่างไร ในที่สุดฉันสงสัยว่าจะทำอย่างไรเมื่อตัว R เปลี่ยนไป มีวิธีการผลิตพูดว่าเครื่องเสมือนจริงที่สร้างสภาพแวดล้อมการคำนวณทั้งหมดที่ใช้สำหรับกระดาษเช่นที่เครื่องเสมือนไม่ใหญ่หลวงหรือไม่? คำถาม: กลยุทธ์ที่ดีในการสร้างความมั่นใจว่าการวิเคราะห์ข้อมูลที่ทำซ้ำได้นั้นสามารถทำซ้ำได้ในอนาคต (เช่นห้าสิบหรือยี่สิบปีหลังจากการตีพิมพ์)? อะไรคือกลยุทธ์ที่ดีในการเพิ่มความสามารถในการทำซ้ำอย่างต่อเนื่องเมื่อใช้ Sweave และ R ดูเหมือนว่าจะเกี่ยวข้องกับปัญหาของการทำให้มั่นใจว่าโครงการการวิเคราะห์ข้อมูลที่ทำซ้ำได้จะทำงานในเครื่องของผู้อื่นที่มีค่าเริ่มต้นแพ็คเกจที่แตกต่างกันเล็กน้อย ฯลฯ

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
วิธีที่มีประสิทธิภาพในการจัดระเบียบรหัส R และเอาท์พุทคืออะไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังมองหาวิธีการที่คนอื่นจัดระเบียบรหัส R และเอาท์พุทของพวกเขา การปฏิบัติปัจจุบันของฉันคือการเขียนรหัสในบล็อกในไฟล์ข้อความเช่น: #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== ฉันจะวางผลลัพธ์ลงในไฟล์ข้อความอื่นโดยปกติแล้วจะมีคำอธิบายประกอบอยู่บ้าง ปัญหาเกี่ยวกับวิธีนี้คือ: รหัสและผลลัพธ์ไม่ได้เชื่อมโยงอย่างชัดเจนนอกเหนือจากวันที่ รหัสและผลลัพธ์มีการจัดเรียงตามลำดับเวลาซึ่งทำให้ค้นหาได้ยาก ฉันได้พิจารณาทำเอกสาร Sweave หนึ่งฉบับกับทุกสิ่งตั้งแต่ฉันสามารถสร้างสารบัญได้ …

5
วิธีการวิเคราะห์ชุดข้อมูลขนาดใหญ่แบบสำรวจอย่างต่อเนื่อง?
เมื่อฉันเริ่มการวิเคราะห์เชิงสำรวจในชุดข้อมูลขนาดใหญ่ (ตัวอย่างจำนวนมากหลายตัวแปร) ฉันมักจะพบว่าตัวเองมีหลายร้อยตัวแปรที่ได้รับและตันของแปลงที่แตกต่างกันและไม่มีทางที่จะติดตามสิ่งที่เกิดขึ้นจริง รหัสจบลงเหมือนปาเก็ตตี้เพราะไม่มีทิศทางจากจุดเริ่มต้น ... มีวิธีการใดบ้างที่แนะนำให้ทำการวิเคราะห์เชิงสำรวจอย่างเป็นระเบียบและเป็นระเบียบหรือไม่? โดยเฉพาะอย่างยิ่งคุณจะจัดการกับการสำรวจหลายแขนงได้อย่างไร (รวมถึงการสำรวจที่ปลายตาย) และแผนการที่แตกต่างกัน? สำหรับการอ้างอิงฉันกำลังทำงานกับข้อมูลทางธรณีวิทยา (ตัวแปรหลายตัวตามเวลา ฉันมักจะทำงานร่วมกับ Python หรือ R และเก็บทุกอย่างไว้ในคอมไพล์และลองใช้ IPython Notebook เช่นกัน อย่างไรก็ตามมันจะดีถ้าคำตอบนั้นค่อนข้างกว้างและมีประโยชน์สำหรับคนในทุกสาขาพร้อมกับข้อมูล (ใหญ่?) ประเภทอื่น

10
กลยุทธ์สำหรับการแก้ไขไฟล์ค่าที่คั่นด้วยเครื่องหมายจุลภาค (CSV)
เมื่อฉันทำงานกับโครงการวิเคราะห์ข้อมูลฉันมักจะเก็บข้อมูลไว้ในไฟล์ข้อมูลด้วยเครื่องหมายจุลภาคหรือคั่นด้วยแท็บ (CSV, TSV) ในขณะที่ข้อมูลมักอยู่ในระบบการจัดการฐานข้อมูลเฉพาะ สำหรับแอปพลิเคชันของฉันมากมายนี่จะเป็นการทำสิ่งที่เกินความจำเป็น ฉันสามารถแก้ไขไฟล์ CSV และ TSV ใน Excel (หรือโปรแกรมสเปรดชีตอื่นน่าจะเป็น) สิ่งนี้มีประโยชน์: สเปรดชีตทำให้ง่ายต่อการป้อนข้อมูล นอกจากนี้ยังมีปัญหาหลายประการ: การทำงานกับไฟล์ CSV และ TSV นำไปสู่ข้อความเตือนที่หลากหลายเกี่ยวกับคุณลักษณะที่สูญหายและวิธีการบันทึกเฉพาะแผ่นงานที่ใช้งานและอื่น ๆ ดังนั้นจึงเป็นเรื่องน่ารำคาญหากคุณต้องการเปิดไฟล์และทำการเปลี่ยนแปลงเล็กน้อย เป็นการแปลงที่ "ฉลาดพอสมควร" หลายอย่าง ตัวอย่างเช่นหากคุณป้อน 12/3 จะคิดว่าคุณต้องการป้อนวันที่ UPDATE:ฉันควรจะกล่าวว่าตัวอย่างวันที่เป็นเพียงหนึ่งในหลายตัวอย่าง ปัญหาส่วนใหญ่ดูเหมือนจะเกี่ยวข้องกับการแปลงที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งฟิลด์ข้อความที่มีลักษณะเหมือนตัวเลขหรือวันที่ทำให้เกิดปัญหา หรือฉันสามารถทำงานโดยตรงกับไฟล์ข้อความในเท็กซ์เอดิเตอร์มาตรฐาน สิ่งนี้ทำให้มั่นใจได้ว่าสิ่งที่ฉันป้อนคือสิ่งที่บันทึกไว้ อย่างไรก็ตามเป็นวิธีที่ไม่สะดวกในการป้อนข้อมูล (คอลัมน์ไม่เรียงกันเป็นเรื่องยากที่จะป้อนข้อมูลลงในเซลล์หลาย ๆ เซลล์ ฯลฯ ) คำถาม กลยุทธ์ที่ดีในการทำงานกับไฟล์ข้อมูล CSV หรือ TSV คืออะไร เช่นกลยุทธ์ใดที่ทำให้การป้อนและจัดการข้อมูลเป็นเรื่องง่ายในขณะเดียวกันก็มั่นใจได้ว่าสิ่งที่คุณป้อนนั้นตีความได้อย่างถูกต้องจริงหรือไม่

5
รูปแบบข้อความธรรมดาที่ง่ายเชื่อถือได้เปิดและทำงานร่วมกันได้สำหรับการจัดเก็บข้อมูล
ในคำถามก่อนหน้านี้ผมถามเกี่ยวกับเครื่องมือสำหรับการแก้ไขไฟล์ CSV Gavin เชื่อมโยงกับความคิดเห็นเกี่ยวกับวิธีใช้ R โดยDuncan Murdoch แนะนำว่ารูปแบบการแลกเปลี่ยนข้อมูลเป็นวิธีที่เชื่อถือได้มากขึ้นในการจัดเก็บข้อมูลกว่า CSV สำหรับบางแอปพลิเคชันระบบการจัดการฐานข้อมูลเฉพาะเป็นสิ่งที่จำเป็น อย่างไรก็ตามสำหรับการวิเคราะห์ข้อมูลขนาดเล็กมีโครงการบางอย่างที่มีน้ำหนักเบากว่าดูจะเหมาะสมกว่า พิจารณาเกณฑ์ต่อไปนี้สำหรับการประเมินรูปแบบไฟล์: reliabile : ข้อมูลที่ป้อนควรเป็นจริงกับสิ่งที่ป้อน ข้อมูลควรเปิดอย่างสม่ำเสมอในซอฟต์แวร์ที่ต่างกัน ง่าย : มันคงจะดีถ้ารูปแบบไฟล์นั้นเข้าใจง่ายและอ่านง่ายด้วยตัวแก้ไขข้อความอย่างง่าย ควรเขียนโปรแกรมอย่างง่ายเพื่ออ่านและเขียนรูปแบบ เปิด : รูปแบบควรจะเปิด ทำงานร่วมกัน : รูปแบบไฟล์ควรได้รับการสนับสนุนจากหลาย ๆ ระบบ ฉันค้นหาแท็บและรูปแบบค่าที่คั่นด้วยเครื่องหมายจุลภาคล้มเหลวในเกณฑ์ความน่าเชื่อถือ แม้ว่าฉันคิดว่าฉันสามารถตำหนิการนำเข้าและส่งออกโปรแกรมมากกว่ารูปแบบไฟล์ ฉันมักจะพบว่าตัวเองต้องปรับตัวเลือกเล็กน้อย read.tableเพื่อป้องกันตัวละครแปลก ๆ จากการโหลดเฟรมข้อมูล คำถาม รูปแบบไฟล์ใดที่ตรงกับความต้องการเหล่านี้มากที่สุด รูปแบบการแลกเปลี่ยนข้อมูลเป็นทางเลือกที่ดีกว่าหรือไม่ หรือมันมีปัญหาของตัวเอง? มีรูปแบบอื่นที่เหมาะสมกว่าหรือไม่ ฉันประเมิน TSV และ CSV อย่างไม่เป็นธรรมหรือไม่? มีเคล็ดลับง่ายๆสำหรับการทำงานกับไฟล์ดังกล่าวที่ทำให้รูปแบบไฟล์มีความน่าเชื่อถือมากขึ้นหรือไม่?

3
กระบวนการวิเคราะห์ข้อมูลที่ดีจริง ๆ คืออะไร?
ฉันต้องการทราบหรือมีการอ้างอิงเกี่ยวกับกระบวนการวิเคราะห์ของนักวิเคราะห์ข้อมูลทางสถิติซึ่งส่วนใหญ่ผ่านสำหรับแต่ละโครงการวิเคราะห์ข้อมูล หากฉันสร้าง "รายการ" เพื่อทำโครงการวิเคราะห์ข้อมูลให้เสร็จสมบูรณ์นักวิเคราะห์จะต้อง: รวบรวมข้อกำหนดแรกสำหรับโครงการ วางแผน / ออกแบบการวิเคราะห์ข้อมูลของเขาตามความต้องการเหล่านั้นมาก่อน ประมวลผลข้อมูลล่วงหน้าจริง ๆ ดำเนินการวิเคราะห์ข้อมูลและ การเขียนรายงานตามผลการวิเคราะห์ของเขา สำหรับคำถามนี้ฉันสนใจรายละเอียดเพิ่มเติมของขั้นตอนที่ 2 แต่ฉันเข้าใจว่านี่ไม่ชัดเจนนักเนื่องจากนักวิเคราะห์อาจต้องเปลี่ยนแผนหรือการออกแบบตามผลการวิเคราะห์ข้อมูล มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่?

3
การปรับปรุงชื่อตัวแปรในชุดข้อมูล
ชื่อตัวแปรที่ดีคือ: a) สั้น / ง่ายต่อการพิมพ์ b) จดจำได้ง่าย c) เข้าใจ / สื่อสารได้ ฉันลืมอะไรไปหรือเปล่า ความสอดคล้องเป็นสิ่งที่มองหา วิธีที่ฉันจะกล่าวถึงก็คืออนุสัญญาการตั้งชื่อที่สอดคล้องกันทำให้เกิดคุณสมบัติข้างต้น ความสอดคล้องก่อให้เกิด (b) ความสะดวกในการเรียกคืนและ (c) ความเข้าใจแม้ว่าปัจจัยอื่น ๆ มักจะสำคัญกว่า มีการแลกเปลี่ยนที่ชัดเจนระหว่าง (a) ความยาวชื่อ / ความง่ายในการพิมพ์ (เช่นตัวพิมพ์เล็กทั้งหมด) และ (c) ความเข้าใจ ฉันลงทุนความคิดที่ค่อนข้างยุติธรรมในประเด็นเหล่านี้เพราะมีคนหลายพันคนกำลังใช้ข้อมูลและฉันหวังว่าหลายคนจะใช้รหัสของฉันเพื่อเตรียมข้อมูลและช่วยในการวิเคราะห์บางประเภท ข้อมูลจากการศึกษาระยะยาวของสุขภาพวัยรุ่นแบ่งออกเป็นหลายชุดข้อมูล ขั้นตอนแรกของฉันคือการใช้ตัวแปร 227 ในชุดข้อมูลที่ใช้กันมากที่สุดให้ทำการถอดรหัสใหม่ให้ชื่อที่มีความหมายมากกว่า ชื่อตัวแปรดั้งเดิมคือชื่อ "aid", "s1", "s2" ซึ่งฉันเปลี่ยนชื่อเป็น "aid2", "อายุ" และ "male.is" มีตัวแปรอื่น ๆ อีกนับพันรายการในชุดข้อมูลอื่นซึ่งอาจรวมเข้าด้วยกันขึ้นอยู่กับเป้าหมายของนักวิจัย ตราบใดที่ฉันเปลี่ยนชื่อตัวแปรฉันต้องการทำให้มีประโยชน์มากที่สุด นี่คือปัญหาที่ฉันพิจารณา จนถึงตอนนี้ฉันใช้ตัวพิมพ์เล็กเท่านั้นและหลีกเลี่ยงการใช้เครื่องหมายขีดคั่นหรือขีดล่างใด …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.