คำถามติดแท็ก stata

แพคเกจซอฟต์แวร์เชิงสถิติ ใช้แท็กนี้สำหรับคำถามในหัวข้อใด ๆ ที่ (a) เกี่ยวข้องกับ Stata ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่เพียงเกี่ยวกับวิธีใช้ Stata

2
R เทียบเท่ากับตัวเลือกของคลัสเตอร์เมื่อใช้การถดถอยแบบทวินามลบ
ฉันพยายามจำลองการทำงานของเพื่อนร่วมงานและกำลังย้ายการวิเคราะห์จาก Stata ไปยัง R โมเดลที่เธอใช้เรียกใช้ตัวเลือก "cluster" ภายในฟังก์ชัน nbreg เพื่อจัดกลุ่มข้อผิดพลาดมาตรฐาน ดูhttp://repec.org/usug2007/crse.pdfสำหรับคำอธิบายที่สมบูรณ์เกี่ยวกับสิ่งที่และเหตุผลของตัวเลือกนี้ คำถามของฉันคือวิธีการเรียกใช้ตัวเลือกเดียวกันนี้สำหรับการถดถอยทวินามลบภายใน R? รูปแบบหลักในกระดาษของเรามีการระบุไว้ใน Stata ดังนี้ xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) และฉันได้แทนที่สิ่งนี้ด้วย pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) ซึ่งเห็นได้ชัดว่าขาดชิ้นส่วนข้อผิดพลาดของคลัสเตอร์ เป็นไปได้ไหมที่จะทำการจำลองแบบที่แน่นอน? ถ้าเป็นเช่นนั้นได้อย่างไร ถ้าไม่ทางเลือกที่เหมาะสมคืออะไร? ขอบคุณ [แก้ไข] …

1
วิธีจัดการกับตัวแปรดัมมี่ที่ถูกตัดในรูปแบบเอฟเฟกต์คงที่?
ฉันใช้รูปแบบคงมีผลสำหรับข้อมูลที่แผงของฉัน (9 ปี 1000 + OBS) ตั้งแต่การทดสอบ Hausman ของฉันแสดงให้เห็นค่า(PR&gt;เมื่อฉันเพิ่มตัวแปรดัมมี่สำหรับอุตสาหกรรมที่ บริษัท ของฉันรวมไว้พวกเขาจะถูกละไว้เสมอ ฉันรู้ว่ามีความแตกต่างใหญ่เมื่อมันมาถึง DV (ดัชนีการเปิดเผย) ในกลุ่มอุตสาหกรรมที่แตกต่างกัน แต่ฉันไม่สามารถรับมันในแบบจำลองของฉันเมื่อใช้ Stata(Pr&gt;χ2)&lt;0.05(Pr&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 ข้อเสนอแนะวิธีการแก้ปัญหานี้? และทำไมพวกเขามองข้าม?

1
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata
การเปรียบเทียบสองตัวอย่างของสัดส่วนการประมาณขนาดตัวอย่าง: R กับ Stata ฉันได้ผลลัพธ์ที่แตกต่างกันสำหรับขนาดตัวอย่างดังนี้: ในอาร์ power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) ผลลัพธ์: (ดังนั้น 161) สำหรับแต่ละกลุ่มn = 160.7777n=160.7777n = 160.7777 ในStata sampsi 0.70 0.85, power(0.90) alpha(0.05) ผลลัพธ์:สำหรับแต่ละกลุ่มn = 174n=174n = 174 ทำไมถึงแตกต่าง ขอบคุณ BTW ฉันรันการคำนวณขนาดตัวอย่างเดียวกันในSAS JMPผลลัพธ์: (เกือบจะเหมือนกับผลลัพธ์ R)n = 160n=160n = 160

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
แผนการถ่วงน้ำหนักทางเลือกสำหรับการวิเคราะห์อภิมานผลแบบสุ่ม: การเบี่ยงเบนมาตรฐานหายไป
ฉันกำลังทำงานกับการวิเคราะห์อภิมานผลแบบสุ่มซึ่งครอบคลุมการศึกษาจำนวนหนึ่งซึ่งไม่ได้รายงานความเบี่ยงเบนมาตรฐาน การศึกษาทั้งหมดทำรายงานขนาดตัวอย่าง ฉันไม่เชื่อว่ามีความเป็นไปได้ที่จะประมาณหรือลบล้างข้อมูลที่หายไปของ SD meta-analysis ที่ใช้ raw (ไม่เป็นมาตรฐาน) หมายถึงความแตกต่างในขณะที่ขนาดของเอฟเฟกต์นั้นมีน้ำหนักเมื่อไม่มีการเบี่ยงเบนมาตรฐานสำหรับการศึกษาทั้งหมดหรือไม่ แน่นอนว่าฉันสามารถประมาณค่า tau-squared และต้องการที่จะรวมการวัดความแปรปรวนระหว่างการศึกษาในรูปแบบน้ำหนักใด ๆ ที่ฉันใช้อยู่ในกรอบสุ่มผลกระทบ ข้อมูลเพิ่มเติมเล็กน้อยรวมอยู่ด้านล่าง: เหตุใดความแตกต่างของค่าเฉลี่ยดิบจึงยังคงมีประโยชน์: ข้อมูลถูกรายงานในระดับที่มีความหมายอย่างแท้จริง: ดอลลาร์สหรัฐต่อหน่วย ดังนั้นการวิเคราะห์เมตาของความแตกต่างเฉลี่ยจะตีความได้ทันที เหตุใดฉันจึงไม่สามารถประมาณค่าหรือเบี่ยงเบนข้อมูล SD ได้: การศึกษาข้อมูลเบี่ยงเบนมาตรฐานที่ขาดหายไปนั้นไม่ได้มีข้อมูลเพียงพอที่จะประมาณค่าเบี่ยงเบนมาตรฐาน (เช่นค่ามัธยฐานและช่วงไม่ได้ถูกรายงานในวรรณคดี) การใส่ข้อมูลที่ขาดหายไปดูเหมือนว่าไม่เหมาะสมเนื่องจากการศึกษาส่วนใหญ่ขาด SD และเนื่องจากการศึกษาแตกต่างกันอย่างมากในแง่ของพื้นที่ทางภูมิศาสตร์ที่ครอบคลุมและโปรโตคอลการสำรวจ โดยทั่วไปแล้วจะทำอะไรกับความแตกต่างของค่าเฉลี่ยในการวิเคราะห์อภิมาน: ตุ้มน้ำหนักการศึกษาจะขึ้นอยู่กับข้อผิดพลาดมาตรฐานของความแตกต่างเฉลี่ย (โดยทั่วไปจะคำนวณด้วยคำศัพท์ขนาดตัวอย่าง ฉันไม่มีสิ่งนี้ ในการวิเคราะห์อภิมานผลกระทบแบบสุ่มน้ำหนักการศึกษายังรวมถึงคำศัพท์สำหรับความแปรปรวนระหว่างการศึกษาด้วย ฉันมีสิ่งนี้ สามารถใช้การถ่วงน้ำหนักขนาดตัวอย่างแบบง่ายๆในบริบทนี้ได้หรือไม่? ฉันจะรวมการประมาณค่า tau-squared (หรือการวัดอื่นของการกระจายระหว่างการศึกษา) เข้ากับน้ำหนักได้อย่างไร

2
ใช้อัลกอริทึม EM สำหรับการเชื่อมโยงบันทึก
ฉันสนใจในการเชื่อมโยงบันทึกข้าม 2 ชุดข้อมูลโดยชื่อนามสกุลและปีเกิด อาจเป็นไปได้ด้วยอัลกอริทึม EM และถ้าเป็นเช่นนั้นได้อย่างไร ลองพิจารณาบันทึกต่อไปนี้ในตัวอย่างที่ 1: Carl McCarthy, 1967 ฉันจะค้นหาข้อมูลทั้งหมดในชุดข้อมูลชุดที่ 2 และกำหนดระยะทาง jaro-winkler ระหว่างชื่อที่ 1 และ Carl และระยะทาง jaro-winkler ระหว่างนามสกุลและ McCarthy ระยะทางเหล่านี้น่าจะเป็นเช่นเดียวกับระยะห่างระหว่างปีเกิด เรารวม 3 ความน่าจะเป็นเหล่านั้น (คูณด้วยค่าเฉลี่ย?) เป็น 1 ตอนนี้ส่วนกฎการตัดสินใจมา ให้เราจัดอันดับความน่าจะเป็นทั้งหมดจากมากไปหาน้อย ก่อนอื่นเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่)&gt; = ธรณีประตู ประการที่สองเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่) / P (การเข้าชมครั้งที่สองคือการจับคู่)&gt; = เกณฑ์ถ้า P (การเข้าชมครั้งที่สองเป็นการจับคู่) อยู่ ประการที่สามเราต้องการการโจมตีครั้งแรกในชุดข้อมูลที่สองนี้เพื่อจับคู่ไม่เกิน 1 …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
จับคู่ ANOVA หรือมาตรการผสมซ้ำแล้วซ้ำอีก?
ฉันถูกขอให้วิเคราะห์ข้อมูลบางอย่างจากการทดลองทางคลินิกโดยหาวิธีสองวิธีในการวัดความดันโลหิต ฉันมีข้อมูลจาก 50 วิชาโดยแต่ละรายการมีค่าระหว่าง 2 และ 57 มาตรการโดยใช้แต่ละวิธี ฉันสงสัยว่าจะทำอย่างไรดีที่สุด เห็นได้ชัดว่าฉันต้องการวิธีการแก้ปัญหาที่จะคำนึงถึงความจริงที่ว่าการวัดความดันโลหิตถูกจับคู่ (สองวิธีที่วัดพร้อมกัน) และเวลาที่แปรเปลี่ยนโควาเรียต (มีจำนวนการสังเกตต่อผู้ป่วยที่แตกต่างกัน ความแปรปรวนของผู้ป่วย ฉันกำลังคิดที่จะหยุดเรื่องรองเท้านี้เป็นมาตรการ ANOVA ซ้ำ ๆ แต่ฉันคิดว่ามันอาจจะต้องเป็นแบบจำลองผสม ฉันขอขอบคุณคำแนะนำที่เป็นประโยชน์ที่คุณสามารถให้ได้ ฉันเป็นมือใหม่ R ที่สมบูรณ์ แต่ตื่นเต้นมากที่จะพัฒนาทักษะและฉันมีประสบการณ์ปานกลางใน Stata ดังนั้นก็สามารถถอยกลับไปได้เสมอ
9 r  anova  mixed-model  stata 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.