คำถามติดแท็ก stata

แพคเกจซอฟต์แวร์เชิงสถิติ ใช้แท็กนี้สำหรับคำถามในหัวข้อใด ๆ ที่ (a) เกี่ยวข้องกับ Stata ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่เพียงเกี่ยวกับวิธีใช้ Stata

25
Python เป็นโต๊ะทำงานสถิติ
ผู้คนจำนวนมากใช้เครื่องมือหลักเช่น Excel หรือสเปรดชีตอื่น SPSS, Stata หรือ R สำหรับความต้องการทางสถิติ พวกเขาอาจหันไปใช้แพคเกจเฉพาะสำหรับความต้องการพิเศษมาก แต่หลายสิ่งสามารถทำได้ด้วยสเปรดชีตอย่างง่ายหรือแพคเกจสถิติทั่วไปหรือสภาพแวดล้อมการเขียนโปรแกรมสถิติ ฉันชอบ Python เป็นภาษาการเขียนโปรแกรมเสมอและสำหรับความต้องการง่าย ๆ มันง่ายที่จะเขียนโปรแกรมสั้น ๆ ที่คำนวณสิ่งที่ฉันต้องการ Matplotlib ให้ฉันพล็อตมัน มีใครเปลี่ยนจากพูด R เป็น Python อย่างสมบูรณ์หรือไม่ R (หรือแพ็คเกจสถิติอื่น ๆ ) มีฟังก์ชันการทำงานเฉพาะสำหรับสถิติจำนวนมากและมีโครงสร้างข้อมูลที่ช่วยให้คุณคิดเกี่ยวกับสถิติที่คุณต้องการดำเนินการและน้อยกว่าเกี่ยวกับการแสดงข้อมูลภายในของคุณ Python (หรือภาษาไดนามิกอื่น ๆ ) มีประโยชน์ในการอนุญาตให้ฉันเขียนโปรแกรมในภาษาระดับสูงที่คุ้นเคยและช่วยให้ฉันโต้ตอบกับระบบในโลกแห่งความเป็นจริงซึ่งข้อมูลอยู่หรือที่ฉันสามารถทำการวัดได้ แต่ฉันไม่ได้พบแพ็คเกจ Python ใด ๆ ที่จะอนุญาตให้ฉันแสดงสิ่งต่าง ๆ ด้วย "คำศัพท์เชิงสถิติ" - จากสถิติเชิงพรรณนาอย่างง่ายไปจนถึงวิธีการหลายตัวแปรที่ซับซ้อนมากขึ้น คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Python เป็น "สถิติ workbench" เพื่อแทนที่ …
355 r  spss  stata  python 

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
การจำลองตัวเลือก“ แข็งแกร่ง” ของ Stata ใน R
ฉันพยายามทำซ้ำผลลัพธ์ของตัวเลือก Stata robustใน R ฉันได้ใช้rlmคำสั่งในรูปแบบแพ็คเกจ MASS และคำสั่งlmrobจากแพคเกจ "robustbase" ในทั้งสองกรณีผลลัพธ์จะค่อนข้างแตกต่างจากตัวเลือก "ที่มีประสิทธิภาพ" ใน Stata ใครช่วยกรุณาแนะนำบางสิ่งในบริบทนี้ได้บ้าง นี่คือผลลัพธ์ที่ฉันได้รับเมื่อฉันรันตัวเลือกที่แข็งแกร่งใน Stata: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ …

4
การทดสอบที่แน่นอนของ Fisher ในตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2
ฉันได้รับการสอนให้ใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางฉุกเฉินที่ 2x2 เท่านั้น คำถาม: ทำฟิชเชอร์ของตัวเองที่เคยวาดภาพการทดสอบนี้จะใช้ในตารางขนาดใหญ่กว่า 2x2 (ฉันรู้เรื่องของเขาการณ์การทดสอบในขณะที่พยายามที่จะคาดเดาว่าหญิงชราคนหนึ่งสามารถบอกได้ว่านมถูกบันทึกอยู่ในชาหรือชาถูกบันทึกอยู่ในนม ) Stata อนุญาตให้ฉันใช้การทดสอบที่แน่นอนของฟิชเชอร์ในตารางใด ๆ ที่อาจเกิดขึ้น ถูกต้องหรือไม่ ควรใช้ FET หรือไม่หากคาดว่าจำนวนเซลล์ในตารางฉุกเฉินเป็น <5?

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
ทำไมฉันถึงได้รับผลต่างแบบไม่มีศูนย์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมของฉันแม้ว่าข้อมูลจะมีการเปลี่ยนแปลงบ้าง
เราได้เรียกใช้การถดถอยโลจิสติกเอฟเฟ็กต์แบบผสมโดยใช้ไวยากรณ์ต่อไปนี้ # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) หัวเรื่องและรายการเป็นเอฟเฟกต์แบบสุ่ม เราได้ผลลัพธ์ที่แปลกซึ่งมีค่าสัมประสิทธิ์และความเบี่ยงเบนมาตรฐานสำหรับเทอมที่เป็นทั้งคู่ Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | …

1
อะไรคือความเท่าเทียมแบบไม่อิงพารามิเตอร์ของ ANOVA สองทางที่สามารถรวมการโต้ตอบได้?
สวัสดีฉันกำลังพยายามที่จะหาค่าเทียบเท่าที่ไม่ใช่พารามิเตอร์ของ ANOVA สองทาง (การออกแบบ 3x4) ซึ่งมีความสามารถในการรวมการโต้ตอบ จากการอ่านของฉันใน Zar 1984 "การวิเคราะห์ชีวสถิติ" นี่เป็นไปได้โดยใช้วิธีการที่วางไว้ใน Scheirer, Ray, และ Hare (1976) อย่างไรก็ตามจากการโพสต์อื่น ๆ ทางออนไลน์มันถูกอนุมานว่าวิธีนี้ไม่เหมาะสมอีกต่อไป ถูก) ไม่มีใครรู้วิธีการที่เหมาะสมสำหรับการทำเช่นนั้นและถ้าเป็นเช่นนั้นฟังก์ชั่นที่สอดคล้องกันใน R หรือ Stata?

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
การวินิจฉัยใดที่สามารถตรวจสอบการใช้งานตระกูล GLM หนึ่ง ๆ ได้
ดูเหมือนว่าจะเป็นประถม แต่ฉันมักจะติดอยู่ที่จุดนี้ ... ข้อมูลส่วนใหญ่ที่ฉันจัดการด้วยนั้นไม่ปกติและการวิเคราะห์ส่วนใหญ่อ้างอิงจากโครงสร้าง GLM สำหรับการวิเคราะห์ปัจจุบันของฉันฉันมีตัวแปรตอบสนองที่ "ความเร็วเดิน" (เมตร / นาที) เป็นเรื่องง่ายสำหรับฉันที่จะระบุว่าฉันไม่สามารถใช้ OLS ได้ แต่จากนั้นฉันมีความไม่แน่นอนอย่างมากในการตัดสินใจว่าครอบครัวใด (Gamma, Weibull และอื่น ๆ ) มีความเหมาะสม! ฉันใช้ Stata และดูการวินิจฉัยเช่นส่วนที่เหลือและความแตกต่างแบบเฮเทอโรซิสติซิตีค่าส่วนที่เหลือเทียบกับค่าติดตั้ง ฯลฯ ฉันทราบว่าการนับข้อมูลสามารถอยู่ในรูปแบบของอัตรา (เช่นอัตราอุบัติการณ์) และใช้แกมม่า (อะนาล็อกไปยังโมเดลลบลบทวินามแบบแยกขั้วแบบ overdispersed) แต่ต้องการ "ปืนสูบบุหรี่" เพื่อบอกว่าใช่คุณมีสิทธิ ครอบครัว. การดูค่าสารตกค้างมาตรฐานกับค่าติดตั้งเป็นวิธีเดียวและดีที่สุดในการทำเช่นนี้หรือไม่? ฉันต้องการใช้ตัวแบบผสมเพื่ออธิบายลำดับชั้นของข้อมูลด้วยเช่นกัน แต่ก่อนอื่นต้องแยกแยะว่าครอบครัวใดที่อธิบายตัวแปรตอบสนองของฉันได้ดีที่สุด ความช่วยเหลือใด ๆ ชื่นชม ภาษา Stata ชื่นชมโดยเฉพาะอย่างยิ่ง!


4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
2SLS แต่ Probit ขั้นที่สอง
ฉันพยายามใช้การวิเคราะห์ตัวแปรเครื่องมือเพื่ออนุมานสาเหตุของข้อมูลเชิงสังเกต ฉันได้เจอการถดถอยสองขั้นตอนสองขั้น (2SLS) ซึ่งมีแนวโน้มที่จะแก้ไขปัญหา endogeneity ในการวิจัยของฉัน อย่างไรก็ตามฉันอยากจะเป็นด่านแรกที่จะเป็น OLS และด่านที่สองเพื่อเป็นผู้ที่อยู่ภายใน 2SLS จากการอ่านและการค้นหาของฉันฉันได้เห็นนักวิจัยใช้ 2SLS หรือ prost ขั้นตอนแรกและขั้นตอนที่สอง OLS แต่ไม่ใช่รอบอื่น ๆ ซึ่งเป็นสิ่งที่ฉันพยายามบรรลุ ฉันกำลังใช้คำสั่งStata และivregใน Stata สำหรับ 2SLS แบบตรง

5
ฉันจะ detrend อนุกรมเวลาได้อย่างไร
ฉันจะ detrend อนุกรมเวลาได้อย่างไร มันโอเคที่จะเริ่มต้นความแตกต่างและทำการทดสอบ Dickey ฟุลเลอร์และถ้าเป็นเครื่องเขียนเราดีหรือไม่? ฉันยังพบทางออนไลน์ที่ฉันสามารถ detrend ชุดเวลาโดยทำเช่นนี้ใน Stata: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) วิธีที่ดีที่สุดในการทำลายลำดับเวลา

4
จับคู่คะแนนความน่าเชื่อถือกับข้อมูลพาเนล
ฉันมีชุดข้อมูลระยะยาวของแต่ละบุคคลและบางคนก็อยู่ภายใต้การรักษาและคนอื่นไม่ได้ บุคคลทุกคนอยู่ในกลุ่มตัวอย่างตั้งแต่แรกเกิดจนถึงอายุ 18 ปีและการรักษาเกิดขึ้นในบางช่วงอายุ อายุของการรักษาอาจแตกต่างกันในแต่ละกรณี การใช้การจับคู่คะแนนความชอบฉันต้องการจับคู่หน่วยที่ได้รับการรักษาและควบคุมเป็นคู่กับการจับคู่ที่แน่นอนในปีเกิดซึ่งฉันสามารถติดตามแต่ละคู่ตั้งแต่วันเกิดของพวกเขาจนถึงอายุ 18 ทั้งหมดมีทั้งหมด 150 คนและ 4000 คนที่ไม่ผ่านการรักษา หลังจากการจับคู่ความคิดคือการใช้กลยุทธ์ที่แตกต่างในความแตกต่างในการประเมินผลของการรักษา ปัญหาที่ฉันเผชิญในขณะนี้คือทำการจับคู่กับข้อมูลพาเนล ฉันกำลังใช้psmatch2คำสั่งของ Stata และฉันจับคู่กับลักษณะครัวเรือนและส่วนบุคคลโดยใช้การจับคู่คะแนนความชอบ โดยทั่วไปกับข้อมูลพาเนลจะมีการจับคู่ที่เหมาะสมที่สุดในแต่ละช่วงอายุ เป็นตัวอย่าง: ถ้าได้รับการปฏิบัติ B และ C เป็นตัวควบคุมและพวกเขาทั้งหมดเกิดในปี 1980 ดังนั้น A และ B อาจถูกจับคู่ในปี 1980 ที่อายุ 0 ขณะที่ A และ C ถูกจับคู่ในปี 1981 ที่อายุ 1 และอื่น ๆ . นอกจากนี้ A อาจถูกจับคู่กับค่าการรักษาล่วงหน้าของตัวเองจากปีก่อนหน้า เพื่อที่จะแก้ไขปัญหานี้ฉันใช้ค่าเฉลี่ยของตัวแปรที่แปรผันตามเวลาทั้งหมดซึ่งการจับคู่สามารถระบุบุคคลที่มีค่าเฉลี่ยที่คล้ายกันมากที่สุดในช่วงระยะเวลาของตัวอย่างและฉันทำการจับคู่แยกต่างหากสำหรับแต่ละกลุ่มอายุ 0 ถึง …

2
ฉันจะตีความโมเดล probit ใน Stata ได้อย่างไร
ฉันไม่แน่ใจว่าจะตีความการถดถอยของโปรบิตนี้ได้อย่างไรฉันวิ่งบน Stata ข้อมูลอยู่ในการอนุมัติสินเชื่อและสีขาวเป็นตัวแปรจำลองที่ = 1 หากบุคคลเป็นสีขาวและ = 0 หากบุคคลนั้นไม่ใช่ ความช่วยเหลือเกี่ยวกับวิธีการอ่านนี้จะได้รับการชื่นชมอย่างมาก สิ่งที่ฉันกำลังมองหาส่วนใหญ่คือวิธีการค้นหาความน่าจะเป็นโดยประมาณของการอนุมัติสินเชื่อสำหรับทั้งขาวและไม่ใช่ขาว บางคนสามารถช่วยฉันด้วยข้อความที่นี่และวิธีการทำให้เป็นเรื่องปกติได้หรือไม่? ฉันขอโทษฉันไม่รู้วิธีการทำเช่นนี้ . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.