คำถามติดแท็ก causality

ความสัมพันธ์ระหว่างสาเหตุและผลกระทบ

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
เหตุใดจึงต้องใช้ตัวแปรควบคุมในส่วนที่แตกต่าง
ฉันมีคำถามเกี่ยวกับวิธีแยกความแตกต่างด้วยสมการมาตรฐานต่อไปนี้: โดยที่ treat เป็นตัวแปรจำลองสำหรับกลุ่มและโพสต์ที่ได้รับการรักษา y=a+b1treat+b2post+b3treat⋅post+uy=a+b1treat+b2post+b3treat⋅post+u y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u ตอนนี้คำถามของฉันง่าย: ทำไมกระดาษส่วนใหญ่ยังคงใช้ตัวแปรควบคุมเพิ่มเติม? ฉันคิดว่าหากการคาดการณ์แนวโน้มแบบขนานนั้นถูกต้องเราไม่ควรกังวลเกี่ยวกับการควบคุมเพิ่มเติม ฉันคิดเพียง 2 เหตุผลที่เป็นไปได้ว่าทำไมถึงใช้ตัวแปรควบคุม: หากไม่มีพวกเขาแนวโน้มจะไม่ขนานกัน เนื่องจากสเปค DnD นั้นมีความแตกต่างในแนวโน้มระหว่างกลุ่มการรักษาและกลุ่มควบคุม ณ เวลาที่ทำการรักษากับการแทรกแซง (เช่นคำศัพท์ที่ปฏิบัติต่อการรักษา * โพสต์) - เมื่อเราไม่ได้ควบคุมตัวแปรอื่น ๆ สัมประสิทธิ์ของการโต้ตอบอาจจบลง - / understated มีใครบ้างไหมที่ให้ความกระจ่างเกี่ยวกับปัญหานี้ เหตุผลของฉัน 1) หรือ 2) สมเหตุสมผลไหม? ฉันไม่เข้าใจการใช้ตัวแปรควบคุมใน DnD อย่างสมบูรณ์

1
จากการระบุถึงการประมาณ
ฉันกำลังอ่านชิ้นส่วนของ Pearl (Pearl, 2009, 2nd edition) เกี่ยวกับสาเหตุและการดิ้นรนเพื่อสร้างการเชื่อมโยงระหว่างการระบุแบบไม่มีพารามิเตอร์ของแบบจำลองและการประมาณค่าจริง น่าเสียดายที่ Pearl ตัวเองเงียบมากในหัวข้อนี้ เพื่อให้ตัวอย่างผมมีรูปแบบที่เรียบง่ายในใจมีเส้นทางสาเหตุ,และปัจจัยรบกวนที่มีผลต่อตัวแปรทั้งหมด ,และY นอกจากนี้และเกี่ยวข้องกันโดยไม่มีใครสังเกตอิทธิพล,Y ตามกฎของการคำนวณแคลคูลัสตอนนี้ฉันรู้ว่าการแจกแจงความน่าจะเป็นหลังการแทรกแซง (ไม่ต่อเนื่อง) มอบให้โดย:x→z→yx→z→yx \rightarrow z \rightarrow yw→xw→xw \rightarrow xw→zw→zw \rightarrow zw→yw→yw \rightarrow yxxxyyyx←→yx←→yx \leftarrow \rightarrow y P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]].P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]]. P(y \mid do(x)) = \sum_{w,z}\bigl[P(z\mid w,x)P(w)\sum_{x}\bigl[P(y\mid w,x,z)P(x\mid w)\bigr]\bigr]. ฉันรู้ว่าฉันสามารถประเมินปริมาณนี้ได้อย่างไร (ไม่ใช่แบบพารามิเตอร์หรือโดยการแนะนำสมมติฐานแบบพารามิเตอร์) โดยเฉพาะอย่างยิ่งในกรณีที่wwwเป็นชุดของตัวแปรที่รบกวนหลายตัวและปริมาณของดอกเบี้ยจะต่อเนื่อง เพื่อประเมินการกระจายการแทรกแซงล่วงหน้าของข้อมูลที่ดูเหมือนจะเป็นไปไม่ได้ในกรณีนี้ มีใครรู้บ้างว่ามีแอปพลิเคชันของวิธีการของ Pearl ที่จัดการกับปัญหาเหล่านี้หรือไม่? ฉันจะมีความสุขมากสำหรับตัวชี้

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
มันยุติธรรมแค่ไหนที่จะใช้คำว่า "ทำนาย" สำหรับการถดถอย (โลจิสติก)?
ความเข้าใจของฉันคือว่าแม้การถดถอยไม่ได้ก่อให้เกิดเวรกรรม มันสามารถให้ความสัมพันธ์ระหว่างตัวแปร y และตัวแปร x และทิศทางที่เป็นไปได้ ฉันถูกไหม? ฉันมักพบวลีที่คล้ายกับ "x ทำนาย y" แม้ในตำราเรียนส่วนใหญ่และในหน้าหลักสูตรออนไลน์ต่างๆ และคุณมักจะเรียก regressors เป็นตัวทำนายและ y เป็นคำตอบ มันยุติธรรมแค่ไหนที่จะใช้กับการถดถอยเชิงเส้น? วิธีการเกี่ยวกับการถดถอยโลจิสติก? (ถ้าฉันมีเกณฑ์ t ซึ่งฉันสามารถเปรียบเทียบความน่าจะเป็นได้หรือไม่)

1
ช่วงความเชื่อมั่นสำหรับผลการรักษาโดยเฉลี่ยจากน้ำหนักคะแนนความชอบ?
ฉันพยายามที่จะประเมินผลการรักษาโดยเฉลี่ยจากข้อมูลการสังเกตโดยใช้น้ำหนักคะแนนความชอบ (โดยเฉพาะ IPTW) ฉันคิดว่าฉันคำนวณ ATE อย่างถูกต้อง แต่ฉันไม่ทราบวิธีคำนวณช่วงความมั่นใจของ ATE ในขณะที่คำนึงถึงน้ำหนักความชอบแบบผกผัน นี่คือสมการที่ฉันใช้ในการคำนวณผลการรักษาโดยเฉลี่ย (อ้างอิง Med Med. 10 ก.ย. 2010; 29 (20): 2137–2148): โดยที่จำนวนวิชาทั้งหมด,สถานะการรักษา,สถานะผลลัพธ์และคะแนนความชอบTE=1ยังไม่มีข้อความΣ1ยังไม่มีข้อความZผมYผมพีผม-1ยังไม่มีข้อความΣ1ยังไม่มีข้อความ( 1 -Zผม)Yผม1 -พีผมATE=1ยังไม่มีข้อความΣ1ยังไม่มีข้อความZผมYผมพีผม-1ยังไม่มีข้อความΣ1ยังไม่มีข้อความ(1-Zผม)Yผม1-พีผมATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}ยังไม่มีข้อความ=ยังไม่มีข้อความ=N=Zผม=Zผม=Z_i=Yผม=Yผม=Y_i=พีผม=พีผม=p_i= ไม่มีใครทราบแพ็คเกจ R ที่จะคำนวณช่วงความมั่นใจของผลการรักษาโดยเฉลี่ยโดยคำนึงถึงน้ำหนักหรือไม่ สามารถระบุsurveyความช่วยเหลือในแพคเกจที่นี่? ฉันสงสัยว่าสิ่งนี้จะได้ผลหรือไม่: library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 ฉันไม่รู้ว่าจะไปจากที่นี่เพื่อหาช่วงความมั่นใจของความแตกต่างระหว่างสัดส่วน …

3
ฟังก์ชันถ่ายโอนในแบบจำลองการพยากรณ์ - การตีความ
ฉันถูกครอบครองโดยการสร้างแบบจำลองของ ARIMA ซึ่งเสริมด้วยตัวแปรภายนอกสำหรับวัตถุประสงค์ในการสร้างแบบจำลองการส่งเสริมการขายและฉันมีเวลาอธิบายให้ผู้ใช้ทางธุรกิจยาก ในบางกรณีแพคเกจซอฟต์แวร์จะสิ้นสุดลงด้วยฟังก์ชั่นการถ่ายโอนอย่างง่ายเช่นพารามิเตอร์ * ตัวแปรภายนอก ในกรณีนี้การตีความเป็นเรื่องง่ายเช่นกิจกรรมส่งเสริมการขาย X (แสดงโดยตัวแปรไบนารีภายนอก) ส่งผลต่อตัวแปรตาม (เช่นความต้องการ) ด้วยจำนวน Y ดังนั้นในแง่ธุรกิจเราสามารถพูดได้ว่ากิจกรรมส่งเสริมการขาย X ส่งผลให้ความต้องการหน่วย Y เพิ่มขึ้น บางครั้งฟังก์ชันถ่ายโอนมีความซับซ้อนมากขึ้นเช่นการแบ่งส่วนของพหุนาม * ตัวแปรภายนอก สิ่งที่ฉันสามารถทำได้คือการแบ่งส่วนของพหุนามเพื่อหาค่าสัมประสิทธิ์การถดถอยแบบไดนามิกทั้งหมดและกล่าวว่าเช่นกิจกรรมส่งเสริมการขายไม่เพียง แต่ส่งผลต่อความต้องการในช่วงเวลาที่เกิดขึ้น แต่ยังอยู่ในช่วงเวลาในอนาคต แต่เนื่องจากซอฟต์แวร์ฟังก์ชันถ่ายโอนเอาต์พุตเป็นส่วนหนึ่งของผู้ใช้ทางธุรกิจที่มีหลายชื่อไม่สามารถตีความได้อย่างง่ายดาย มีอะไรบ้างที่เราสามารถพูดได้เกี่ยวกับฟังก์ชั่นการถ่ายโอนที่ซับซ้อนโดยไม่ต้องทำการหาร? พารามิเตอร์ของรุ่นที่เกี่ยวข้องและฟังก์ชั่นการถ่ายโอนที่เกี่ยวข้องมีดังนี้: ค่าคงที่ = 4200, AR (1), ค่าสัมประสิทธิ์กิจกรรมส่งเสริมการขาย 30, Num1 = -15, Num2 = 1.62, Den1 = 0.25 ดังนั้นฉันเดาว่าถ้าเราทำกิจกรรมส่งเสริมการขายในช่วงเวลานี้ระดับความต้องการจะเพิ่มขึ้น 30 หน่วย นอกจากนี้เนื่องจากมีฟังก์ชันถ่ายโอน (การแบ่งส่วนของพหุนาม) กิจกรรมส่งเสริมการขายจะมีผลกระทบไม่เพียง แต่กับช่วงเวลาปัจจุบันเท่านั้น …

3
การมอบหมายแบบสุ่ม: ทำไมต้องกังวล
การมอบหมายแบบสุ่มมีค่าเพราะช่วยให้มั่นใจได้ถึงความเป็นอิสระในการรักษาจากผลลัพธ์ที่อาจเกิดขึ้น นั่นคือวิธีที่จะนำไปสู่การประมาณการแบบไม่เอนเอียงของผลการรักษาโดยเฉลี่ย แต่รูปแบบการมอบหมายอื่น ๆ สามารถมั่นใจได้อย่างเป็นระบบในการรักษาจากผลลัพธ์ที่เป็นไปได้อย่างเป็นระบบ แล้วทำไมเราต้องสุ่มมอบหมาย? กล่าวอีกนัยหนึ่งอะไรคือข้อดีของการมอบหมายแบบสุ่มเหนือแผนการมอบหมายที่ไม่ใช่การสุ่มที่นำไปสู่การอนุมานที่ไม่เอนเอียง? ให้เป็นเวกเตอร์ของการกำหนดการรักษาซึ่งแต่ละองค์ประกอบคือ 0 (หน่วยที่ไม่ได้รับมอบหมายให้ทำการรักษา) หรือ 1 (หน่วยที่กำหนดให้การรักษา) ในบทความ JASA, Angrist, Imbens และ Rubin (1996, 446-47)บอกว่าการมอบหมายการรักษานั้นเป็นการสุ่มถ้าสำหรับ\ mathbf {c}และ\ mathbf {c'} ทุกอย่างที่\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '}โดยที่\ iotaเป็น เวกเตอร์คอลัมน์ที่มีองค์ประกอบทั้งหมดเท่ากับ 1ZZ\mathbf{Z}ZiZiZ_iPr(Z=c)=Pr(Z=c′)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c}c′c′\mathbf{c'}ιTc=ιTc′ιTc=ιTc′\iota^T\mathbf{c} …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.