คำถามติดแท็ก endogeneity

3
ควรใช้เอฟเฟกต์คงที่เมื่อใดกับการใช้คลัสเตอร์ SE
สมมติว่าคุณมีข้อมูลข้ามส่วนเดียวที่บุคคลตั้งอยู่ภายในกลุ่ม (เช่นนักเรียนในโรงเรียน) และคุณต้องการประเมินแบบจำลองของแบบฟอร์มY_i = a + B*X_iที่Xเป็นเวกเตอร์ของลักษณะระดับบุคคลและaค่าคงที่ ในกรณีนี้สมมติว่าไม่มีความแตกต่างระหว่างกลุ่มที่แตกต่างกันทำให้ลำเอียงประเมินจุดของคุณBและ SEs ของพวกเขาเนื่องจากมีความสัมพันธ์กับตัวแปรอิสระที่คุณสนใจ ทางเลือกหนึ่งคือการจัดกลุ่ม SE ของคุณตามกลุ่ม (โรงเรียน) อีกประการหนึ่งคือการรวมกลุ่ม FE อีกอย่างคือให้ใช้ทั้ง สิ่งที่ควรพิจารณาเมื่อเลือกระหว่างตัวเลือกเหล่านี้ ไม่ชัดเจนว่าทำไมกลุ่มหนึ่งอาจรวมกลุ่ม SE ตามกลุ่มและใช้กลุ่ม FE ในกรณีเฉพาะของฉันฉันมี 35 กลุ่มและ 5,000 คนซ้อนกันภายในแต่ละกลุ่ม ฉันได้ติดตามการสนทนาในไฟล์ PDF นี้แต่ไม่ชัดเจนว่าทำไมและเมื่อใดจึงอาจใช้ทั้ง SEs แบบคลัสเตอร์และเอฟเฟกต์คงที่ (โปรดอภิปรายข้อดีและข้อเสียของ SEs เทียบกับ FE แทนการแนะนำฉันพอดีกับโมเดลหลายระดับ)

3
แบบจำลองสองขั้นตอน: ความแตกต่างระหว่างแบบจำลอง Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) และตัวแปรเครื่องมือ (เพื่อจัดการกับ endogenity)
ฉันกำลังพยายามทำให้เข้าใจถึงความแตกต่างระหว่างการเลือกตัวอย่างและ endogeneity และในทางกลับกันว่าแบบจำลองของ Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) แตกต่างจากการถดถอยตัวแปรเครื่องมือ (เพื่อจัดการกับ endogeneity) อย่างไร มันถูกต้องหรือไม่ที่จะบอกว่าการเลือกตัวอย่างเป็นรูปแบบเฉพาะของ endogeneity ซึ่งตัวแปรภายนอกนั้นมีโอกาสที่จะได้รับการรักษา? นอกจากนี้ฉันคิดว่าทั้ง Heckman model และ IV regression เป็น 2-stage model ซึ่งในระยะแรกคาดการณ์ความน่าจะเป็นที่ได้รับการรักษา - ฉันคิดว่าพวกเขาจะต้องแตกต่างกันในแง่ของสิ่งที่พวกเขากำลังประจักษ์วัตถุประสงค์และสมมติฐานของพวกเขา แต่อย่างไร

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
การประมาณ
ฉันมีแบบจำลองทางเศรษฐศาสตร์เชิงทฤษฎีซึ่งมีดังต่อไปนี้ y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u ดังนั้นทฤษฎีบอกว่ามี , x 2และx 3ปัจจัยในการประมาณการปีx1x1x_1x2x2x_2x3x3x_3yyy ตอนนี้ผมมีข้อมูลจริงและฉันต้องการที่จะประเมิน , ข2 , B 3 ปัญหาคือชุดข้อมูลจริงมีเพียงข้อมูลสำหรับx 1และx 2เท่านั้น มีข้อมูลสำหรับการไม่มีx 3 ดังนั้นแบบจำลองที่ฉันสามารถใส่ได้คือ:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u มันโอเคที่จะประเมินโมเดลนี้หรือไม่? ฉันจะสูญเสียสิ่งที่ประเมินหรือไม่ ถ้าฉันประมาณ , b 2แล้วเทอมb 3 x 3จะไปที่ไหนb1b1b_1b2b2b_2b3x3b3x3b_3x_3 มันคิดโดยระยะผิดพลาด ?uuu …

2
ทิศทางของความเป็นเหตุเป็นผลระหว่างตราสารกับตัวแปรต่างกันหรือไม่?
รูปแบบมาตรฐานของตัวแปรเครื่องมือในแง่ของ causality ( ->) คือ: Z -> X -> Y โดยที่ Z เป็นเครื่องมือ, X คือตัวแปรภายนอกและการตอบสนอง Y เป็นไปได้ไหมว่ามีความสัมพันธ์ต่อไปนี้: Z <- X ->Y Z <-> X ->Y ถูกต้องหรือไม่ ในขณะที่ความสัมพันธ์ระหว่างเครื่องมือและตัวแปรเป็นที่พอใจฉันจะคิดถึงการ จำกัด การยกเว้นในกรณีเช่นนี้ได้อย่างไร หมายเหตุ: สัญลักษณ์<->ไม่ชัดเจนและอาจนำไปสู่ความเข้าใจที่แตกต่างกันของปัญหา แต่ถึงกระนั้นคำตอบก็เน้นที่ปัญหานี้และใช้เพื่อแสดงประเด็นสำคัญของปัญหา เมื่ออ่านโปรดดำเนินการด้วยความระมัดระวังเกี่ยวกับส่วนนี้ของคำถาม

1
ความสอดคล้องของ 2SLS พร้อมกับตัวแปรภายนอก Binary
ฉันได้อ่านว่าตัวประมาณค่า 2SLS ยังคงสอดคล้องกันแม้จะมีตัวแปร endogenous แบบไบนารี ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ) ในระยะแรกจะใช้โมเดลการรักษาแบบ Probit แทนแบบจำลองเชิงเส้น มีหลักฐานที่เป็นทางการใด ๆ ที่แสดงว่า 2SLS ยังคงสอดคล้องกันแม้ในระยะที่ 1 เป็น probit หรือ logit model? แล้วถ้าผลออกมาเป็นเลขฐานสองล่ะ? ฉันเข้าใจว่าถ้าเรามีผลลัพธ์แบบไบนารีและตัวแปร endogenous แบบไบนารี (ขั้นตอนที่ 1 และ 2 เป็นทั้งแบบไบนารี probit / logit) การเลียนแบบวิธี 2SLS จะสร้างการประมาณที่ไม่สอดคล้องกัน มีหลักฐานอย่างเป็นทางการสำหรับเรื่องนี้หรือไม่? หนังสือเศรษฐมิติของ Wooldridge มีการพูดคุยกันบ้าง แต่ฉันคิดว่ามันไม่มีข้อพิสูจน์ที่ชัดเจนในการแสดงความไม่ลงรอยกัน data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.