คำถามติดแท็ก panel-data

ข้อมูลพาเนลอ้างถึงข้อมูลหลายมิติที่เกี่ยวข้องกับการวัดตามระยะเวลาในเศรษฐมิติ มันจะเรียกว่าข้อมูลระยะยาวในชีวสถิติ

1
ข้อมูลสองปีที่อธิบายการเกิดขึ้นของสมาคมการทดสอบความรุนแรงกับจำนวนผู้ป่วยในวอร์ด
ฉันมีข้อมูลสองปีซึ่งมีลักษณะโดยทั่วไปดังนี้ วันที่ _ __ ความรุนแรง Y / N? _ จำนวนผู้ป่วย 1/1/2551 _ ___ 0 __ _ __ _ ____ 11 2/1/2551 _ __ _ 0 _ __ _ __ _ __ 11 3/1/2551 _ ____ 1 __ _ __ _ ____ 12 4/1/2551 _ ____ 0 __ _ __ _ …

2
ในการศึกษาระยะยาวฉันควรใส่นัยยะผลลัพธ์ Y ที่วัดได้ในเวลา 2 สำหรับบุคคลที่หลงหายไปจากการติดตาม?
ฉันมีมาตรการซ้ำ ๆ ที่ 2 ครั้งในกลุ่มตัวอย่าง มีคน 18k ในเวลา 1 และ 13k ในเวลา 2 (5,000 คนหายไปจากการติดตาม) ฉันต้องการถอยหลังผลลัพธ์ Y ที่วัดได้ในเวลา 2 (และผลลัพธ์ไม่สามารถวัดได้ในเวลา 1) ในชุดของตัวทำนาย X วัดในเวลาที่ 1 ตัวแปรทั้งหมดมีข้อมูลที่ขาดหายไปบางส่วน ส่วนใหญ่มันจะค่อนข้างสุ่มหรือความหายไปดูเหมือนจะอธิบายได้ดีจากข้อมูลที่สังเกต อย่างไรก็ตามการหายไปส่วนใหญ่ในผลลัพธ์ Y นั้นเกิดจากการติดตามผลที่สูญเสียไป ฉันจะใช้การใส่หลายครั้ง (R :: mice) และจะใช้ชุดข้อมูลแบบเต็มเพื่อใส่ค่าสำหรับ X แต่ฉันได้รับคำแนะนำที่ขัดแย้งกัน 2 ชิ้นเกี่ยวกับการใส่ความเห็นของ Y: 1) Impute Y จาก X และ V (V = ตัวแปรเสริมที่มีประโยชน์) …

2
ทดสอบว่าผู้คนออกหรือลดการเดิมพันหลังจากมีการสูญเสียซ้ำ
ฉันมีข้อมูลเกี่ยวกับชุดของการชนะและแพ้การเดิมพันมากกว่า 5 รอบของการเดิมพันพร้อมการขัดสีหลังแต่ละรอบ ฉันใช้แผนผังการตัดสินใจดังต่อไปนี้เพื่อแสดงข้อมูล โหนไปทางด้านบนของแผนภูมิคือผู้ที่มีการเดิมพันชนะและที่ด้านล่างของแผนภูมิจะมีการสูญเสียเดิมพัน ฉันต้องการดู (a) การขัดสีที่แต่ละโหนด (b) การเปลี่ยนแปลงขนาดการเดิมพันเฉลี่ยที่แต่ละโหนด ฉันกำลังดูอัตราการขัดสีที่แต่ละโหนดจากโหนดก่อนหน้าและอัตราการรอดชีวิต (ใช้จำนวนคนที่คาดหวังในแต่ละโหนดถ้าความน่าจะเป็น 50%) ตัวอย่างเช่นหากความน่าจะเป็นคือ 50% ที่แต่ละโหนดจาก 1,000 ที่เริ่มต้นประมาณ 500 คนควรอยู่ในแต่ละโหนดที่สอง W และ L สมมติฐานคือ (a) อัตราการขัดสีสูงกว่าหลังจากสูญเสีย การเดิมพัน (b) หมายถึงขนาดการเดิมพันจะลดลงหลังจากผู้แพ้และเพิ่มขึ้นหลังจากผู้ชนะ ฉันแค่ต้องการทำสิ่งนี้ในบรรยากาศที่เรียบง่ายแบบ univariate ก่อน ฉันจะทดสอบ t-test เพื่อแสดงการเปลี่ยนแปลงของขนาดการเดิมพันเฉลี่ยจากโหนด WW เป็นโหนด WWW มีนัยสำคัญทางสถิติได้อย่างไรหากมีคน 50 คนออกไปแล้ว ฉันไม่แน่ใจว่านี่เป็นวิธีการที่ถูกต้อง: การเดิมพันแต่ละครั้งมีความเป็นอิสระ แต่ผู้คนต่างออกไปหลังจากผู้แพ้ดังนั้นตัวอย่างจะไม่ตรงกัน หากเป็นกรณีของชั้นเรียนเดียวกันที่ใช้ชุดการทดสอบแบบหนึ่งต่อเนื่องกันโดยไม่มีการเลื่อนออกไปฉันจะเข้าใจวิธีการทดสอบแบบทดสอบที่เหมาะสม แต่ฉันคิดว่านี่แตกต่างกันเล็กน้อย ฉันจะทำสิ่งนี้ได้อย่างไร นอกจากนี้หากผลลัพธ์มีการบิดเบือนจากลูกค้าจำนวนน้อยฉันจะลบ 5% แรกและ …

3
วัดซ้ำแบบจำลองสมการโครงสร้าง
ฉันต้องการวิเคราะห์ชุดข้อมูลของข้อมูลการฟื้นฟูสมรรถภาพทางคลินิก ฉันสนใจในความสัมพันธ์ที่ขับเคลื่อนด้วยสมมุติฐานระหว่างปริมาณข้อมูลที่ป้อนเข้า (ปริมาณของการรักษา) และการเปลี่ยนแปลงสถานะสุขภาพ แม้ว่าชุดข้อมูลจะมีขนาดค่อนข้างเล็ก (n ~ 70) เรามีข้อมูลซ้ำ ๆ ที่สะท้อนการเปลี่ยนแปลงทางโลกทั้งคู่ ฉันคุ้นเคยกับการสร้างแบบจำลองเอฟเฟ็กต์ที่ไม่ใช่เชิงเส้นใน R แต่ฉันสนใจในความสัมพันธ์แบบ "เชิงสาเหตุ" ที่อาจเกิดขึ้นระหว่างอินพุตและเอาต์พุตที่นี่และกำลังพิจารณาการประยุกต์ใช้มาตรการซ้ำ ๆ ของ SEM ฉันขอขอบคุณคำแนะนำว่าหากแพ็คเกจ SEM สำหรับ R (sam, lavaan, openmx?) ใดเหมาะที่สุดกับข้อมูลการวัดซ้ำ ๆ และโดยเฉพาะคำแนะนำสำหรับตำรา (มี "Pinheiro และ Bates" ของฟิลด์หรือไม่) .

2
ข้อมูลระยะยาว: อนุกรมเวลาการวัดซ้ำหรืออย่างอื่น
ในภาษาอังกฤษธรรมดา: ฉันมีการถดถอยหลายครั้งหรือแบบจำลอง ANOVA แต่ตัวแปรการตอบสนองสำหรับแต่ละบุคคลเป็นฟังก์ชัน curvilinear ของเวลา ฉันจะบอกได้อย่างไรว่าตัวแปรด้านขวามือใดที่รับผิดชอบความแตกต่างที่สำคัญในรูปร่างหรือการชดเชยแนวดิ่งของเส้นโค้ง นี่เป็นปัญหาอนุกรมเวลาปัญหาซ้ำหลายครั้งหรืออย่างอื่นทั้งหมดหรือไม่ อะไรคือแนวปฏิบัติที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลดังกล่าว (ควรใช้Rแต่ฉันเปิดให้ใช้ซอฟต์แวร์อื่น) ในแง่ที่แม่นยำยิ่งขึ้น: สมมุติว่าฉันมีแบบจำลองแต่เป็นชุดของข้อมูลที่รวบรวมจากจุดkบุคคลเดียวกันที่เวลาหลายจุดtซึ่งถูกบันทึกเป็นตัวแปรตัวเลข การพล็อตข้อมูลแสดงให้เห็นว่าสำหรับแต่ละy_ {ijkt}เป็นฟังก์ชันกำลังสองหรือวัฏจักรของเวลาซึ่งออฟเซ็ตแนวตั้งรูปร่างหรือความถี่ (ในกรณีวัฏจักร) อาจขึ้นอยู่กับ covariates โควาเรียตไม่เปลี่ยนแปลงตลอดเวลา - กล่าวคือบุคคลมีน้ำหนักตัวคงที่หรือกลุ่มการรักษาในช่วงระยะเวลาของการรวบรวมข้อมูลy ฉันj k k t y ฉันj k tYฉันเจk= β0+ β1xผม+ β2xJ+ β3xผมxJ+ ϵkyijk=β0+β1xi+β2xj+β3xixj+ϵky_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kYฉันเจkyijky_{ijk}kkkเสื้อttYผม j k tyijkty_{ijkt} …

1
วิธีจัดการกับตัวแปรดัมมี่ที่ถูกตัดในรูปแบบเอฟเฟกต์คงที่?
ฉันใช้รูปแบบคงมีผลสำหรับข้อมูลที่แผงของฉัน (9 ปี 1000 + OBS) ตั้งแต่การทดสอบ Hausman ของฉันแสดงให้เห็นค่า(PR&gt;เมื่อฉันเพิ่มตัวแปรดัมมี่สำหรับอุตสาหกรรมที่ บริษัท ของฉันรวมไว้พวกเขาจะถูกละไว้เสมอ ฉันรู้ว่ามีความแตกต่างใหญ่เมื่อมันมาถึง DV (ดัชนีการเปิดเผย) ในกลุ่มอุตสาหกรรมที่แตกต่างกัน แต่ฉันไม่สามารถรับมันในแบบจำลองของฉันเมื่อใช้ Stata(Pr&gt;χ2)&lt;0.05(Pr&gt;χ2)&lt;0.05(Pr>\chi^2)<0.05 ข้อเสนอแนะวิธีการแก้ปัญหานี้? และทำไมพวกเขามองข้าม?

2
วิธีที่ดีที่สุดในการประเมินผลการรักษาโดยเฉลี่ยในการศึกษาระยะยาวคืออะไร?
ในการศึกษาระยะยาวผลลัพธ์ของหน่วยที่ถูกวัดซ้ำ ๆ ณ จุดเวลาโดยมีโอกาสในการวัดคงที่ทั้งหมด (คงที่ = วัดที่หน่วยในเวลาเดียวกัน)YฉันทีYผมเสื้อY_{it}ผมผมiเสื้อเสื้อtม.ม.m หน่วยที่ได้รับมอบหมายสุ่มทั้งการรักษา,หรือกลุ่มควบคุม, 0 ฉันต้องการประเมินและทดสอบผลการรักษาโดยเฉลี่ยเช่นที่ความคาดหวังนั้นเกิดขึ้นข้ามเวลาและส่วนบุคคล ฉันพิจารณาใช้แบบจำลองหลายระดับ (เอฟเฟกต์ผสม) ในโอกาสคงที่เพื่อวัตถุประสงค์นี้G = 1G=1G=1G = 0G=0G=0TE= E( Y| G=1)-E( Y| G=0),ATE=E(Y|G=1)-E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yฉันที= α + βGผม+ยู0 ฉัน+อีฉันทีYผมเสื้อ=α+βGผม+ยู0ผม+อีผมเสื้อY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} ด้วย the intercept the ,จะถูกสกัดกั้นแบบสุ่มทั่วทั้งหน่วยและส่วนที่เหลือαα\alphaββ\betaTEATEATEยูยูuอีอีe ตอนนี้ฉันกำลังพิจารณารูปแบบทางเลือก Yฉันที=β~Gผม+Σj = …

6
วิธีประมาณฟังก์ชั่นการตอบกลับอัตโนมัติของเวกเตอร์ & การตอบสนองต่อแรงกระตุ้นด้วยข้อมูลพาเนล
ฉันกำลังทำงานกับการประมาณเวกเตอร์การถดถอยอัตโนมัติ (VARs) และการประมาณค่าฟังก์ชันตอบสนองต่อแรงกระตุ้น (IRF) ตามข้อมูลพาเนลกับบุคคล 33 คนใน 77 ไตรมาส สถานการณ์ประเภทนี้ควรวิเคราะห์อย่างไร มีอัลกอริทึมอะไรอยู่สำหรับจุดประสงค์นี้ ฉันต้องการดำเนินการวิเคราะห์เหล่านี้ใน R ดังนั้นหากใครคุ้นเคยกับรหัส R หรือแพ็คเกจที่ออกแบบมาเพื่อจุดประสงค์นี้ที่พวกเขาสามารถแนะนำได้นั่นจะเป็นประโยชน์อย่างยิ่ง

2
การถดถอย SVM พร้อมข้อมูลระยะยาว
ฉันมีตัวแปรประมาณ 500 ตัวต่อผู้ป่วยแต่ละตัวแปรมีหนึ่งค่าอย่างต่อเนื่องและวัดที่จุดเวลาที่ต่างกันสามจุด (หลังจาก 2 เดือนและหลังจาก 1 ปี) ด้วยการถดถอยฉันต้องการที่จะทำนายผลการรักษาสำหรับผู้ป่วยใหม่ เป็นไปได้ไหมที่จะใช้การถดถอย SVM กับข้อมูลตามยาว

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
การใส่ข้อมูลหลายครั้งสำหรับข้อมูลการนับที่ขาดหายไปในอนุกรมเวลาจากการศึกษาแบบพาเนล
ฉันกำลังพยายามที่จะจัดการกับปัญหาที่เกี่ยวข้องกับการใส่ข้อมูลที่หายไปจากการศึกษาข้อมูลแบบพาเนล (ไม่แน่ใจว่าฉันกำลังใช้ 'การศึกษาข้อมูลแบบพาเนล' อย่างถูกต้อง - อย่างที่ฉันได้เรียนรู้ในวันนี้) ถึงปี 2009 ตลอดทั้งเดือนชายและหญิงสำหรับ 8 อำเภอที่แตกต่างกันและสำหรับกลุ่มอายุ 4 ขวบ ชื่อไฟล์มีลักษณะดังนี้: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.