คำถามติดแท็ก missing-data

เมื่อข้อมูลขาดข้อมูล (ช่องว่าง) เช่นไม่สมบูรณ์ ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องพิจารณาคุณสมบัตินี้เมื่อทำการวิเคราะห์หรือทดสอบ

4
ฉันจะตรวจสอบว่าสองสหสัมพันธ์มีความแตกต่างอย่างมีนัยสำคัญได้อย่างไร
ฉันต้องการพิจารณาว่าชุดข้อมูลสองชุดใด (B1, B2) ดีกว่าสัมพันธ์ (pearsons r) กับชุดอื่น (A) ไม่มีข้อมูลในชุดข้อมูลทั้งหมด ฉันจะทราบได้อย่างไรว่าความสัมพันธ์ที่เกิดขึ้นมีความแตกต่างอย่างมีนัยสำคัญหรือไม่? เช่นค่า 8426 มีทั้ง A และ B1, r = 0.74 8798 มีอยู่ทั้ง A และ B2, r = 0.72 ฉันคิดว่าคำถามนี้อาจช่วยได้ แต่ก็ยังไม่ได้รับคำตอบ: จะรู้ได้อย่างไรว่าระบบหนึ่งดีกว่าอีกระบบหนึ่งอย่างมาก

2
แผนการถ่วงน้ำหนักทางเลือกสำหรับการวิเคราะห์อภิมานผลแบบสุ่ม: การเบี่ยงเบนมาตรฐานหายไป
ฉันกำลังทำงานกับการวิเคราะห์อภิมานผลแบบสุ่มซึ่งครอบคลุมการศึกษาจำนวนหนึ่งซึ่งไม่ได้รายงานความเบี่ยงเบนมาตรฐาน การศึกษาทั้งหมดทำรายงานขนาดตัวอย่าง ฉันไม่เชื่อว่ามีความเป็นไปได้ที่จะประมาณหรือลบล้างข้อมูลที่หายไปของ SD meta-analysis ที่ใช้ raw (ไม่เป็นมาตรฐาน) หมายถึงความแตกต่างในขณะที่ขนาดของเอฟเฟกต์นั้นมีน้ำหนักเมื่อไม่มีการเบี่ยงเบนมาตรฐานสำหรับการศึกษาทั้งหมดหรือไม่ แน่นอนว่าฉันสามารถประมาณค่า tau-squared และต้องการที่จะรวมการวัดความแปรปรวนระหว่างการศึกษาในรูปแบบน้ำหนักใด ๆ ที่ฉันใช้อยู่ในกรอบสุ่มผลกระทบ ข้อมูลเพิ่มเติมเล็กน้อยรวมอยู่ด้านล่าง: เหตุใดความแตกต่างของค่าเฉลี่ยดิบจึงยังคงมีประโยชน์: ข้อมูลถูกรายงานในระดับที่มีความหมายอย่างแท้จริง: ดอลลาร์สหรัฐต่อหน่วย ดังนั้นการวิเคราะห์เมตาของความแตกต่างเฉลี่ยจะตีความได้ทันที เหตุใดฉันจึงไม่สามารถประมาณค่าหรือเบี่ยงเบนข้อมูล SD ได้: การศึกษาข้อมูลเบี่ยงเบนมาตรฐานที่ขาดหายไปนั้นไม่ได้มีข้อมูลเพียงพอที่จะประมาณค่าเบี่ยงเบนมาตรฐาน (เช่นค่ามัธยฐานและช่วงไม่ได้ถูกรายงานในวรรณคดี) การใส่ข้อมูลที่ขาดหายไปดูเหมือนว่าไม่เหมาะสมเนื่องจากการศึกษาส่วนใหญ่ขาด SD และเนื่องจากการศึกษาแตกต่างกันอย่างมากในแง่ของพื้นที่ทางภูมิศาสตร์ที่ครอบคลุมและโปรโตคอลการสำรวจ โดยทั่วไปแล้วจะทำอะไรกับความแตกต่างของค่าเฉลี่ยในการวิเคราะห์อภิมาน: ตุ้มน้ำหนักการศึกษาจะขึ้นอยู่กับข้อผิดพลาดมาตรฐานของความแตกต่างเฉลี่ย (โดยทั่วไปจะคำนวณด้วยคำศัพท์ขนาดตัวอย่าง ฉันไม่มีสิ่งนี้ ในการวิเคราะห์อภิมานผลกระทบแบบสุ่มน้ำหนักการศึกษายังรวมถึงคำศัพท์สำหรับความแปรปรวนระหว่างการศึกษาด้วย ฉันมีสิ่งนี้ สามารถใช้การถ่วงน้ำหนักขนาดตัวอย่างแบบง่ายๆในบริบทนี้ได้หรือไม่? ฉันจะรวมการประมาณค่า tau-squared (หรือการวัดอื่นของการกระจายระหว่างการศึกษา) เข้ากับน้ำหนักได้อย่างไร

2
การรวมตัวแปรคำอธิบายที่ละเอียดมากขึ้นเมื่อเวลาผ่านไป
ฉันพยายามที่จะเข้าใจว่าฉันจะสร้างแบบจำลองตัวแปรที่ดีที่สุดได้อย่างไรเมื่อเวลาผ่านไป ตัวอย่างเช่นพิจารณาการสร้างแบบจำลองอัตราการกู้คืนเงินให้สินเชื่อที่ผิดนัด สมมติว่าเรามีชุดข้อมูลที่มีข้อมูล 20 ปีและในช่วง 15 ปีแรกเรารู้เพียงว่าเงินกู้นั้นมีหลักประกันหรือไม่ แต่ไม่มีอะไรเกี่ยวกับคุณลักษณะของหลักประกันนั้น อย่างไรก็ตามในช่วงห้าปีที่ผ่านมาเราสามารถแบ่งหลักประกันออกเป็นหมวดหมู่ต่างๆซึ่งคาดว่าจะเป็นตัวทำนายที่ดีของอัตราการกู้คืน ด้วยการตั้งค่านี้ฉันต้องการให้พอดีกับแบบจำลองของข้อมูลกำหนดมาตรการต่าง ๆ เช่นนัยสำคัญทางสถิติของตัวทำนายและจากนั้นทำนายด้วยตัวแบบ กรอบข้อมูลใดที่ขาดหายไปพอดีกับสิ่งนี้? มีการพิจารณาพิเศษใด ๆ ที่เกี่ยวข้องกับความจริงที่ว่าตัวแปรอธิบายที่ละเอียดมากขึ้นมีให้เฉพาะหลังจากเวลาที่กำหนดซึ่งต่างจากการกระจัดกระจายไปทั่วตัวอย่างประวัติศาสตร์หรือไม่?

1
การทำนายด้วย randomForest (R) เมื่ออินพุตบางตัวมีค่าขาดหายไป (NA)
ฉันมีrandomForestรูปแบบการจำแนกที่ดีซึ่งฉันต้องการใช้ในแอปพลิเคชันที่ทำนายคลาสของเคสใหม่ กรณีใหม่มีค่าที่ขาดหายไปอย่างหลีกเลี่ยงไม่ได้ การทำนายจะไม่ทำงานเช่นนี้สำหรับ NAs ฉันจะทำสิ่งนี้ได้อย่างไร data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> ฉันพยายามmissForestแล้ว ฉันรวมข้อมูลดั้งเดิมและเคสใหม่แล้วเขย่าด้วยmissForestและรับค่าที่เป็นนัยสำหรับ NAs ในเคสใหม่ของฉัน การคำนวณที่หนักเกินไป data.imp <- missForest(data.with.na) แต่ต้องมีวิธีการใช้ rf-model เพื่อทำนายกรณีใหม่ที่มีค่าหายไปใช่ไหม?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป
สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})(y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xnxnx_{n}(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})xn=f3(x1,⋯,xn−1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})yyy yy=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))=f2(x1,⋯,xn−1)(4)(5)(4)y=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))(5)y=f2(x1,⋯,xn−1) \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} โดยทั่วไปอันไหนดีกว่ากัน? ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn−1n−1n-1 นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?nnn

4
วิธีจัดการกับ gaps / NaNs ในข้อมูลอนุกรมเวลาเมื่อใช้ Matlab สำหรับ autocorrelation และ neural Networks
ฉันมีอนุกรมเวลาของการวัด (ซีรีย์ความสูงหนึ่งมิติ) ในช่วงเวลาการสังเกตกระบวนการวัดลงไปบางจุด ดังนั้นข้อมูลที่ได้คือเวกเตอร์ที่มี NaNs ซึ่งมีช่องว่างในข้อมูล การใช้ MATLAB ทำให้ฉันมีปัญหาเมื่อคำนวณค่าความสัมพันธ์อัตโนมัติ ( autocorr) และการใช้เครือข่ายประสาท ( nnstart) Gaps / NaN เหล่านี้ควรถูกจัดการอย่างไร? ฉันควรนำสิ่งเหล่านี้ออกจากเวกเตอร์หรือไม่ หรือแทนที่รายการของพวกเขาด้วยค่าที่แก้ไขแล้ว? (ถ้าเป็นเช่นนั้นใน MATLAB)

3
การรักษาระดับตัวแปรเด็ดขาด 'ไม่ทราบ / ปฏิเสธ'
ฉันกำลังสร้างแบบจำลองการทำนายโรคเบาหวานโดยใช้การถดถอยโลจิสติก ชุดข้อมูลที่ใช้คือ ระบบเฝ้าระวังปัจจัยเสี่ยง (BRFSS)ของศูนย์ควบคุมโรค (CDC) หนึ่งในตัวแปรอิสระคือความดันโลหิตสูง มันเป็นหมวดหมู่ที่มีระดับต่อไปนี้ 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' ฉันควรลบแถวเหล่านั้นด้วย 'ไม่ทราบ / ปฏิเสธ' ในขณะที่สร้างแบบจำลองหรือไม่ มีความแตกต่างอะไรในการรักษาหรือลบแถวเหล่านั้นออกจากแบบจำลอง

7
ความสัมพันธ์ระหว่างตัวแปรสองตัวที่มีขนาดไม่เท่ากัน
ในปัญหาที่ฉันกำลังทำงานอยู่ฉันมีตัวแปรสุ่มสองตัวคือ X และ Y ฉันต้องหาว่าพวกเขาสองคนมีความสัมพันธ์กันอย่างไร แต่พวกมันมีมิติที่แตกต่างกัน อันดับของพื้นที่แถวของ X คือ 4350 และอันดับของพื้นที่แถวของ Y นั้นใหญ่ขึ้นอย่างมากในหลักหมื่น ทั้ง X และ Y มีจำนวนคอลัมน์เท่ากัน ฉันต้องการตัวชี้วัดความสัมพันธ์ระหว่างตัวแปรทั้งสองและ r ของ Pearson ต้องการ X และ Y เพื่อให้มีมิติที่เท่ากัน (อย่างน้อย R ต้องให้ rv สองตัวเป็น) ฉันมีความหวังในการสร้างความสัมพันธ์ระหว่างสองสิ่งนี้หรือไม่หรือฉันควรหาวิธีตัดการสังเกตจาก Y หรือไม่? EDIT การเพิ่มข้อมูลจากความคิดเห็นซึ่งควรอยู่ในคำถาม ฉันคิดว่าฉันลืมที่จะพูดถึงเรื่องนี้ X และ Y คือราคาหุ้น บริษัท X เปิดตัวต่อสาธารณชนในช่วงเวลาที่สั้นกว่า Y ฉันอยากจะบอกว่าราคาของ X และ Y …

2
ฉันจะตัดสินได้อย่างไรว่าโมเดลการเอาตัวรอดที่มีข้อมูลหายไปเหมาะสมหรือไม่
ฉันมีบันทึกประมาณล้านรายการที่บันทึกเวลาเข้าและเวลาออกของผู้คนในระบบซึ่งครอบคลุมประมาณสิบปี ทุกเรคคอร์ดมีเวลาเข้า แต่ไม่ใช่ทุกเรคคอร์ดมีเวลาออก เวลาเฉลี่ยในระบบคือ ~ 1 ปี เวลาทางออกที่หายไปเกิดขึ้นด้วยเหตุผลสองประการ: บุคคลไม่ได้ออกจากระบบในเวลาที่ข้อมูลถูกจับ ไม่ได้บันทึกเวลาออกของบุคคลนั้น เรื่องนี้เกิดขึ้นกับ 50% ของบันทึก คำถามที่น่าสนใจคือ: มีคนใช้เวลาน้อยลงในระบบและเวลาน้อยลง มีการบันทึกเวลาออกที่มากขึ้นและจำนวนเท่าไหร่ เราสามารถทำแบบนี้โดยบอกว่าความน่าจะเป็นที่ทางออกได้รับการบันทึกแตกต่างกันไปตามเวลาและเวลาในระบบมี Weibull ซึ่งพารามิเตอร์ต่างกันไปตามเวลา จากนั้นเราสามารถทำการประเมินความน่าจะเป็นสูงสุดของพารามิเตอร์ต่างๆและลูกตาผลลัพธ์และเห็นว่าน่าเชื่อถือ เราเลือกการแจกแจงแบบ Weibull เพราะดูเหมือนว่าจะใช้ในการวัดอายุการใช้งานและสนุกที่จะพูดเมื่อเทียบกับการปรับให้เหมาะสมกับข้อมูลที่ดีกว่าการบอกว่าเป็นการกระจายแกมม่า ฉันควรหาเบาะแสว่าจะทำอย่างไรให้ถูกต้อง? เราค่อนข้างเข้าใจทางคณิตศาสตร์ แต่ไม่เข้าใจสถิติอย่างมาก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.