คำถามติดแท็ก missing-data

เมื่อข้อมูลขาดข้อมูล (ช่องว่าง) เช่นไม่สมบูรณ์ ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องพิจารณาคุณสมบัตินี้เมื่อทำการวิเคราะห์หรือทดสอบ

1
วิธีที่ค่า 'NA' ถูกใช้ใน glm ใน R
ฉันมีตารางข้อมูล T1 ที่มีเกือบหนึ่งพันตัวแปร (V1) และประมาณ 200 ล้านจุดข้อมูล ข้อมูลเบาบางและรายการส่วนใหญ่เป็น NA แต่ละดาต้าพ้อยท์มี id และคู่ที่ไม่ซ้ำกันเพื่อแยกความแตกต่าง ฉันมีอีกตาราง T2 ซึ่งมีชุดตัวแปร (V2) แยกกัน ตารางนี้ยังมีคู่ id และวันที่ที่ระบุรายการใน T2 โดยไม่ซ้ำกัน เราสงสัยว่าข้อมูลใน T1 สามารถใช้ในการทำนายค่าของตัวแปรใน T2 เพื่อพิสูจน์สิ่งนี้ฉันคิดว่าจะใช้โมเดล 'glm' ใน R และตรวจสอบว่าเราสามารถหาตัวแปรใน T2 ที่ขึ้นอยู่กับตัวแปรใน T1 หรือไม่ สำหรับแต่ละตัวแปรใน T2 ฉันเริ่มดึงข้อมูลทั้งหมดใน T1 ที่มี id และคู่วันเดียวกันซึ่งทำให้จุดข้อมูลเล็กกว่า ~ 50K สำหรับตัวแปรทดสอบบางตัว ปัญหาที่ฉันเผชิญในขณะนี้ด้วยการประยุกต์ใช้ glm มีดังนี้ ในบางกรณีมันแสดงให้ฉันเห็นข้อผิดพลาด 'พอดีไม่พบ' …

3
ความน่าจะเป็นข้อมูลสูงสุดสำหรับข้อมูลที่หายไปใน R
บริบท : การถดถอยตามลำดับชั้นด้วยข้อมูลที่ขาดหายไปบางส่วน คำถาม : ฉันจะใช้การประมาณค่าความน่าจะเป็นสูงสุด (FIML) ของข้อมูลแบบเต็มเพื่อจัดการกับข้อมูลที่ขาดหายไปใน R ได้อย่างไร มีแพ็คเกจอะไรที่คุณอยากจะแนะนำและมีขั้นตอนทั่วไปอย่างไรบ้าง? แหล่งข้อมูลออนไลน์และตัวอย่างจะมีประโยชน์มากเช่นกัน PS : ฉันเป็นนักวิทยาศาสตร์ทางสังคมที่เพิ่งเริ่มใช้ตัวเลือกหลายอาร์เป็นตัวเลือก แต่ฉันชอบที่โปรแกรม Mplus ที่สง่างามจัดการกับข้อมูลที่หายไปโดยใช้ FIML ได้อย่างไร น่าเสียดายที่ Mplus ดูเหมือนจะไม่เปรียบเทียบแบบจำลองในบริบทของการถดถอยแบบลำดับชั้นในขณะนี้ (โปรดแจ้งให้เราทราบหากคุณรู้วิธีการทำเช่นนั้น!) ฉันสงสัยว่ามีอะไรที่คล้ายกันใน R หรือไม่? ขอบคุณมาก!

2
การใส่หลายครั้งสำหรับตัวแปรผลลัพธ์
ฉันมีชุดข้อมูลเกี่ยวกับการทดลองทางการเกษตร ตัวแปรตอบกลับของฉันคืออัตราส่วนการตอบสนอง: บันทึก (การรักษา / การควบคุม) ฉันสนใจในสิ่งที่เป็นสื่อกลางความแตกต่างดังนั้นฉันจึงเรียกใช้ RE-meta-regressions (ไม่ถ่วงน้ำหนักเนื่องจากดูเหมือนชัดเจนว่าขนาดของเอฟเฟกต์นั้นไม่มีความสัมพันธ์กับความแปรปรวนของการประมาณ) การศึกษาแต่ละครั้งจะรายงานถึงผลผลิตของข้าว, ชีวมวลหรือทั้งสองอย่าง ฉันไม่สามารถแยกแยะผลผลิตข้าวจากการศึกษาที่รายงานผลผลิตชีวมวลเพียงอย่างเดียวเพราะไม่ใช่พืชที่ศึกษาทั้งหมดมีประโยชน์สำหรับเมล็ดพืช (เช่นอ้อยรวมอยู่ด้วย) แต่พืชแต่ละชนิดที่ผลิตธัญพืชก็มีชีวมวลด้วยเช่นกัน สำหรับเพื่อนร่วมงานที่ขาดหายไปฉันใช้การใส่คำซ้ำซ้ำ (ตามบทตำราของ Andrew Gelman) ดูเหมือนว่าจะให้ผลลัพธ์ที่สมเหตุสมผลและโดยทั่วไปกระบวนการทั้งหมดนั้นใช้งานง่าย โดยทั่วไปฉันคาดการณ์ค่าที่หายไปและใช้ค่าที่คาดการณ์เหล่านั้นเพื่อคาดการณ์ค่าที่หายไปและวนซ้ำแต่ละตัวแปรจนกว่าแต่ละตัวแปรจะมาบรรจบกัน (ในการแจกแจง) มีเหตุผลใดบ้างที่ฉันไม่สามารถใช้กระบวนการเดียวกันเพื่อใส่ข้อมูลผลลัพธ์ที่ขาดหายไป ฉันอาจจะสร้างแบบจำลองการให้ข้อมูลที่ค่อนข้างมีความหมายสำหรับอัตราส่วนการตอบสนองของสิ่งมีชีวิตต่อหน่วยพื้นที่โดยพิจารณาจากอัตราส่วนการตอบสนองของธัญพืชชนิดของพืชและ covariates อื่น ๆ ที่ฉันมี จากนั้นฉันจะเฉลี่ยค่าสัมประสิทธิ์และ VCV ของและเพิ่มการแก้ไข MI ตามการปฏิบัติมาตรฐาน แต่สัมประสิทธิ์เหล่านี้วัดได้อย่างไรเมื่อผลลัพธ์ของตัวเองถูกกำหนดไว้? การตีความสัมประสิทธิ์นั้นแตกต่างจาก MI มาตรฐานสำหรับ covariates หรือไม่? เมื่อคิดถึงเรื่องนี้ฉันไม่สามารถโน้มน้าวตัวเองได้ว่าสิ่งนี้ไม่ได้ผล แต่ฉันก็ไม่แน่ใจ ยินดีต้อนรับความคิดและข้อเสนอแนะสำหรับการอ่านเนื้อหา

2
ฉันจะเรียกใช้การวิเคราะห์การถดถอยโลจิสติกแบบ Ordinal ใน R ด้วยค่าตัวเลข / หมวดหมู่ได้อย่างไร
ฐานข้อมูล : ฉันมีคนประมาณ 1,000 คนที่มีการประเมินผล: '1,' [ดี] '2,' [กลาง] หรือ '3' [ไม่ดี] - นี่คือค่าที่ฉันพยายามทำนายสำหรับคนในอนาคต . นอกจากนั้นฉันยังมีข้อมูลด้านประชากรศาสตร์: เพศ (หมวดหมู่: M / F) อายุ (ตัวเลข: 17-80) และเชื้อชาติ (หมวดหมู่: ดำ / ผิวขาว / ลาติน) ฉันส่วนใหญ่มีสี่คำถาม: ตอนแรกฉันพยายามเรียกใช้ชุดข้อมูลที่อธิบายไว้ข้างต้นเป็นการวิเคราะห์ถดถอยหลายครั้ง แต่เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าเนื่องจากการพึ่งพาของฉันเป็นปัจจัยที่สั่งและไม่ใช่ตัวแปรต่อเนื่องฉันควรใช้การถดถอยแบบลอจิสติกอันดับสำหรับสิ่งนี้ ตอนแรกฉันใช้บางอย่างที่mod <- lm(assessment ~ age + gender + race, data = dataset)ใครสามารถชี้ให้ฉันไปในทิศทางที่ถูกต้อง? จากตรงนั้นสมมติว่าฉันได้ค่าสัมประสิทธิ์ที่ฉันรู้สึกสบายใจฉันเข้าใจวิธีการใส่ค่าตัวเลขเพียงอย่างเดียวใน x1, …

2
วิธีการคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ยเมื่อเรามีข้อมูลการสำรวจเกี่ยวกับมังสวิรัติในปัจจุบันเท่านั้น
สำรวจประชากรตัวอย่างแบบสุ่ม พวกเขาถูกถามว่าพวกเขากินอาหารมังสวิรัติหรือไม่ หากพวกเขาตอบว่าใช่พวกเขาจะถูกขอให้ระบุว่าพวกเขากินอาหารมังสวิรัตินานแค่ไหนโดยไม่หยุดชะงัก ฉันต้องการใช้ข้อมูลนี้เพื่อคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ย กล่าวอีกนัยหนึ่งเมื่อใครบางคนกลายเป็นมังสวิรัติฉันอยากรู้ว่าพวกเขากินเจโดยเฉลี่ยนานเท่าไร สมมติว่า: ผู้ตอบแบบสอบถามทุกคนให้คำตอบที่ถูกต้องและแม่นยำ โลกมีเสถียรภาพ: ความนิยมของการทานมังสวิรัติไม่เปลี่ยนแปลงความยาวของการยึดถือโดยเฉลี่ยก็ไม่เปลี่ยนแปลงเช่นกัน เหตุผลของฉันจนถึงตอนนี้ ฉันพบว่ามีประโยชน์ในการวิเคราะห์แบบจำลองของเล่นของโลกที่จุดเริ่มต้นของทุก ๆ ปีคนสองคนกลายเป็นมังสวิรัติ ทุกครั้งหนึ่งในนั้นจะเป็นมังสวิรัติ 1 ปีและอีก 3 ปี เห็นได้ชัดว่าความยาวของการยึดมั่นในโลกนี้คือ (1 + 3) / 2 = 2 ปี นี่คือกราฟที่แสดงตัวอย่าง สี่เหลี่ยมผืนผ้าแต่ละรูปแสดงระยะเวลาของการกินเจ: สมมติว่าเราทำแบบสำรวจกลางปี ​​4 (เส้นสีแดง) เราได้รับข้อมูลต่อไปนี้: เราจะได้ข้อมูลเดียวกันถ้าเราทำแบบสำรวจทุกปีเริ่มปีที่ 3 ถ้าเราแค่ตอบสนองโดยเฉลี่ยเราจะได้รับ: (2 * 0.5 + 1.5 + 2.5) / 4 = 1.25 เราดูถูกดูแคลนเพราะเราคิดว่าทุกคนหยุดเป็นมังสวิรัติทันทีหลังจากสำรวจซึ่งเห็นได้ชัดว่าไม่ถูกต้อง เพื่อให้ได้ค่าประมาณที่ใกล้เคียงกับเวลาเฉลี่ยจริงที่ผู้เข้าร่วมจะยังคงเป็นมังสวิรัติเราสามารถสันนิษฐานได้ว่าโดยเฉลี่ยพวกเขารายงานเวลาครึ่งทางผ่านช่วงเวลาของการกินเจและระยะเวลารายงานคูณด้วย 2 …

2
วิธีการกรอกข้อมูลที่ขาดหายไปในอนุกรมเวลา?
ฉันมีชุดข้อมูลมลพิษจำนวนมากที่ถูกบันทึกทุก ๆ 10 นาทีตลอดระยะเวลา 2 ปี แต่มีข้อมูลจำนวนมากในช่องว่าง ข้อมูลดูเหมือนจะเป็นไปตามฤดูกาลและมีความแปรปรวนขนาดใหญ่ในระหว่างวันเมื่อเปรียบเทียบกับคืนที่ค่าไม่เปลี่ยนแปลงมากนักและจุดข้อมูลลดลง ฉันได้พิจารณาแบบจำลองที่เหมาะกับชุดวันและเวลากลางคืนแยกต่างหาก (เนื่องจากมีความแตกต่างที่ชัดเจนระหว่างพวกเขา) และจากนั้นทำนายค่าของข้อมูลที่หายไปและเติมจุดเหล่านี้ ฉันสงสัยว่านี่เป็นวิธีที่เหมาะสมในการเข้าถึงปัญหานี้หรือไม่และหากมีความจำเป็นที่จะต้องเพิ่มการเปลี่ยนแปลงในท้องถิ่นลงในจุดที่คาดการณ์ไว้

3
การใช้แพ็กเกจการคาดการณ์ R พร้อมค่าที่ขาดหายไปและ / หรืออนุกรมเวลาที่ผิดปกติ
ฉันประทับใจในforecastแพ็คเกจR เช่นเดียวกับzooแพ็คเกจสำหรับอนุกรมเวลาที่ผิดปกติและการแก้ไขค่าที่หายไป ใบสมัครของฉันอยู่ในพื้นที่ของการพยากรณ์การจราจร Call Center เพื่อให้ข้อมูลเกี่ยวกับวันหยุดสุดสัปดาห์เป็น (เกือบ) zooเสมอหายไปซึ่งสามารถจัดการได้เป็นอย่างดีโดย นอกจากนี้บางจุดที่ขาดหายไปอาจหายไปฉันแค่ใช้ R NAเพื่อจุดนั้น สิ่งที่เป็นทุกมายากลที่ดีของแพคเกจการคาดการณ์เช่นeta(), auto.arima()ฯลฯ ดูเหมือนจะคาดหวังธรรมดาtsวัตถุเช่น equispaced อนุกรมเวลาไม่ได้มีข้อมูลที่ขาดหายไป ฉันคิดว่าแอปพลิเคชันในโลกแห่งความเป็นจริงสำหรับซีรี่ย์เวลาที่เท่ากันเท่านั้นนั้นมีอยู่จริง แต่สำหรับความเห็นของฉันนั้นมี จำกัด ปัญหาของการต่อเนื่องไม่กี่NAค่าจะสามารถแก้ไขได้อย่างง่ายดายโดยใช้ใด ๆ ของฟังก์ชั่นการแก้ไขที่นำเสนอในเช่นเดียวกับzoo forecast::interpหลังจากนั้นฉันก็ทำการพยากรณ์ คำถามของฉัน: ไม่มีใครแนะนำวิธีแก้ปัญหาที่ดีกว่า? (คำถามหลักของฉัน)อย่างน้อยที่สุดในโดเมนแอปพลิเคชันของฉันการคาดคะเนปริมาณการใช้งานศูนย์บริการข้อมูล (และเท่าที่ฉันสามารถจินตนาการได้ว่าโดเมนปัญหาอื่น ๆ ส่วนใหญ่) อนุกรมเวลาไม่เท่ากัน อย่างน้อยเราก็มีรูปแบบ "วันทำการ" ที่เกิดขึ้นซ้ำ ๆ หรือบางอย่าง อะไรคือวิธีที่ดีที่สุดในการจัดการสิ่งนั้นและยังคงใช้เวทย์มนตร์เท่ห์ ๆ ของแพ็คเกจพยากรณ์? ฉันควรเพียงแค่ "บีบอัด" อนุกรมเวลาเพื่อเติมวันหยุดสุดสัปดาห์ทำการพยากรณ์แล้ว "ขยาย" ข้อมูลอีกครั้งเพื่อแทรกค่า NA ในวันหยุดสุดสัปดาห์อีกครั้งหรือไม่ (นั่นจะเป็นความอัปยศฉันคิดว่า?) มีแผนใดที่จะทำให้แพ็คเกจพยากรณ์ใช้งานได้กับแพคเกจอนุกรมเวลาที่ผิดปกติอย่างสวนสัตว์หรือ ถ้าใช่เมื่อใดและถ้าไม่ทำไมไม่ ฉันค่อนข้างใหม่ต่อการคาดการณ์ (และสถิติโดยทั่วไป) …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
ฉันสามารถสร้างการแจกแจงแบบปกติจากขนาดตัวอย่างและค่า min และ max ได้หรือไม่ ฉันสามารถใช้จุดกึ่งกลางเพื่อกำหนดค่าเฉลี่ยของพร็อกซี
ฉันรู้ว่านี่อาจจะเป็นค่าเช่าเล็กน้อยสถิติ แต่นี่เป็นปัญหาของฉัน ฉันมีข้อมูลช่วงจำนวนมากกล่าวคือขนาดต่ำสุดสูงสุดและตัวอย่างของตัวแปร สำหรับข้อมูลเหล่านี้บางส่วนฉันก็มีค่าเฉลี่ย แต่ไม่มากนัก ฉันต้องการที่จะเปรียบเทียบช่วงเหล่านี้กับแต่ละอื่น ๆ เพื่อหาปริมาณความแปรปรวนของแต่ละช่วงและเพื่อเปรียบเทียบค่าเฉลี่ย ฉันมีเหตุผลที่ดีที่จะสมมติว่าการกระจายนั้นสมมาตรรอบค่าเฉลี่ยและข้อมูลจะมีการแจกแจงแบบเกาส์ ด้วยเหตุนี้ฉันจึงคิดว่าฉันสามารถพิสูจน์ได้ว่าใช้จุดกึ่งกลางของการแจกแจงเป็นพร็อกซีสำหรับค่าเฉลี่ยเมื่อไม่อยู่ สิ่งที่ฉันต้องการทำคือสร้างการแจกแจงใหม่สำหรับแต่ละช่วงจากนั้นใช้สิ่งนั้นเพื่อให้ค่าเบี่ยงเบนมาตรฐานหรือข้อผิดพลาดมาตรฐานสำหรับการแจกแจงนั้น ข้อมูลเดียวที่ฉันมีคือค่าสูงสุดและต่ำสุดที่สังเกตได้จากตัวอย่างและจุดกลางเป็นพร็อกซีสำหรับค่าเฉลี่ย ด้วยวิธีนี้ฉันหวังว่าจะสามารถคำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับแต่ละกลุ่มและคำนวณสัมประสิทธิ์การแปรผันสำหรับแต่ละกลุ่มได้เช่นกันตามข้อมูลช่วงที่ฉันมีและสมมติฐานของฉัน (ของการแจกแจงแบบสมมาตรและปกติ) ฉันวางแผนที่จะใช้ R เพื่อทำสิ่งนี้ดังนั้นความช่วยเหลือเกี่ยวกับโค้ดจะได้รับการชื่นชมเช่นกัน

1
การจัดการกับข้อมูลที่ขาดหายไปในรูปแบบการปรับให้เรียบแบบเอ็กซ์โปเนนเชียล
ดูเหมือนจะไม่มีวิธีมาตรฐานในการจัดการกับข้อมูลที่ขาดหายไปในบริบทของตระกูลแบบจำลองการยกกำลังแบบเอ็กซ์โพเนนเชียล โดยเฉพาะอย่างยิ่งการนำ R ไปใช้นั้นเรียกว่าetsในแพ็คเกจพยากรณ์ดูเหมือนว่าจะใช้องค์ประกอบที่ยาวที่สุดโดยไม่มีข้อมูลหายไปและหนังสือ "การพยากรณ์ด้วยการทำให้เรียบแบบเอ็กซ์โปเนนเชียล" โดย Hyndman et al ดูเหมือนจะไม่พูดคุยเกี่ยวกับข้อมูลที่หายไปเลย ฉันต้องการเพิ่มอีกเล็กน้อยหากผู้ใช้ของฉันขอให้ฉันอย่างชัดเจน (และหากข้อมูลที่หายไปไม่ได้เกิดขึ้นใกล้กันเกินไปหรือในหลายช่วงเวลาที่ห่างกันหนึ่งฤดูกาล) โดยเฉพาะสิ่งที่ฉันมีในใจคือ ระหว่างการจำลองเมื่อใดก็ตามที่ฉันจะพบค่าที่หายไปผมจะทดแทนการคาดการณ์จุดปัจจุบันสำหรับเพื่อให้0 ตัวอย่างเช่นนี้ทำให้จุดข้อมูลไม่ได้รับการพิจารณาสำหรับกระบวนการปรับพารามิเตอร์ให้เหมาะสมYเสื้อYเสื้อy_tY~เสื้อY~เสื้อ\tilde y_tYเสื้อYเสื้อy_tεเสื้อ= 0εเสื้อ=0\varepsilon_t = 0 เมื่อฉันมีเหตุผลที่เหมาะสมสำหรับพารามิเตอร์ฉันสามารถประมาณค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาด (สันนิษฐานว่าเป็นเรื่องปกติด้วยค่าเฉลี่ย ) และตรวจสอบว่าการใช้ค่าสำหรับสร้างขึ้นจากการกระจายนั้นไม่ลดความน่าจะเป็นด้วยปัจจัยใหญ่ ฉันจะใช้ค่าดังกล่าวสำหรับการคาดการณ์ (โดยใช้การจำลอง) เช่นกัน000εเสื้อεเสื้อ\epsilon_t มีข้อผิดพลาดที่รู้จักกับวิธีนี้หรือไม่?

2
การจัดการกับชุดข้อมูลที่มีคุณสมบัติจำนวนตัวแปร
มีวิธีการอะไรบ้างในการจำแนกข้อมูลด้วยจำนวนตัวแปรที่มีคุณสมบัติ? ยกตัวอย่างเช่นพิจารณาปัญหาที่แต่ละจุดข้อมูลเป็นเวกเตอร์ของจุด x และ y และเราไม่มีจุดเท่ากันสำหรับแต่ละอินสแตนซ์ เราสามารถใช้คะแนน x และ y แต่ละคู่เป็นคุณสมบัติได้หรือไม่? หรือเราควรสรุปประเด็นเพื่อให้จุดข้อมูลแต่ละจุดมีคุณสมบัติคงที่?

3
การแยกความแตกต่างขาดหายไปโดยการสุ่ม (MAR) จากการขาดหายไปอย่างสมบูรณ์แบบสุ่ม (MCAR)
ฉันมีสองสิ่งนี้อธิบายหลายครั้ง พวกเขาทำอาหารสมองของฉันต่อไป Missing Not at Random ทำให้รู้สึกไม่ถูกและ Missing Complete โดยสมบูรณ์ทำให้รู้สึกว่า ... มันเป็น Missing at Random ที่ไม่มาก ทำให้เกิดข้อมูลที่จะ MAR แต่ไม่ใช่ MCAR อะไร

5
การใส่หลายครั้งสำหรับค่าที่หายไป
ฉันต้องการใช้การใส่ข้อมูลเพื่อแทนที่ค่าที่หายไปในชุดข้อมูลของฉันภายใต้ข้อ จำกัด บางประการ ตัวอย่างเช่นผมต้องการตัวแปรที่ประเมินx1จะมีค่ามากกว่าหรือเท่ากับผลรวมของสองตัวแปรอื่น ๆ ของฉันพูดและx2 x3ฉันยังต้องการที่x3จะได้รับการกล่าวหาโดยทั้ง0หรือ>= 14และฉันต้องการที่x2จะได้รับการกล่าวหาโดยทั้งหรือ0>= 16 ฉันพยายามกำหนดข้อ จำกัด เหล่านี้ใน SPSS สำหรับการใส่หลายครั้ง แต่ใน SPSS ฉันสามารถกำหนดค่าสูงสุดและต่ำสุดได้เท่านั้น มีวิธีใดที่จะกำหนดข้อ จำกัด เพิ่มเติมใน SPSS หรือคุณรู้แพ็คเกจ R ที่จะให้ฉันกำหนดข้อ จำกัด ดังกล่าวสำหรับการใส่ค่าที่หายไป? ข้อมูลของฉันเป็นดังนี้: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, …

1
ข้อมูลที่หายไปจะถูกจัดการได้อย่างไรเมื่อใช้ splines หรือ polynomials ที่เป็นเศษส่วน
ฉันกำลังอ่านการสร้างแบบจำลองหลายตัวแปร: แนวทางปฏิบัติในการวิเคราะห์การถดถอยโดยใช้พหุนามเศษส่วนสำหรับการสร้างแบบจำลองตัวแปรต่อเนื่องโดย Patrick Royston และ Willie Sauerbrei จนถึงตอนนี้ฉันประทับใจและเป็นวิธีที่น่าสนใจที่ฉันไม่เคยพิจารณามาก่อน แต่ผู้เขียนไม่ได้จัดการกับข้อมูลที่ขาดหายไป แน่นอนใน p. พวกเขากล่าวว่าข้อมูลที่หายไป "นำเสนอปัญหาเพิ่มเติมมากมายไม่พิจารณาที่นี่" การใส่หลายแบบทำงานกับพหุนามเศษส่วนหรือไม่ FP คือบางวิธี (แต่ไม่ใช่ทั้งหมด) ทางเลือกสำหรับ splines ง่ายต่อการจัดการกับข้อมูลที่ขาดหายไปสำหรับการถดถอยแบบอิสระหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.