คำถามติดแท็ก regression-to-the-mean

2
การถดถอยไปสู่ค่าเฉลี่ยใน“ การคิดเร็วและช้า”
ในการคิดเร็วและช้า Daniel Kahneman วางคำถามสมมุติฐานต่อไปนี้: (หน้า 186) Julie ปัจจุบันเป็นรุ่นพี่ในมหาวิทยาลัยของรัฐ เธออ่านได้คล่องเมื่อเธออายุสี่ขวบ เกรดเฉลี่ย (GPA) ของเธอคืออะไร ความตั้งใจของเขาคือการแสดงให้เห็นว่าเรามักจะล้มเหลวในการบัญชีสำหรับการถดถอยถึงค่าเฉลี่ยเมื่อทำการทำนายเกี่ยวกับสถิติบางอย่าง ในการอภิปรายต่อไปเขาแนะนำ: (หน้า 190) จำได้ว่าความสัมพันธ์ระหว่างสองมาตรการ - ในกรณีการอ่านอายุปัจจุบันและเกรดเฉลี่ย - เท่ากับสัดส่วนของปัจจัยที่ใช้ร่วมกันในปัจจัยของพวกเขา คุณคาดเดาสิ่งที่ดีที่สุดเกี่ยวกับสัดส่วนนั้นได้อย่างไร การคาดเดาในแง่ดีที่สุดของฉันคือประมาณ 30% สมมติว่าประมาณการนี้เรามีทุกอย่างที่เราต้องการในการทำนายอย่างเป็นกลาง นี่คือคำแนะนำสำหรับวิธีการเดินทางในสี่ขั้นตอนง่าย ๆ : เริ่มต้นด้วยการประมาณเกรดเฉลี่ย กำหนดเกรดเฉลี่ยที่ตรงกับการแสดงหลักฐานของคุณ ประมาณค่าสหสัมพันธ์ระหว่างการอ่านค่าความฉลาดสูงกับเกรดเฉลี่ย หากความสัมพันธ์คือ. 30 ให้ย้าย 30% ของระยะทางจากค่าเฉลี่ยไปยังเกรดเฉลี่ยที่ตรงกัน การตีความคำแนะนำของเขาของฉันเป็นดังนี้: ใช้ "เธออ่านได้อย่างคล่องแคล่วเมื่อเธออายุสี่ขวบ" เพื่อสร้างคะแนนมาตรฐานสำหรับความฉลาดเกินอายุการอ่านของจูลี่ กำหนดเกรดเฉลี่ยที่มีคะแนนมาตรฐานที่สอดคล้องกัน (GPA ที่มีเหตุผลในการทำนายจะสอดคล้องกับคะแนนมาตรฐานนี้หากความสัมพันธ์ระหว่าง GPA และความแม่นยำในการอ่านนั้นสมบูรณ์แบบ) ประมาณเปอร์เซ็นต์ของความแปรปรวนใน GPA ที่สามารถอธิบายได้ด้วยความแปรปรวนในการอ่านความแม่นยำ (ฉันคิดว่าเขาหมายถึงสัมประสิทธิ์การตัดสินใจด้วย "สหสัมพันธ์" …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.