คำถามติดแท็ก errors-in-variables

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
การถดถอยข้อผิดพลาดในตัวแปร: ใช้ได้กับพูลข้อมูลจากสามไซต์หรือไม่
ฉันเพิ่งมีลูกค้ามาให้ฉันทำการวิเคราะห์ bootstrap เพราะผู้ตรวจสอบ FDA บอกว่าการถดถอยข้อผิดพลาดในตัวแปรของพวกเขาไม่ถูกต้องเพราะเมื่อรวบรวมข้อมูลจากไซต์การวิเคราะห์รวมถึงการรวมข้อมูลจากสามไซต์ที่สองไซต์รวมตัวอย่างบางอย่าง เหมือน. พื้นหลัง ลูกค้ามีวิธีการทดสอบใหม่ที่ต้องการแสดงคือ "เทียบเท่า" กับวิธีที่ได้รับอนุมัติแล้ว วิธีการของพวกเขาคือการเปรียบเทียบผลลัพธ์ของทั้งสองวิธีที่ใช้กับตัวอย่างเดียวกัน สามไซต์ถูกใช้เพื่อทำการทดสอบ ข้อผิดพลาดในตัวแปร (Deming regression) ถูกนำไปใช้กับข้อมูลในแต่ละไซต์ แนวคิดก็คือว่าหากการถดถอยแสดงให้เห็นว่าพารามิเตอร์ของความชันนั้นใกล้เคียงกับ 1 และการสกัดกั้นใกล้ 0 นี่จะแสดงให้เห็นว่าเทคนิคการทดสอบทั้งสองนั้นให้ผลลัพธ์เกือบเหมือนกันดังนั้นจึงควรได้รับการอนุมัติวิธีการใหม่ ที่ไซต์ 1 มีตัวอย่าง 45 รายการให้พวกเขาสังเกตการณ์ 45 คู่ ไซต์ที่ 2 มี 40 ตัวอย่างและไซต์ 3, 43 ตัวอย่าง พวกเขาทำการแยก Deming regressions สามครั้งแยกกัน (สมมติว่ามีอัตราส่วน 1 สำหรับข้อผิดพลาดในการวัดสำหรับสองวิธี) ดังนั้นอัลกอริธึมจึงลดผลรวมของระยะทางยกฉากตั้งฉาก ในการส่งลูกค้าของพวกเขาชี้ให้เห็นว่าตัวอย่างบางส่วนที่ใช้ในไซต์ 1 และ 2 เหมือนกัน ในการทบทวนผู้ตรวจสอบของ …

2
คุณจะทำอย่างไรเมื่อคุณมีตัวแปรตัวทำนายที่ใช้ค่าเฉลี่ยของกลุ่มที่มีขนาดตัวอย่างต่างกัน
พิจารณาปัญหาคลาสสิกการวิเคราะห์ข้อมูลที่คุณมีผลYiYiY_{i}และวิธีการที่เกี่ยวข้องกับจำนวนของการทำนายXi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip} . ประเภทพื้นฐานของแอปพลิเคชันในที่นี้คือ YiYiY_{i}บางผลระดับกลุ่มเช่นอัตราการเกิดอาชญากรรมในเมืองผมiii ทำนายลักษณะระดับกลุ่มเช่นคุณลักษณะทางประชากรของเมืองที่ฉันiii เป้าหมายพื้นฐานคือเพื่อให้เหมาะสมกับโมเดลการถดถอย (อาจมีเอฟเฟกต์แบบสุ่ม แต่ลืมไปแล้วว่าตอนนี้): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} ความยุ่งยากทางเทคนิคบางอย่างเกิดขึ้นหรือไม่เมื่อหนึ่ง (หรือมากกว่า) ของผู้ทำนายเป็นผลจากการสำรวจที่มีขนาดตัวอย่างแตกต่างกันสำหรับแต่ละหน่วย? ตัวอย่างเช่นสมมติว่าเป็นคะแนนสรุปสำหรับเมืองที่ฉันนั่นคือการตอบสนองโดยเฉลี่ยจากกลุ่มตัวอย่างประชาชนจากเมืองฉันแต่ตัวอย่างขนาดเฉลี่ยเหล่านี้อยู่บนพื้นฐานของความแตกต่างกันอย่างดุเดือด:Xi1Xi1X_{i1}iiiiii City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ …

1
ตัวประมาณแบบเอนเอียงสำหรับการถดถอยบรรลุผลลัพธ์ที่ดีกว่าแบบไม่เอนเอียงในแบบจำลองข้อผิดพลาดในตัวแปร
ฉันกำลังทำงานกับข้อมูล syntatic สำหรับข้อผิดพลาดในตัวแปรแบบจำลองสำหรับการวิจัยบางอย่าง ขณะนี้ฉันมีตัวแปรอิสระเดี่ยวและฉันคาดว่าฉันรู้ถึงความแปรปรวนสำหรับมูลค่าที่แท้จริงของตัวแปรตาม ดังนั้นด้วยข้อมูลนี้ฉันสามารถบรรลุตัวประมาณค่าแบบไม่เอนเอียงสำหรับค่าสัมประสิทธิ์ของตัวแปรตาม นางแบบ: โดยที่: สำหรับบางx~= x + e1x~=x+e1\tilde{x} = x + e_1 e 1 ~ N ( 0 , σ 2 ) σ e 2 ~ N ( 0 , 1 )Y= 0.5 x - 10 + e2y=0.5x−10+e2y = 0.5x -10 + e_2 อี1~ N( 0 , …

1
วิธีการปรับโมเดลข้อผิดพลาดในการวัด“ แบบง่าย”
ฉันกำลังมองหาวิธีการที่สามารถใช้ในการประมาณรูปแบบข้อผิดพลาดในการวัด "OLS" x i = X i + e x , i Y i = α + β X iyi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xผม= Xผม+ ex , ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yผม= α + βXผมYi=α+βXiY_{i}=\alpha + \beta X_{i} ในกรณีที่ข้อผิดพลาดที่มีความเป็นอิสระปกติที่ไม่รู้จักแปรปรวนและ{2} OLS "มาตรฐาน" จะไม่ทำงานในกรณีนี้ σ 2 xσ2Yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} วิกิพีเดียมีวิธีแก้ปัญหาที่ไม่น่าสนใจ - ทั้งสองบังคับให้คุณคิดว่า "อัตราส่วนแปรปรวน"หรือ " อัตราส่วนความน่าเชื่อถือ "เป็นที่รู้จักที่คือความแปรปรวนของ regressor จริงx_iฉันไม่พอใจกับสิ่งนี้เพราะคนที่ไม่รู้ความแปรปรวนจะรู้อัตราส่วนได้อย่างไร λ=σ 2 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.