คำถามติดแท็ก weighted-regression

การถดถอยกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักเป็นลักษณะทั่วไปของการถดถอย OLS ที่ใช้เมื่อจุดข้อมูลต่างกันมีความสำคัญต่างกันหรือ "น้ำหนัก" ดู [ข้อมูลถ่วงน้ำหนัก]

9
หนังสืออ้างอิงสำหรับพีชคณิตเชิงเส้นที่ใช้กับสถิติ?
ฉันทำงานใน R มาแล้วและต้องเผชิญกับสิ่งต่าง ๆ เช่น PCA, SVD, การย่อยสลาย QR และผลลัพธ์พีชคณิตเชิงเส้นจำนวนมากเช่นนี้ (เมื่อตรวจสอบการประเมินการถ่วงน้ำหนักและอื่น ๆ ) ดังนั้นฉันอยากรู้ว่าใครมีคำแนะนำที่ดี หนังสือพีชคณิตเชิงเส้นที่มีเนื้อหาครอบคลุมซึ่งไม่เชิงทฤษฎี แต่มีความเข้มงวดทางด้านคณิตศาสตร์และครอบคลุมหัวข้อเหล่านี้ทั้งหมด

2
คุณจะหาน้ำหนักสำหรับการถดถอยกำลังสองน้อยที่สุดได้อย่างไร?
ฉันหลงทางเล็กน้อยในกระบวนการถดถอยของ WLS ฉันได้รับชุดข้อมูลแล้วและหน้าที่ของฉันคือการทดสอบว่ามีความแตกต่างที่แน่นอนและถ้าเป็นเช่นนั้นฉันควรรัน WLS regression ฉันได้ทำการทดสอบและพบหลักฐานเกี่ยวกับความแตกต่างระหว่างดังนั้นฉันจึงต้องเรียกใช้ WLS ฉันได้รับแจ้งว่า WLS นั้นโดยทั่วไปแล้วการถดถอย OLS ของโมเดลที่แปลงแล้ว แต่ฉันสับสนเล็กน้อยเกี่ยวกับการค้นหาฟังก์ชันการแปลง ฉันได้อ่านบทความที่แนะนำว่าการเปลี่ยนแปลงสามารถเป็นหน้าที่ของส่วนที่เหลือกำลังสองจากการถดถอย OLS แต่ฉันจะขอบคุณถ้ามีคนสามารถช่วยฉันในการติดตามที่ถูกต้อง

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
R: ฟังก์ชั่น glm พร้อมตระกูล = ข้อมูลจำเพาะ "ทวินาม" และ "น้ำหนัก"
ฉันสับสนมากกับการทำงานของน้ำหนักใน glm กับครอบครัว = "ทวินาม" ในความเข้าใจของฉันความเป็นไปได้ของ glm กับครอบครัว = "ทวินาม" ระบุไว้ดังนี้: f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) โดยที่yyyคือ "สัดส่วนของความสำเร็จที่สังเกต" และnnnคือจำนวนการทดลองที่ทราบ ในความเข้าใจของฉันความน่าจะเป็นที่จะประสบความสำเร็จpppถูกเปรียบเทียบกับสัมประสิทธิ์เชิงเส้นββ\betaเป็นp=p(β)p=p(β)p=p(\beta)และฟังก์ชัน glm กับครอบครัว = "ทวินาม" ค้นหา: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). ดังนั้นปัญหาการปรับให้เหมาะสมนี้สามารถทำให้ง่ายขึ้นเป็น: หาเรื่องสูงสุดβΣผมเข้าสู่ระบบฉ( yผม) …

1
อัตราส่วนในการถดถอยหรือที่เรียกว่าคำถามเกี่ยวกับ Kronmal
เมื่อเร็ว ๆ นี้คำถามการสืบค้นแบบสุ่มทำให้เกิดความทรงจำเกี่ยวกับความเห็นนอกมือจากอาจารย์คนหนึ่งของฉันเมื่อสองสามปีก่อนเตือนเกี่ยวกับการใช้อัตราส่วนในแบบจำลองการถดถอย ดังนั้นฉันจึงเริ่มอ่านสิ่งนี้นำไปสู่ ​​Kronmal 1993 ในที่สุด ฉันต้องการตรวจสอบให้แน่ใจว่าฉันตีความคำแนะนำของเขาเกี่ยวกับวิธีการสร้างแบบจำลองเหล่านี้อย่างถูกต้อง สำหรับโมเดลที่มีอัตราส่วนซึ่งมีตัวหารเดียวกันทั้งในส่วนที่ขึ้นกับและอิสระ: Z- 1Y= Z- 11nβ0+ Z- 1XβX+ βZ+ Z- 1εZ-1Y=Z-11nβ0+Z-1XβX+βZ+Z-1ε Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon ถอยหลังอัตราส่วนที่พึ่งพาในตัวแปรตัวหาร (ผกผัน) นอกเหนือจากอัตราส่วนอื่น ๆ น้ำหนักโดยตัวแปรตัวหาร (ผกผัน) สำหรับโมเดลที่มีตัวแปรตามเป็นอัตราส่วน: Y= β0+ βXX+ Z1nα0+ ZXαX+ Z- 1εY=β0+βXX+Z1nα0+ZXαX+Z-1ε Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X …

2
ค่าเฉลี่ยฮาร์มอนิกช่วยลดผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสอง
ฉันกำลังมองหาข้อมูลอ้างอิงซึ่งพิสูจน์ได้ว่าค่าเฉลี่ยฮาร์มอนิก x¯h=n∑ni=11xix¯h=n∑i=1n1xi\bar{x}^h = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} ย่อเล็กสุด (เป็น ) ผลรวมของข้อผิดพลาดสัมพัทธ์กำลังสองzzz ∑i=1n((xi−z)2xi).∑i=1n((xi−z)2xi).\sum_{i=1}^n \left( \frac{(x_i - z)^2}{x_i}\right).

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ทฤษฎีที่อยู่เบื้องหลังอาร์กิวเมนต์น้ำหนักใน R เมื่อใช้ lm ()
หลังจากปีในโรงเรียนที่จบที่ความเข้าใจของฉัน "ถ่วงน้ำหนักน้อยสแควร์" คือต่อไปนี้ให้ ,จะมีบางเมทริกซ์ออกแบบ\ boldsymbol \ beta \ in \ mathbb {R} ^ pเป็นเวกเตอร์พารามิเตอร์\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nเป็นเวกเตอร์ข้อผิดพลาดที่\ boldsymbol \ epsilon \ sim \ mathcal {N} (\ mathbf {0} \ ซิก ^ 2 \ mathbf {V})ที่\ mathbf {V} = \ ข้อความ {diag} (v_1, v_2 …

1
คำอธิบายที่ใช้งานง่ายสำหรับความน่าจะเป็นค่าผกผันของน้ำหนักการรักษา (IPTWs) ในการให้คะแนนความชอบ?
ฉันเข้าใจกลไกของการคำนวณน้ำหนักโดยใช้คะแนนความชอบ : แล้วนำน้ำหนักไปใช้ในการวิเคราะห์การถดถอยและให้น้ำหนักกับ "การควบคุมสำหรับ" หรือยกเลิกการเชื่อมโยงผลกระทบของโควาเรียตในประชากรกลุ่มการรักษาและกลุ่มควบคุมด้วยตัวแปรผลลัพธ์หน้า( xผม)พี(xผม)p(x_i)Wi , j = t r e a tWi , j = c o n t r o l= 1หน้า( xผม)= 11 - p ( xผม)Wผม,J=เสื้อRอีaเสื้อ=1พี(xผม)Wผม,J=คโอnเสื้อRโอล.=11-พี(xผม)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} อย่างไรก็ตามในระดับลำไส้ฉันไม่เข้าใจว่าน้ำหนักบรรลุเป้าหมายนี้อย่างไรและทำไมจึงสร้างสมการดังกล่าว

3
การถดถอยทั่วไปแบบถ่วงน้ำหนักใน BUGS, JAGS
ในRเราสามารถ "น้ำหนักก่อนหน้า" การglmถดถอยผ่านพารามิเตอร์น้ำหนัก ตัวอย่างเช่น: glm.D93 <- glm(counts ~ outcome + treatment, family = poisson(), weights=w) วิธีนี้สามารถทำได้ในJAGSหรือBUGSรูปแบบ? ฉันพบบทความบางส่วนเกี่ยวกับเรื่องนี้ แต่ไม่มีบทความใดแสดงให้เห็น ฉันสนใจตัวอย่างปัวซองและการถดถอยโลจิสติกเป็นส่วนใหญ่

1
นิยามน้ำหนักถ่วงน้ำหนักน้อยที่สุด: ฟังก์ชัน R lm เทียบกับ
ใครช่วยบอกฉันหน่อยได้ไหมว่าทำไมฉันถึงได้ผลลัพธ์ที่แตกต่างจากRน้ำหนักอย่างน้อยกำลังสองและวิธีแก้ปัญหาด้วยตนเองโดยการทำงานของเมทริกซ์ ? โดยเฉพาะฉันกำลังพยายามแก้ไขด้วยตนเองโดยที่คือเมทริกซ์แนวทแยงมุมที่มีน้ำหนักคือเมทริกซ์ข้อมูลคือการตอบสนอง เวกเตอร์ W A x = W bWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Aขb\mathbf b ฉันพยายามเปรียบเทียบผลลัพธ์กับR lmฟังก์ชันโดยใช้weightsอาร์กิวเมนต์

2
การเพิ่มน้ำหนักสำหรับชุดข้อมูลที่มีความเบ้สูงในการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติกรุ่นมาตรฐานเพื่อให้พอดีกับตัวแปรอินพุตของฉันกับตัวแปรเอาต์พุตไบนารี อย่างไรก็ตามในปัญหาของฉันผลลัพธ์ลบ (0s) มีจำนวนมากกว่าผลบวก (1s) อัตราส่วนคือ 20: 1 ดังนั้นเมื่อฉันฝึกตัวจําแนกเสียงดูเหมือนว่าแม้กระทั่งคุณสมบัติที่แนะนําอย่างยิ่งถึงความเป็นไปได้ของเอาต์พุตเชิงบวกที่ยังคงมีค่าที่ต่ำมาก (ค่าลบสูง) สำหรับพารามิเตอร์ที่สอดคล้องกัน สำหรับฉันดูเหมือนว่าสิ่งนี้เกิดขึ้นเพราะมีตัวอย่างเชิงลบจำนวนมากเกินไปที่ดึงพารามิเตอร์ในทิศทางของพวกเขา ดังนั้นฉันสงสัยว่าฉันสามารถเพิ่มน้ำหนัก (พูดโดยใช้ 20 แทน 1) สำหรับตัวอย่างที่เป็นบวก สิ่งนี้มีแนวโน้มที่จะได้รับประโยชน์หรือไม่? และถ้าเป็นเช่นนั้นฉันจะเพิ่มน้ำหนักได้อย่างไร (ในสมการด้านล่าง) ฟังก์ชั่นค่าใช้จ่ายมีลักษณะดังต่อไปนี้: J= ( - 1 / m ) ⋅Σi = 1ม.Y⋅ บันทึก( เอช( x ⋅ θ ) ) + ( 1 - Y) ( 1 - บันทึก( เอช( x …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.