คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

2
การตีความความแปรปรวนร่วมของสัมประสิทธิ์การถดถอยคืออะไร?
ฟังก์ชัน lm ใน R สามารถพิมพ์ค่าความแปรปรวนร่วมประมาณของสัมประสิทธิ์การถดถอย ข้อมูลนี้ให้อะไรกับเรา? ตอนนี้เราสามารถตีความแบบจำลองได้ดีขึ้นหรือวินิจฉัยปัญหาที่อาจเกิดขึ้นในแบบจำลองได้หรือไม่

2
การจับภาพฤดูกาลในการถดถอยหลายครั้งสำหรับข้อมูลรายวัน
ฉันมีข้อมูลยอดขายรายวันสำหรับผลิตภัณฑ์ซึ่งเป็นไปตามฤดูกาล ฉันต้องการบันทึกฤดูกาลตามโมเดลการถดถอย ฉันได้อ่านว่าหากคุณมีข้อมูลรายไตรมาสหรือรายเดือนในกรณีนี้คุณสามารถสร้างตัวแปรจำลอง 3 และ 11 ตัวตามลำดับ - แต่ฉันสามารถจัดการกับข้อมูลรายวันได้หรือไม่ ฉันมีข้อมูลรายวันสามปี ตัวแปรอิสระคือจุดราคาแฟล็กการส่งเสริมการขาย (ใช่ / ไม่ใช่) และอุณหภูมิ ตัวแปรตามคือยอดขายของผลิตภัณฑ์นั้น ฉันไม่ได้กำลังมองหาโมเดลอนุกรมเวลาเนื่องจากฉันใช้โมเดลการถดถอยหลายแบบ

1
เส้นทางสัมประสิทธิ์ - การเปรียบเทียบของสันเขาบาศและการถดถอยสุทธิแบบยืดหยุ่น
ฉันต้องการเปรียบเทียบรุ่นที่เลือกกับสันหลัง, เชือกและยางยืด ภาพด้านล่างแสดงเส้นทางสัมประสิทธิ์โดยใช้ทั้ง 3 วิธี: สันเขา (รูป A, อัลฟา = 0), เชือก (รูป B; อัลฟา = 1) และตาข่ายยืดหยุ่น (รูป C; alpha = 0.5) วิธีการแก้ปัญหาที่ดีที่สุดขึ้นอยู่กับค่าแลมบ์ดาที่เลือกซึ่งเลือกจากการตรวจสอบข้าม เมื่อดูที่แปลงเหล่านี้ฉันคาดว่าตาข่ายยืดหยุ่น (รูปที่ C) จะแสดงผลการจัดกลุ่ม อย่างไรก็ตามมันไม่ชัดเจนในกรณีที่นำเสนอ เส้นทางสัมประสิทธิ์สำหรับ lasso และ elastic net นั้นคล้ายกันมาก อะไรคือสาเหตุของสิ่งนี้ มันเป็นเพียงความผิดพลาดในการเขียนโค้ดหรือไม่? ฉันใช้รหัสต่อไปนี้ใน R: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge …

1
หลายระดับของการถดถอยเชิงเส้นแบบอิสระ
องศาอิสระในการถดถอยหลายครั้งเท่ากับโดยที่kคือจำนวนของตัวแปรยังไม่มีข้อความ- k - 1N−k−1N-k-1kkk ไม่ได้แก่ ตัวแปรการตอบสนอง (เช่นY )? ตัวอย่างเช่นในโมเดลY = B 0 + B 1 X 1 + B 2 X 2แล้วk = 3 (เช่น 1 df แต่ละรายการสำหรับY , X 1 , & X 2 ) หรือไม่kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2

1
ฉันจะคำนวณค่าวิกฤติด้วยการใช้ R ได้อย่างไร
ขออภัยหากเป็นคำถามใหม่ ฉันพยายามสอนสถิติตัวเองเป็นครั้งแรก ฉันคิดว่าฉันมีกระบวนการขั้นพื้นฐานที่ลง แต่ฉันพยายามที่จะดำเนินการกับอาร์ ดังนั้นฉันจึงพยายามประเมินความสำคัญของสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นหลายรูปแบบ y^=Xβ^y^=Xβ^ \hat y = X \hat \beta ฉันคิดว่าสถิติสำหรับการทดสอบมอบให้โดยH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 เสื้อ0= β^J- 0se ( β^J)= β^Jσ^2คเจเจ-----√= β^JคเจเจSSR e s/ (n-p)--------------√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} โดยที่คือรายการในแนวทแยงมุมของ1} j t …

3
นักวิจัย 1 ทำงาน 1,000 การถดถอยนักวิจัย 2 ทำงานเพียง 1 ทั้งสองได้ผลลัพธ์เดียวกัน - พวกเขาควรทำการอนุมานที่แตกต่างกันหรือไม่
ลองนึกภาพนักวิจัยกำลังสำรวจชุดข้อมูลและเรียกใช้การถดถอยที่แตกต่างกัน 1,000 รายการและเขาพบว่ามีความสัมพันธ์ที่น่าสนใจหนึ่งอย่างในหมู่พวกเขา ทีนี้ลองนึกภาพว่านักวิจัยอีกคนที่มีข้อมูลเดียวกัน ทำงานเพียง 1 การถดถอยและมันกลับกลายเป็นว่าเป็นสิ่งเดียวกับที่นักวิจัยคนอื่นเอามา 1,000 การค้นหา นักวิจัย 2 ไม่รู้จักนักวิจัย 1 นักวิจัย 1 ควรอนุมานต่างจากนักวิจัย 2 หรือไม่? ทำไม? ตัวอย่างเช่นนักวิจัย 1 ควรทำการแก้ไขการเปรียบเทียบหลายรายการ แต่นักวิจัย 2 ไม่ควร? หากนักวิจัย 2 แสดงให้คุณเห็นการถดถอยเดี่ยวของคุณก่อนคุณจะทำการอนุมานอะไร หากหลังจากนักวิจัยคนที่ 1 แสดงผลลัพธ์ให้คุณคุณควรเปลี่ยนการอนุมานของคุณหรือไม่ ถ้าเป็นเช่นนั้นทำไมมันถึงสำคัญ? ป.ล. 1 : ถ้าพูดถึงนักวิจัยสมมุติที่ทำให้ปัญหาเป็นนามธรรมลองคิดดูสิ: ลองจินตนาการว่าคุณใช้การถดถอยเพียงครั้งเดียวสำหรับกระดาษของคุณโดยใช้วิธีการที่ดีที่สุด จากนั้นนักวิจัยอีกสำรวจ 1000 ถดถอยที่แตกต่างกับข้อมูลเดียวกันจนกระทั่งเขาพบถดถอยเดียวกันแน่นอนคุณขับรถ คุณสองคนควรทำการอนุมานที่แตกต่างกันหรือไม่? หลักฐานนี้เหมือนกันทั้งสองกรณีหรือไม่? คุณควรเปลี่ยนข้อสรุปของคุณถ้าคุณรู้ผลลัพธ์ของนักวิจัยคนอื่น ๆ ? ประชาชนควรประเมินหลักฐานของการศึกษาทั้งสองอย่างไร ป.ล. 2:โปรดพยายามเจาะจงและให้เหตุผลทางคณิตศาสตร์ / ทฤษฎีถ้าเป็นไปได้!

1
พหุนามหลายมิติแบบหลายตัวแปรตามที่คำนวณใน R คืออะไร
พหุนามมุมฉากในชุดจุดที่มีหลายตัวแปรคือพหุนามที่สร้างค่าบนจุดนั้นในลักษณะที่ผลคูณดอทและสหสัมพันธ์แบบคู่เป็นศูนย์ R สามารถผลิต polynomials มุมฉากกับฟังก์ชั่นโพลี ฟังก์ชั่นเดียวกันนี้มีโพลีเมอร์แบบแปรผันที่สร้างพหุนามแบบฉากฉากในจุดหลายตัวแปร อย่างไรก็ตามชื่อพหุนามที่เกิดขึ้นนั้นไม่ได้เป็นมุมฉากในแง่ของการมีความสัมพันธ์แบบคู่กับศูนย์ ในความเป็นจริงเนื่องจากชื่อพหุนามอันดับแรกควรเป็นเพียงตัวแปรดั้งเดิมพหุนามลำดับที่หนึ่งจะไม่เป็นแบบมุมฉากเว้นแต่ว่าตัวแปรดั้งเดิมจะไม่ถูกแยกส่วน จากนั้นคำถามของฉันคือ: พหุนามหลายมุมฉากหลายตัวแปรคำนวณโดย polym ใน R คืออะไร? พวกเขาเป็นเพียงผลิตภัณฑ์ของชื่อพหุนามแบบหลายมิติแบบมุมฉากหรือไม่? พวกมันใช้ทำอะไร? ชื่อพหุนามหลายมุมฉากแบบหลายตัวแปรมีอยู่จริงหรือไม่? มีวิธีง่าย ๆ ในการผลิตพวกเขา? ใน R พวกเขาใช้จริงในการถดถอยหรือไม่? ปรับปรุง เพื่อตอบสนองต่อความคิดเห็นของ Superpronker ฉันได้ยกตัวอย่างหนึ่งของสิ่งที่ฉันหมายถึงด้วยชื่อพหุนามที่ไม่เกี่ยวข้อง: > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 ฟังก์ชั่นโพลีส่งคืนพหุนามมุมฉากซึ่งประเมินในคะแนน x (ที่นี่ 10,000 …

1
พิสูจน์ความสัมพันธ์ระหว่างระยะทาง Mahalanobis กับ Leverage ได้หรือไม่?
ฉันเคยเห็นสูตรในWikipedia ที่เกี่ยวข้องกับระยะทางและ Mahalanobis Leverage: ระยะทาง Mahalanobis มีความสัมพันธ์อย่างใกล้ชิดกับสถิติการใช้ประโยชน์แต่มีระดับที่แตกต่าง:hhhD2=(N−1)(h−1N).D2=(N−1)(h−1N).D^2 = (N - 1)(h - \tfrac{1}{N}). ในบทความที่มีการเชื่อมโยง Wikipedia อธิบายในเงื่อนไขเหล่านี้hhh ในโมเดลการถดถอยเชิงเส้นคะแนนความสามารถในการใช้ประโยชน์สำหรับหน่วยข้อมูลถูกกำหนดเป็น:องค์ประกอบส่วนของเมทริกซ์หมวกโดยที่หมายถึงเมทริกซ์ทรานสดิวเซอร์ithithi^{th}hii=(H)ii,hii=(H)ii,h_{ii}=(H)_{ii},ithithi^{th}H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤H=X(X^{\top}X)^{-1}X^{\top}⊤⊤^{\top} ฉันไม่สามารถหาหลักฐานได้ทุกที่ ฉันพยายามเริ่มจากคำจำกัดความ แต่ฉันไม่สามารถก้าวหน้าได้ ทุกคนสามารถให้คำใบ้ได้บ้าง

1
เบอร์รี่ผกผัน
ฉันมีข้อมูลตลาดรวมขนาดใหญ่ที่กำหนดจากการขายไวน์ในสหรัฐอเมริกาและฉันต้องการประเมินความต้องการไวน์คุณภาพสูงบางตัว หุ้นในตลาดเหล่านี้ได้มาโดยทั่วไปจากแบบอรรถประโยชน์สุ่มของรูปแบบ ที่Xรวมถึงการตั้งข้อสังเกต ลักษณะของผลิตภัณฑ์, Pหมายถึงราคาสินค้าξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXpppξξ\xiเป็นลักษณะของผลิตภัณฑ์ที่ไม่มีการตรวจสอบซึ่งมีผลต่ออุปสงค์และที่มีความสัมพันธ์กับราคาและคือคำผิดพลาด, iดัชนีบุคคล, ดัชนีผลิตภัณฑ์jและดัชนีดัชนีตลาดt (เมืองในกรณีนี้)ϵϵ\epsiloniiijjjttt ฉันไม่สามารถใช้ปกติรุ่น logit เงื่อนไขเพราะระยะที่มีคุณภาพสังเกตและฉันไม่ได้มีเครื่องมือที่ดี อย่างไรก็ตาม Berry (1994) ได้พัฒนากลยุทธ์สำหรับการปรับระบบเชิงเส้นไม่เชิงเส้นของสมการตลาดในกรอบการทำงานแบบมัลติโนเมียลโลจิคัล แต่ฉันไม่สามารถหาวิธีที่เขาทำขั้นตอนการผกผันได้ξξ\xi ที่ค่าพารามิเตอร์ที่จริงเขาบอกว่าส่วนแบ่งการตลาดประมาณควรจะเท่ากับ“true” ซึ่งเขาก็แนะนำให้กลับหุ้นตลาด ทั้งจาก S J T = sเจที ( δ , α , β ) เพื่อ δ = s - 1 …

1
มีปัญหากับความสัมพันธ์แบบหลายค่าและการถดถอยเชิงเส้นหรือไม่
เมื่อใช้ลูกบาศก์ธรรมชาติ (เช่นถูก จำกัด ) Splines ฟังก์ชันพื้นฐานที่สร้างขึ้นนั้นมี collinear สูงและเมื่อใช้ในการถดถอยดูเหมือนจะสร้างสถิติ VIF สูง (ปัจจัยเงินเฟ้อแปรปรวน) สูงมากส่งสัญญาณความหลากหลายทางชีวภาพ เมื่อมีการพิจารณากรณีของแบบจำลองเพื่อการคาดการณ์นี่เป็นปัญหาหรือไม่ ดูเหมือนว่ามันจะเป็นอย่างนั้นเสมอเพราะธรรมชาติของโครงสร้างการสร้างเส้นโค้ง นี่คือตัวอย่างใน R: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 …

2
ความสัมพันธ์เชิงบวกและเครื่องหมายสัมประสิทธิ์การถดถอยเชิงลบ
เป็นไปได้ไหมที่จะได้ความสัมพันธ์เชิงบวกระหว่าง regressor กับการตอบสนอง ( +0,43) และหลังจากนั้นจะได้สัมประสิทธิ์เชิงลบในตัวแบบการถดถอยแบบพอดีสำหรับ regressor นี้หรือไม่? ฉันไม่ได้พูดถึงการเปลี่ยนแปลงในเครื่องหมายของ regressor ในบางรุ่น เครื่องหมายสัมประสิทธิ์ยังคงอยู่เสมอ ตัวแปรที่เหลือของรุ่นที่ติดตั้งสามารถมีอิทธิพลต่อการเปลี่ยนแปลงของสัญญาณได้หรือไม่?

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
การตีความค่าสัมประสิทธิ์การถดถอย LASSO
ขณะนี้ฉันกำลังทำงานเพื่อสร้างแบบจำลองการทำนายผลเลขฐานสองบนชุดข้อมูลที่มีตัวแปร ~ 300 และ 800 ข้อสังเกต ฉันได้อ่านมากเกี่ยวกับปัญหาที่เกี่ยวข้องกับการถดถอยแบบขั้นตอนและทำไมไม่ใช้มัน ฉันอ่านเกี่ยวกับการถดถอยของ LASSO และความสามารถในการเลือกคุณสมบัติและประสบความสำเร็จในการนำไปใช้งานด้วยการใช้แพ็คเกจ "caret" และ "glmnet" ฉันสามารถดึงค่าสัมประสิทธิ์ของแบบจำลองด้วยค่าที่ดีที่สุดlambdaและalphaจาก "caret"; อย่างไรก็ตามฉันไม่คุ้นเคยกับวิธีตีความค่าสัมประสิทธิ์ สัมประสิทธิ์ LASSO ตีความในวิธีเดียวกันกับการถดถอยโลจิสติกหรือไม่? มันจะเหมาะสมที่จะใช้คุณสมบัติที่เลือกจาก LASSO ในการถดถอยโลจิสติก? แก้ไข การตีความของค่าสัมประสิทธิ์เช่นเดียวกับค่าสัมประสิทธิ์แทนจากการถดถอย LASSO เป็นอัตราต่อรองสำหรับการเปลี่ยนแปลง 1 หน่วยในสัมประสิทธิ์ในขณะที่ค่าคงที่สัมประสิทธิ์อื่น ๆ ทั้งหมด https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

3
การถดถอยด้วยข้อมูลที่เบ้
กำลังพยายามคำนวณจำนวนการเข้าชมจากข้อมูลประชากรและบริการ ข้อมูลเบ้มาก histograms: แปลง qq (ซ้ายคือบันทึก): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityและserviceเป็นตัวแปรปัจจัย ฉันได้ค่า p ต่ำ *** สำหรับตัวแปรทั้งหมด แต่ฉันยังได้ค่า r-squared ต่ำที่ 0.05 ด้วย ฉันควรทำอย่างไรดี? รุ่นอื่นจะทำงานเช่นเลขชี้กำลังหรืออะไรบางอย่าง

1
บางส่วนควรรวม
ต่อไปนี้เป็นรูปแบบที่สร้างขึ้นจากmtcarsชุดข้อมูล: > ols(mpg~wt+am+qsec, mtcars) Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> chi2) 0.0000 g 6.456 Residuals Min 1Q Median …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.