คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
ช่วงเวลาความมั่นใจสำหรับสัมประสิทธิ์การถดถอยเชิงเส้นควรเป็นไปตามการแจกแจงแบบปกติหรือ
ลองมีโมเดลเชิงเส้นตัวอย่างเช่น ANOVA ง่ายๆ: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) ผลลัพธ์มีดังนี้: Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q …

2
มีการแสดงกราฟิกของการแลกเปลี่ยนความแปรปรวนแบบอคติในการถดถอยเชิงเส้นหรือไม่?
ฉันกำลังทุกข์ทรมานจากความมืดมน ฉันได้นำเสนอภาพต่อไปนี้เพื่อแสดงการแลกเปลี่ยนความเอนเอียงอคติในบริบทของการถดถอยเชิงเส้น: ฉันสามารถเห็นได้ว่าไม่มีทั้งสองรุ่นที่เหมาะสม - "ง่าย" ไม่เห็นคุณค่าความซับซ้อนของความสัมพันธ์ XY และ "ซับซ้อน" เป็นเพียง overfitting โดยทั่วไปเรียนรู้ข้อมูลการฝึกอบรมด้วยหัวใจ อย่างไรก็ตามฉันล้มเหลวอย่างสิ้นเชิงที่จะเห็นอคติและความแปรปรวนในภาพทั้งสองนี้ มีคนแสดงให้ฉันดูได้ไหม ป.ล. : คำตอบสำหรับคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียง? ไม่ได้ช่วยฉันฉันจะดีใจถ้ามีคนให้วิธีการที่แตกต่างจากภาพด้านบน

2
วิธีที่ถูกต้องในการทดสอบความแตกต่างอย่างมีนัยสำคัญระหว่างค่าสัมประสิทธิ์คืออะไร?
ฉันหวังว่าบางคนสามารถช่วยชี้ประเด็นความสับสนให้ฉันได้ ว่าฉันต้องการทดสอบว่าสัมประสิทธิ์การถดถอย 2 ชุดนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่ด้วยการตั้งค่าต่อไปนี้: , มี 5 ตัวแปรอิสระyi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i 2 กลุ่มโดยมีขนาดเท่ากันโดยประมาณ (แม้ว่าอาจแตกต่างกัน)n1,n2n1,n2n_1, n_2 การถดถอยที่คล้ายกันหลายพันครั้งจะเกิดขึ้นพร้อมกันดังนั้นการแก้ไขสมมติฐานบางอย่างจึงต้องทำ วิธีการหนึ่งที่แนะนำให้ฉันคือการใช้การทดสอบ Z: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} อีกสิ่งที่ฉันได้เห็นข้อเสนอแนะในบอร์ดนี้คือการแนะนำตัวแปรจำลองสำหรับการจัดกลุ่มและเขียนแบบจำลองใหม่เป็น: โดยที่ gคือตัวแปรการจัดกลุ่มซึ่งเขียนเป็น 0, 1yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_igก.g คำถามของฉันคือวิธีการทั้งสองนี้มีวิธีการที่แตกต่างกัน (เช่นสมมติฐานที่แตกต่างกันทำมีความยืดหยุ่น)? มีความเหมาะสมมากกว่าอีกอย่างหรือไม่? ฉันคิดว่ามันค่อนข้างธรรมดา แต่การชี้แจงใด ๆ จะได้รับการชื่นชมอย่างมาก

4
ถ้าฉันต้องการโมเดลที่ตีความได้มีวิธีอื่นนอกเหนือจาก Linear Regression หรือไม่?
ฉันพบนักสถิติบางคนที่ไม่เคยใช้แบบจำลองอื่นนอกจากการถดถอยเชิงเส้นเพื่อการทำนายเพราะพวกเขาเชื่อว่า "โมเดล ML" เช่นฟอเรสต์แบบสุ่มหรือการเพิ่มระดับความลาดชันนั้นยากที่จะอธิบายหรือ "ไม่สามารถตีความได้" ในการถดถอยเชิงเส้นเนื่องจากชุดของสมมติฐานได้รับการตรวจสอบแล้ว (ความเป็นปกติของข้อผิดพลาด, homoskedasticity, ไม่มีหลาย collinearity), การทดสอบ t มีวิธีการทดสอบความสำคัญของตัวแปร, การทดสอบที่ความรู้ของฉันไม่สามารถใช้ได้ใน ฟอเรสต์แบบสุ่มหรือการส่งเสริมการไล่ระดับสี ดังนั้นคำถามของฉันคือถ้าฉันต้องการสร้างแบบจำลองตัวแปรตามด้วยชุดของตัวแปรอิสระเพื่อประโยชน์ในการตีความฉันควรใช้การถดถอยเชิงเส้นเสมอ?

1
สมมติฐาน LASSO
ในสถานการณ์การถดถอย LASSO ที่ ,y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon และการประเมิน LASSO นั้นมาจากปัญหาการปรับให้เหมาะสมต่อไปนี้ นาทีβ| | Y- Xβ| | +τ| | β| |1นาทีβ||Y-Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 มีสมมติฐานการกระจายใด ๆ เกี่ยวกับการ ?εε\epsilon ในสถานการณ์ OLS ใครจะคาดหวังว่ามีความเป็นอิสระและกระจายตามปกติεε\epsilon มันสมเหตุสมผลหรือไม่ที่จะวิเคราะห์ส่วนที่เหลือในการถดถอยแบบ LASSO? ฉันรู้ว่าประมาณการ Lasso สามารถรับเป็นโหมดหลังภายใต้อิสระไพรเออร์ดับเบิลชี้แจงสำหรับเจ แต่ฉันไม่พบ "การตรวจสอบสมมติฐานขั้นตอน" มาตรฐานใด ๆβJβJ\beta_j ขอบคุณล่วงหน้า (:

2
การจัดประเภทตัวแปรจะเปลี่ยนจากไม่มีนัยสำคัญเป็นสำคัญ
ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง สิ่งนี้จะเป็นอย่างไร

3
เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย
ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

3
ทำไมไม่ใช้ "สมการปกติ" เพื่อหาค่าสัมประสิทธิ์กำลังสองน้อยที่สุดอย่างง่าย?
ฉันเห็นรายการนี้ที่นี่และไม่อยากจะเชื่อว่ามีวิธีมากมายในการแก้ปัญหากำลังสองน้อยที่สุด "การสมปกติ" ในวิกิพีเดียดูเหมือนจะเป็นทางข้างหน้าค่อนข้างตรง: αα^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} ดังนั้นทำไมไม่ใช้เพียงแค่พวกเขา? ฉันสันนิษฐานว่าจะต้องมีปัญหาการคำนวณหรือความแม่นยำเนื่องจากในลิงค์แรกเหนือ Mark L. Stone กล่าวว่า SVD หรือ QR เป็นวิธีที่ได้รับความนิยมในซอฟต์แวร์ทางสถิติและสมการปกติคือ "TERRIBLE จากความน่าเชื่อถือและความแม่นยำเชิงตัวเลข" อย่างไรก็ตามในรหัสต่อไปนี้สมการปกติทำให้ฉันมีความแม่นยำถึง ~ 12 ตำแหน่งทศนิยมเมื่อเทียบกับสามฟังก์ชั่นหลามยอดนิยม: numpy polyfit ; SciPy ของlinregress ; และ scikit การเรียนรู้ของการถดถอยเชิงเส้น สิ่งที่น่าสนใจกว่าคือวิธีสมการปกตินั้นเร็วที่สุดเมื่อ n = 100000000 เวลาในการคำนวณสำหรับฉันคือ: …

1
มีการตีความแบบเบย์ของการถดถอยเชิงเส้นพร้อมกับการทำให้เป็นมาตรฐาน L1 และ L2 พร้อมกัน (อาคายืดหยุ่นสุทธิ) หรือไม่?
เป็นที่ทราบกันดีว่าการถดถอยเชิงเส้นที่มีการลงโทษนั้นเทียบเท่ากับการหาค่าประมาณ MAP ที่กำหนดให้ Gaussian ก่อนค่าสัมประสิทธิ์ ในทำนองเดียวกันการใช้การลงโทษนั้นเทียบเท่ากับการใช้การแจกแจงแบบลาปลาซก่อนหน้านี้l2l2l^2l1l1l^1 มันไม่ใช่เรื่องแปลกที่จะใช้บางชุดถ่วงน้ำหนักของและกู เราสามารถพูดได้ไหมว่าสิ่งนี้เทียบเท่ากับการกระจายก่อนหน้ามากกว่าค่าสัมประสิทธิ์ (โดยสังเขปดูเหมือนว่าจะต้องเป็น) เราสามารถให้รูปแบบการวิเคราะห์ที่ดี (อาจเป็นส่วนผสมของ Gaussian และ Laplacian) ได้หรือไม่? ถ้าไม่ทำไมไม่l1l1l^1l2l2l^2

2
ทำไมการถดถอยเบต้าไม่สามารถจัดการกับ 0 และ 1 ในตัวแปรตอบกลับได้
การถดถอยแบบเบต้า (เช่น GLM ที่มีการแจกแจงแบบเบต้าและมักจะมีฟังก์ชั่นการเชื่อมโยงแบบ logit) มักจะแนะนำให้จัดการกับการตอบสนองหรือที่เรียกว่าตัวแปรตามค่าระหว่าง 0 และ 1 เช่นเศษส่วนอัตราส่วนหรือความน่าจะเป็น: การถดถอยสำหรับผลลัพธ์ ระหว่าง 0 และ 1 อย่างไรก็ตามมีการอ้างเสมอว่าการถดถอยเบต้าไม่สามารถใช้ได้ทันทีที่ตัวแปรตอบสนองเท่ากับ 0 หรือ 1 อย่างน้อยหนึ่งครั้ง ถ้าไม่จำเป็นต้องใช้ทั้งศูนย์ / รุ่นหนึ่งที่สูงเกินจริงเบต้าหรือทำให้การเปลี่ยนแปลงของการตอบสนองบาง ฯลฯ .: ถดถอยเบต้าของข้อมูลสัดส่วนรวมทั้งที่ 1 และ 0 คำถามของฉันคือคุณสมบัติของการกระจายเบต้าป้องกันการถดถอยเบต้าจากการจัดการกับ 0s และ 1s ที่แน่นอนและเพราะเหตุใด ฉันเดาว่ามันคือและไม่ได้อยู่ในการสนับสนุนของการกระจายเบต้า แต่สำหรับพารามิเตอร์รูปร่างทั้งหมดและทั้งศูนย์และอีกอันหนึ่งอยู่ในการสนับสนุนการแจกแจงแบบเบต้ามันเป็นเพียงพารามิเตอร์รูปร่างขนาดเล็กที่การกระจายไปที่อนันต์ที่หนึ่งหรือทั้งสองด้าน และบางทีข้อมูลตัวอย่างเป็นเช่นที่และให้เหมาะสมที่สุดทั้งคู่ก็จะเปิดออกเพื่อจะเหนือ1000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 มันหมายความว่าในบางกรณีเราสามารถใช้การถดถอยแบบเบต้าแม้ว่าจะเป็นศูนย์ / คนก็ตาม แน่นอนว่าแม้ว่า 0 และ 1 จะอยู่ในการสนับสนุนการแจกแจงเบต้าความน่าจะเป็นที่สังเกต 0 หรือ 1 เป็นศูนย์ แต่ความน่าจะเป็นที่จะสังเกตชุดของค่าที่นับได้อื่น …

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

1
จะคำนวณระยะเวลาการทำนายสำหรับ LOESS ได้อย่างไร
ฉันมีข้อมูลบางส่วนที่ฉันใช้กับรุ่น LOESS ใน R ให้สิ่งนี้กับฉัน: ข้อมูลมีตัวทำนายหนึ่งตัวและคำตอบเดียวและเป็นแบบเฮเทอโรเซดีติก ฉันยังเพิ่มช่วงความมั่นใจ ปัญหาคือว่าช่วงเวลาเป็นช่วงความมั่นใจสำหรับสายในขณะที่ฉันสนใจในช่วงเวลาการทำนาย ตัวอย่างเช่นพาเนลด้านล่างเป็นตัวแปรมากกว่าจากนั้นจะเป็นพาเนลด้านบน แต่จะไม่ถูกบันทึกในช่วงเวลา คำถามนี้เป็นคำถามที่เกี่ยวข้องเล็กน้อย: การทำความเข้าใจวงความเชื่อมั่นจากการถดถอยพหุนามโดยเฉพาะอย่างยิ่งคำตอบโดย @AndyW แต่ในตัวอย่างของเขาที่เขาใช้ค่อนข้างตรงไปตรงมาinterval="predict"โต้แย้งที่มีอยู่ในแต่มันก็จะหายไปจากpredict.lmpredict.loess ดังนั้นฉันมีสองคำถามที่เกี่ยวข้องมาก: ฉันจะได้รับช่วงเวลาการทำนายแบบจุดตามจุดสำหรับ LOESS ได้อย่างไร ฉันจะทำนายค่าที่จะจับช่วงเวลานั้นได้อย่างไรเช่นสร้างตัวเลขสุ่มจำนวนมากซึ่งในที่สุดจะมีลักษณะคล้ายกับข้อมูลต้นฉบับ เป็นไปได้ว่าฉันไม่ต้องการมีน้ำหนักเกินและควรใช้อย่างอื่น แต่ฉันไม่คุ้นเคยกับตัวเลือกของฉัน โดยพื้นฐานแล้วมันควรจะพอดีกับบรรทัดที่ใช้การถดถอยท้องถิ่นหรือการถดถอยเชิงเส้นหลายเส้นให้ฉันประเมินข้อผิดพลาดสำหรับบรรทัดและนอกจากนี้ยังมีความแปรปรวนที่แตกต่างกันสำหรับตัวแปรอธิบายที่แตกต่างกันดังนั้นฉันสามารถทำนายการกระจายของตัวแปรตอบสนอง (y) .

2
อะไรคือ Plotable Variable Plot (Partial Regression Plot) ที่อธิบายในการถดถอยหลายครั้ง?
ฉันมีชุดข้อมูลภาพยนตร์และฉันใช้การถดถอย: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) ซึ่งให้ผลลัพธ์: ตอนนี้ฉันลองทำงานบางอย่างที่เรียกว่า "เพิ่ม Variable Plot" ครั้งแรกและฉันได้ผลลัพธ์ต่อไปนี้: car::avPlots(model, id.n=2, id.cex=0.7) ปัญหาคือฉันพยายามที่จะทำความเข้าใจกับตัวแปรที่เพิ่มเข้ามาโดยใช้ google แต่ฉันไม่สามารถเข้าใจความลึกของมันได้เพราะเห็นพล็อตที่ฉันเข้าใจว่ามันเป็นตัวแทนของการบิดเบือนที่ขึ้นอยู่กับตัวแปรอินพุตแต่ละตัวที่เกี่ยวข้องกับผลลัพธ์ ฉันสามารถรับรายละเอียดเพิ่มเติมได้เล็กน้อยเช่นวิธีปรับข้อมูลให้เป็นมาตรฐาน

1
ละเว้นอคติของตัวแปรในการถดถอยโลจิสติกกับอคติของตัวแปรที่ละเว้นในการถดถอยกำลังสองน้อยสุดสามัญ
ฉันมีคำถามเกี่ยวกับการละเว้นความเอนเอียงของตัวแปรในการถดถอยโลจิสติกส์และเชิงเส้น สมมติว่าฉันตัดตัวแปรบางตัวออกจากตัวแบบการถดถอยเชิงเส้น แกล้งทำเป็นว่าตัวแปรที่ละเว้นนั้นไม่สัมพันธ์กับตัวแปรที่รวมอยู่ในแบบจำลองของฉัน ตัวแปรที่ละเว้นเหล่านั้นไม่ได้ให้ค่าสัมประสิทธิ์ในแบบจำลองของฉัน แต่ในการถดถอยโลจิสติกฉันเพิ่งรู้ว่านี่ไม่เป็นความจริง ตัวแปรที่ถูกละเว้นจะมีอคติกับค่าสัมประสิทธิ์ของตัวแปรที่รวมแม้ว่าตัวแปรที่ละเว้นจะไม่สัมพันธ์กับตัวแปรที่รวมอยู่ ฉันพบบทความในหัวข้อนี้ แต่ฉันไม่สามารถทำหัวหรือก้อยได้ นี่คือกระดาษและสไลด์ PowerPointบางอัน อคตินั้นดูเหมือนจะเป็นศูนย์เสมอ มีใครอธิบายได้บ้างว่ามันทำงานอย่างไร?

2
การตีความการถดถอยโลจิสติกอันดับ
ฉันใช้การถดถอยโลจิสติกอันดับนี้ใน R: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) ฉันได้รับข้อมูลสรุปของโมเดลนี้: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.