คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

3
การถดถอยเชิงเส้นของล็อกเทียบกับการถดถอยโลจิสติก
ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน

5
เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอY= β0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0β0\beta_0

5
การสุ่มป่าเทียบกับการถดถอย
ฉันใช้โมเดลการถดถอย OLS ในชุดข้อมูลที่มี 5 ตัวแปรอิสระ ตัวแปรอิสระและตัวแปรตามมีทั้งต่อเนื่องและเกี่ยวข้องเชิงเส้น R Square อยู่ที่ประมาณ 99.3% แต่เมื่อฉันเรียกใช้เดียวกันโดยใช้ฟอเรสต์แบบสุ่มใน R ผลลัพธ์ของฉันคือ '% Var อธิบาย: 88.42' เหตุใดผลการสุ่มป่าจึงต่ำกว่าการถดถอย สมมติฐานของฉันคือป่าสุ่มจะดีเท่ากับ OLS regression

4
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน?
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 7 ปีที่ผ่านมา ฉันกำลังเรียนรู้เกี่ยวกับการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน ในการวิเคราะห์การถดถอยคุณมีตัวแปรหนึ่งคงที่และคุณต้องการทราบว่าตัวแปรนั้นไปกับตัวแปรอื่นได้อย่างไร ในการวิเคราะห์ความแปรปรวนที่คุณต้องการทราบเช่น: หากอาหารสัตว์นี้มีผลต่อน้ำหนักของสัตว์ ... ดังนั้นหนึ่ง var คงที่และอิทธิพลต่อคนอื่น ... ถูกหรือผิดกรุณาช่วยด้วย ...
21 regression 

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

3
การถดถอยเทียบกับความคลาดเคลื่อน ANOVA (aov vs lm ใน R)
ฉันมักจะรู้สึกว่าการถดถอยเป็นเพียงรูปแบบทั่วไปของ ANOVA และผลลัพธ์ก็จะเหมือนกัน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้รันทั้งการถดถอยและการวิเคราะห์ความแปรปรวนของข้อมูลเดียวกันและผลลัพธ์แตกต่างกันอย่างมีนัยสำคัญ นั่นคือในรูปแบบการถดถอยทั้งผลกระทบหลักและการมีปฏิสัมพันธ์อย่างมีนัยสำคัญในขณะที่ ANOVA หนึ่งผลกระทบหลักไม่สำคัญ ฉันคาดหวังว่าสิ่งนี้จะเกี่ยวข้องกับการโต้ตอบ แต่ไม่ชัดเจนสำหรับฉันเกี่ยวกับการสร้างแบบจำลองคำถามเดียวกัน หากเป็นสิ่งสำคัญตัวทำนายหนึ่งตัวจะจัดหมวดหมู่และอีกตัวเป็นแบบต่อเนื่องตามที่ระบุในการจำลองด้านล่าง นี่คือตัวอย่างของข้อมูลของฉันและการวิเคราะห์ที่ฉันใช้ แต่ไม่มีค่า p หรือเอฟเฟ็กต์ที่มีนัยสำคัญในผลลัพธ์ group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

3
“ ความลำเอียง” คืออะไร?
ฉันพยายามเข้าใจแนวคิดเรื่องความเอนเอียงในบริบทของการวิเคราะห์การถดถอยเชิงเส้น นิยามทางคณิตศาสตร์ของอคติคืออะไร? ลำเอียงคืออะไรและทำไม / อย่างไร? ตัวอย่างที่แสดง?

2
ความยากลำบากในการทดสอบความเป็นเชิงเส้นในการถดถอย
ในการสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม Leo Breiman เขียน แนวปฏิบัติที่ใช้ในปัจจุบันคือการตรวจสอบแบบจำลองข้อมูลโดยใช้การทดสอบแบบดีและการวิเคราะห์ส่วนที่เหลือ เมื่อถึงจุดหนึ่งหลายปีที่ผ่านมาฉันตั้งค่าปัญหาการถดถอยแบบจำลองในเจ็ดมิติด้วยจำนวนที่ไม่ควบคุมเชิงเส้น การทดสอบมาตรฐานของความดีพอดีไม่ได้ปฏิเสธความเป็นเชิงเส้นจนกว่าความไม่เชิงเส้นจะรุนแรงมาก Breiman ไม่ได้ให้รายละเอียดเกี่ยวกับการจำลองของเขา เขาอ้างอิงกระดาษที่เขาบอกว่าให้เหตุผลทางทฤษฎีสำหรับการสังเกตของเขา แต่กระดาษไม่ได้ตีพิมพ์ มีใครเคยเห็นผลการจำลองที่ตีพิมพ์หรือรายงานทางทฤษฎีเพื่อสนับสนุนข้อเรียกร้องของ Brieman บ้างไหม?

2
จะใช้ตุ้มน้ำหนักในฟังก์ชั่น lm ใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ใครช่วยเสนอตัวชี้วิธีการใช้weightsอาร์กิวเมนต์ในlmฟังก์ชั่นของ R ? ตัวอย่างเช่นคุณกำลังพยายามปรับนางแบบให้สอดคล้องกับข้อมูลการจราจรและคุณมีหลายร้อยแถวซึ่งแต่ละเมืองเป็นตัวแทนของเมือง (มีประชากรแตกต่างกัน) หากคุณต้องการให้แบบจำลองปรับอิทธิพลสัมพัทธ์ของการสังเกตแต่ละครั้งตามขนาดประชากรคุณสามารถระบุได้weights=[the column containing the city's population]หรือไม่ นั่นคือการเรียงตัวของเวกเตอร์ที่สามารถเข้าไปได้weightsหรือไม่? หรือคุณจะต้องใช้ฟังก์ชั่น R / แพ็คเกจ / แนวทางอื่นโดยสิ้นเชิง? อยากรู้ว่าคนจัดการเรื่องนี้อย่างไร - ไม่เห็นว่ามันครอบคลุมในบทเรียนการสร้างแบบจำลองเชิงเส้นใด ๆ ที่ฉันเห็นที่นั่น ขอบคุณ!
21 r  regression 

3
การถดถอยปัวซองกับการนับการถดถอยกำลังสองน้อยที่สุด?
การถดถอยปัวซองคือGLM ที่มีฟังก์ชั่นบันทึกลิงค์ อีกวิธีหนึ่งในการสร้างแบบจำลองข้อมูลการกระจายที่ไม่ใช่แบบปกติคือการประมวลผลล่วงหน้าโดยการบันทึก (หรือมากกว่าบันทึก (1 + จำนวน) เพื่อจัดการกับ 0) หากคุณทำการถดถอยอย่างน้อยกำลังสองในการตอบกลับนับบันทึกนั่นเกี่ยวข้องกับการถดถอยปัวซองหรือไม่ มันสามารถรองรับปรากฏการณ์ที่คล้ายกันได้หรือไม่?

3
สัมประสิทธิ์การตัดสินใจ (
ฉันต้องการเข้าใจความคิดของอย่างเต็มที่อธิบายถึงจำนวนของการเปลี่ยนแปลงระหว่างตัวแปร คำอธิบายทุกเว็บเป็นบิตกลและป้าน ฉันต้องการที่จะ "รับ" แนวคิดไม่ใช่แค่ใช้ตัวเลขโดยอัตโนมัติR2R2r^2 เช่นชั่วโมงที่เรียนเทียบกับคะแนนทดสอบ RRr = .8 R2R2r^2 = .64 ดังนั้นสิ่งนี้หมายความว่าอย่างไร 64% ของคะแนนความแปรปรวนสามารถอธิบายเป็นชั่วโมงได้หรือไม่ เราจะรู้ได้อย่างไรว่าเพียงแค่ยกกำลังสอง?

5
ฉันจะทำให้เครือข่ายประสาทของฉันดีขึ้นในการทำนายคลื่นไซน์ได้อย่างไร
ดูที่นี่: คุณสามารถดูได้ว่าข้อมูลการฝึกอบรมสิ้นสุดลงที่ใด การฝึกอบรมข้อมูลไปจากที่จะ1- 1-1-1111 ฉันใช้ Keras และเครือข่ายหนาแน่น 1-100-100-2 ด้วยการเปิดใช้งาน tanh ฉันคำนวณผลลัพธ์จากสองค่าคือ p และ q เป็น p / q ด้วยวิธีนี้ฉันสามารถบรรลุขนาดใดก็ได้โดยใช้ค่าน้อยกว่า 1 ค่า โปรดทราบว่าฉันยังเป็นผู้เริ่มต้นในสาขานี้ดังนั้นไปง่าย ๆ กับฉัน

2
อะไรคือสมมติฐานของการถดถอยสันและวิธีการทดสอบพวกเขา?
พิจารณาตัวแบบมาตรฐานสำหรับการถดถอยหลายจุดโดยที่ε ∼ N ( 0 , σ 2 I n )ดังนั้นความเป็นมาตรฐานความสม่ำเสมอความเป็นหนึ่งเดียวและข้อผิดพลาดที่ไม่เกี่ยวข้องทั้งหมดY=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) สมมติว่าเราทำการถดถอยแบบสันเขาโดยการเพิ่มจำนวนเล็กน้อยลงในองค์ประกอบทั้งหมดของเส้นทแยงมุมของ :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y มีค่าบางอย่างที่ซึ่งค่าสัมประสิทธิ์สันเขามีข้อผิดพลาดยกกำลังสองเฉลี่ยน้อยกว่าผู้ที่ได้รับโดย OLS แม้ว่าβ r ฉันd กรัมอีเป็นประมาณการลำเอียงของβ ในทางปฏิบัติkได้มาจากการตรวจสอบข้ามkkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk นี่คือคำถามของฉัน: อะไรคือสมมติฐานสมมติฐานต้นแบบสันเขา? จะเป็นรูปธรรมมากขึ้น สมมติฐานทั้งหมดของ square อย่างน้อยสามัญ (OLS) ใช้ได้กับการถดถอยของสันเขาหรือไม่? ถ้าใช่ต่อคำถามที่ 1 เราจะทดสอบความเป็นเนื้อเดียวกันและขาดความสัมพันธ์กับค่าประมาณความลำเอียงของอย่างไรββ\beta มีงานทดสอบสมมติฐาน OLS อื่น ๆ (homoscedasticity และการขาดความสัมพันธ์อัตโนมัติ) ภายใต้การถดถอยของสันเขาหรือไม่?

2
ในการถดถอยเชิงเส้นอย่างง่ายสูตรการแปรปรวนของค่าตกค้างมาจากไหน?
ตามข้อความที่ฉันใช้สูตรสำหรับความแปรปรวนของส่วนที่เหลือจะได้รับจาก:ผมt hithi^{th} σ2( 1 - 1)n- ( xผม- x¯¯¯)2Sx x)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) ฉันพบนี้ยากที่จะเชื่อตั้งแต่ที่เหลือคือความแตกต่างระหว่างค่าสังเกตและค่าติดตั้ง; ถ้าใครจะคำนวณความแปรปรวนของความแตกต่างอย่างน้อยที่สุดฉันก็คาดหวังว่า "บวก" บางอย่างในการแสดงออกที่เกิดขึ้น ความช่วยเหลือใด ๆ ในการทำความเข้าใจแหล่งที่มาจะได้รับการชื่นชมผมt hithi^{th}ผมt hithi^{th}ผมt hithi^{th}

2
วิธีการอธิบายหรือมองเห็นโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังพยายามปรับโมเดลการถดถอยเชิงเส้นหลายแบบให้สอดคล้องกับข้อมูลของฉันด้วยพารามิเตอร์อินพุตสองสามตัวบอกว่า 3 F( x )F( x )= A x1+ B x2+ Cx3+ dหรือ= ( A B C )T( x1 x2 x3) + d(ผม)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.