คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
พหุนามตัดกันสำหรับการถดถอย
ฉันไม่เข้าใจการใช้ความแตกต่างพหุนามในการถดถอยเชิงเส้น โดยเฉพาะอย่างยิ่งฉันหมายถึงการเข้ารหัสที่ใช้โดยRเพื่อแสดงตัวแปรช่วงเวลา (ตัวแปรลำดับที่มีระดับเว้นระยะเท่ากัน) อธิบายไว้ในหน้านี้ ในตัวอย่างของหน้านั้นถ้าฉันเข้าใจอย่างถูกต้อง R เหมาะกับโมเดลสำหรับตัวแปรช่วงเวลาคืนค่าสัมประสิทธิ์บางอย่างซึ่งให้น้ำหนักแนวโน้มเชิงเส้นการกำลังสองหรือลูกบาศก์ ดังนั้นรูปแบบการติดตั้งควรเป็น: write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, โดยที่XXXควรรับค่า111 , 222 , 333หรือ444ตามระดับที่แตกต่างกันของตัวแปรช่วงเวลา ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นแล้วอะไรคือจุดประสงค์ของการตัดกันของพหุนาม

2
ฉันจะเรียกใช้การวิเคราะห์การถดถอยโลจิสติกแบบ Ordinal ใน R ด้วยค่าตัวเลข / หมวดหมู่ได้อย่างไร
ฐานข้อมูล : ฉันมีคนประมาณ 1,000 คนที่มีการประเมินผล: '1,' [ดี] '2,' [กลาง] หรือ '3' [ไม่ดี] - นี่คือค่าที่ฉันพยายามทำนายสำหรับคนในอนาคต . นอกจากนั้นฉันยังมีข้อมูลด้านประชากรศาสตร์: เพศ (หมวดหมู่: M / F) อายุ (ตัวเลข: 17-80) และเชื้อชาติ (หมวดหมู่: ดำ / ผิวขาว / ลาติน) ฉันส่วนใหญ่มีสี่คำถาม: ตอนแรกฉันพยายามเรียกใช้ชุดข้อมูลที่อธิบายไว้ข้างต้นเป็นการวิเคราะห์ถดถอยหลายครั้ง แต่เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าเนื่องจากการพึ่งพาของฉันเป็นปัจจัยที่สั่งและไม่ใช่ตัวแปรต่อเนื่องฉันควรใช้การถดถอยแบบลอจิสติกอันดับสำหรับสิ่งนี้ ตอนแรกฉันใช้บางอย่างที่mod <- lm(assessment ~ age + gender + race, data = dataset)ใครสามารถชี้ให้ฉันไปในทิศทางที่ถูกต้อง? จากตรงนั้นสมมติว่าฉันได้ค่าสัมประสิทธิ์ที่ฉันรู้สึกสบายใจฉันเข้าใจวิธีการใส่ค่าตัวเลขเพียงอย่างเดียวใน x1, …

2
ฉันจะตีความพล็อตส่วนที่เหลือเทียบกับส่วนที่เหลือนี้ได้อย่างไร
ฉันไม่เข้าใจความแตกต่างอย่างแท้จริง ฉันต้องการทราบว่าโมเดลของฉันเหมาะสมหรือไม่ตามพล็อตนี้

4
ความสัมพันธ์ระหว่าง
ฉันสงสัยว่ามีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่ โดยปกติR2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}และจะวัดความแข็งแรงของความสัมพันธ์เชิงเส้นในการถดถอย การทดสอบ F-Test เป็นการพิสูจน์สมมติฐาน มีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่?

3
ความสัมพันธ์ระหว่าง R-squared และ p-value ในการถดถอยคืออะไร?
tl; dr - สำหรับการถดถอยของ OLS ค่า R-squared ที่สูงขึ้นนั้นแสดงถึงค่า P ที่สูงขึ้นด้วยหรือไม่ โดยเฉพาะสำหรับตัวแปรอธิบายเดี่ยว (Y = a + bX + e) ​​แต่ก็สนใจที่จะทราบสำหรับตัวแปรอธิบายหลายตัวแปร (Y = a + b1X + ... bnX + e) บริบท - ฉันกำลังดำเนินการถดถอย OLS ในช่วงของตัวแปรและกำลังพยายามพัฒนารูปแบบการอธิบายที่ดีที่สุดโดยสร้างตารางที่มีค่า R-squared ระหว่างเส้นตรงลอการิทึม ฯลฯ การแปลงของตัวแปรอธิบาย (อิสระ) แต่ละตัว และตัวแปรตอบกลับ (ขึ้นอยู่กับ) ดูเหมือนว่า: ชื่อตัวแปร - รูปแบบเชิงเส้น - --ln (ตัวแปร) --exp …

5
ทำไมค่า R-squared ต่ำมากเมื่อสถิติ t ของฉันใหญ่มาก
ฉันทำการถดถอยด้วยตัวแปร 4 ตัวและทั้งหมดมีความสำคัญทางสถิติโดยมีค่า Tและ31 (ฉันพูดว่า≈เพราะดูเหมือนว่าไม่เกี่ยวข้องกับการรวมทศนิยม) ซึ่งสูงมากและมีความสำคัญอย่างชัดเจน แต่R 2นั้นเป็นเพียง. 2284 ฉันตีความตีความค่า t ที่นี่เพื่อหมายถึงบางสิ่งที่ไม่ได้ใช่หรือไม่ ปฏิกิริยาแรกของฉันเมื่อเห็นค่า t คือว่าR 2จะค่อนข้างสูง แต่อาจจะสูงR 2หรือไม่?≈7,9,26≈7,9,26\approx 7,9,26313131≈≈\approxR2R2R^2R2R2R^2R2R2R^2

8
การแก้ไขเกี่ยวข้องกับแนวคิดของการถดถอยอย่างไร
อธิบายสั้น ๆ การแก้ไขหมายถึงอะไรมันเกี่ยวข้องกับแนวคิดของการถดถอยอย่างไร? การแก้ไขคือศิลปะของการอ่านระหว่างบรรทัดของตารางและในคณิตศาสตร์ระดับประถมศึกษาคำศัพท์มักจะหมายถึงกระบวนการคำนวณค่ากลางของฟังก์ชันจากชุดของค่าที่กำหนดหรือตารางของฟังก์ชันนั้น ฉันไม่สามารถตอบคำถามที่สองได้ กรุณาช่วย

2
การแปลงกลับของสัมประสิทธิ์การถดถอย
ฉันกำลังถดถอยเชิงเส้นด้วยตัวแปรที่ขึ้นกับการแปลง การเปลี่ยนแปลงต่อไปนี้ได้ทำขึ้นเพื่อให้สมมติฐานเกี่ยวกับความเป็นปกติของเศษซากเหลืออยู่ ตัวแปรที่ขึ้นต่อกันที่ไม่ถูกแปลงนั้นมีความเบ้เชิงลบและการแปลงต่อไปนี้ทำให้ใกล้เคียงปกติ: Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} โดยที่YorigYorigY_{orig}เป็นตัวแปรตามในระดับเดิม ฉันคิดว่ามันทำให้ความรู้สึกที่จะใช้การเปลี่ยนแปลงบางอย่างเกี่ยวกับββ\betaค่าสัมประสิทธิ์การทำงานทางด้านหลังของเราขนาดเดิม ใช้สมการถดถอยต่อไปนี้ Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X และโดยการแก้ไขเรามีX=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} และในที่สุดก็, αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 ใช้ตรรกะเดียวกันฉันพบ βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 ตอนนี้ทุกอย่างทำงานได้ดีสำหรับแบบจำลองที่มีตัวทำนาย 1 หรือ 2 ตัว ค่าสัมประสิทธิ์การแปลงกลับคล้ายกับค่าเดิมตอนนี้ฉันสามารถเชื่อถือข้อผิดพลาดมาตรฐานได้แล้ว ปัญหาเกิดขึ้นเมื่อมีคำศัพท์โต้ตอบเช่น Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} จากนั้นการเปลี่ยนรูปแบบกลับสำหรับนั้นไม่ใกล้เคียงกับระดับเดิมและฉันไม่แน่ใจว่าทำไมจึงเกิดขึ้น ฉันไม่แน่ใจเช่นกันว่าสูตรที่พบสำหรับการเปลี่ยนค่าสัมประสิทธิ์เบต้าสามารถใช้งานได้เช่นเดียวกับที่ 3 β (สำหรับเงื่อนไขการโต้ตอบ) ก่อนเข้าสู่พีชคณิตบ้าฉันคิดว่าฉันจะขอคำแนะนำ ...ββ\betaββ\beta

1
เหตุใดเราจึงคิดว่าข้อผิดพลาดนั้นกระจายตามปกติ
ฉันสงสัยว่าทำไมเราจึงใช้สมมติฐาน Gaussian เมื่อทำแบบจำลองข้อผิดพลาด ในหลักสูตร ML ของสแตนฟอร์ดศาสตราจารย์อึ้งได้อธิบายถึงมารยาทสองประการ: มันสะดวกในเชิงคณิตศาสตร์ (มันเกี่ยวข้องกับ Least Squares ที่เหมาะสมและง่ายต่อการแก้ไขด้วย pseudoinverse) เนื่องจากทฤษฎีบทขีด จำกัด กลางเราอาจสันนิษฐานว่ามีข้อเท็จจริงพื้นฐานมากมายที่ส่งผลกระทบต่อกระบวนการและผลรวมของข้อผิดพลาดส่วนบุคคลเหล่านี้จะมีแนวโน้มที่จะทำงานเหมือนในการแจกแจงปกติแบบศูนย์ ในทางปฏิบัติดูเหมือนว่าจะเป็นเช่นนั้น ฉันสนใจส่วนที่สองจริง ๆ ทฤษฎีบทขีด จำกัด กลางใช้ได้กับตัวอย่าง iid เท่าที่ฉันรู้ แต่เราไม่สามารถรับประกันได้ว่าตัวอย่างต้นแบบจะเป็น iid คุณมีความคิดเห็นเกี่ยวกับข้อผิดพลาดของเกาส์เซียนหรือไม่?

7
การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่?
ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่เป็นจุดแข็งและทิศทางของความสัมพันธ์ การถดถอยเชิงเส้นอย่างง่ายหมายความถึงสาเหตุหรือไม่? หรือการทดสอบสถิติเชิงอนุมาน (t-test ฯลฯ ) จำเป็นสำหรับสิ่งนั้นหรือไม่?

2
ฉันจะตีความ Exp (B) ในการถดถอยแบบ Cox ได้อย่างไร
ฉันเป็นนักศึกษาแพทย์ที่พยายามทำความเข้าใจกับสถิติ (!) - ดังนั้นขอให้สุภาพ! ;) ฉันกำลังเขียนเรียงความที่ประกอบด้วยการวิเคราะห์ทางสถิติในจำนวนที่เหมาะสมรวมถึงการวิเคราะห์การอยู่รอด (Kaplan-Meier, Log-Rank และ Cox regression) ฉันใช้ Cox regression กับข้อมูลของฉันพยายามค้นหาว่าฉันสามารถค้นหาความแตกต่างที่สำคัญระหว่างการเสียชีวิตของผู้ป่วยในสองกลุ่ม (ผู้ป่วยที่มีความเสี่ยงสูงหรือผู้ที่มีความเสี่ยงต่ำ) ฉันได้เพิ่ม covariates หลายตัวลงใน Cox regression เพื่อควบคุมอิทธิพลของพวกเขา Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) ฉันลบ Artery occlusion ออกจากรายการ covariates เนื่องจาก SE มีค่าสูงมาก …

5
วิธีการเพิ่มองค์ประกอบตามระยะเวลาในรูปแบบการถดถอยเชิงเส้น?
ฉันมีข้อมูลความถี่สะสม บรรทัดดูเหมือนว่าเหมาะกับข้อมูลที่ดีมาก แต่มีการวนรอบ / แบบกระดิกในบรรทัด ฉันต้องการที่จะประเมินเมื่อความถี่สะสมจะถึงค่าบางอย่างคเมื่อฉันพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งฉันได้รับพฤติกรรมไซน์ที่สวยงามy=ax+by=ax+by=ax+bccc ตอนนี้เพื่อเพิ่มความซับซ้อนอื่นให้ทราบว่าในแปลงที่เหลือ มีสองรอบที่มีค่าต่ำกว่ารอบอื่น ๆ ซึ่งหมายถึงเอฟเฟกต์สุดสัปดาห์ที่ต้องนำมาพิจารณาด้วย ดังนั้นฉันจะไปจากที่นี่ที่ไหน ฉันจะรวมคำโคไซน์ไซน์หรือไซโคลเข้ากับตัวแบบการถดถอยได้อย่างไร ประมาณการเมื่อความถี่สะสมจะเท่ากับ ?ccc

2
ทำความเข้าใจเกี่ยวกับการทดสอบ t สำหรับการถดถอยเชิงเส้น
ฉันกำลังพยายามหาวิธีการทดสอบสมมติฐานบางอย่างเกี่ยวกับการถดถอยเชิงเส้น (สมมติฐานว่างไม่มีความสัมพันธ์) ทุกคำแนะนำและหน้าในเรื่องที่ฉันพบดูเหมือนจะใช้การทดสอบ t แต่ฉันไม่เข้าใจความหมายของการทดสอบการถดถอยเชิงเส้น การทดสอบแบบทียกเว้นว่าฉันมีความเข้าใจผิดอย่างสมบูรณ์หรือแบบจำลองทางจิตถูกใช้เพื่อเปรียบเทียบประชากรสองคน แต่ regressor และ regressand ไม่ใช่ตัวอย่างของประชากรที่คล้ายกันและอาจไม่ได้เป็นหน่วยเดียวกันดังนั้นจึงไม่มีเหตุผลที่จะเปรียบเทียบมัน ดังนั้นเมื่อใช้ t-test ในการถดถอยเชิงเส้นสิ่งที่เราทำจริง ๆ ?

2
ทำไมการแจกแจงแบบ T ใช้สำหรับการทดสอบสมมุติฐานสัมประสิทธิ์การถดถอยเชิงเส้น?
ในทางปฏิบัติการใช้ T-test มาตรฐานเพื่อตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นคือการปฏิบัติทั่วไป กลไกของการคำนวณนั้นสมเหตุสมผลสำหรับฉัน ทำไมการแจกแจงแบบ T สามารถใช้เป็นแบบจำลองสถิติการทดสอบมาตรฐานที่ใช้ในการทดสอบสมมติฐานการถดถอยเชิงเส้น สถิติทดสอบมาตรฐานฉันหมายถึงที่นี่: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
เหตุใด Lasso หรือ ElasticNet จึงทำงานได้ดีกว่า Ridge เมื่อฟีเจอร์นั้นสัมพันธ์กัน
ฉันมีฟีเจอร์ 150 ชุดและส่วนใหญ่มีความสัมพันธ์ซึ่งกันและกัน เป้าหมายของฉันคือการทำนายค่าของตัวแปรที่ไม่ต่อเนื่องซึ่งเป็นช่วง1-8 ขนาดตัวอย่างของฉันคือ550และฉันใช้การตรวจสอบความถูกต้องข้าม10 เท่า AFAIK ในบรรดาวิธีการทำให้เป็นมาตรฐาน (Lasso, ElasticNet และ Ridge) Ridge มีความเข้มงวดมากขึ้นในการเชื่อมโยงระหว่างคุณลักษณะต่างๆ นั่นคือเหตุผลที่ฉันคาดว่าด้วย Ridge ฉันควรได้คำทำนายที่แม่นยำยิ่งขึ้น อย่างไรก็ตามผลลัพธ์ของฉันแสดงว่าค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยของ Lasso หรือ Elastic อยู่ที่ประมาณ0.61ในขณะที่คะแนนนี้เท่ากับ0.97สำหรับการถดถอยของสัน ฉันสงสัยว่าอะไรจะเป็นคำอธิบายสำหรับสิ่งนี้ นี่เป็นเพราะฉันมีคุณสมบัติมากมายและ Lasso ทำงานได้ดีขึ้นเพราะทำให้การเลือกคุณสมบัติเรียงลำดับโดยกำจัดคุณสมบัติที่ซ้ำซ้อนออกไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.