คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

9
ทำไมจึงเป็นไปได้ที่จะได้รับสถิติ F อย่างมีนัยสำคัญ (p <.001) แต่การทดสอบ t regressor ไม่สำคัญ?
ในการถดถอยเชิงเส้นแบบหลายเหตุใดจึงเป็นไปได้ที่จะมีสถิติ F ที่มีความสำคัญสูง (p &lt;.001) แต่มีค่า p สูงมากในการทดสอบ t ของ regressor ทั้งหมด? ในแบบจำลองของฉันมีผู้ลงทะเบียน 10 ราย หนึ่งมีค่า p-0.1 และส่วนที่เหลืออยู่สูงกว่า 0.9 สำหรับการรับมือกับปัญหานี้ดูคำถามที่ติดตาม

2
รูปร่างของช่วงความมั่นใจสำหรับค่าที่คาดการณ์ไว้ในการถดถอยเชิงเส้น
ฉันสังเกตเห็นว่าช่วงความมั่นใจสำหรับค่าที่ทำนายในการถดถอยเชิงเส้นมีแนวโน้มแคบลงรอบค่าเฉลี่ยของตัวทำนายและไขมันรอบค่าต่ำสุดและค่าสูงสุดของตัวทำนาย สิ่งนี้สามารถเห็นได้ในพล็อตของการถดถอยเชิงเส้น 4 แบบนี้: ตอนแรกฉันคิดว่าเป็นเพราะค่านิยมของผู้ทำนายส่วนใหญ่กระจุกตัวอยู่กับค่าเฉลี่ยของผู้ทำนาย อย่างไรก็ตามฉันสังเกตเห็นว่าช่วงกลางที่แคบของช่วงความมั่นใจจะเกิดขึ้นแม้ว่าค่าจำนวนมากจะกระจุกตัวอยู่รอบสุดขั้วของตัวทำนายเช่นเดียวกับในการถดถอยเชิงเส้นด้านล่างซ้ายซึ่งค่าของตัวทำนายจำนวนมากนั้นมีสมาธิ ผู้ทำนาย ไม่มีใครสามารถอธิบายได้ว่าทำไมช่วงเวลาความเชื่อมั่นสำหรับค่าที่ทำนายไว้ในการถดถอยเชิงเส้นมีแนวโน้มที่จะแคบลงตรงกลางและไขมันที่สุดขั้ว?

4
สัมประสิทธิ์สหสัมพันธ์ต่างจากความชันถดถอยอย่างไร
ฉันคาดว่าค่าสัมประสิทธิ์สหสัมพันธ์จะเหมือนกับความชันถดถอย (เบต้า) แต่เมื่อเปรียบเทียบกับทั้งสองมันต่างกัน พวกเขาต่างกันอย่างไร - พวกเขาให้ข้อมูลที่แตกต่างกันอย่างไร

7
ข้อกำหนดการโต้ตอบทั้งหมดต้องการคำศัพท์เฉพาะในรูปแบบการถดถอยหรือไม่
ฉันกำลังทบทวนต้นฉบับที่ผู้เขียนเปรียบเทียบแบบจำลองการถดถอยโลจิท 5-6 กับ AIC อย่างไรก็ตามบางรุ่นมีเงื่อนไขการใช้ร่วมกันโดยไม่รวมถึงข้อกำหนด covariate แต่ละรายการ มันสมเหตุสมผลไหมที่จะทำสิ่งนี้? ตัวอย่างเช่น (ไม่เฉพาะสำหรับรุ่น logit): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 &amp; X2) ฉันอยู่ภายใต้ความประทับใจเสมอว่าหากคุณมีคำศัพท์โต้ตอบระหว่าง …

10
เกิดอะไรขึ้นกับการคาดการณ์?
ฉันจำได้ว่านั่งอยู่ในหลักสูตรสถิติเนื่องจากการได้ยินในระดับปริญญาตรีว่าทำไมการคาดการณ์จึงเป็นความคิดที่ไม่ดี นอกจากนี้ยังมีแหล่งข้อมูลออนไลน์ที่หลากหลายซึ่งแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ นอกจากนี้ยังมีการพูดถึงมันที่นี่นี่ ใครสามารถช่วยฉันเข้าใจว่าทำไมการอนุมานจึงเป็นความคิดที่ไม่ดี ถ้าเป็นเช่นนั้นเทคนิคการพยากรณ์ว่าไม่ถูกต้องทางสถิติอย่างไร

1
ความสัมพันธ์แบบใดที่ทำให้เมทริกซ์เอกพจน์และความหมายของเอกพจน์หรือความใกล้เคียงเอกฐานคืออะไร
ฉันกำลังคำนวณบางอย่างกับเมทริกซ์ที่แตกต่างกัน (ส่วนใหญ่ในการถดถอยโลจิสติก) และฉันมักจะได้รับข้อผิดพลาด "เมทริกซ์คือเอกพจน์" ที่ฉันต้องย้อนกลับไปและลบตัวแปรที่เกี่ยวข้อง คำถามของฉันที่นี่คือสิ่งที่คุณจะพิจารณาเมทริกซ์ที่มีความสัมพันธ์ "สูง" มีค่าขีด จำกัด ของความสัมพันธ์เพื่อเป็นตัวแทนของคำนี้หรือไม่? เช่นเดียวกับตัวแปรที่มีความสัมพันธ์ 0.97 กับอีกอันหนึ่งมันสูงพอที่จะทำให้เมทริกซ์เอกพจน์หรือไม่? ขออภัยหากคำถามนี้เป็นพื้นฐานมากฉันไม่สามารถหาการอ้างอิงใด ๆ ที่พูดถึงปัญหานี้ (คำแนะนำเกี่ยวกับการอ้างอิงใด ๆ จะเป็นประโยชน์อย่างมาก!)

5
มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?
พิจารณาสามปรากฏการณ์ต่อไปนี้ ความขัดแย้งของสไตน์: ได้รับข้อมูลจากการแจกแจงปกติหลายตัวแปรในค่าเฉลี่ยตัวอย่างไม่ใช่ค่าประมาณที่ดีมากของค่าเฉลี่ยที่แท้จริง เราสามารถได้ค่าประมาณที่มีความคลาดเคลื่อนกำลังสองต่ำกว่าถ้ามีการลดขนาดพิกัดทั้งหมดของค่าเฉลี่ยตัวอย่างไปยังศูนย์ [หรือไปสู่ค่าเฉลี่ยของพวกเขาหรือจริงต่อค่าใด ๆ ถ้าฉันเข้าใจถูกต้อง]Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 หมายเหตุ: มักจะเป็นสูตรของสไตน์โดยพิจารณาจากจุดข้อมูลเดียว ; โปรดแก้ไขฉันหากนี่เป็นสิ่งสำคัญและสูตรของฉันด้านบนไม่ถูกต้องRnRn\mathbb R^n สันถดถอย: ให้ตัวแปรและตัวแปรอิสระบางตัว , การถดถอยมาตรฐานมีแนวโน้ม เพื่อให้ข้อมูลเหมาะสมและนำไปสู่ประสิทธิภาพที่ไม่ดีตัวอย่าง หนึ่งมักจะสามารถลดการหดตัวโดยอิงต่อศูนย์:YX β = ( X ⊤ X ) - 1 X ⊤ Y β β = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yyy\mathbf yXX\mathbf …

4
การเพิ่ม IV ที่ 2 ทำให้ IV ที่ 1 มีความหมายได้อย่างไร?
ฉันมีสิ่งที่อาจเป็นคำถามง่าย ๆ แต่มันทำให้ฉันงุนงงตอนนี้ดังนั้นฉันหวังว่าคุณจะสามารถช่วยฉันออก ฉันมีรูปแบบการถดถอยกำลังสองน้อยที่สุดโดยมีตัวแปรอิสระหนึ่งตัวและตัวแปรตามหนึ่งตัว ความสัมพันธ์ไม่สำคัญ ตอนนี้ฉันเพิ่มตัวแปรอิสระตัวที่สอง ตอนนี้ความสัมพันธ์ระหว่างตัวแปรอิสระตัวแรกกับตัวแปรตามกลายเป็นสิ่งสำคัญ มันทำงานอย่างไร นี่อาจแสดงให้เห็นถึงปัญหาบางอย่างกับความเข้าใจของฉัน แต่สำหรับฉัน แต่ฉันไม่เห็นว่าการเพิ่มตัวแปรอิสระตัวที่สองนี้สามารถสร้างความสำคัญครั้งแรกได้อย่างไร

5
อธิบายความแตกต่างระหว่างการถดถอยหลายครั้งและการถดถอยหลายตัวแปรโดยใช้สัญลักษณ์ / คณิตศาสตร์น้อยที่สุด
การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?

7
การถดถอยที่มีตัวแปรตามหลายตัว?
เป็นไปได้ไหมที่จะมีสมการการถดถอยแบบหลายค่าที่มีตัวแปรตามสองตัวหรือมากกว่า แน่นอนว่าคุณสามารถรันสมการถดถอยสองแบบแยกกันได้หนึ่งตัวสำหรับแต่ละ DV แต่นั่นไม่เหมือนว่าจะจับความสัมพันธ์ระหว่าง DV ทั้งสองได้หรือไม่
61 regression 

15
ทำไมสถิติแบบพารามิเตอร์จะได้รับความนิยมมากกว่าแบบ nonparametric
ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมทุกคนจะเลือกพาราเมทริกสำหรับวิธีการทดสอบสมมติฐานหรือการวิเคราะห์การถดถอย ในใจของฉันมันเหมือนกับการไปล่องแพและเลือกนาฬิกาที่ไม่กันน้ำเพราะคุณอาจไม่เปียก ทำไมไม่ใช้เครื่องมือที่ใช้ได้กับทุกโอกาส?

9
อะไรคือข้อเสียของการใช้เชือกสำหรับการเลือกตัวแปรสำหรับการถดถอย
จากสิ่งที่ฉันรู้การใช้ lasso สำหรับการเลือกตัวแปรช่วยจัดการปัญหาของอินพุตที่สัมพันธ์กัน นอกจากนี้เนื่องจากมันเทียบเท่ากับ Least Angle Regression มันจึงไม่คำนวณช้า อย่างไรก็ตามหลายคน (ตัวอย่างเช่นคนที่ฉันรู้ว่าทำสถิติไบโอ) ยังดูเหมือนว่าจะชอบการเลือกตัวแปรขั้นตอน มีข้อเสียในทางปฏิบัติของการใช้บ่วงบาศที่ทำให้เสียเปรียบหรือไม่?

3
ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง
ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeβridge\beta_\text{ridge}แตกต่างจากβOLSβOLS\beta_\text{OLS}โดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XX′XX′XX'Xอันที่จริง βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

6
วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?
เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.