คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

18
จะเกิดอะไรขึ้นถ้าตัวแปรอธิบายและการตอบสนองถูกจัดเรียงอย่างอิสระก่อนการถดถอย
สมมติว่าเรามีชุดข้อมูลมี points เราต้องการที่จะดำเนินการถดถอยเชิงเส้น แต่แรกที่เราจัดเรียงค่าและค่าเป็นอิสระจากกันสร้างชุดข้อมูลY_j) มีการตีความความหมายของการถดถอยในชุดข้อมูลใหม่หรือไม่? สิ่งนี้มีชื่อหรือไม่?(Xi,Yi)(Xi,Yi)(X_i,Y_i)nnnY i ( X i , Y j )XiXiX_iYiYiY_i( Xผม, วายJ)(Xi,Yj)(X_i,Y_j) ฉันคิดว่านี่เป็นคำถามที่งี่เง่าดังนั้นฉันขอโทษฉันไม่ได้รับการฝึกฝนอย่างเป็นทางการในสถิติ ในใจของฉันสิ่งนี้ทำลายข้อมูลของเราอย่างสมบูรณ์และการถดถอยไม่มีความหมาย แต่ผู้จัดการของฉันบอกว่าเขาได้รับ "การถดถอยที่ดีขึ้นเกือบตลอดเวลา" เมื่อเขาทำสิ่งนี้ (ที่นี่ "ดีกว่า" หมายถึงการคาดการณ์ได้มากขึ้น) ฉันมีความรู้สึกว่าเขากำลังหลอกลวงตัวเอง แก้ไข: ขอบคุณสำหรับตัวอย่างที่ดีและอดทนของคุณทั้งหมด ฉันแสดงให้เขาเห็นตัวอย่างโดย @ RUser4512 และ @gung และเขายังคงหยุดยั้ง เขากลายเป็นหงุดหงิดและฉันเหนื่อยมาก ฉันรู้สึกหงุดหงิด ฉันอาจจะเริ่มหางานอื่น ๆ เร็ว ๆ นี้

2
การตีความเอาต์พุตของ R's lm ()
หน้าความช่วยเหลือใน R คิดว่าฉันรู้ว่าตัวเลขเหล่านั้นมีความหมายอย่างไร แต่ฉันไม่เข้าใจ ฉันพยายามที่จะเข้าใจตัวเลขทุกตัวที่นี่อย่างสังหรณ์ใจ ฉันจะโพสต์ผลลัพธ์และแสดงความคิดเห็นในสิ่งที่ฉันค้นพบ อาจมี (จะ) ผิดพลาดอย่างฉันจะเขียนสิ่งที่ฉันคิด ส่วนใหญ่ฉันต้องการทราบว่าค่า t ในสัมประสิทธิ์หมายความว่าอย่างไรและทำไมพวกเขาพิมพ์ข้อผิดพลาดมาตรฐานที่เหลือ Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 นี่คือสรุป 5 จุดของส่วนที่เหลือ (ค่าเฉลี่ยของพวกเขาคือ 0 เสมอใช่ไหม) ตัวเลขสามารถใช้ (ฉันเดาที่นี่) เพื่อดูว่ามีค่าผิดปกติใหญ่ ๆ อย่างรวดเร็วหรือไม่ นอกจากนี้คุณสามารถดูได้ที่นี่หากส่วนที่เหลืออยู่ไกลจากการกระจายปกติ (พวกเขาควรจะกระจายตามปกติ) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

6
คือ
ฉันกำลังอ่านบันทึกการบรรยายโดย Cosma Shalizi (โดยเฉพาะอย่างยิ่งหัวข้อ 2.1.1 ของการบรรยายครั้งที่สอง ) และได้รับการเตือนว่าคุณจะได้รับต่ำมากR2R2R^2แม้ว่าคุณจะมีโมเดลเชิงเส้นสมบูรณ์ ในการถอดความตัวอย่างของ Shalizi: สมมติว่าคุณมีโมเดลY=aX+ϵY=aX+ϵY = aX + \epsilonโดยที่aaaรู้จัก จากนั้นVar[Y]=a2Var[x]+Var[ϵ]Var[Y]=a2Var[x]+Var[ϵ]\newcommand{\Var}{\mathrm{Var}}\Var[Y] = a^2 \Var[x] + \Var[\epsilon]และจำนวนความแปรปรวนที่อธิบายคือa2Var[X]a2Var[X]a^2 \Var[X]ดังนั้นR2=a2Var[x]a2Var[X]+Var[ϵ]R2=a2Var[x]a2Var[X]+Var[ϵ]R^2 = \frac{a^2 \Var[x]}{a^2 \Var[X] + \Var[\epsilon]}epsilon]} นี้ไป 0 เป็นVar[X]→0Var[X]→0\Var[X] \rightarrow 0และ 1 Var[X]→∞Var[X]→∞\Var[X] \rightarrow \infty\ ในทางกลับกันคุณสามารถรับR ^ 2สูงR2R2R^2ถึงแม้ว่าแบบจำลองของคุณจะไม่ใช่แบบเส้นตรง (ใครมีตัวอย่างที่ดีทันทีทันใด?) ดังนั้นเมื่อR2R2R^2เป็นสถิติที่มีประโยชน์และเมื่อใดควรจะละเว้น?

3
เมื่อใดที่ฉันควรใช้บ่วงบาศกับสันเขา?
กล่าวว่าฉันต้องการประมาณค่าพารามิเตอร์จำนวนมากและฉันต้องการลงโทษบางส่วนเพราะฉันเชื่อว่าพวกเขาควรมีผลเพียงเล็กน้อยเมื่อเทียบกับคนอื่น ฉันจะตัดสินใจว่าจะใช้รูปแบบการลงโทษได้อย่างไร การถดถอยของสันเขาจะเหมาะสมกว่าเมื่อใด เมื่อใดที่ฉันควรใช้บ่วงบาศ

8
ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

8
วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?
หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?

5
“ การควบคุมตัวแปรอื่น ๆ ” ได้อย่างไร?
นี่คือบทความที่กระตุ้นคำถามนี้: ความกระวนกระวายทำให้เราอ้วนหรือไม่? ฉันชอบบทความนี้และแสดงให้เห็นอย่างชัดเจนถึงแนวคิดของ "การควบคุมตัวแปรอื่น ๆ " (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) เพื่อแยกความสัมพันธ์ที่แท้จริงระหว่างตัวแปร 2 ตัวที่มีปัญหา คุณช่วยอธิบายให้ฉันฟังว่าคุณควบคุมตัวแปรในชุดข้อมูลทั่วไปได้อย่างไร? เช่นหากคุณมี 2 คนที่มีระดับความอดทนและ BMI เหมือนกัน แต่มีรายได้ต่างกันคุณจะจัดการกับข้อมูลเหล่านี้อย่างไร คุณแบ่งกลุ่มพวกเขาออกเป็นกลุ่มย่อยต่าง ๆ ที่มีรายได้ความอดทนและค่าดัชนีมวลกายใกล้เคียงกันหรือไม่? แต่ท้ายที่สุดก็มีตัวแปรหลายสิบตัวที่จะควบคุม (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) จากนั้นคุณจะรวมกลุ่มย่อย 100 กลุ่มเหล่านี้ได้อย่างไร ในความเป็นจริงฉันมีความรู้สึกว่าวิธีนี้กำลังเห่าต้นไม้ที่ไม่ถูกต้องตอนนี้ที่ฉันพูดด้วยวาจาแล้ว ขอบคุณที่ส่องแสงบางอย่างที่ฉันตั้งใจจะทำตอนนี้สองสามปีที่ผ่านมา ... !


9
เมื่อใดที่จะเอาการสกัดกั้นในตัวแบบการถดถอยเชิงเส้นเมื่อใด
ฉันกำลังใช้ตัวแบบการถดถอยเชิงเส้นและสงสัยว่าเงื่อนไขสำหรับการลบคำดักจับนั้นคืออะไร ในการเปรียบเทียบผลลัพธ์จากการถดถอยสองแบบที่หนึ่งมีการสกัดกั้นและอื่น ๆ ไม่ได้ฉันสังเกตว่าของฟังก์ชันที่ไม่มีการสกัดกั้นนั้นสูงกว่ามาก มีเงื่อนไขหรือข้อสมมติฐานบางอย่างที่ฉันควรปฏิบัติตามเพื่อให้แน่ใจว่าการลบคำดักฟังนั้นถูกต้องหรือไม่R2R2R^2

9
ตัวอย่างเชิงตัวเลขเพื่อทำความเข้าใจเกี่ยวกับความคาดหวังสูงสุด
ฉันพยายามเข้าใจอัลกอริธึม EM อย่างดีเพื่อให้สามารถใช้งานและใช้งานได้ ฉันใช้เวลาทั้งวันในการอ่านทฤษฎีและกระดาษที่ EM ใช้ในการติดตามอากาศยานโดยใช้ข้อมูลตำแหน่งที่มาจากเรดาร์ สุจริตฉันไม่คิดว่าฉันเข้าใจความคิดพื้นฐานทั้งหมด ใครบางคนสามารถชี้ให้ฉันเป็นตัวอย่างของตัวเลขที่แสดงการวนซ้ำสองสาม (3-4) ของ EM สำหรับปัญหาที่ง่ายกว่า (เช่นการประมาณค่าพารามิเตอร์ของการแจกแจงแบบเกาส์หรือลำดับของชุดไซน์หรือปรับเส้นตรง) แม้ว่าใครบางคนสามารถชี้ให้ฉันเห็นชิ้นส่วนของรหัส (ด้วยข้อมูลสังเคราะห์) ฉันสามารถลองผ่านรหัสได้

3
ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์คำนวณได้อย่างไรในการถดถอย
เพื่อความเข้าใจของฉันเองฉันสนใจที่จะจำลองการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์โดยประมาณด้วยตนเองเช่นมาพร้อมกับlm()ฟังก์ชั่นเอาท์พุทRแต่ไม่สามารถตรึงมันได้ มีการใช้สูตร / การนำไปปฏิบัติอย่างไร

3
จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?
ฉันมีคำถามแปลก ๆ สมมติว่าคุณมีตัวอย่างขนาดเล็กที่ตัวแปรตามที่คุณจะวิเคราะห์ด้วยตัวแบบเชิงเส้นอย่างง่ายเอียงซ้ายอย่างมาก ดังนั้นคุณคิดว่าไม่ได้กระจายตามปกติเพราะนี้จะส่งผลให้การกระจายตามปกติYแต่เมื่อคุณคำนวณพล็อต QQ-Normal มีหลักฐานแสดงว่าส่วนที่เหลือจะกระจายตามปกติ ดังนั้นทุกคนสามารถสันนิษฐานได้ว่าคำว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติแม้ว่าจะไม่ใช่ ดังนั้นมันหมายความว่าอย่างไรเมื่อคำว่าข้อผิดพลาดดูเหมือนว่าจะกระจายตามปกติ แต่ไม่ได้?uuuyyyyyyyyy

5
ทักษะใดที่จำเป็นสำหรับการวิเคราะห์ทางสถิติขนาดใหญ่
งานสถิติหลายงานขอประสบการณ์กับข้อมูลขนาดใหญ่ ทักษะทางสถิติและการคำนวณประเภทใดที่จำเป็นสำหรับการทำงานกับชุดข้อมูลขนาดใหญ่ ตัวอย่างเช่นวิธีการสร้างแบบจำลองการถดถอยที่ให้ชุดข้อมูลที่มีตัวอย่าง 10 ล้านตัวอย่าง


9
การถดถอยเชิงเส้นใน y กับ x กับ x กับ y แตกต่างกันอย่างไร?
สัมประสิทธิ์สหสัมพันธ์ของ Pearson ของ x และ y ไม่ว่าคุณจะคำนวณ pearson (x, y) หรือ pearson (y, x) นี่แสดงให้เห็นว่าการทำการถดถอยเชิงเส้นของ y ที่ให้ x หรือ x ที่ให้ y ควรเหมือนกัน แต่ฉันไม่คิดว่าเป็นเช่นนั้น ใครบางคนสามารถแสดงความคิดเห็นได้เมื่อความสัมพันธ์ไม่สมมาตรและวิธีการที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (ซึ่งฉันคิดเสมอว่าเป็นการสรุปว่าเหมาะสมที่สุด)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.