คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
เปรียบเทียบระหว่าง Newey-West (1987) และ Hansen-Hodrick (1980)
คำถาม:อะไรคือความแตกต่างที่สำคัญและความคล้ายคลึงกันระหว่างการใช้ข้อผิดพลาดมาตรฐานของ Newey-West (1987) และ Hansen-Hodrick (1980) ในสถานการณ์ใดสถานการณ์หนึ่งควรเป็นที่นิยมมากกว่าสถานการณ์อื่น หมายเหตุ: ฉันรู้ว่าแต่ละขั้นตอนการปรับเหล่านี้ทำงานอย่างไร; อย่างไรก็ตามฉันยังไม่พบเอกสารใด ๆ ที่จะเปรียบเทียบพวกเขาทั้งแบบออนไลน์และในตำราเรียนของฉัน ยินดีต้อนรับการอ้างอิง! Newey-West มีแนวโน้มที่จะใช้เป็นข้อผิดพลาดมาตรฐาน "catch-all" HAC ในขณะที่ Hansen-Hodrick เกิดขึ้นบ่อยครั้งในบริบทของจุดข้อมูลที่ทับซ้อนกัน (เช่นดูคำถามนี้หรือคำถามนี้ ) ดังนั้นหนึ่งในสิ่งสำคัญของคำถามของฉันคือจะมีอะไรที่เกี่ยวกับแฮนเซน-Hodrick ที่ทำให้มันมากขึ้นเหมาะกับการจัดการกับข้อมูลที่ทับซ้อนกันกว่า Newey เวสต์? (ท้ายที่สุดแล้วการซ้อนทับข้อมูลในที่สุดนำไปสู่ข้อผิดพลาดที่มีความสัมพันธ์แบบลำดับซึ่ง Newey-West จัดการกับ) สำหรับบันทึกฉันรู้ถึงคำถามที่คล้ายกันนี้แต่มันค่อนข้างแย่โพสต์ลงและท้ายที่สุดคำถามที่ฉันถามที่นี่ไม่ได้รับคำตอบ (เฉพาะส่วนที่เกี่ยวข้องกับการเขียนโปรแกรมเท่านั้นที่ได้รับคำตอบ)

2
สัญลักษณ์เมทริกซ์สำหรับการถดถอยโลจิสติก
ในการถดถอยเชิงเส้น (การสูญเสียกำลังสอง) การใช้เมทริกซ์เรามีสัญกรณ์ที่รัดกุมมากสำหรับวัตถุประสงค์ minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 โดยที่AAAคือเมทริกซ์ข้อมูลxxxคือสัมประสิทธิ์และbbbคือการตอบสนอง มีสัญกรณ์เมทริกซ์ที่คล้ายกันสำหรับวัตถุประสงค์การถดถอยโลจิสติก? สัญลักษณ์ทั้งหมดที่ฉันเห็นไม่สามารถกำจัดผลรวมเหนือจุดข้อมูลทั้งหมดได้ (เช่น∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx) ) แก้ไข: ขอบคุณสำหรับ joceratops และคำตอบที่ยอดเยี่ยมของ AdamO คำตอบของพวกเขาช่วยให้ผมตระหนักดีว่าเหตุผลถดถอยเชิงเส้นอื่นมีสัญกรณ์รัดกุมมากขึ้นเป็นเพราะความหมายของบรรทัดฐานซึ่งแค็ปซูตารางและผลรวมหรือบนอี แต่ในการสูญเสียโลจิสติกไม่มีคำจำกัดความดังกล่าวซึ่งทำให้สัญกรณ์ซับซ้อนขึ้นเล็กน้อยe⊤ee⊤ee^\top e

2
การถดถอยแบบขั้นตอนใน R - มันทำงานอย่างไร
ฉันพยายามที่จะเข้าใจความแตกต่างพื้นฐานระหว่างการถดถอยแบบขั้นตอนและย้อนกลับใน R โดยใช้ฟังก์ชั่นขั้นตอน สำหรับการถดถอยแบบขั้นตอนฉันใช้คำสั่งต่อไปนี้ step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") ฉันได้ผลลัพธ์ด้านล่างสำหรับโค้ดด้านบน สำหรับการเลือกตัวแปรย้อนหลังฉันใช้คำสั่งต่อไปนี้ step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") และฉันได้ผลลัพธ์ด้านล่างสำหรับย้อนหลัง มากที่สุดเท่าที่ฉันเข้าใจเมื่อไม่มีการระบุพารามิเตอร์การเลือกแบบขั้นตอนทำหน้าที่ย้อนหลังเว้นแต่จะระบุพารามิเตอร์ "upper" และ "lower" ใน R แต่ในเอาต์พุตของการเลือกแบบ stepwise มี + disp ที่เพิ่มเข้ามา ขั้นตอนที่ 2 ฟังก์ชั่นพยายามทำอะไรโดยเพิ่มเครื่องหมาย + อีกครั้งในการเลือกแบบขั้นตอน? ทำไม R เพิ่ม + disp ในขั้นตอนที่ 2 ในขณะที่ผลลัพธ์เหมือนกัน (ค่า AIC และค่าการเลือกแบบจำลอง) เป็นการเลือกแบบย้อนหลัง R ทำงานอย่างไรในการเลือกแบบขั้นตอน ฉันต้องการเข้าใจจริงๆว่าฟังก์ชั่นนี้ทำงานอย่างไรใน R. ขอบคุณล่วงหน้าสำหรับความช่วยเหลือ!
15 r  regression 

3
เราจำเป็นต้องรวม“ ตัวทำนายที่เกี่ยวข้องทั้งหมดหรือไม่”
สมมติฐานพื้นฐานของการใช้แบบจำลองการถดถอยสำหรับการอนุมานคือ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ได้รวมอยู่ในสมการทำนาย เหตุผลก็คือความล้มเหลวในการรวมปัจจัยที่สำคัญในโลกแห่งความจริงนำไปสู่ค่าสัมประสิทธิ์ความเอนเอียงและการอนุมานที่ไม่ถูกต้อง แต่ในการปฏิบัติงานวิจัยฉันไม่เคยเห็นใครเลยรวมทั้งสิ่งที่คล้ายคลึงกับ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ปรากฏการณ์หลายอย่างมีสาเหตุสำคัญมากมายและมันคงเป็นเรื่องยากมากที่จะรวมพวกเขาทั้งหมดเข้าด้วยกัน ตัวอย่างนอกข้อมือคือการสร้างแบบจำลองภาวะซึมเศร้าเป็นผลลัพธ์: ไม่มีใครสร้างอะไรที่ใกล้เคียงกับแบบจำลองซึ่งรวมถึง "ตัวแปรที่เกี่ยวข้องทั้งหมด": เช่นประวัติผู้ปกครองลักษณะบุคลิกภาพการสนับสนุนทางสังคมรายได้ปฏิสัมพันธ์ของพวกเขา ฯลฯ ฯลฯ ... ยิ่งไปกว่านั้นการติดตั้งแบบจำลองที่ซับซ้อนเช่นนี้จะนำไปสู่การประมาณค่าที่ไม่เสถียรสูงเว้นแต่ว่ามีตัวอย่างขนาดใหญ่ คำถามของฉันง่ายมาก: สมมติฐาน / คำแนะนำในการ "รวมตัวทำนายที่เกี่ยวข้องทั้งหมด" เป็นเพียงแค่สิ่งที่เรา "พูด" แต่ไม่เคยหมายความว่าจริงหรือ? ถ้าไม่เช่นนั้นทำไมเราจึงให้คำแนะนำในการสร้างแบบจำลองจริง? และนี่หมายความว่าสัมประสิทธิ์ส่วนใหญ่อาจทำให้เข้าใจผิด? (เช่นการศึกษาปัจจัยบุคลิกภาพและภาวะซึมเศร้าที่ใช้ตัวทำนายหลายตัวเท่านั้น) พูดอีกอย่างคือปัญหาใหญ่แค่ไหนสำหรับข้อสรุปของวิทยาศาสตร์ของเรา?

3
สำหรับตัวแยกประเภทแบบเชิงเส้นสัมประสิทธิ์ขนาดใหญ่แสดงถึงคุณสมบัติที่สำคัญกว่านี้ไหม
ฉันเป็นวิศวกรซอฟต์แวร์ที่ทำงานเกี่ยวกับการเรียนรู้ของเครื่อง จากความเข้าใจของฉันการถดถอยเชิงเส้น (เช่น OLS) และการ จำแนกเชิงเส้น (เช่นการถดถอยโลจิสติกและ SVM) ทำให้การคาดการณ์ขึ้นอยู่กับผลิตภัณฑ์ภายในระหว่างค่าสัมประสิทธิ์การฝึกอบรม และตัวแปรคุณลักษณะ→ x :W⃗ W→\vec{w}x⃗ x→\vec{x} Y^= f( ด้วย⃗ ⋅ x⃗ ) = f( ∑ผมWผมxผม)Y^=ฉ(W→⋅x→)=ฉ(ΣผมWผมxผม) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) คำถามของฉันคือ: หลังจากแบบจำลองได้รับการฝึกอบรม (นั่นคือหลังจากสัมประสิทธิ์คำนวณแล้ว) เป็นกรณีที่สัมประสิทธิ์จะมีขนาดใหญ่กว่าสำหรับตัวแปรคุณลักษณะที่สำคัญกว่าสำหรับแบบจำลองที่จะทำนายได้แม่นยำกว่าหรือไม่WผมWผมw_i ในคำอื่น ๆ ฉันถามว่าขนาดสัมพัทธ์ของสัมประสิทธิ์สามารถใช้สำหรับการเลือกคุณสมบัติโดยเพียงแค่สั่งตัวแปรตามค่าสัมประสิทธิ์แล้วเลือกคุณสมบัติที่มีสัมประสิทธิ์สูงสุดหรือไม่ หากวิธีการนี้ถูกต้องแล้วทำไมถึงไม่กล่าวถึงการเลือกคุณสมบัติ (รวมถึงวิธีการหุ้มและตัวกรอง ฯลฯ ) เหตุผลที่ฉันถามสิ่งนี้เพราะฉันได้พบกับการอภิปรายเกี่ยวกับการทำให้เป็นมาตรฐานL1 กับ L2 มีการประกาศแจ้งความว่า: การเลือกคุณสมบัติในตัวถูกกล่าวถึงบ่อยครั้งว่าเป็นคุณสมบัติที่มีประโยชน์ของ L1-norm ซึ่ง …

1
ฉันมีแนวที่ดีที่สุด ฉันต้องการจุดข้อมูลที่จะไม่เปลี่ยนแนวที่ดีที่สุดของฉัน
ฉันกำลังนำเสนอเกี่ยวกับเส้นสายที่กระชับ ฉันมีฟังก์ชั่นเชิงเส้นอย่างง่าย, ข ฉันกำลังพยายามหาจุดข้อมูลที่กระจัดกระจายที่ฉันสามารถใส่ในพล็อตกระจายที่จะทำให้แถวของฉันเหมาะสมที่สุดสมการเดียวกันy=1x+by=1x+by=1x+b ฉันชอบที่จะเรียนรู้เทคนิคนี้ใน R หรือ Excel - แล้วแต่ว่าจะง่ายกว่ากัน

3
เส้นโค้งเทียบกับการถดถอยของกระบวนการแบบเกาส์เซียน
ฉันรู้ว่า Gaussian Process Regression (GPR) เป็นอีกทางเลือกหนึ่งในการใช้ splines สำหรับโมเดลที่ไม่ใช่เชิงเส้นที่มีความยืดหยุ่น ฉันอยากจะรู้ว่าสถานการณ์ใดจะเหมาะสมกว่าสถานการณ์อื่นโดยเฉพาะอย่างยิ่งในกรอบการถดถอยแบบเบย์ ฉันได้ดูไปแล้วข้อดี / ข้อเสียของการใช้ Splines, Spline ที่ราบรื่น, และตัวเลียนแบบกระบวนการ Gaussian คืออะไร? แต่ดูเหมือนจะไม่มีอะไรใน GPR ในโพสต์นี้

1
วิธีที่ดีที่สุดในการแสดงความสัมพันธ์จากแบบจำลองเชิงเส้นหลายแบบ
ฉันมีโมเดลเชิงเส้นพร้อมตัวทำนายประมาณ 6 ตัวและฉันจะนำเสนอการประมาณค่า F ค่า p ฯลฯ ตัวแปรการตอบสนอง? scatterplot? พล็อตตามเงื่อนไข? พล็อตเอฟเฟกต์? etc? ฉันจะตีความพล็อตนั้นได้อย่างไร ฉันจะทำสิ่งนี้ใน R ดังนั้นอย่าลังเลที่จะให้ตัวอย่างถ้าคุณทำได้ แก้ไข: ฉันเกี่ยวข้องกับการนำเสนอความสัมพันธ์ระหว่างตัวทำนายที่ได้รับและตัวแปรการตอบสนองเป็นหลัก

3
ทดสอบความแตกต่างที่สำคัญระหว่างค่าความชันสองค่า
ข้อมูลที่ฉันมีคือค่าความชันถดถอยของเวลา y ~, ข้อผิดพลาดมาตรฐาน, ค่า n และค่า ap, สำหรับสปีชีส์ที่เฉพาะเจาะจงในสองพื้นที่ที่แตกต่างกัน ฉันต้องการตรวจสอบว่าความชันถดถอยสำหรับหนึ่งพื้นที่นั้นแตกต่างจากความชันถดถอยสำหรับพื้นที่อื่น - เป็นไปได้ไหมที่มีข้อมูลเช่นนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ที่ฉันจะไปเกี่ยวกับเรื่องนี้? ฉันไม่สามารถเข้าถึงข้อมูลดิบได้อย่างน่าเสียดาย ... ขออภัยที่เป็นคำถามง่าย ๆ เช่นนี้!

2
จะทำการถดถอยด้วยเอฟเฟ็กต์โค้ดแทนที่จะใช้การจำลองแบบ dummy ใน R ได้อย่างไร
ขณะนี้ฉันกำลังทำงานกับตัวแบบการถดถอยที่ฉันมีตัวแปรเด็ดขาด / ตัวประกอบเป็นตัวแปรอิสระเท่านั้น ตัวแปรตามของฉันคืออัตราส่วนการแปลง logit มันค่อนข้างง่ายเพียงเรียกใช้การถดถอยปกติใน R เนื่องจาก R รู้วิธีการกำหนดรหัสโดยอัตโนมัติทันทีที่พวกมันอยู่ในประเภท "factor" อย่างไรก็ตามการเข้ารหัสประเภทนี้ก็หมายความว่าหนึ่งประเภทจากแต่ละตัวแปรนั้นถูกใช้เป็นพื้นฐานทำให้ยากต่อการตีความ อาจารย์ของฉันบอกให้ฉันใช้เอฟเฟ็กต์โค้ดแทน (-1 หรือ 1) เพราะนี่หมายถึงการใช้ความหมายที่ยิ่งใหญ่สำหรับการสกัดกั้น ไม่มีใครรู้วิธีจัดการกับสิ่งนั้น? จนถึงตอนนี้ฉันได้ลอง: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + …

2
การถดถอยเชิงเส้นหลายครั้งสำหรับการทดสอบสมมติฐาน
ฉันคุ้นเคยกับการใช้การถดถอยเชิงเส้นหลายครั้งเพื่อสร้างแบบจำลองของตัวแปรต่าง ๆ อย่างไรก็ตามฉันสงสัยว่าการทดสอบการถดถอยจะใช้ในการทำการทดสอบสมมติฐานพื้นฐานประเภทใด ถ้าเป็นเช่นนั้นสถานการณ์ / สมมติฐานเหล่านั้นจะเป็นอย่างไร?

2
ถ้าฉันทำซ้ำการสังเกตทุกตัวอย่างในแบบจำลองการถดถอยเชิงเส้นและทำการถดถอยอีกครั้งผลลัพธ์จะได้รับผลกระทบอย่างไร
บอกว่าฉันมีการสังเกต N อาจเป็นหลายปัจจัยและฉันทำซ้ำการสังเกตแต่ละครั้งสองครั้ง (หรือ M ครั้ง) การถดถอยของขนาด NM ใหม่นี้จะเปรียบเทียบกับการถดถอยเพียงแค่การสังเกตการณ์ดั้งเดิมได้อย่างไร

4
การอัพเดตการถดถอยเชิงเส้นอย่างมีประสิทธิภาพเมื่อเพิ่มการสังเกตและ / หรือตัวทำนายใน R
ฉันสนใจที่จะหาวิธีใน R เพื่ออัปเดตโมเดลเชิงเส้นอย่างมีประสิทธิภาพเมื่อมีการเพิ่มการสังเกตหรือตัวทำนาย biglm มีความสามารถในการอัปเดตเมื่อเพิ่มการสังเกต แต่ข้อมูลของฉันมีขนาดเล็กพอที่จะอยู่ในหน่วยความจำ (แม้ว่าฉันจะมีอินสแตนซ์จำนวนมากที่ต้องอัปเดต) มีวิธีการทำเช่นนี้ด้วยมือเปล่าเช่นเพื่ออัปเดตการแยกตัวประกอบ QR (ดู "การอัปเดตการแยกตัวประกอบ QR และปัญหากำลังสองน้อยที่สุด" โดย Hammarling และ Lucas) แต่ฉันหวังว่าจะมีการใช้งานอยู่

3
ควรใช้ GAM กับ GLM เมื่อใด
ฉันรู้ว่านี่อาจเป็นคำถามที่กว้าง แต่ฉันสงสัยว่ามีข้อสมมติฐานทั่วไปที่บ่งบอกถึงการใช้ GAM (โมเดลเสริมทั่วไป) เหนือ GLM (โมเดลเชิงเส้นทั่วไป) หรือไม่ มีคนบอกฉันเมื่อไม่นานมานี้ว่า GAM ควรใช้เฉพาะเมื่อฉันถือว่าโครงสร้างข้อมูลเป็น "สารเติมแต่ง" เช่นฉันคาดว่าการเพิ่มของ x เพื่อคาดการณ์ y อีกคนหนึ่งชี้ให้เห็นว่า GAM ทำการวิเคราะห์การถดถอยแบบต่างจาก GLM และเป็นที่ต้องการของ GLM เมื่อสามารถอนุมานเชิงเส้นได้ ในอดีตฉันใช้ GAM สำหรับข้อมูลเชิงนิเวศน์เช่น: ไทม์อย่างต่อเนื่อง เมื่อข้อมูลไม่มีรูปร่างเป็นเส้นตรง ฉันมี x หลายตัวเพื่อทำนาย y ที่ฉันคิดว่ามีปฏิสัมพันธ์แบบไม่เชิงเส้นที่ฉันสามารถเห็นภาพโดยใช้ "พล็อตผิว" พร้อมกับการทดสอบทางสถิติ เห็นได้ชัดว่าฉันไม่มีความเข้าใจที่ดีในสิ่งที่ GAM ทำแตกต่างจาก GLM ฉันเชื่อว่าเป็นการทดสอบทางสถิติที่ถูกต้อง (และฉันเห็นการเพิ่มขึ้นของการใช้งาน GAMs อย่างน้อยในวารสารด้านนิเวศวิทยา) แต่ฉันจำเป็นต้องรู้ให้ดีขึ้นเมื่อการใช้งานถูกระบุเหนือการวิเคราะห์การถดถอยอื่น ๆ

2
การคำนวณช่วงความมั่นใจสำหรับการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติกแบบทวินามเพื่อระบุว่าการสัมผัสhas_xหรือhas_yส่งผลกระทบต่อโอกาสที่ผู้ใช้จะคลิกบนบางสิ่ง โมเดลของฉันมีดังต่อไปนี้: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) นี่คือผลลัพธ์จากรุ่นของฉัน: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.