คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

7
เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน
ในวรรณกรรมบางเล่มฉันได้อ่านว่าการถดถอยที่มีตัวแปรอธิบายหลายอย่างหากในหน่วยต่าง ๆ จำเป็นต้องได้มาตรฐาน (การกำหนดมาตรฐานประกอบด้วยการลบค่าเฉลี่ยและการหารด้วยส่วนเบี่ยงเบนมาตรฐาน) ในกรณีอื่นใดที่ฉันต้องทำให้เป็นมาตรฐานข้อมูลของฉัน มีกรณีใดบ้างที่ฉันควรจัดกึ่งกลางข้อมูลของฉัน (เช่นโดยไม่ต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน)

11
การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด
ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่) ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม ชี้แจง ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)

12
อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้น?
ฉันอยากรู้อยากเห็นสำหรับพวกคุณที่มีประสบการณ์มากมายที่ร่วมมือกับนักวิจัยคนอื่น ๆ อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้นที่คุณพบ ฉันคิดว่าเป็นแบบฝึกหัดที่มีประโยชน์ที่จะคิดเกี่ยวกับความเข้าใจผิดที่พบบ่อยล่วงหน้าเพื่อ คาดการณ์ความผิดพลาดของผู้คนและสามารถบอกกล่าวความสำเร็จได้ว่าทำไมความเข้าใจผิดบางอย่างไม่ถูกต้อง ตระหนักดีว่าถ้าฉันปิดบังความเข้าใจผิดบางอย่างด้วยตัวเอง! พื้นฐานสองสามข้อที่ฉันนึกได้: ตัวแปรอิสระ / ขึ้นอยู่กับต้องกระจายตามปกติ ตัวแปรจะต้องเป็นมาตรฐานสำหรับการตีความที่ถูกต้อง อื่น ๆ ? คำตอบทั้งหมดยินดีต้อนรับ

2
การถดถอยหลายตัวแปรหลายตัวแปรใน R
ฉันมี 2 ตัวแปรตาม (DVs) ซึ่งแต่ละคะแนนอาจได้รับอิทธิพลจากชุดของตัวแปรอิสระ 7 ตัว (IVs) DV เป็นแบบต่อเนื่องในขณะที่ชุดของ IV ประกอบด้วยการผสมผสานของตัวแปรแบบต่อเนื่องและแบบไบนารี (ในรหัสด้านล่างตัวแปรต่อเนื่องจะเขียนด้วยตัวอักษรตัวพิมพ์ใหญ่และตัวแปรไบนารีในตัวอักษรตัวพิมพ์เล็ก) จุดประสงค์ของการศึกษาคือการเปิดเผยว่า DVs เหล่านี้ได้รับอิทธิพลจากตัวแปร IV อย่างไร ฉันเสนอรูปแบบหลายตัวแปรการถดถอย (MMR) หลายตัวแปรต่อไปนี้: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) เมื่อต้องการตีความผลลัพธ์ที่ฉันเรียกสองคำสั่ง: summary(manova(my.model)) Manova(my.model) เอาต์พุตจากการโทรทั้งสองวางด้านล่างและแตกต่างกันอย่างมาก ใครช่วยกรุณาอธิบายว่าควรเลือกข้อความใดในการสรุปผล MMR อย่างถูกต้องและทำไม ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก เอาต์พุตโดยใช้summary(manova(my.model))ข้อความสั่ง: …

4
การเพิ่ม IV ที่ 2 ทำให้ IV ที่ 1 มีความหมายได้อย่างไร?
ฉันมีสิ่งที่อาจเป็นคำถามง่าย ๆ แต่มันทำให้ฉันงุนงงตอนนี้ดังนั้นฉันหวังว่าคุณจะสามารถช่วยฉันออก ฉันมีรูปแบบการถดถอยกำลังสองน้อยที่สุดโดยมีตัวแปรอิสระหนึ่งตัวและตัวแปรตามหนึ่งตัว ความสัมพันธ์ไม่สำคัญ ตอนนี้ฉันเพิ่มตัวแปรอิสระตัวที่สอง ตอนนี้ความสัมพันธ์ระหว่างตัวแปรอิสระตัวแรกกับตัวแปรตามกลายเป็นสิ่งสำคัญ มันทำงานอย่างไร นี่อาจแสดงให้เห็นถึงปัญหาบางอย่างกับความเข้าใจของฉัน แต่สำหรับฉัน แต่ฉันไม่เห็นว่าการเพิ่มตัวแปรอิสระตัวที่สองนี้สามารถสร้างความสำคัญครั้งแรกได้อย่างไร

5
อธิบายความแตกต่างระหว่างการถดถอยหลายครั้งและการถดถอยหลายตัวแปรโดยใช้สัญลักษณ์ / คณิตศาสตร์น้อยที่สุด
การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?

9
พวกเราพูดเกินจริงถึงความสำคัญของสมมติฐานแบบจำลองและการประเมินผลในยุคที่การวิเคราะห์มักจะดำเนินการโดยฆราวาส
บรรทัดล่างยิ่งฉันเรียนรู้เกี่ยวกับสถิติมากเท่าไหร่ฉันก็ยิ่งเชื่อถือเอกสารที่ตีพิมพ์น้อยลงในสาขาของฉัน ฉันแค่เชื่อว่านักวิจัยไม่ได้ทำสถิติของพวกเขาดีพอ ฉันเป็นคนธรรมดาดังนั้นต้องพูด ฉันได้รับการฝึกฝนด้านชีววิทยา แต่ไม่มีการศึกษาอย่างเป็นทางการในสถิติหรือคณิตศาสตร์ ฉันสนุกกับ R และมักจะพยายามอ่าน (และเข้าใจ ... ) รากฐานทางทฤษฎีบางอย่างของวิธีการที่ฉันใช้เมื่อทำการวิจัย ไม่แปลกใจเลยถ้าคนส่วนใหญ่ที่ทำการวิเคราะห์ในวันนี้ไม่ได้รับการฝึกฝนอย่างเป็นทางการ ฉันตีพิมพ์ต้นฉบับประมาณ 20 ฉบับซึ่งบางฉบับได้รับการยอมรับโดยวารสารและนักสถิติที่มีชื่อเสียงมักมีส่วนเกี่ยวข้องในกระบวนการตรวจทานอยู่บ่อยครั้ง การวิเคราะห์โดยทั่วไปของฉันรวมถึงการวิเคราะห์ความอยู่รอดการถดถอยเชิงเส้นการถดถอยแบบโลจิสติก ผู้ตรวจทานไม่เคยถามเกี่ยวกับสมมติฐานของแบบจำลองความเหมาะสมหรือการประเมินผล ดังนั้นฉันไม่เคยใส่ใจมากเกินไปเกี่ยวกับสมมติฐานแบบจำลองความพอดีและการประเมินผล ฉันเริ่มต้นด้วยสมมติฐานดำเนินการถดถอยแล้วนำเสนอผลลัพธ์ ในบางกรณีผมทำให้ความพยายามในการประเมินสิ่งเหล่านี้ แต่ฉันมักจะจบลงด้วย " ดีที่มันไม่ได้ปฏิบัติตามสมมติฐานทั้งหมด แต่ผมเชื่อว่าผล (" ความรู้เรื่อง ") และพวกเขาจะเป็นไปได้ดังนั้นจึงเป็นเรื่องที่ดี " และ เมื่อปรึกษานักสถิติพวกเขาดูเหมือนจะเห็นด้วยเสมอ ตอนนี้ฉันได้พูดคุยกับนักสถิติคนอื่น ๆ และผู้ที่ไม่ใช่นักสถิติ (นักเคมีแพทย์และนักชีววิทยา) ที่ทำการวิเคราะห์ตัวเอง ดูเหมือนว่าผู้คนไม่ได้ใส่ใจมากเกินไปเกี่ยวกับสมมติฐานและการประเมินที่เป็นทางการ แต่ที่นี่ในประวัติย่อมีผู้คนมากมายถามเกี่ยวกับสิ่งที่เหลือแบบจำลองวิธีการประเมินค่าลักษณะเฉพาะเวกเตอร์และรายการดำเนินต่อไป ให้ฉันใช้วิธีนี้เมื่อ lme4 เตือนเกี่ยวกับค่าลักษณะเฉพาะขนาดใหญ่ฉันสงสัยจริงๆว่าผู้ใช้จำนวนมากสนใจที่จะจัดการกับ ... มันคุ้มค่ากับความพยายามพิเศษหรือไม่? เป็นไปได้หรือไม่ที่ผลลัพธ์ส่วนใหญ่ที่เผยแพร่ทั้งหมดไม่เคารพสมมติฐานเหล่านี้และอาจไม่ได้ประเมินด้วยซ้ำ นี่อาจเป็นปัญหาที่เพิ่มขึ้นเนื่องจากฐานข้อมูลมีขนาดใหญ่ขึ้นทุกวันและมีความคิดว่ายิ่งข้อมูลมีขนาดใหญ่ขึ้นความสำคัญน้อยกว่าก็คือสมมติฐานและการประเมินผล ฉันอาจจะผิดอย่างแน่นอน แต่นี่คือวิธีที่ฉันได้รับรู้นี้ อัปเดต: การอ้างอิงที่ยืมมาจาก …

5
การปรับค่า p ในการถดถอยหลายครั้งสำหรับการเปรียบเทียบหลายรายการเป็นแนวคิดที่ดีหรือไม่
สมมติว่าคุณเป็นนักวิจัยสังคมศาสตร์ / เศรษฐมิติที่พยายามค้นหาตัวทำนายที่เกี่ยวข้องของความต้องการใช้บริการ คุณมี 2 ผลลัพธ์ / ตัวแปรตามที่อธิบายความต้องการ (ใช้บริการใช่ / ไม่ใช่และจำนวนครั้ง) คุณมีตัวแปรทำนาย 10 ตัว / ตัวแปรอิสระที่สามารถอธิบายความต้องการในทางทฤษฎี (เช่นอายุเพศรายได้ราคาเชื้อชาติ ฯลฯ ) การรันการถดถอยหลาย ๆ ตัวสองตัวที่แยกกันจะให้ค่าประมาณ 20 สัมประสิทธิ์และค่า p เมื่อมีตัวแปรอิสระเพียงพอในการถดถอยของคุณคุณจะพบตัวแปรอย่างน้อยหนึ่งตัวแปรที่มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระ คำถามของฉัน: เป็นความคิดที่ดีหรือไม่ที่จะแก้ไขค่า p สำหรับการทดสอบหลายครั้งถ้าฉันต้องการรวมตัวแปรอิสระทั้งหมดในการถดถอย การอ้างอิงถึงงานก่อนหน้านี้ชื่นชมมาก

3
การถดถอยเชิงเส้นหลายตัวแปรเทียบกับเครือข่ายประสาทเทียม?
ดูเหมือนว่าเป็นไปได้ที่จะได้ผลลัพธ์ที่คล้ายคลึงกับเครือข่ายประสาทที่มีการถดถอยเชิงเส้นหลายตัวแปรในบางกรณีและการถดถอยเชิงเส้นหลายตัวแปรนั้นรวดเร็วและง่ายมาก เครือข่ายประสาทสามารถให้ผลลัพธ์ที่ดีกว่าการถดถอยเชิงเส้นหลายตัวแปรในสถานการณ์ใดบ้าง

2
มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?
สัมประสิทธิ์ของตัวแปรอธิบายในการถดถอยหลายครั้งจะบอกเราว่าความสัมพันธ์ของตัวแปรอธิบายนั้นกับตัวแปรตาม ทั้งหมดนี้ในขณะที่ 'ควบคุม' สำหรับตัวแปรอธิบายอื่น ๆ ฉันได้ดูอย่างไร: ในขณะที่มีการคำนวณสัมประสิทธิ์แต่ละตัวตัวแปรอื่น ๆ จะไม่นำมาพิจารณาดังนั้นฉันจึงถือว่าพวกมันถูกเพิกเฉย ดังนั้นฉันถูกต้องเมื่อฉันคิดว่าคำว่า 'ควบคุม' และ 'ละเว้น' สามารถใช้แทนกันได้?

3
ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?
ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม: ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ? ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว? ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

2
การถดถอยแบบหลายครั้งสามารถ“ ควบคุม” ตัวแปรได้อย่างไร
เราทุกคนคุ้นเคยกับการศึกษาเชิงสังเกตการณ์ที่พยายามสร้างการเชื่อมโยงเชิงสาเหตุระหว่างตัวทำนาย X แบบไม่มีการสุ่มกับผลลัพธ์โดยรวมถึงผู้ที่อาจเกิดขึ้นได้ทั้งหมดในรูปแบบการถดถอยหลายแบบ ด้วยเหตุนี้“ การควบคุมเพื่อ” ผู้รบกวนทุกคนการโต้แย้งจึงทำให้เราแยกผลของตัวทำนายผลประโยชน์ ฉันกำลังพัฒนาความรู้สึกไม่สบายที่เพิ่มขึ้นด้วยความคิดนี้โดยส่วนใหญ่อ้างอิงจากคำพูดที่ไม่ได้ทำโดยอาจารย์ของชั้นเรียนสถิติของฉัน พวกเขาตกอยู่ในประเภทหลักสองสาม: 1. คุณสามารถควบคุมค่าความแปรปรวนร่วมที่คุณคิดและวัดได้เท่านั้น นี่เป็นสิ่งที่ชัดเจน แต่ฉันสงสัยว่าจริงๆแล้วมันอันตรายที่สุดและไม่สามารถเอาชนะได้ทั้งหมด 2. วิธีการได้นำไปสู่ข้อผิดพลาดที่น่าเกลียดในอดีต ยกตัวอย่างเช่นPetitti & Freedman (2005)อภิปรายว่าการศึกษาเชิงสังเกตการณ์ที่ปรับค่าทางสถิติมานานหลายทศวรรษได้ผลสรุปที่ไม่ถูกต้องเกี่ยวกับผลของการบำบัดทดแทนฮอร์โมนต่อความเสี่ยงของโรคหัวใจ ภายหลัง RCTs พบผลกระทบที่ตรงกันข้ามเกือบ 3. ความสัมพันธ์ของตัวทำนายผลสามารถทำงานได้อย่างแปลกประหลาดเมื่อคุณควบคุมผู้ร่วมทุน Yu-Kang Tu, Gunnell, & Gilthorpe (2008) หารือเกี่ยวกับอาการที่แตกต่างกันบางอย่างรวมถึงความขัดแย้งของลอร์ด, ความขัดแย้งของซิมป์สันและตัวแปรต้าน 4. เป็นการยากสำหรับแบบจำลองเดียว (การถดถอยแบบหลายจุด) เพื่อปรับให้เพียงพอสำหรับ covariates และแบบจำลองความสัมพันธ์ของผลลัพธ์ของตัวทำนายพร้อมกัน ฉันเคยได้ยินเรื่องนี้เป็นเหตุผลสำหรับความเหนือกว่าของวิธีการเช่นคะแนนความชอบและการแบ่งชั้นของผู้สับสน แต่ฉันไม่แน่ใจว่าฉันเข้าใจจริงๆ 5. แบบจำลองของ ANCOVA กำหนดให้ค่าความแปรปรวนร่วมและตัวทำนายความสนใจเป็นอิสระ แน่นอนว่าเราปรับสำหรับคนสับสนเพราะแม่นยำเพราะสัมพันธ์กับตัวทำนายความสนใจดังนั้นดูเหมือนว่าแบบจำลองจะไม่ประสบความสำเร็จในกรณีที่แน่นอนเมื่อเราต้องการมันมากที่สุด อาร์กิวเมนต์ไปที่การปรับที่เหมาะสมสำหรับการลดเสียงรบกวนในการทดลองแบบสุ่มเท่านั้น Miller & Chapman, 2001ให้รีวิวที่ยอดเยี่ยม ดังนั้นคำถามของฉันคือ: …

3
วิธีการมองเห็นโมเดลการถดถอยแบบหลายจุดที่เหมาะสม?
ฉันกำลังเขียนบทความที่มีการวิเคราะห์การถดถอยหลายครั้ง ในขณะที่เห็นภาพการถดถอยเชิงเส้นแบบไม่แปรเปลี่ยนนั้นทำได้ง่าย ๆ ผ่านทางแผนการกระจายฉันสงสัยว่ามีวิธีใดที่ดีที่จะเห็นภาพการถดถอยเชิงเส้นหลายเส้น? ขณะนี้ฉันเพิ่งพล็อตแผนการกระจายเช่นตัวแปรตามกับตัวแปรอิสระตัวที่ 1 จากนั้นเทียบกับตัวแปรอิสระตัวที่สอง ฯลฯ ฉันจะขอขอบคุณข้อเสนอแนะใด ๆ

3
จะแสดงผลลัพธ์ของ Lasso โดยใช้ glmnet ได้อย่างไร
ฉันต้องการค้นหาตัวทำนายสำหรับตัวแปรพึ่งพาต่อเนื่องจากชุดของตัวแปรอิสระ 30 ตัว ฉันใช้ Lasso regression ตามที่นำมาใช้ในแพ็คเกจglmnetใน R ต่อไปนี้เป็นตัวอย่างรหัสจำลอง # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, …

3
ผลการปราบปรามในการถดถอย: คำจำกัดความและคำอธิบาย / การพรรณนาภาพ
ตัวแปรตัวยับยั้งในการถดถอยหลายครั้งและอะไรคือวิธีที่จะแสดงผลการปราบปรามด้วยสายตา (กลไกหรือหลักฐานในผลลัพธ์) ฉันต้องการเชิญทุกคนที่มีความคิดมาแบ่งปัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.