คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

3
เมื่อใดที่ควรใช้การถดถอยแบบหลายครั้งพร้อมการเข้ารหัสแบบดัมมี่กับ ANCOVA
เมื่อเร็ว ๆ นี้ฉันวิเคราะห์การทดสอบที่จัดการกับตัวแปรเด็ดขาด 2 อันและอีกหนึ่งตัวแปรต่อเนื่องโดยใช้ ANCOVA อย่างไรก็ตามผู้ตรวจทานแนะนำว่าการถดถอยหลายครั้งด้วยตัวแปรเด็ดขาดที่เข้ารหัสเป็นตัวแปรดัมมี่เป็นการทดสอบที่เหมาะสมกว่าสำหรับการทดสอบด้วยตัวแปรเด็ดขาดและต่อเนื่อง เมื่อใดจึงจะเหมาะสมที่จะใช้ ANCOVA กับการถดถอยหลายครั้งพร้อมตัวแปรจำลองและฉันควรพิจารณาปัจจัยใดบ้างในการเลือกระหว่างการทดสอบทั้งสอง ขอขอบคุณ.

1
เราทำการวิเคราะห์ถดถอยแบบหลายตัวแปรด้วยค่าสัมประสิทธิ์ * ตัวแปร * / *
ฉันใช้เวลาเรียนรู้การเรียนรู้ของเครื่องจักร (ขออภัยสำหรับการเรียกซ้ำ :) และฉันอดไม่ได้ที่จะรู้สึกทึ่งกับกฎง่ายๆในการเลือก Gradient Descent ผ่านการแก้สมการโดยตรงสำหรับการคำนวณสัมประสิทธิ์การถดถอยในกรณีของการถดถอยเชิงเส้นหลายตัวแปร Rule of thumb: ถ้าจำนวนคุณสมบัติ (อ่านค่าสัมประสิทธิ์ / ตัวแปรอิสระ) อยู่ระหว่างหรือมากกว่าล้านไปกับ Gradient Descent การคำนวณเมทริกซ์ผกผันอื่นสามารถจัดการได้อย่างเป็นธรรมบนฮาร์ดแวร์สินค้าและทำให้การคำนวณสัมประสิทธิ์โดยตรงควรจะดีพอ .10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 ฉันพูดถึงสิ่งที่ได้รับจากการแลกเปลี่ยน / ข้อ จำกัด แต่จากมุมมองทางสถิติเราคำนวณแบบจำลองกับค่าสัมประสิทธิ์จำนวนมากที่เคยทำจริงหรือไม่? ถ้าฉันจำคลาสถดถอยเชิงเส้นหลายตัวแปรในโรงเรียนระดับประถมศึกษาเราได้รับคำเตือนให้ใช้ตัวแปรอิสระมากเกินไปเนื่องจากอาจมีผลกระทบเล็กน้อยต่อตัวแปรตามหรือการกระจายของพวกเขาจะไม่เป็นไปตามสมมติฐานที่เราทำเกี่ยวกับข้อมูล แม้ว่าผมจะไม่ขยายความคิดของฉันที่จะคิดว่า "เกลือจำนวนมาก" ผมยังไม่ได้คิดในล้าน คำถาม (s): สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่ จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่ หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV ฉันยังคงเชื่อเพียงเพราะเราสามารถวิเคราะห์ "ทุกอย่าง" ไม่ได้หมายความว่าเราควรโยนมันเข้าไปในตัวแก้ปัญหา (หรือทำ) และคำถามที่ผ่านมาบางคำถามของฉันสะท้อนถึง …

2
การตีความของ betas เมื่อมีหลายตัวแปรเด็ดขาด
ผมเข้าใจแนวคิดที่ว่าเบต้า 0เป็นค่าเฉลี่ยสำหรับเมื่อตัวแปรเด็ดขาดจะมีค่าเท่ากับ 0 (หรือกลุ่มอ้างอิง) ทำให้การตีความท้ายว่าค่าสัมประสิทธิ์การถดถอยคือความแตกต่างในค่าเฉลี่ยของทั้งสองประเภท ถึงแม้จะมี> 2 ประเภทฉันจะถือว่าแต่ละβอธิบายความแตกต่างระหว่างของประเภทที่ค่าเฉลี่ยและการอ้างอิงβ^0β^0\hat\beta_0β^β^\hat\beta แต่จะเกิดอะไรขึ้นถ้ามีตัวแปรเพิ่มเติมเข้ามาในโมเดลหลายตัวแปร? ตอนนี้การสกัดกั้นหมายความว่าอะไรมันไม่สมเหตุสมผลที่จะเป็นค่าเฉลี่ยสำหรับการอ้างอิงของตัวแปรเด็ดขาดสองอัน ตัวอย่างเช่นหากเพศ (M (ref) / F) และ Race (white (ref) / black) ทั้งคู่อยู่ในแบบจำลอง เป็นβ 0ค่าเฉลี่ยสำหรับผู้ชายสีขาวเท่านั้น? เราตีความความเป็นไปได้อื่น ๆ อย่างไรβ^0β^0\hat\beta_0 ในฐานะที่เป็นข้อความแยกต่างหาก: คำสั่งที่ตรงกันข้ามนั้นทำหน้าที่เป็นวิธีในการตรวจสอบการดัดแปลงเอฟเฟกต์หรือไม่? หรือเพียงแค่เห็นเอฟเฟกต์ ( ) ในระดับที่ต่างกันβ^β^\hat\beta

1
วิธีการจัดการกับความสัมพันธ์สูงในหมู่ผู้ทำนายในการถดถอยหลายครั้ง?
ฉันพบข้อมูลอ้างอิงในบทความที่ชอบ: ตาม Tabachnick & Fidell (1996) ตัวแปรอิสระที่มีความสัมพันธ์แบบ bivariate มากกว่า 0.70 ไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหลายครั้ง ปัญหา:ฉันใช้ในการออกแบบการถดถอยหลายตัวมีความสัมพันธ์กับตัวแปร 3 ตัวแปร> .80, VIF ที่ประมาณ. 2 - .3, ความอดทน ~ 4-5 ฉันไม่สามารถยกเว้นตัวแปรใด ๆ (ตัวพยากรณ์และผลลัพธ์ที่สำคัญ) เมื่อฉันถดถอยผลลัพธ์ของตัวทำนาย 2 ตัวที่มีความสัมพันธ์กับ. 80 พวกเขายังคงมีนัยสำคัญแต่ละตัวทำนายความแปรปรวนที่สำคัญแต่ละตัวและตัวแปรสองตัวเดียวกันนี้มีค่าสัมประสิทธิ์สหสัมพันธ์ส่วนใหญ่และกึ่งกลางระหว่าง 10 ตัวแปรทั้งหมด คำถาม:แบบจำลองของฉันใช้ได้แม้มีสหสัมพันธ์สูงหรือไม่ การอ้างอิงใด ๆ ยินดีอย่างมาก! ขอบคุณสำหรับคำตอบ! ฉันไม่ได้ใช้ Tabachnick และ Fidell เป็นแนวทางฉันพบการอ้างอิงนี้ในบทความที่เกี่ยวข้องกับ collinearity สูงในหมู่ผู้ทำนาย ดังนั้นโดยทั่วไปฉันมีกรณีน้อยเกินไปสำหรับจำนวนของตัวทำนายในโมเดล (ตัวแปรเด็ดขาด, ตัวแปรควบคุมการเข้ารหัสหลอกตา - อายุ, …

2
วิธีที่ถูกต้องในการทดสอบความแตกต่างอย่างมีนัยสำคัญระหว่างค่าสัมประสิทธิ์คืออะไร?
ฉันหวังว่าบางคนสามารถช่วยชี้ประเด็นความสับสนให้ฉันได้ ว่าฉันต้องการทดสอบว่าสัมประสิทธิ์การถดถอย 2 ชุดนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่ด้วยการตั้งค่าต่อไปนี้: , มี 5 ตัวแปรอิสระyi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i 2 กลุ่มโดยมีขนาดเท่ากันโดยประมาณ (แม้ว่าอาจแตกต่างกัน)n1,n2n1,n2n_1, n_2 การถดถอยที่คล้ายกันหลายพันครั้งจะเกิดขึ้นพร้อมกันดังนั้นการแก้ไขสมมติฐานบางอย่างจึงต้องทำ วิธีการหนึ่งที่แนะนำให้ฉันคือการใช้การทดสอบ Z: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} อีกสิ่งที่ฉันได้เห็นข้อเสนอแนะในบอร์ดนี้คือการแนะนำตัวแปรจำลองสำหรับการจัดกลุ่มและเขียนแบบจำลองใหม่เป็น: โดยที่ gคือตัวแปรการจัดกลุ่มซึ่งเขียนเป็น 0, 1yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_igก.g คำถามของฉันคือวิธีการทั้งสองนี้มีวิธีการที่แตกต่างกัน (เช่นสมมติฐานที่แตกต่างกันทำมีความยืดหยุ่น)? มีความเหมาะสมมากกว่าอีกอย่างหรือไม่? ฉันคิดว่ามันค่อนข้างธรรมดา แต่การชี้แจงใด ๆ จะได้รับการชื่นชมอย่างมาก

4
ถ้าฉันต้องการโมเดลที่ตีความได้มีวิธีอื่นนอกเหนือจาก Linear Regression หรือไม่?
ฉันพบนักสถิติบางคนที่ไม่เคยใช้แบบจำลองอื่นนอกจากการถดถอยเชิงเส้นเพื่อการทำนายเพราะพวกเขาเชื่อว่า "โมเดล ML" เช่นฟอเรสต์แบบสุ่มหรือการเพิ่มระดับความลาดชันนั้นยากที่จะอธิบายหรือ "ไม่สามารถตีความได้" ในการถดถอยเชิงเส้นเนื่องจากชุดของสมมติฐานได้รับการตรวจสอบแล้ว (ความเป็นปกติของข้อผิดพลาด, homoskedasticity, ไม่มีหลาย collinearity), การทดสอบ t มีวิธีการทดสอบความสำคัญของตัวแปร, การทดสอบที่ความรู้ของฉันไม่สามารถใช้ได้ใน ฟอเรสต์แบบสุ่มหรือการส่งเสริมการไล่ระดับสี ดังนั้นคำถามของฉันคือถ้าฉันต้องการสร้างแบบจำลองตัวแปรตามด้วยชุดของตัวแปรอิสระเพื่อประโยชน์ในการตีความฉันควรใช้การถดถอยเชิงเส้นเสมอ?

3
เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย
ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

2
อะไรคือ Plotable Variable Plot (Partial Regression Plot) ที่อธิบายในการถดถอยหลายครั้ง?
ฉันมีชุดข้อมูลภาพยนตร์และฉันใช้การถดถอย: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) ซึ่งให้ผลลัพธ์: ตอนนี้ฉันลองทำงานบางอย่างที่เรียกว่า "เพิ่ม Variable Plot" ครั้งแรกและฉันได้ผลลัพธ์ต่อไปนี้: car::avPlots(model, id.n=2, id.cex=0.7) ปัญหาคือฉันพยายามที่จะทำความเข้าใจกับตัวแปรที่เพิ่มเข้ามาโดยใช้ google แต่ฉันไม่สามารถเข้าใจความลึกของมันได้เพราะเห็นพล็อตที่ฉันเข้าใจว่ามันเป็นตัวแทนของการบิดเบือนที่ขึ้นอยู่กับตัวแปรอินพุตแต่ละตัวที่เกี่ยวข้องกับผลลัพธ์ ฉันสามารถรับรายละเอียดเพิ่มเติมได้เล็กน้อยเช่นวิธีปรับข้อมูลให้เป็นมาตรฐาน

2
วิธีทำโมเดลเชิงเส้นทั่วไปที่มีตัวแปรตามหลายตัวใน R?
ฉันมีตัวแปรตามหกตัว (นับข้อมูล) และตัวแปรอิสระหลายตัวฉันเห็นว่าใน MMR สคริปต์จะเป็นดังนี้: my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) แต่เนื่องจากข้อมูลของฉันมีการนับฉันต้องการใช้โมเดลเชิงเส้นแบบทั่วไปและฉันลองทำสิ่งนี้: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") และปรากฏข้อความข้อผิดพลาดนี้: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …

1
วิธีการเลือกระหว่าง ANOVA และ ANCOVA ในการทดลองออกแบบ?
ฉันกำลังทำการทดลองซึ่งมีสิ่งต่อไปนี้: DV: ปริมาณการใช้ชิ้น (ต่อเนื่องหรืออาจจัดเป็นหมวดหมู่) IV: ข้อความเพื่อสุขภาพ, ข้อความที่ไม่แข็งแรง, ไม่มีข้อความ (กลุ่มควบคุม) (3 กลุ่มที่ผู้คนได้รับมอบหมายแบบสุ่ม - หมวดหมู่) นี่คือข้อความที่จัดการเกี่ยวกับความสมบูรณ์ของชิ้น ตัวแปร IV ต่อไปนี้ถือได้ว่าเป็นตัวแปรที่แตกต่างของแต่ละบุคคล: Impulsivity (ซึ่งอาจเป็นหมวดหมู่เช่น. สูงเทียบกับต่ำหรือต่อเนื่องและวัดโดยขนาด) การตั้งค่ารสหวาน (นอกจากนี้ยังวัดโดยแบบสอบถามซึ่งมี 3 ตัวเลือกให้เลือกสำหรับแต่ละคำถาม) ค่าดัชนีมวลกาย - ผู้เข้าร่วมจะได้รับการชั่งน้ำหนักวัดตาม (ซึ่งอาจพิจารณาได้ทั้งหมวดหมู่หรือต่อเนื่อง) เนื่องจากกลุ่มจะได้รับการสุ่มให้เป็นหนึ่งใน 3 กลุ่มฉันคิดว่าฉันกำลังทำ ANOVA บางประเภทและอาจใช้ Factorial ANOVA เนื่องจากฉันสนใจว่า IV มีผลต่อ DV มากที่สุด แต่ยังมีปฏิสัมพันธ์ระหว่าง IV ด้วยเช่นกัน มีความสัมพันธ์ระหว่างชุดค่าผสมบางอย่าง แต่ฉันไม่แน่ใจในเรื่องนี้อย่างสมบูรณ์เนื่องจากต้องการทราบว่าเป็นการดีที่สุดหรือไม่ที่จะให้ IV มีหมวดหมู่ทั้งหมดหรือต่อเนื่องหรือผสมกัน หรือ ANCOVA เป็นไปได้หรือแม้กระทั่งการถดถอย …

1
ในการถดถอยเชิงเส้นแบบหลายจุดเหตุใดพล็อตของจุดที่คาดการณ์ไม่ได้อยู่ในแนวเส้นตรง
ฉันใช้การถดถอยเชิงเส้นหลายเส้นเพื่ออธิบายความสัมพันธ์ระหว่าง Y และ X1, X2 จากทฤษฎีฉันเข้าใจว่าการถดถอยหลายครั้งถือว่าความสัมพันธ์เชิงเส้นระหว่าง Y กับแต่ละ X (Y และ X1, Y และ X2) ฉันไม่ได้ใช้การแปลง X ใด ๆ ดังนั้นฉันได้โมเดลที่มี R = 0.45 และ X สำคัญทั้งหมด (P <0.05) จากนั้นฉันวางแผน Y กับ X1 ฉันไม่เข้าใจว่าเพราะเหตุใดวงกลมสีแดงที่เป็นตัวทำนายของแบบจำลองจึงไม่ก่อตัวเป็นเส้น อย่างที่ฉันพูดไปก่อนหน้านี้ฉันคาดว่าแต่ละคู่ของ Y และ X จะถูกต่อด้วยเส้น พล็อตถูกสร้างในไพ ธ อนด้วยวิธีนี้: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], …

2
"บางส่วน" ในวิธีกำลังสองน้อยที่สุดคืออะไร?
ในการถดถอยสมการกำลังสองน้อยที่สุด (PLSR) หรือการสร้างแบบจำลองสมการเชิงโครงสร้างบางส่วน (PLS-SEM) คำว่า "บางส่วน" หมายถึงอะไร

3
วิธีการแบ่ง r-squared ระหว่างตัวแปรทำนายในการถดถอยหลายครั้ง?
ฉันเพิ่งอ่านกระดาษที่ผู้เขียนดำเนินการถดถอยหลายครั้งพร้อมตัวทำนายสองตัว ค่า r-squared โดยรวมคือ 0.65 พวกเขาจัดทำตารางที่แบ่ง r-squared ระหว่างตัวทำนายสองตัว ตารางมีลักษณะดังนี้: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 ในรุ่นนี้วิ่งRโดยใช้mtcarsชุดข้อมูลค่า r-squared โดยรวมคือ 0.76 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat …

3
การเพิ่มตัวแปรเพิ่มเติมลงในสัมประสิทธิ์การเปลี่ยนแปลงการถดถอยหลายตัวแปรของตัวแปรที่มีอยู่หรือไม่?
ว่าฉันมีการถดถอยหลายตัวแปร (ตัวแปรอิสระหลาย) ที่ประกอบด้วย 3 ตัวแปร ตัวแปรแต่ละตัวนั้นมีค่าสัมประสิทธิ์ที่กำหนด หากฉันตัดสินใจที่จะแนะนำตัวแปรที่ 4 และรันการถดถอยอีกครั้งสัมประสิทธิ์ของตัวแปรดั้งเดิม 3 ตัวจะเปลี่ยนไปหรือไม่ กว้างมากขึ้น: ในการถดถอยหลายตัวแปร (ตัวแปรอิสระหลายตัว) สัมประสิทธิ์ของตัวแปรที่กำหนดได้รับอิทธิพลจากสัมประสิทธิ์ของตัวแปรอื่นหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.