คำถามติดแท็ก multicollinearity

สถานการณ์เมื่อมีความสัมพันธ์เชิงเส้นที่แข็งแกร่งระหว่างตัวแปรทำนายเพื่อให้เมทริกซ์สหสัมพันธ์ของพวกเขากลายเป็นเอกพจน์ (เกือบ) "สภาพที่ไม่ดี" นี้ทำให้ยากต่อการระบุบทบาทที่ไม่ซ้ำกันของผู้ทำนายแต่ละคนกำลังเล่น: เกิดปัญหาการประมาณค่าและข้อผิดพลาดมาตรฐานเพิ่มขึ้น เครื่องทำนายที่มีความสัมพันธ์สูงมากแบบ bivariately เป็นตัวอย่างหนึ่งของ multicollinearity

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

1
สามารถสร้างมาตรฐาน
ฉันพยายามตีความผลลัพธ์ของบทความที่พวกเขาใช้การถดถอยหลายครั้งเพื่อทำนายผลลัพธ์ต่าง ๆ อย่างไรก็ตาม 's (ค่าสัมประสิทธิ์ B มาตรฐานกำหนดเป็นโดยที่นั้นขึ้นอยู่กับ ตัวแปรและเป็นตัวทำนาย) ที่รายงานดูเหมือนจะไม่ตรงกับที่รายงาน :ββ\betaβx1=Bx1⋅S Dx1S DYβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}Yyyx1x1x_1R2R2R^2 แม้จะมีของ -0.83, -0.29, -0.16, -0.43, 0.25 และ -0.29 แต่รายงานมีค่าเพียง 0.20ββ\betaR2R2R^2 นอกจากนี้ผู้ทำนายทั้งสาม: น้ำหนักค่าดัชนีมวลกายและ% ไขมันเป็นหลายคอลลิแนร์มีความสัมพันธ์รอบ r = 0.8-0.9 ซึ่งกันและกันในเพศเดียวกัน เป็นค่าเป็นไปได้กับเหล่านี้หรือไม่มีความสัมพันธ์แบบตรงระหว่าง 's และหรือไม่?R2R2R^2ββ\betaββ\betaR2R2R^2 นอกจากนี้ปัญหาของตัวทำนายหลายค่าอาจส่งผลต่อของตัวทำนายที่สี่ (VO2max) ซึ่งสัมพันธ์กับ r = 0.4 ด้วยตัวแปรสามตัวดังกล่าวข้างต้นหรือไม่ββ\beta

3
ชุดของตัวแปรที่ไม่เกี่ยวข้อง แต่เชิงเส้น
เป็นไปได้ไหมที่จะมีชุดของ KKK ตัวแปรที่ไม่เกี่ยวข้อง แต่เชิงเส้นขึ้นอยู่กับ? กล่าวคือ c o r (xผม,xJ) = 0cor(xi,xj)=0cor(x_i, x_j)=0 และ ΣKi = 1aผมxผม= 0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 ถ้าใช่คุณสามารถเขียนตัวอย่างได้หรือไม่? แก้ไข: จากคำตอบมันตามมาว่ามันเป็นไปไม่ได้ อย่างน้อยมันจะเป็นไปได้ไหม P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon) ที่ไหน ρ^ρ^\hat\rho คือค่าสัมประสิทธิ์สหสัมพันธ์ประมาณจาก nnn ตัวอย่างของตัวแปรและ vvv เป็นตัวแปรที่ไม่เกี่ยวข้องกับ xixix_i. ฉันกำลังคิดอะไรบางอย่างเช่น xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K&gt;&gt;0K&gt;&gt;0K>>0

1
ศัพท์ปฏิสัมพันธ์โดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยเชิงลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์
ฉันใช้การวิเคราะห์การถดถอยแบบลำดับชั้นและฉันมีข้อสงสัยเล็กน้อย: เราคำนวณคำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางหรือไม่? เราต้องจัดวางตัวแปรต่อเนื่องทั้งหมดที่เรามีในชุดข้อมูลยกเว้นตัวแปรตามหรือไม่ เมื่อเราต้องบันทึกตัวแปรบางตัว (เพราะ sd ของพวกเขานั้นสูงกว่าค่าเฉลี่ย) เราจะจัดวางตัวแปรที่เพิ่งถูกบันทึกหรือเป็นตัวแปรเริ่มต้นหรือไม่? ตัวอย่างเช่น: ตัวแปร "มูลค่าการซื้อขาย" ---&gt; มูลค่าการซื้อขายที่ถูกบันทึกไว้ (เพราะ SD สูงเกินไปเมื่อเทียบกับค่าเฉลี่ย) ---&gt; Centered_Turnover? หรือจะเป็นการหมุนเวียนโดยตรง -&gt; Centered_Turnover (และเราทำงานกับอันนี้) ขอบคุณ !!

3
เข้าสู่ระบบพลิกเมื่อเพิ่มตัวแปรอีกหนึ่งตัวในการถดถอยและมีขนาดที่ใหญ่กว่ามาก
การตั้งค่าพื้นฐาน: แบบจำลองการถดถอย: โดยที่ C คือเวกเตอร์ของตัวแปรควบคุมY= ค่าคงที่+β1x1+β2x2+β3x3+β4x4+ α C+ ϵy=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon ฉันสนใจและคาดว่าและเป็นลบ อย่างไรก็ตามมีปัญหาความสัมพันธ์แบบหลายค่าในตัวแบบสัมประสิทธิ์สหสัมพันธ์โดย corr ( , 0.9345, corr ( , 0.1765, corr ( , 0.3019ββ\betaβ1β1\beta_1β2β2\beta_2x1x1x_1x2) =x2)=x_2)=x1x1x_1x3) =x3)=x_3)=x2x2x_2x3) =x3)=x_3)= ดังนั้นและมีความสัมพันธ์กันสูงและควรให้ข้อมูลเดียวกัน ฉันใช้การถดถอยสามครั้ง: x1x1x_1x2x2x_2 ยกเว้นตัวแปร ; 2. ยกเว้นตัวแปร3. รูปแบบเดิมที่มีทั้งและx_2x1x1x_1x2x2x_2x1x1x_1x2x2x_2 ผลลัพธ์: สำหรับการถดถอย 1 และ 2 จะให้สัญญาณที่คาดไว้สำหรับและตามลำดับและมีขนาดใกล้เคียงกัน และและมีความสำคัญในระดับ 10% ในทั้งสองรุ่นหลังจากฉันทำการแก้ไข HAC ในข้อผิดพลาดมาตรฐาน เป็นค่าบวก …

1
การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป
สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})(y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xnxnx_{n}(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})xn=f3(x1,⋯,xn−1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})yyy yy=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))=f2(x1,⋯,xn−1)(4)(5)(4)y=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))(5)y=f2(x1,⋯,xn−1) \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} โดยทั่วไปอันไหนดีกว่ากัน? ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn−1n−1n-1 นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?nnn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.