คำถามติดแท็ก linear-model

อ้างถึงโมเดลใด ๆ ที่ตัวแปรสุ่มเกี่ยวข้องกับตัวแปรสุ่มหนึ่งตัวหรือมากกว่าโดยฟังก์ชันที่เป็นเส้นตรงในพารามิเตอร์จำนวน จำกัด

2
การคัดเลือกโมเดลเชิงเส้นหลายตัวแปรเป็นการถดถอยหลายครั้ง
การรีไซเคิลโมเดลการถดถอยเชิงเส้นหลายตัวแปรเป็นการถดถอยเชิงเส้นแบบหลายค่าเท่ากันทั้งหมดหรือไม่ ผมไม่ได้หมายถึงเพียงแค่ทำงานเสื้อttถดถอยแยกต่างหาก ฉันได้อ่านเรื่องนี้ในสถานที่ไม่กี่ (คชกรรมวิเคราะห์ข้อมูล - Gelman et al, และหลายตัวแปรโรงเรียนเก่า -. Marden) ที่เป็นรูปแบบเชิงเส้นหลายตัวแปรสามารถจะreparameterizedเป็นถดถอยพหุคูณ อย่างไรก็ตามไม่มีแหล่งที่มาใด ๆ เกี่ยวกับเรื่องนี้เลย พวกเขาเพียงแค่พูดถึงมันจากนั้นใช้โมเดลหลายตัวแปรต่อไป ในทางคณิตศาสตร์ฉันจะเขียนเวอร์ชั่นหลายตัวแปรก่อน YXRBYn × t= Xn × kBk × t+ Rn × t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, ซึ่งตัวแปรตัวหนาเป็นเมทริกซ์ที่มีขนาดต่ำกว่าพวกมัน ตามปกติคือข้อมูลคือเมทริกซ์การออกแบบมักจะมีการแจกจ่ายเศษเหลือทิ้งและคือสิ่งที่เราสนใจทำการอนุมานด้วยYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} ในการจัดทำซ้ำพารามิเตอร์นี้เป็นการถดถอยเชิงเส้นหลาย ๆ อันที่คุ้นเคยหนึ่งตัวแปรจะเขียนใหม่เป็น: Yn t × …

1
ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง
ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม คำถามของฉันคือ เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่? ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

1
ความคาดหวังตามเงื่อนไขของ R-squared
พิจารณาโมเดลเชิงเส้นอย่างง่าย: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon ที่ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)และ X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} ,p≥2p≥2p\geq2และXXXมีคอลัมน์ของค่าคงที่ คำถามของฉันคือให้E(X′X)E(X′X)\mathrm{E}(X'X) , ββ\betaและσσ\sigmaมีสูตรสำหรับขอบเขตบนที่ไม่น่ารำคาญบนE(R2)E(R2)\mathrm{E}(R^2) *? (สมมติว่าแบบจำลองนั้นประมาณโดย OLS) * ฉันสันนิษฐานว่าเขียนสิ่งนี้เพื่อรับE(R2)E(R2)E(R^2)นั้นเป็นไปไม่ได้ EDIT1 การใช้โซลูชันที่ได้รับจากStéphane Laurent (ดูด้านล่าง) เราจะได้ขอบเขตที่ไม่สำคัญบนE(R2)E(R2)E(R^2)) การจำลองเชิงตัวเลข (ด้านล่าง) แสดงว่าขอบเขตนี้แน่นจริง ๆ แล้ว Stéphane Laurent ได้รับสิ่งต่อไปนี้: R2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda) โดยที่B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)คือการแจกแจงเบต้าที่ไม่ได้อยู่ตรงกลางพร้อมพารามิเตอร์ non-centrality λλ\lambdaด้วย λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} ดังนั้น E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} โดยที่เป็น non-central χ 2 ที่มีพารามิเตอร์λและk degree of freedom ดังนั้นขอบเขตบนที่ไม่สำคัญสำหรับE ( R 2 )คือχ2k(λ)χk2(λ)\chi^2_{k}(\lambda)χ2χ2\chi^2λλ\lambdakkkE(R2)E(R2)\mathrm{E}(R^2) λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} มันแน่นมาก (แน่นกว่าที่ฉันคาดไว้มากที่สุดเท่าที่จะเป็นไปได้): …

3
เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย
ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

2
ทำไมการแจกแจงแบบ T ใช้สำหรับการทดสอบสมมุติฐานสัมประสิทธิ์การถดถอยเชิงเส้น?
ในทางปฏิบัติการใช้ T-test มาตรฐานเพื่อตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นคือการปฏิบัติทั่วไป กลไกของการคำนวณนั้นสมเหตุสมผลสำหรับฉัน ทำไมการแจกแจงแบบ T สามารถใช้เป็นแบบจำลองสถิติการทดสอบมาตรฐานที่ใช้ในการทดสอบสมมติฐานการถดถอยเชิงเส้น สถิติทดสอบมาตรฐานฉันหมายถึงที่นี่: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
ทำไม GLM จึงแตกต่างจาก LM ด้วยตัวแปรที่ถูกแปลง
ตามที่อธิบายไว้ในเอกสารประกอบคำบรรยายนี้ (หน้า 1)โมเดลเชิงเส้นสามารถเขียนในรูปแบบ: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่คือตัวแปรตอบกลับและ เป็นตัวแปรอธิบายyyyxixix_{i}ithithi^{th} บ่อยครั้งที่มีเป้าหมายของการทดสอบสมมติฐานการประชุมหนึ่งสามารถเปลี่ยนตัวแปรการตอบสนอง ตัวอย่างเช่นเราใช้ฟังก์ชั่นบันทึกในแต่ละy_iการแปลงตัวแปรตอบกลับไม่ถือเอาการทำ GLMyiyiy_i สามารถเขียน GLM ในแบบฟอร์มต่อไปนี้ (จากเอกสารประกอบการเรียนอีกครั้ง (หน้า 3) ) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่uuuเป็นเพียงสัญลักษณ์อื่นสำหรับyyyดังที่ฉันเข้าใจจากหน้า 2 ในเอกสารประกอบการบรรยาย g()g()g()เรียกว่าฟังก์ชั่นลิงค์ ฉันไม่เข้าใจความแตกต่างระหว่าง GLM และ LM กับตัวแปรที่แปลงจากสไลด์ในหลักสูตร คุณช่วยฉันได้ไหม

4
รุ่นเชิงเส้นคลาสสิก - การเลือกรูปแบบ
ฉันมีโมเดลเชิงเส้นแบบคลาสสิกโดยมี 5 regressors ที่เป็นไปได้ พวกเขาไม่เกี่ยวข้องกันและมีความสัมพันธ์ค่อนข้างต่ำกับการตอบสนอง ฉันมาถึงแบบจำลองที่มี 3 regressors มีค่าสัมประสิทธิ์นัยสำคัญสำหรับสถิติ t (p <0.05) การเพิ่มตัวแปรที่เหลืออย่างใดอย่างหนึ่งหรือทั้งสองอย่างให้ค่า p> 0.05 สำหรับสถิติ t สำหรับตัวแปรเพิ่ม สิ่งนี้ทำให้ฉันเชื่อว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด" อย่างไรก็ตามการใช้คำสั่ง anova (a, b) ใน R โดยที่ a คือโมเดลตัวแปร 3 ตัวและ b เป็นรูปแบบเต็มค่า p สำหรับสถิติ F คือ <0.05 ซึ่งบอกให้ฉันชอบแบบเต็มมากกว่าตัวแปร 3 ตัว แบบ ฉันจะกระทบยอดความขัดแย้งที่เห็นได้ชัดเหล่านี้ได้อย่างไร ขอบคุณ PS Edit: พื้นหลังเพิ่มเติมบางส่วน นี่คือการบ้านดังนั้นฉันจะไม่โพสต์รายละเอียด …

3
เมื่อไหร่ที่เราสามารถพูดถึง collinearity
ในตัวแบบเชิงเส้นเราต้องตรวจสอบว่าความสัมพันธ์มีอยู่ในตัวแปรอธิบายหรือไม่ หากพวกเขาสัมพันธ์กันมากเกินไปก็จะมีความเป็นเส้นตรงกัน (นั่นคือตัวแปรอธิบายบางส่วน) ตอนนี้ฉันแค่ดูความสัมพันธ์แบบคู่ระหว่างตัวแปรอธิบายแต่ละอย่าง คำถามที่ 1: อะไรคือการจำแนกความสัมพันธ์มากเกินไป? ตัวอย่างเช่นความสัมพันธ์ของเพียร์สันคือ 0.5 มากเกินไปหรือไม่ คำถามที่ 2: เราสามารถพิจารณาได้อย่างสมบูรณ์ว่ามีค่าความเป็นคู่ระหว่างตัวแปรสองตัวตามค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่หรือขึ้นอยู่กับปัจจัยอื่น ๆ คำถามที่ 3: การตรวจสอบกราฟิกของ Scatterplot ของตัวแปรสองตัวนั้นเพิ่มอะไรลงไปในสิ่งที่สัมประสิทธิ์สหสัมพันธ์บ่งชี้หรือไม่?

1
ทำความเข้าใจเกี่ยวกับการแยกส่วนประกอบ QR
ฉันมีตัวอย่างการทำงาน (ใน R) ว่าฉันพยายามที่จะเข้าใจเพิ่มเติม ฉันใช้ Limma เพื่อสร้างแบบจำลองเชิงเส้นและฉันพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นทีละขั้นตอนในการคำนวณการเปลี่ยนแปลงการพับ ฉันส่วนใหญ่พยายามคิดว่าเกิดอะไรขึ้นกับการคำนวณค่าสัมประสิทธิ์ จากสิ่งที่ฉันสามารถหาได้พบว่าการย่อยสลาย QR ใช้เพื่อให้ได้ค่าสัมประสิทธิ์ดังนั้นฉันจึงต้องมองหาคำอธิบายหรือวิธีการดูสมการทีละขั้นตอนในการคำนวณหรือทีละขั้นตอนสำหรับรหัส qr () ใน R เพื่อติดตามตัวเอง ใช้ข้อมูลต่อไปนี้: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, …

5
ฉันสามารถละเว้นค่าสัมประสิทธิ์สำหรับปัจจัยที่ไม่มีนัยสำคัญในแบบจำลองเชิงเส้นได้หรือไม่?
หลังจากหาความกระจ่างเกี่ยวกับสัมประสิทธิ์โมเดลเชิงเส้นตรงนี้ฉันมีคำถามติดตามเกี่ยวกับค่าที่ไม่ลงนาม (ค่า p สูง) สำหรับค่าสัมประสิทธิ์ระดับปัจจัย ตัวอย่าง: หากโมเดลเชิงเส้นของฉันมีปัจจัยที่มี 10 ระดับและมีเพียง 3 ของระดับเหล่านั้นที่มีค่า p สำคัญที่เกี่ยวข้องกับพวกเขาเมื่อใช้แบบจำลองในการทำนาย Y ฉันสามารถเลือกที่จะไม่รวมคำว่าสัมประสิทธิ์ได้ ระดับที่ไม่มีนัยสำคัญ? ยิ่งไปกว่านั้นมันจะผิดหรือไม่ที่จะปั้นก้อนหิน 7 ระดับที่ไม่สำคัญออกเป็นระดับเดียวและวิเคราะห์อีกครั้ง?

2
VIF, ดัชนีเงื่อนไขและค่าลักษณะเฉพาะ
ขณะนี้ฉันกำลังประเมินความหลากหลายทางชีวภาพในชุดข้อมูลของฉัน ค่าขีด จำกัด ของ VIF และดัชนีเงื่อนไขด้านล่าง / สูงกว่าจะแนะนำปัญหาได้อย่างไร VIF: ฉันเคยได้ยินว่า VIF เป็นปัญหา≥10≥10\geq 10 หลังจากลบตัวแปรปัญหาสองตัวแล้ว VIF คือสำหรับแต่ละตัวแปร ตัวแปรต้องการการดูแลที่มากขึ้นหรือ VIF นี้ดูดีหรือไม่?≤3.96≤3.96\leq 3.96 ดัชนีเงื่อนไข: ฉันได้ยินมาว่าดัชนีสภาพ (CI) 30 หรือมากกว่านั้นเป็นปัญหา CI สูงสุดของฉันคือ 16.66 นี่เป็นปัญหาหรือไม่? ปัญหาอื่น ๆ : มีปริมาณอื่น ๆ ที่ต้องพิจารณาหรือไม่ มีสิ่งอื่นใดอีกไหมที่ฉันต้องจำไว้?

2
สัญลักษณ์เมทริกซ์สำหรับการถดถอยโลจิสติก
ในการถดถอยเชิงเส้น (การสูญเสียกำลังสอง) การใช้เมทริกซ์เรามีสัญกรณ์ที่รัดกุมมากสำหรับวัตถุประสงค์ minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 โดยที่AAAคือเมทริกซ์ข้อมูลxxxคือสัมประสิทธิ์และbbbคือการตอบสนอง มีสัญกรณ์เมทริกซ์ที่คล้ายกันสำหรับวัตถุประสงค์การถดถอยโลจิสติก? สัญลักษณ์ทั้งหมดที่ฉันเห็นไม่สามารถกำจัดผลรวมเหนือจุดข้อมูลทั้งหมดได้ (เช่น∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx) ) แก้ไข: ขอบคุณสำหรับ joceratops และคำตอบที่ยอดเยี่ยมของ AdamO คำตอบของพวกเขาช่วยให้ผมตระหนักดีว่าเหตุผลถดถอยเชิงเส้นอื่นมีสัญกรณ์รัดกุมมากขึ้นเป็นเพราะความหมายของบรรทัดฐานซึ่งแค็ปซูตารางและผลรวมหรือบนอี แต่ในการสูญเสียโลจิสติกไม่มีคำจำกัดความดังกล่าวซึ่งทำให้สัญกรณ์ซับซ้อนขึ้นเล็กน้อยe⊤ee⊤ee^\top e

3
สำหรับตัวแยกประเภทแบบเชิงเส้นสัมประสิทธิ์ขนาดใหญ่แสดงถึงคุณสมบัติที่สำคัญกว่านี้ไหม
ฉันเป็นวิศวกรซอฟต์แวร์ที่ทำงานเกี่ยวกับการเรียนรู้ของเครื่อง จากความเข้าใจของฉันการถดถอยเชิงเส้น (เช่น OLS) และการ จำแนกเชิงเส้น (เช่นการถดถอยโลจิสติกและ SVM) ทำให้การคาดการณ์ขึ้นอยู่กับผลิตภัณฑ์ภายในระหว่างค่าสัมประสิทธิ์การฝึกอบรม และตัวแปรคุณลักษณะ→ x :W⃗ W→\vec{w}x⃗ x→\vec{x} Y^= f( ด้วย⃗ ⋅ x⃗ ) = f( ∑ผมWผมxผม)Y^=ฉ(W→⋅x→)=ฉ(ΣผมWผมxผม) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) คำถามของฉันคือ: หลังจากแบบจำลองได้รับการฝึกอบรม (นั่นคือหลังจากสัมประสิทธิ์คำนวณแล้ว) เป็นกรณีที่สัมประสิทธิ์จะมีขนาดใหญ่กว่าสำหรับตัวแปรคุณลักษณะที่สำคัญกว่าสำหรับแบบจำลองที่จะทำนายได้แม่นยำกว่าหรือไม่WผมWผมw_i ในคำอื่น ๆ ฉันถามว่าขนาดสัมพัทธ์ของสัมประสิทธิ์สามารถใช้สำหรับการเลือกคุณสมบัติโดยเพียงแค่สั่งตัวแปรตามค่าสัมประสิทธิ์แล้วเลือกคุณสมบัติที่มีสัมประสิทธิ์สูงสุดหรือไม่ หากวิธีการนี้ถูกต้องแล้วทำไมถึงไม่กล่าวถึงการเลือกคุณสมบัติ (รวมถึงวิธีการหุ้มและตัวกรอง ฯลฯ ) เหตุผลที่ฉันถามสิ่งนี้เพราะฉันได้พบกับการอภิปรายเกี่ยวกับการทำให้เป็นมาตรฐานL1 กับ L2 มีการประกาศแจ้งความว่า: การเลือกคุณสมบัติในตัวถูกกล่าวถึงบ่อยครั้งว่าเป็นคุณสมบัติที่มีประโยชน์ของ L1-norm ซึ่ง …

2
การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่
ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

2
ถ้าฉันทำซ้ำการสังเกตทุกตัวอย่างในแบบจำลองการถดถอยเชิงเส้นและทำการถดถอยอีกครั้งผลลัพธ์จะได้รับผลกระทบอย่างไร
บอกว่าฉันมีการสังเกต N อาจเป็นหลายปัจจัยและฉันทำซ้ำการสังเกตแต่ละครั้งสองครั้ง (หรือ M ครั้ง) การถดถอยของขนาด NM ใหม่นี้จะเปรียบเทียบกับการถดถอยเพียงแค่การสังเกตการณ์ดั้งเดิมได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.