คำถามติดแท็ก linear-model

อ้างถึงโมเดลใด ๆ ที่ตัวแปรสุ่มเกี่ยวข้องกับตัวแปรสุ่มหนึ่งตัวหรือมากกว่าโดยฟังก์ชันที่เป็นเส้นตรงในพารามิเตอร์จำนวน จำกัด

3
ทำไมการแยกความแตกต่างระหว่างการ "เชิงเส้น" และ "การไม่เชิงเส้น" จึงเป็นสิ่งสำคัญ
อะไรคือความสำคัญของความแตกต่างระหว่างตัวแบบเชิงเส้นและแบบไม่ใช่เชิงเส้น? คำถามแบบไม่เชิงเส้นเทียบกับโมเดลเชิงเส้นทั่วไป: คุณจะอ้างถึงการถดถอยโลจิสติกปัวซอง ฯลฯ อย่างไร และคำตอบคือการให้คำอธิบายที่เป็นประโยชน์อย่างมากเกี่ยวกับความเป็นเชิงเส้น / ไม่เชิงเส้นของแบบจำลองเชิงเส้นทั่วไป ดูเหมือนว่าสำคัญอย่างยิ่งที่จะแยกแยะเชิงเส้นจากตัวแบบที่ไม่ใช่เชิงเส้น แต่ทำไมฉันถึงไม่ชัดเจน ตัวอย่างเช่นพิจารณาโมเดลการถดถอยเหล่านี้: E[Y∣X]E[Y∣X]E[Y∣X]E[Y∣X]=β0+β1X=β0+β1X+β2X2=β0+β21X={1+exp(−[β0+β1X]}−1(1)(2)(3)(4)(1)E[Y∣X]=β0+β1X(2)E[Y∣X]=β0+β1X+β2X2(3)E[Y∣X]=β0+β12X(4)E[Y∣X]={1+exp⁡(−[β0+β1X]}−1\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} \\ E[Y \mid X] & = \beta_0 + \beta_1^2 X \tag{3} \\ E[Y \mid …

1
ทำไมการทดสอบ F ในแบบจำลองเชิงเส้น Gaussian จึงมีประสิทธิภาพมากที่สุด
สำหรับแบบจำลองเชิงเส้นแบบเกาส์โดยที่ถูกสมมติให้อยู่ในปริภูมิเวกเตอร์และมีการแจกแจงแบบปกติมาตรฐานใน , สถิติของ -test สำหรับโดยที่เป็นปริภูมิเวกเตอร์เป็นการเพิ่มฟังก์ชันหนึ่งต่อหนึ่งของสถิติเบี่ยงเบน : เราจะรู้ได้อย่างไรว่าสถิตินี้ให้การทดสอบที่มีประสิทธิภาพที่สุดสำหรับH_0Y=μ+σGY=μ+σGY=\mu+\sigma Gμμ\muWWWGGGRnRn\mathbb{R}^nFFFH0:{μ∈U}H0:{μ∈U}H_0\colon\{\mu \in U\}U⊂WU⊂WU \subset Wf=ϕ(2logsupμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=ϕ(2log⁡supμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=\phi\left( 2\log \frac{\sup_{\mu \in W, \sigma>0} L(\mu, \sigma | y)}{\sup_{\mu \in U, \sigma>0} L(\mu, \sigma | y)} \right).H0H0H_0(อาจหลังจากทิ้งกรณีที่ผิดปกติ) หรือไม่ สิ่งนี้ไม่ได้เกิดจากทฤษฎีบทของเนย์แมน - เพียร์สันเพราะทฤษฎีนี้ยืนยันว่าการทดสอบอัตราส่วนความน่าจะเป็นมีประสิทธิภาพมากที่สุดสำหรับจุดสมมุติH0:{μ=μ0,σ=σ0}H0:{μ=μ0,σ=σ0}H_0\colon\{\mu=\mu_0, \sigma=\sigma_0\}และH1:{μ=μ1,σ=σ1}H1:{μ=μ1,σ=σ1}H_1\colon\{\mu=\mu_1,\sigma=\sigma_1\}\}

2
ความแตกต่างในค่า p รายงานระหว่าง lm และ aov ใน R
อะไรอธิบายถึงความแตกต่างของค่า p ในค่าต่อไปนี้aovและการlmโทร? ความแตกต่างนั้นเกิดจากการคำนวณผลรวมจำนวนสแควร์ประเภทต่างๆหรือไม่ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

1
ทำไม lm และ biglm ใน R จึงให้ค่า p ที่ต่างกันสำหรับข้อมูลเดียวกัน
นี่คือตัวอย่างเล็ก ๆ : MyDf<-data.frame(x=c(1,2,3,4), y=c(1.2, .7, -.5, -3)) ตอนนี้ด้วยbase::lm: > lm(y~x, data=MyDf) %>% summary Call: lm(formula = y ~ x, data = MyDf) Residuals: 1 2 3 4 -0.47 0.41 0.59 -0.53 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.0500 0.8738 3.491 0.0732 . x -1.3800 0.3191 -4.325 0.0495 …

4
“ curvilinear” หมายถึงอะไร?
เท่าที่ผมสามารถบอกโค้งถูกกำหนดราง แต่หมายความว่าเช่นเดียวกับการไม่เชิงเส้น ถูกต้องหรือไม่ หรือcurvilinearมีคำจำกัดความที่ชัดเจนหรือไม่?

2
ทฤษฎีที่อยู่เบื้องหลังอาร์กิวเมนต์น้ำหนักใน R เมื่อใช้ lm ()
หลังจากปีในโรงเรียนที่จบที่ความเข้าใจของฉัน "ถ่วงน้ำหนักน้อยสแควร์" คือต่อไปนี้ให้ ,จะมีบางเมทริกซ์ออกแบบ\ boldsymbol \ beta \ in \ mathbb {R} ^ pเป็นเวกเตอร์พารามิเตอร์\ boldsymbol \ epsilon \ in \ mathbb {R} ^ nเป็นเวกเตอร์ข้อผิดพลาดที่\ boldsymbol \ epsilon \ sim \ mathcal {N} (\ mathbf {0} \ ซิก ^ 2 \ mathbf {V})ที่\ mathbf {V} = \ ข้อความ {diag} (v_1, v_2 …

3
วิธีการคำนวณความแตกต่างของสองลาด?
มีวิธีการที่จะเข้าใจหรือไม่ว่าสองบรรทัดขนานกัน (มากหรือน้อย)? ฉันมีสองบรรทัดที่สร้างขึ้นจากการถดถอยเชิงเส้นและฉันต้องการที่จะเข้าใจว่าพวกมันขนานกันหรือไม่ กล่าวอีกนัยหนึ่งฉันต้องการได้ความแตกต่างของความลาดชันของสองบรรทัดนี้ มีฟังก์ชั่น R เพื่อคำนวณสิ่งนี้หรือไม่? แก้ไข: ... และฉันจะได้ความชัน (เป็นองศา) ของเส้นการถดถอยเชิงเส้นได้อย่างไร

3
วิธีการพูดคุยเกี่ยวกับ scatterplot กับหลายบรรทัดที่เกิดขึ้นใหม่?
เราวัดตัวแปรได้สองตัวและ scatterplot ดูเหมือนว่าจะแนะนำโมเดล "เชิงเส้น" หลายอัน มีวิธีการกลั่นโมเดลเหล่านี้หรือไม่? การระบุตัวแปรอิสระอื่น ๆ กลายเป็นเรื่องยาก ตัวแปรทั้งสองมีความเบ้ซ้ายอย่างหนัก (ต่อจำนวนน้อย) นี่เป็นการกระจายที่คาดหวังในโดเมนของเรา ความเข้มของจุดหมายถึงจำนวนเงินของจุดข้อมูล (บนขนาด) นี้y&gt; &lt; x , y &gt;เข้าสู่ระบบ10log10\log_{10}&lt; x , y&gt;&lt;x,y&gt; อีกวิธีหนึ่งมีวิธีการจัดกลุ่มคะแนนหรือไม่ ในสาขาของเรามันจะอ้างว่าตัวแปรทั้งสองเหล่านี้มีความสัมพันธ์เชิงเส้น เราพยายามที่จะเข้าใจ / อธิบายว่าทำไมข้อมูลของเราถึงไม่เป็นเช่นนั้น (หมายเหตุเรามี 17M data points) ปรับปรุง:ขอบคุณสำหรับคำตอบทั้งหมดต่อไปนี้เป็นคำชี้แจงที่ขอ: ตัวแปรทั้งสองเป็นจำนวนเต็มเท่านั้นซึ่งจะอธิบายรูปแบบบางอย่างใน scatterplot ของบันทึก โชคดีที่ตามนิยามแล้วค่าต่ำสุดของตัวแปรทั้งสองคือ 1 คะแนน 7M อยู่ที่ ("อธิบาย" โดยความเบ้ซ้ายของข้อมูล)&lt; 3 , 1 &gt;&lt;3,1&gt;<3,1> นี่คือแปลงที่ร้องขอ: บันทึกการกระจายล็อก: (ช่องว่างเกิดจากค่าจำนวนเต็ม) …

4
การใช้เดซิเบลในสถิติ
ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับการอ่านแท็ก RFID และเปรียบเทียบความแรงของสัญญาณที่ผู้อ่านเห็นเมื่อคุณเปลี่ยนการกำหนดค่าเสาอากาศ (จำนวนเสาอากาศ, ตำแหน่ง, ฯลฯ ... ) เป็นส่วนหนึ่งของโครงการฉันต้องเปรียบเทียบการตั้งค่าเพื่อดูว่ามีประสิทธิภาพมากที่สุด เป็นการดีที่ฉันจะสามารถทำการทดสอบ Unpaired t-Test หรือ ANOVA ระหว่างตำแหน่งเสาอากาศสองตำแหน่ง (หรือ MANOVA ระหว่างหลายตำแหน่ง) อย่างไรก็ตามเนื่องจากการตอบสนองอยู่ในเดซิเบลซึ่งเป็นลอการิทึมฉันสงสัยว่าวิธีที่ดีที่สุดในการดำเนินการต่อคืออะไร เป็นการดีที่สุดหรือไม่ที่จะแปลงผลลัพธ์ให้เป็นสเกลเชิงเส้นแล้วเปรียบเทียบโดยใช้หนึ่งในวิธีที่ฉันกล่าวถึงหรือฉันควรใช้เดซิเบลเนื่องจากมีการทดสอบทางสถิติที่แตกต่างกันเพื่อทำการเปรียบเทียบ

5
การซ่อนโมเดลการถดถอยจากศาสตราจารย์ (Regression Battleship) [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันกำลังทำการบ้านที่อาจารย์ของฉันต้องการให้เราสร้างแบบจำลองการถดถอยที่แท้จริงจำลองตัวอย่างข้อมูลและเขาจะพยายามหารูปแบบการถดถอยที่แท้จริงของเราโดยใช้เทคนิคบางอย่างที่เราเรียนรู้ในชั้นเรียน เราก็ต้องทำเช่นเดียวกันกับชุดข้อมูลที่เขามอบให้เรา เขาบอกว่าเขาสามารถสร้างแบบจำลองที่แม่นยำสำหรับความพยายามในอดีตทั้งหมดเพื่อพยายามหลอกล่อเขา มีนักเรียนบางคนที่สร้างแบบจำลองบ้า ๆ บอ ๆ แต่เขาก็สามารถสร้างแบบจำลองที่เรียบง่ายขึ้นซึ่งก็เพียงพอแล้ว ฉันจะพัฒนารูปแบบที่ยุ่งยากให้เขาค้นหาได้อย่างไร ฉันไม่ต้องการที่จะถูกสุด ๆ ด้วยการทำ 4 เทอมกำลังสองการสังเกต 3 ครั้งและความแปรปรวนอันมหาศาล? ฉันจะสร้างชุดข้อมูลที่ไม่มีอันตรายซึ่งดูเหมือนว่าจะมีโมเดลเล็ก ๆ น้อย ๆ อยู่ข้างใต้ได้อย่างไร เขามีกฎ 3 ข้อที่ต้องปฏิบัติตาม: ชุดข้อมูลของคุณต้องมีตัวแปร "Y" หนึ่งตัวและตัวแปร 20 "X" ที่ระบุว่าเป็น "Y", "X1", ... , "X20" ตัวแปรตอบกลับของคุณต้องมาจากตัวแบบการถดถอยเชิงเส้นที่ตรงตาม: ที่และ21YYY ϵ ฉัน ∼ N ( 0 …

5
แสดงว่าตัวประมาณ OLS เป็นมาตราส่วนที่เท่ากันหรือไม่
ฉันไม่ได้มีคำจำกัดความที่เป็นทางการของสเกลความแตกต่างขนาด แต่นี่คือสิ่งที่รู้เบื้องต้นเกี่ยวกับสถิติการเรียนรู้พูดเกี่ยวกับเรื่องนี้ในหน้า 217: มาตรฐานไม่น้อยกว่าค่าสัมประสิทธิ์สี่เหลี่ยม ... มีequivariant ขนาด : คูณโดยคงเพียงแค่นำไปสู่การปรับขนาดอย่างน้อยสี่เหลี่ยมประมาณการค่าสัมประสิทธิ์โดยปัจจัยของ CXjXjX_jccc1/c1/c1/c สำหรับความเรียบง่ายสมมติว่าโมเดลเชิงเส้นทั่วไปy=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilonโดยที่y∈RNy∈RN\mathbf{y} \in \mathbb{R}^N , XX\mathbf{X}คือเมทริกซ์N×(p+1)N×(p+1)N \times (p+1) (โดยที่p+1&lt;Np+1&lt;Np+1 < N ) พร้อมกับรายการทั้งหมดในRR\mathbb{R} , β∈Rp+1β∈Rp+1\boldsymbol\beta \in \mathbb{R}^{p+1}และϵϵ\boldsymbol\epsilonเป็นNNNเวกเตอร์มิติของตัวแปรสุ่มค่าจริงกับE[ϵ]=0N×1E[ϵ]=0N×1\mathbb{E}[\boldsymbol\epsilon] = \mathbf{0}_{N \times 1}1} จากการประมาณค่า OLS เรารู้ว่าถ้าXX\mathbf{X}มีอันดับเต็ม (คอลัมน์) β^X=(XTX)−1XTy.β^X=(XTX)−1XTy.\hat{\boldsymbol\beta}_{\mathbf{X}} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}\text{.} สมมติว่าเราคูณคอลัมน์XX\mathbf{X} , พูดxkxk\mathbf{x}_kสำหรับk∈{1,2,…,p+1}k∈{1,2,…,p+1}k \in \{1, 2, \dots, p+1\}โดยคงc≠0c≠0c \neq …

1
ช่วงเวลาการทำนาย = ช่วงเวลาที่เชื่อถือได้?
ฉันสงสัยว่าช่วงเวลาการทำนายและช่วงเวลาที่น่าเชื่อถือจะประเมินสิ่งเดียวกันหรือไม่ ตัวอย่างเช่นการถดถอยเชิงเส้นเมื่อคุณประเมินช่วงเวลาการทำนายของค่าที่ติดตั้งไว้คุณจะประเมินขีด จำกัดของช่วงเวลาที่คุณคาดหวังว่ามูลค่าของคุณจะลดลง ตรงกันข้ามกับช่วงความมั่นใจคุณไม่ได้มุ่งเน้นไปที่พารามิเตอร์การกระจายเช่นค่าเฉลี่ย แต่ในค่าที่ตัวแปรอธิบายของคุณอาจใช้ค่า X ที่กำหนด (สมมติว่า )( 1 - α ) %(1-α)%(1-\alpha)\% Y= + ข X Y=a+ข.X\ Y = a + b.X เมื่อคุณประเมินค่าที่พอดีสำหรับค่ากำหนดภายในกรอบการทำงานแบบเบย์จากการแจกแจงความน่าจะเป็นหลังคุณสามารถประมาณช่วงเวลาที่น่าเชื่อถือได้ ช่วงเวลานี้ให้ข้อมูลเดียวกันกับค่าติดตั้งหรือไม่?XXX

1
จะตีความสัมประสิทธิ์การถดถอยเชิงเส้นเชิงลบสำหรับตัวแปรผลลัพธ์ที่บันทึกไว้ได้อย่างไร?
ฉันมีรูปแบบการถดถอยเชิงเส้นที่ตัวแปรตามถูกบันทึกไว้และตัวแปรอิสระเป็นเชิงเส้น ค่าสัมประสิทธิ์ความลาดชันสำหรับตัวแปรอิสระที่สำคัญคือลบ: -.0564ไม่แน่ใจว่าจะตีความอย่างไร- .0564-0.0564-.0564 ฉันจะใช้ค่าสัมบูรณ์แล้วเปลี่ยนเป็นค่าลบเช่นนี้ ( ประสบการณ์( 0.0564 ) - 1 ) ⋅ 100 = 5.80(ประสบการณ์⁡(0.0564)-1)⋅100=5.80(\exp(0.0564)-1) \cdot 100 = 5.80 หรือ ฉันจะเสียบสัมประสิทธิ์เชิงลบเช่นนี้: ( ประสบการณ์( - 0.0564 ) - 1 ) ⋅ 100 = - 5.48(ประสบการณ์⁡(-0.0564)-1)⋅100=-5.48(\exp(-0.0564)-1) \cdot 100 = -5.48 กล่าวอีกนัยหนึ่งฉันจะใช้ตัวเลขสัมบูรณ์แล้วเปลี่ยนมันให้เป็นลบหรือฉันจะเสียบสัมประสิทธิ์เชิงลบหรือไม่? ฉันจะวลีที่ค้นพบของฉันในแง่ของการเพิ่มขึ้นหนึ่งหน่วยใน X ที่เกี่ยวข้องกับการลดลงร้อยละ __ ใน Y? อย่างที่คุณเห็นสูตรสองสูตรนี้ให้คำตอบที่ต่างกัน 2 ข้อ

2
นามสกุลที่เป็นไปได้สำหรับแผนการวินิจฉัยเริ่มต้นสำหรับ lm (ใน R และโดยทั่วไป)?
ฉันเริ่มขุดลงไปในฟังก์ชั่นplot.lmฟังก์ชั่นนี้ให้หกพล็อตสำหรับ lm คือ: พล็อตของสารตกค้างต่อค่าติดตั้ง พล็อตที่ตั้งมาตราส่วนของ sqrt (| residuals |) เทียบกับค่าติดตั้ง พล็อต QQ ปกติพล็อตระยะทางของ Cook เทียบกับฉลากแถว เนื้อเรื่องของส่วนที่เหลือเทียบกับการยกระดับ เนื้อเรื่องของระยะทาง Cook เทียบกับ leverage / (1-leverage) และฉันสงสัยว่าส่วนขยายทั่วไป / ที่เป็นประโยชน์อื่น ๆ ของแปลงปัจจุบันมีอยู่สำหรับตัวแบบเชิงเส้นและพวกเขาสามารถทำได้ใน R อย่างไร (ยินดีต้อนรับลิงก์ไปยังบทความของแพ็คเกจ) ดังนั้นฟังก์ชั่น boxcox (จาก {MASS}) เป็นตัวอย่างของพล็อตการวินิจฉัยอีกประโยชน์ (และเช่นคำตอบจะดี) แต่ผมอยากรู้เพิ่มเติมเกี่ยวกับรูปแบบ / ส่วนขยายในที่มีอยู่แปลงวินิจฉัยเริ่มต้นสำหรับ LM ใน R (แม้ว่าโดยทั่วไป ข้อสังเกตอื่น ๆ ในหัวข้อยินดีเสมอ) นี่คือตัวอย่างง่ายๆของสิ่งที่ฉันหมายถึง: #Some example code …

1
สมมติฐานปกติในการถดถอยเชิงเส้น
ในฐานะที่เป็นข้อสันนิษฐานของการถดถอยเชิงเส้นปกติของการกระจายของข้อผิดพลาดบางครั้งก็ผิด "ขยาย" หรือตีความว่าเป็นความจำเป็นสำหรับความปกติของ y หรือ x เป็นไปได้หรือไม่ที่จะสร้างสถานการณ์ / ชุดข้อมูลที่ที่ X และ Y ไม่ได้เป็นแบบปกติ แต่มีข้อผิดพลาดเกิดขึ้นดังนั้นค่าประมาณการถดถอยเชิงเส้นที่ได้รับจึงถูกต้อง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.