คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
การระบุรูปแบบความแตกต่างของความแตกต่างที่มีช่วงเวลาหลายช่วงเวลา
เมื่อฉันประมาณความแตกต่างของแบบจำลองความแตกต่างกับสองช่วงเวลารูปแบบการถดถอยที่เท่าเทียมกันจะเป็น Yฉันเป็นคนที= α + γs* Tr e a t m e n t + λ dเสื้อ+ δ* ( Tr e a t m e n t ∗ dเสื้อ) + ϵฉันเป็นคนทีYผมsเสื้อ=α+γs* * * *TRอีaเสื้อม.อีnเสื้อ+λdเสื้อ+δ* * * *(TRอีaเสื้อม.อีnเสื้อ* * * *dเสื้อ)+εผมsเสื้อY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ที่ไหน Tr …

2
จะเกิดอะไรขึ้นเมื่อฉันรวมตัวแปรกำลังสองลงในการถดถอย
ฉันเริ่มต้นด้วยการถดถอย OLS ของฉัน: โดยที่ D เป็นตัวแปรจำลองการประมาณการจะแตกต่างจากศูนย์ด้วยค่า p ต่ำ ฉัน preform การทดสอบ Ramsey RESET และพบว่าฉันมีการคลาดเคลื่อนของสมการฉันจึงรวมกำลังสอง x: y=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon คำสองคำนี้อธิบายอะไร? (การเพิ่มขึ้นแบบไม่ใช่เชิงเส้นเป็น Y?) ด้วยการทำเช่นนี้การประมาณค่า D ของฉันจะไม่แตกต่างจากค่าศูนย์อีกต่อไปด้วยค่า p สูง ฉันจะตีความคำศัพท์ยกกำลังสองในสมการของฉัน (โดยทั่วไป) ได้อย่างไร แก้ไข: การปรับปรุงคำถาม

3
เมื่อใดที่ควรใช้การถดถอยแบบหลายครั้งพร้อมการเข้ารหัสแบบดัมมี่กับ ANCOVA
เมื่อเร็ว ๆ นี้ฉันวิเคราะห์การทดสอบที่จัดการกับตัวแปรเด็ดขาด 2 อันและอีกหนึ่งตัวแปรต่อเนื่องโดยใช้ ANCOVA อย่างไรก็ตามผู้ตรวจทานแนะนำว่าการถดถอยหลายครั้งด้วยตัวแปรเด็ดขาดที่เข้ารหัสเป็นตัวแปรดัมมี่เป็นการทดสอบที่เหมาะสมกว่าสำหรับการทดสอบด้วยตัวแปรเด็ดขาดและต่อเนื่อง เมื่อใดจึงจะเหมาะสมที่จะใช้ ANCOVA กับการถดถอยหลายครั้งพร้อมตัวแปรจำลองและฉันควรพิจารณาปัจจัยใดบ้างในการเลือกระหว่างการทดสอบทั้งสอง ขอขอบคุณ.

2
สร้างแบบจำลองเชิงเส้นสำหรับอัตราส่วนเทียบกับอัตราร้อยละ?
สมมติว่าฉันต้องการสร้างแบบจำลองเพื่อทำนายอัตราส่วนหรือเปอร์เซ็นต์บางอย่าง ตัวอย่างเช่นสมมติว่าฉันต้องการทำนายจำนวนเด็กผู้ชายกับผู้หญิงที่จะเข้าร่วมปาร์ตี้และคุณสมบัติของบุคคลที่ฉันสามารถใช้ในโมเดลคือสิ่งต่าง ๆ เช่นจำนวนโฆษณาสำหรับงานปาร์ตี้ขนาดของสถานที่หรือไม่ จะเป็นแอลกอฮอล์ในงานปาร์ตี้ ฯลฯ (นี่เป็นเพียงตัวอย่างที่ทำขึ้นคุณสมบัติที่ไม่สำคัญจริงๆ) คำถามของฉันคืออะไรความแตกต่างระหว่างการทำนายอัตราส่วนกับเปอร์เซ็นต์และแบบจำลองของฉันจะเปลี่ยนไปตามที่ฉันเลือกได้อย่างไร ดีกว่าอีกไหม? ฟังก์ชั่นอื่น ๆ ดีกว่าฟังก์ชั่นใดฟังก์ชันหนึ่งหรือไม่? (ฉันไม่สนใจจริง ๆ เกี่ยวกับจำนวนอัตราส่วนเทียบกับอัตราร้อยละที่เฉพาะเจาะจงฉันแค่ต้องการที่จะระบุว่าฝ่ายใดมีแนวโน้มที่จะเป็น "ฝ่ายเด็กชาย" กับ "ฝ่ายสาว") ตัวอย่างเช่นฉัน ความคิด: ถ้าฉันต้องการทำนายเปอร์เซ็นต์ (พูด# boys / (# boys + # girls)แล้วเนื่องจากคุณสมบัติที่ขึ้นต่อกันของฉันมีขอบเขตระหว่าง 0 ถึง 1 ฉันอาจใช้บางอย่างเช่นการถดถอยโลจิสติกแทนการถดถอยเชิงเส้น หากฉันต้องการทำนายอัตราส่วน (พูด# boys / # girlsหรือ# boys / (1 + # girls)เพื่อหลีกเลี่ยงข้อผิดพลาดการหารด้วยศูนย์) คุณลักษณะที่ต้องพึ่งพาของฉันจะเป็นค่าบวกดังนั้นฉันจึงควรใช้การแปลง (log?) บางชนิดก่อนใช้การถดถอยเชิงเส้น (หรือโมเดลอื่น ๆ …

2
ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่
ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง? ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง วิธี adenoidectomy a , bวิธีการผ่าตัด โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก) ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?


6
รายงานข้อผิดพลาดมาตรฐานที่แข็งแกร่ง (ขาว) เสมอหรือไม่
ได้รับการแนะนำโดย Angrist และ Pischke ว่า Robust (เช่นมีความทนทานต่อ heteroskedasticity หรือความแปรปรวนไม่เท่ากัน) มีการรายงานข้อผิดพลาดมาตรฐานเป็นเรื่องของหลักสูตรมากกว่าการทดสอบ สองคำถาม: อะไรคือผลกระทบต่อข้อผิดพลาดมาตรฐานของการทำเช่นนั้นเมื่อมีความเป็นรักร่วมเพศ มีใครทำสิ่งนี้ในงานของพวกเขาบ้างไหม?

2
อะไรคือความหมายของ super script 2 subscript 2 ภายในบริบทของบรรทัดฐาน?
ฉันใหม่สำหรับการเพิ่มประสิทธิภาพ ฉันเห็นสมการที่มีตัวยก 2 และตัวห้อย 2 อยู่ทางด้านขวาของบรรทัดฐาน ตัวอย่างเช่นนี่คือสมการกำลังสองน้อยที่สุด ต่ำสุด||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 ฉันคิดว่าฉันเข้าใจตัวยกที่ 2: มันหมายถึงการเพิ่มมูลค่าของบรรทัดฐาน แต่ตัวห้อยคืออะไร ฉันจะอ่านสมการเหล่านี้ได้อย่างไร

3
ข้อผิดพลาดการคาดการณ์ที่คาดหวัง - มา
ฉันกำลังพยายามเข้าใจถึงข้อผิดพลาดที่คาดการณ์ไว้ต่อไปนี้ (ESL) โดยเฉพาะอย่างยิ่งเกี่ยวกับการสืบทอดมาของ 2.11 และ 2.12 (การปรับเงื่อนไขขั้นตอนสู่จุดต่ำสุดที่ฉลาด) พอยน์เตอร์หรือลิงค์ใด ๆ ชื่นชมมาก ด้านล่างฉันกำลังรายงานข้อความที่ตัดตอนมาจาก ESL pg 18. สองสมการแรกคือตามลำดับสมการ 2.11 และ 2.12 Let X∈RpX∈RpX \in \mathbb{R}^pแสดงว่ามูลค่าที่แท้จริงเวกเตอร์การป้อนข้อมูลแบบสุ่มและY∈RY∈RY \in \mathbb{R}ตัวแปรการส่งออกมีมูลค่าที่แท้จริงสุ่มที่มีการกระจายร่วมPr(X,Y)Pr(X,Y)\text{Pr}(X,Y) ) เราพยายามที่ฟังก์ชั่นf(X)f(X)f(X)ในการทำนายค่ากำหนดของการป้อนข้อมูลXทฤษฎีนี้ต้องการฟังก์ชั่นการสูญเสียสำหรับการลงโทษข้อผิดพลาดในการทำนายและโดยทั่วไปที่สะดวกที่สุดคือการสูญเสียข้อผิดพลาดกำลังสอง : 2 สิ่งนี้ทำให้เรามีเกณฑ์สำหรับการเลือกYYYXXX L(Y,f(X))L(Y,f(X))L(Y,f(X))L ( Y , f ( X ) ) = ( Y - f (L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff, EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - …

2
เครื่องเรียนรู้ขั้นสูง: มันคืออะไรกัน?
ฉันได้คิดถึงการนำไปใช้และใช้กระบวนทัศน์ Extreme Learning Machine (ELM) มานานกว่าหนึ่งปีแล้วและยิ่งฉันทำอีกต่อไปฉันยิ่งสงสัยว่ามันเป็นสิ่งที่ดีจริงๆ อย่างไรก็ตามความคิดเห็นของฉันดูเหมือนจะตรงกันข้ามกับชุมชนวิทยาศาสตร์ที่ - เมื่อใช้การอ้างอิงและสิ่งพิมพ์ใหม่เป็นมาตรการ - ดูเหมือนว่าจะเป็นประเด็นร้อน Huang และ ELM ได้รับการแนะนำให้รู้จักกับ อัล ประมาณปี 2003 แนวคิดพื้นฐานนั้นค่อนข้างง่าย: เริ่มต้นด้วยโครงข่ายประสาทเทียม 2 ชั้นและสุ่มค่าสัมประสิทธิ์ในชั้นแรก สิ่งนี้หนึ่งแปลงปัญหาการปรับให้เหมาะสมแบบไม่เป็นเชิงเส้นซึ่งโดยทั่วไปจะถูกจัดการผ่าน backpropagation เป็นปัญหาการถดถอยเชิงเส้นอย่างง่าย รายละเอียดเพิ่มเติมสำหรับx∈RDx∈RD\mathbf x \in \mathbb R^Dรุ่นคือ f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk).f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk). f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. ทีนี้มีการปรับเฉพาะwiwiw_i (เพื่อลดความผิดพลาดกำลังสองน้อยที่สุด) ในขณะที่vikvikv_{ik}ถูกเลือกแบบสุ่มทั้งหมด เพื่อเป็นการชดเชยการสูญเสียในองศาอิสระคำแนะนำตามปกติคือการใช้โหนดที่ซ่อนอยู่จำนวนมาก (เช่นพารามิเตอร์อิสระwiwiw_i ) จากมุมมองอื่น …
20 regression 

5
หลีกเลี่ยงการ overfitting ในการถดถอย: ทางเลือกเพื่อ normalization
การทำให้เป็นปกติในการถดถอย (เชิงเส้น, โลจิสติก ... ) เป็นวิธีที่นิยมมากที่สุดในการลดความกระชับ เมื่อเป้าหมายคือการคาดการณ์ความแม่นยำ (ไม่อธิบาย) มีทางเลือกอื่นที่ดีสำหรับการทำให้เป็นมาตรฐานหรือไม่โดยเฉพาะอย่างยิ่งเหมาะสำหรับชุดข้อมูลขนาดใหญ่ (ไมล์ / พันล้านการสังเกตและคุณสมบัตินับล้าน)

1
การใช้ตัวทำนายแบบวงกลมในการถดถอยเชิงเส้น
ฉันกำลังพยายามปรับโมเดลให้เหมาะสมโดยใช้ข้อมูลลม (0, 359) และช่วงเวลาของวัน (0, 23) แต่ฉันกังวลว่าพวกเขาจะไม่พอดีกับการถดถอยเชิงเส้นเนื่องจากพวกเขาไม่ใช่พารามิเตอร์เชิงเส้น ฉันต้องการแปลงพวกเขาโดยใช้ Python ฉันได้เห็นการกล่าวถึงการคำนวณค่าเฉลี่ยเวคเตอร์โดยวิธีการทำบาปและ cos ขององศาอย่างน้อยก็ในกรณีลม แต่ไม่มากนัก มีห้องสมุดไพ ธ อนหรือวิธีการที่เกี่ยวข้องที่อาจเป็นประโยชน์หรือไม่?

1
สิ่งที่จะสรุปได้จากพล็อต lasso (glmnet)
ต่อไปนี้คือโครงร่างของ glmnet ที่มีค่าเริ่มต้นอัลฟา (1 ดังนั้น lasso) โดยใช้mtcarsชุดข้อมูลใน R พร้อมกับmpgDV และอื่น ๆ เป็นตัวแปรตัวทำนาย glmnet(as.matrix(mtcars[-1]), mtcars[,1]) สิ่งที่เราสามารถสรุปได้จากพล็อตนี้เกี่ยวกับตัวแปรที่แตกต่างกันโดยเฉพาะอย่างยิ่งam, cylและwt(สีแดง, สีดำและสีแสงเส้นสีน้ำเงิน)? เราจะวลีผลลัพธ์ในรายงานที่จะเผยแพร่อย่างไร ฉันคิดถึงสิ่งต่อไปนี้: wtmpgเป็นปัจจัยบ่งชี้ที่สำคัญที่สุดของ mpgมันเป็นในเชิงลบที่มีผลต่อ cylmpgเป็นปัจจัยบ่งชี้เชิงลบที่อ่อนแอของ ammpgอาจจะเป็นปัจจัยบ่งชี้ในเชิงบวกของ ตัวแปรอื่น ๆ mpgที่มีการพยากรณ์ไม่ได้ที่แข็งแกร่งของ ขอบคุณสำหรับความคิดของคุณเกี่ยวกับเรื่องนี้ (หมายเหตุ: cylเป็นเส้นสีดำซึ่งไม่ถึง 0 จนกระทั่งอยู่ใกล้มาก) แก้ไข: ต่อไปนี้คือพล็อต (mod, xvar = 'lambda') ซึ่งแสดงแกน x ในลำดับที่กลับด้านบนของพล็อต: (ป.ล. : หากคุณพบว่าคำถามนี้น่าสนใจ / สำคัญโปรดโหวตขึ้น;)

2
ชื่อ“ Logistic Regression” หมายถึงอะไร
ฉันกำลังตรวจสอบการดำเนินการของการถดถอยโลจิสติกจากที่นี่ หลังจากที่ฉันอ่านบทความนั้นดูเหมือนว่าส่วนที่สำคัญคือการหาค่าสัมประสิทธิ์ที่ดีที่สุดในการกำหนดฟังก์ชั่น sigmoid ดังนั้นฉันจึงสงสัยว่าทำไมวิธีนี้เรียกว่า "Logistic Regression" มันเกี่ยวข้องกับฟังก์ชันลอการิทึมหรือไม่? บางทีฉันอาจต้องการข้อมูลพื้นฐานทางประวัติศาสตร์เพื่อทำความเข้าใจให้ดีขึ้น

3
ความสัมพันธ์ระหว่างการถดถอยของสันเขากับการถดถอย PCA
ฉันจำได้ว่ามีการอ่านการเชื่อมต่อระหว่างสันเขา (กับการทำให้เป็นมาตรฐานℓ2ℓ2\ell_2 ) และการถดถอย PCA: ในขณะที่ใช้การถดถอยปกติกับ hyperparameterถ้าแล้วการถดถอยนั้นเทียบเท่ากับการลบ ตัวแปร PC ที่มีค่าลักษณะเฉพาะน้อยที่สุด λ λ →การ0ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 ทำไมเรื่องนี้ถึงเป็นจริง? สิ่งนี้เกี่ยวข้องกับกระบวนการเพิ่มประสิทธิภาพหรือไม่ ฉันจะคาดหวังให้เทียบเท่ากับ OLS อย่างไร้เดียงสา ใครบ้างมีการอ้างอิงสำหรับเรื่องนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.