คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
การรายงานผลลัพธ์ของการถดถอยเชิงเส้นอย่างง่าย: มีข้อมูลอะไรให้บ้าง
ฉันเพิ่งทำการถดถอยเชิงเส้นแบบง่าย ๆ (ใน) ใน Genstat และต้องการรวมการสรุปรวบยอดและมีความหมายของผลลัพธ์ในรายงานของฉัน ฉันไม่แน่ใจว่าข้อมูลที่ฉันควรจะรวมหรือจำนวนเท่าใด บิตหลักของเอาต์พุต Genstat ของฉันมีลักษณะเช่นนี้: Summary of analysis Source d.f. s.s. m.s. v.r. F pr. Regression 1 8128935. 8128935. 814.41 <.001 Residual 53 529015. 9981. Total 54 8657950. 160332. Percentage variance accounted for 93.8 Standard error of observations is estimated to be 99.9. Estimates of …

1
ประเภทใดที่เหลือและระยะทางของ Cook ที่ใช้สำหรับ GLM
ไม่มีใครรู้ว่าสูตรระยะทางของ Cook คืออะไร? สูตรระยะทางของ Cook ดั้งเดิมใช้ส่วนที่เหลือเป็นราย ๆ แต่ทำไม R จึงใช้ std เพียร์สันที่เหลือเมื่อคำนวณระยะทางพล็อตของ Cook สำหรับ GLM ฉันรู้ว่าเศษที่เหลือเป็นนักเรียนไม่ได้กำหนดไว้สำหรับ GLMs แต่สูตรคำนวณระยะทางของ Cook มีลักษณะอย่างไร สมมติตัวอย่างต่อไปนี้: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) สูตรสำหรับระยะทางของ Cook คืออะไร กล่าวอีกนัยหนึ่งสูตรการคำนวณเส้นประสีแดงคืออะไร สูตรนี้สำหรับเพียร์สันที่เหลืออยู่นั้นมาจากที่ไหน?

1
เส้นโค้งลูกบาศก์ จำกัด และแตกต่างกันอย่างไร
ฉันอ่านมากเกี่ยวกับการใช้ splines ในปัญหาการถดถอยต่าง ๆ หนังสือบางเล่ม (เช่น Hodges Richly Parrameterized Linear Models ) แนะนำ splines ที่ถูกลงโทษ อื่น ๆ (เช่นกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell ) เลือกใช้เส้นโค้งลูกบาศก์แบบ จำกัด ในทางปฏิบัติแล้วสิ่งเหล่านี้ต่างกันอย่างไร คุณมักจะได้รับผลลัพธ์ที่แตกต่างอย่างมากจากการใช้อย่างใดอย่างหนึ่งหรือไม่? ข้อใดข้อหนึ่งมีข้อดีเป็นพิเศษหรือไม่

1
คำว่า "กระจัดกระจายก่อน" หมายถึงอะไร (FBProphet Paper)?
การอ่านกระดาษ "การพยากรณ์ในระดับ" (เครื่องมือพยากรณ์ FBProphet ให้ดูที่https://peerj.com/preprints/3190.pdf ) ฉันเจอคำว่า "กระจัดกระจายมาก่อน" ผู้เขียนอธิบายว่าพวกเขากำลังใช้ "กระจัดกระจายก่อน" ในการสร้างแบบจำลองเวกเตอร์ของอัตราการเบี่ยงเบนจากอัตราสเกลาบางซึ่งเป็นพารามิเตอร์แบบจำลองในแบบจำลองการเติบโตโลจิสติกδδ\mathbf{\delta}kkk เนื่องจากพวกเขาระบุว่าฉันเข้าใจอย่างถูกต้องหรือไม่ว่า "sparse" หมายถึงเวกเตอร์ที่มีองค์ประกอบใกล้เคียงกับศูนย์ถ้าพารามิเตอร์มีขนาดเล็ก? ฉันสับสนเพราะฉันคิดว่าองค์ประกอบเวกเตอร์ทั้งหมดจำเป็นต้องเป็นพารามิเตอร์ของการถดถอย แต่การกำหนดพวกมันแบบนั้นทำให้พารามิเตอร์และเป็นพารามิเตอร์โมเดลฟรีเท่านั้นใช่ไหมδJ∼ Laplace ( 0 , τ)δJ~Laplace(0,τ)\delta_j \sim\text{Laplace}(0,\tau)ττ\taukkkττ\tau นอกจากนี้ยังมีการใช้การกระจาย Laplace เพื่อสร้างสิ่งที่พบบ่อยก่อน ฉันไม่เข้าใจว่าทำไมจึงเป็นที่ต้องการมากกว่าเช่นการกระจายปกติ

1
วิธีการคำนวณคะแนนความมั่นใจในการถดถอย (พร้อมฟอเรสต์แบบสุ่ม / XGBoost) สำหรับการทำนายแต่ละครั้งใน R อย่างไร
มีวิธีในการรับคะแนนความเชื่อมั่น (เราสามารถเรียกได้ว่าเป็นค่าความเชื่อมั่นหรือความน่าจะเป็น) สำหรับแต่ละค่าที่คาดการณ์เมื่อใช้อัลกอริทึมเช่นการสุ่มป่าหรือการไล่ระดับสีมากขึ้น สมมติว่าคะแนนความเชื่อมั่นนี้จะอยู่ในช่วงตั้งแต่ 0 ถึง 1 และแสดงว่าฉันมีความมั่นใจเกี่ยวกับการทำนายโดยเฉพาะอย่างไร จากสิ่งที่ฉันพบในอินเทอร์เน็ตเกี่ยวกับความมั่นใจมักจะวัดจากช่วงเวลา นี่คือตัวอย่างของช่วงความเชื่อมั่นที่คำนวณด้วยconfpredฟังก์ชันจากlavaไลบรารี: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, …

3
ปัญหาเกี่ยวกับการเข้ารหัสแบบร้อนและการเข้ารหัสแบบจำลอง
ฉันตระหนักถึงความจริงที่ว่าตัวแปรเด็ดขาดที่มีระดับ k ควรถูกเข้ารหัสด้วยตัวแปร k-1 ในการเข้ารหัสดัมมี่ (คล้ายกับตัวแปรเด็ดขาดหลายค่า) ฉันสงสัยว่าปัญหาหนึ่งเกิดขึ้นกับการเข้ารหัสแบบร้อนแรงเพียงใด (เช่นการใช้ตัวแปร k แทน) ผ่านการเข้ารหัสแบบจำลองสำหรับวิธีการถดถอยที่แตกต่างกันส่วนใหญ่เป็นการถดถอยเชิงเส้นการถดถอยเชิงเส้นที่ถูกลงโทษ (Lasso, Ridge, ElasticNet) เครื่องเร่งการไล่ระดับสี) ฉันรู้ว่าในการถดถอยเชิงเส้นปัญหาความหลากหลายเชิงเส้นเกิดขึ้น (แม้ว่าในทางปฏิบัติฉันได้ติดตั้งการถดถอยเชิงเส้นโดยใช้ OHE โดยไม่มีปัญหาใด ๆ ) อย่างไรก็ตามการเข้ารหัสแบบจำลองไม่จำเป็นต้องใช้ในพวกเขาทั้งหมดและผลลัพธ์ที่ได้จะผิดไปอย่างไรหากใช้การเข้ารหัสแบบร้อนแรง? การมุ่งเน้นของฉันอยู่ที่การคาดการณ์ในตัวแบบการถดถอยที่มีตัวแปรหมวดหมู่ (ความสำคัญสูง) จำนวนมากดังนั้นฉันจึงไม่สนใจช่วงความมั่นใจ

3
อะไรคือข้อดีของการถดถอยแบบขั้นตอน
ฉันกำลังทดลองกับการถดถอยแบบขั้นตอนเพื่อเห็นแก่ความหลากหลายในแนวทางการแก้ไขปัญหา ดังนั้นฉันมี 2 คำถาม: อะไรคือข้อดีของการถดถอยแบบขั้นตอน จุดเด่นเฉพาะคืออะไร คุณคิดอย่างไรเกี่ยวกับวิธีการไฮบริดที่คุณใช้การถดถอยแบบขั้นตอนเพื่อเลือกคุณสมบัติแล้วใช้การถดถอยปกติโดยนำคุณสมบัติที่เลือกทั้งหมดมารวมกัน

2
การถดถอยของกระบวนการแบบเกาส์ที่เพิ่มขึ้น
ฉันต้องการใช้การถดถอยแบบเกาส์แบบขั้นตอนแบบเพิ่มโดยใช้หน้าต่างแบบเลื่อนผ่านจุดข้อมูลที่มาถึงแบบทีละรายการผ่านสตรีม ให้แทนมิติของพื้นที่อินพุต ดังนั้นทุกจุดข้อมูลมีองค์ประกอบจำนวนdddxixix_iddd ให้เป็นขนาดของหน้าต่างเลื่อนnnn ในการคาดคะเนฉันต้องคำนวณค่าผกผันของแกรมเมทริกซ์โดยที่และ k เป็นเคอร์เนลเอ็กซ์เชียลกำลังสองKKKKij=k(xi,xj)Kij=k(xi,xj)K_{ij} = k(x_i, x_j) เพื่อหลีกเลี่ยงการเพิ่มขึ้นของ K กับจุดข้อมูลใหม่ทุกจุดฉันคิดว่าฉันสามารถลบจุดข้อมูลที่เก่าที่สุดก่อนที่จะเพิ่มจุดใหม่และด้วยวิธีนี้ฉันจะป้องกันไม่ให้กรัมเติบโตขึ้น ยกตัวอย่างเช่นปล่อยให้โดยที่คือความแปรปรวนร่วมของน้ำหนักและเป็นฟังก์ชันการทำแผนที่โดยปริยายโดยเคอร์เนล exponential กำลังสองK=ϕ(X)TΣϕ(X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi ตอนนี้ให้ ] และโดยที่คือคูณคอลัมน์เมทริกซ์X=[xt−n+1|xt−n+2|...|xtX=[xt−n+1|xt−n+2|...|xtX=[x_{t-n+1}|x_{t-n+2}|...|x_{t}Xnew=[xt−n+2|...|xt|xt+1]Xnew=[xt−n+2|...|xt|xt+1]X_{new}=[x_{t-n+2}|...|x_{t}|x_{t+1}]xxxddd111 ฉันจำเป็นต้องใช้วิธีที่มีประสิทธิภาพเพื่อหาสิ่งที่อาจใช้Kสิ่งนี้ดูเหมือนจะไม่ตรงกันข้ามกับปัญหาเมทริกซ์ที่ได้รับการปรับปรุงอันดับ 1 ที่สามารถจัดการกับสูตร Sherman-Morrison ได้อย่างมีประสิทธิภาพK−1newKnew−1K_{new}^{-1}KKK

5
สถิติการทดสอบของเดอร์บินวัตสัน
ฉันใช้การทดสอบ DW กับโมเดลการถดถอยของฉันใน R และฉันได้สถิติการทดสอบ DW ที่ 1.78 และค่า p เท่ากับ 2.2e-16 = 0 นี่หมายความว่าไม่มีความสัมพันธ์อัตโนมัติระหว่างส่วนที่เหลือเพราะสถิติอยู่ใกล้กับ 2 ด้วยค่า p เล็ก ๆ หรือหมายความว่าแม้ว่าสถิติใกล้เคียงกับ 2 ค่า p มีค่าน้อยดังนั้นเราจึงปฏิเสธสมมติฐานว่างที่มีอยู่ ไม่มีความสัมพันธ์อัตโนมัติ?

1
การประมาณค่าสัมประสิทธิ์การถดถอยไม่เกี่ยวข้องกันหรือไม่?
พิจารณาการถดถอยง่าย (ปกติไม่ได้สันนิษฐาน):ที่คือมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน\ประมาณการสแควร์น้อยที่สุดของและไม่เกี่ยวข้องกันหรือไม่?Yi=a+bXi+ei,Yi=a+bXi+ei,Y_i = a + b X_i + e_i,eieie_i000σσ\sigmaaaabbb

1
สมมติฐานปกติในการถดถอยเชิงเส้น
ในฐานะที่เป็นข้อสันนิษฐานของการถดถอยเชิงเส้นปกติของการกระจายของข้อผิดพลาดบางครั้งก็ผิด "ขยาย" หรือตีความว่าเป็นความจำเป็นสำหรับความปกติของ y หรือ x เป็นไปได้หรือไม่ที่จะสร้างสถานการณ์ / ชุดข้อมูลที่ที่ X และ Y ไม่ได้เป็นแบบปกติ แต่มีข้อผิดพลาดเกิดขึ้นดังนั้นค่าประมาณการถดถอยเชิงเส้นที่ได้รับจึงถูกต้อง?

1
ประสิทธิภาพการถดถอยของเคอร์เนลเคอร์เนล
การถดถอยของสันสามารถแสดงเป็น Y^= (X'X +aผมd)- 1X xy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x ที่ไหน Y^y^\hat{y}เป็นป้ายที่คาดการณ์ระบุเมทริกซ์วัตถุที่เรากำลังพยายามที่จะหาฉลากและเมทริกซ์ของวัตถุเช่นนั้น:IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots …

2
ฟอเรสต์แบบสุ่มในข้อมูลที่จัดกลุ่ม
ฉันใช้ฟอเรสต์แบบสุ่มกับข้อมูลที่จัดกลุ่มมิติสูง (ตัวแปรอินพุตตัวเลข 50 ตัว) ซึ่งมีโครงสร้างแบบลำดับชั้น รวบรวมข้อมูลด้วยการจำลองแบบ 6 ครั้งที่ 30 ตำแหน่งของวัตถุที่แตกต่างกัน 70 รายการทำให้เกิดจุดข้อมูล 12,600 จุดซึ่งไม่เป็นอิสระ ดูเหมือนว่าฟอเรสต์แบบสุ่มมีความเหมาะสมกับข้อมูลมากเกินไปเนื่องจากข้อผิดพลาด oob นั้นมีขนาดเล็กกว่าข้อผิดพลาดที่เราได้รับเมื่อออกจากข้อมูลหนึ่งวัตถุในระหว่างการฝึกอบรมและจากนั้นทำนายผลลัพธ์ของวัตถุด้านซ้าย ยิ่งกว่านั้นฉันมีความสัมพันธ์ที่เหลืออยู่ ฉันคิดว่า overfitting เกิดขึ้นเนื่องจากป่าสุ่มคาดว่าจะมีข้อมูลอิสระ เป็นไปได้ไหมที่จะบอกฟอเรสต์แบบสุ่มเกี่ยวกับโครงสร้างลำดับชั้นของข้อมูล? หรือมีวิธีการรวมหรือการหดตัวที่ทรงพลังอีกวิธีหนึ่งที่สามารถจัดการข้อมูลที่จัดกลุ่มมิติสูงด้วยโครงสร้างการโต้ตอบที่แข็งแกร่งได้หรือไม่ คำใบ้ใด ๆ ที่ฉันสามารถทำได้ดีกว่า?

4
เหตุใดวิธีการกำลังสองน้อยที่สุดและความน่าจะเป็นสูงสุดของการถดถอยจึงไม่เท่ากันเมื่อข้อผิดพลาดไม่กระจายตามปกติ
ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?

3
สัญชาตญาณด้านหลังในรูปแบบปิดของ w ในการถดถอยเชิงเส้น
รูปแบบปิดของ w ในการถดถอยเชิงเส้นสามารถเขียนได้ w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty เราจะอธิบายบทบาทของในสมการนี้ได้อย่างไร(XTX)−1(XTX)−1(X^TX)^{-1}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.