คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
วิธีการหาแบบที่ดีสำหรับแบบกึ่งไซนัสใน R?
ฉันต้องการสมมติว่าอุณหภูมิผิวน้ำทะเลของทะเลบอลติกเป็นปีเดียวกันแล้วปีเล่าแล้วอธิบายด้วยแบบจำลองเชิงเส้นตรง ความคิดที่ฉันมีคือเพียงแค่ใส่ปีเป็นเลขทศนิยม (หรือ num_months / 12) และทราบว่าอุณหภูมิควรเป็นเท่าไหร่ในช่วงเวลานั้น การโยนมันลงใน lm () ฟังก์ชั่นใน R มันไม่รู้จักข้อมูลไซน์ดังนั้นมันจึงสร้างเส้นตรง ดังนั้นฉันจึงใส่ฟังก์ชั่น sin () ไว้ในวงเล็บ I () และลองใช้ค่าสองสามค่าเพื่อให้พอดีกับฟังก์ชั่นด้วยตนเองและนั่นก็ใกล้เคียงกับสิ่งที่ฉันต้องการ แต่ทะเลร้อนขึ้นเร็วกว่าในฤดูร้อนแล้วเย็นลงในฤดูใบไม้ร่วงช้าลง ... ดังนั้นแบบจำลองจึงผิดพลาดในปีแรกจากนั้นแก้ไขให้ถูกต้องมากขึ้นหลังจากสองสามปีที่ผ่านมาและในอนาคตฉันคิดว่ามันจะยิ่งมากขึ้น และผิดมากขึ้นอีกครั้ง ฉันจะได้รับ R เพื่อประเมินโมเดลสำหรับฉันดังนั้นฉันไม่ต้องเดาตัวเลขเอง กุญแจสำคัญในที่นี้คือฉันต้องการให้มันสร้างค่าเหมือนเดิมทุกปีไม่ใช่แค่ให้ถูกต้องหนึ่งปี ถ้าฉันรู้เรื่องคณิตศาสตร์มากขึ้นฉันอาจเดาได้ว่ามันเป็นเหมือนปัวซองหรือเกาส์แทนบาป () แต่ฉันก็ไม่รู้ว่าจะทำเช่นนั้นได้อย่างไร ความช่วยเหลือใด ๆ ที่จะเข้าใกล้คำตอบที่ดีจะได้รับการชื่นชมอย่างมาก นี่คือข้อมูลที่ฉันใช้และรหัสเพื่อแสดงผลลัพธ์: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- …
37 r  regression  time-series  lm 

2
เมื่อใดและอย่างไรที่จะใช้ตัวแปรอธิบายที่เป็นมาตรฐานในการถดถอยเชิงเส้น
ฉันมีคำถามง่ายๆ 2 ข้อเกี่ยวกับการถดถอยเชิงเส้น: เมื่อใดควรที่จะสร้างมาตรฐานของตัวแปรอธิบาย? เมื่อการประมาณค่าดำเนินการด้วยค่ามาตรฐานแล้วหนึ่งคนจะคาดการณ์ด้วยค่าใหม่ได้อย่างไร (ควรประเมินค่ามาตรฐานใหม่อย่างไร) การอ้างอิงบางอย่างจะเป็นประโยชน์

3
ความแปรปรวนของค่าสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นอย่างง่าย
ในการถดถอยเชิงเส้นอย่างง่ายเรามีที่2) ฉันได้รับตัวประมาณ: ที่และเป็นวิธีการที่เป็นตัวอย่างของและy ที่y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ตอนนี้ผมต้องการที่จะหาแปรปรวนของ\ฉันได้รับสิ่งต่อไปนี้: β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . รากศัพท์มีดังต่อไปนี้: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are iid=1(∑i(xi−x¯)2)2∑i(xi−x¯)2E(ui−∑jujn)2=1(∑i(xi−x¯)2)2∑i(xi−x¯)2⎛⎝E(u2i)−2×E(ui×(∑jujn))+E(∑jujn)2⎞⎠=1(∑i(xi−x¯)2)2∑i(xi−x¯)2(σ2−2nσ2+σ2n)=σ2∑i(xi−x¯)2(1−1n)Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E[(∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]⏟=0)2]=1(∑i(xi−x¯)2)2E[(∑i(xi−x¯)(ui−∑jujn))2]=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] …

4
ความแตกต่างระหว่างการพยากรณ์และการทำนาย?
ฉันสงสัยว่าความแตกต่างและความสัมพันธ์ระหว่างการพยากรณ์และการทำนายคืออะไร โดยเฉพาะในอนุกรมเวลาและการถดถอย ตัวอย่างเช่นฉันแก้ไขให้ถูกต้อง: ในอนุกรมเวลาการคาดการณ์ดูเหมือนว่าจะหมายถึงการประเมินค่าในอนาคตที่กำหนดให้ค่าที่ผ่านมาของอนุกรมเวลา ในการถดถอยการคาดคะเนดูเหมือนจะหมายถึงการประมาณค่าว่าเป็นข้อมูลในอนาคตปัจจุบันหรือในอดีตของข้อมูลที่ได้รับ ขอบคุณและขอแสดงความนับถือ!

1
อะไรคือความง่ายในการตีความความดีของการวัดขนาดพอดีสำหรับโมเดลเอฟเฟ็กต์แบบผสมเชิงเส้น
ฉันกำลังใช้แพคเกจ R lme4 ฉันกำลังใช้โมเดลเอฟเฟกต์แบบผสมเชิงเส้นที่มีเอฟเฟกต์แบบสุ่ม: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = …

2
ฉันจะรู้ได้อย่างไรว่าวิธีการตรวจสอบข้ามที่ดีที่สุด?
ฉันกำลังพยายามหาวิธีการตรวจสอบข้ามที่ดีที่สุดสำหรับสถานการณ์ของฉัน ข้อมูลต่อไปนี้เป็นเพียงตัวอย่างสำหรับการทำงานผ่านปัญหา (ใน R) แต่Xข้อมูลจริงของฉัน( xmat) มีความสัมพันธ์ซึ่งกันและกันและมีความสัมพันธ์กับองศาที่แตกต่างกับyตัวแปร ( ymat) ฉันให้รหัส R แต่คำถามของฉันไม่เกี่ยวกับ R แต่เกี่ยวกับวิธีการ Xmatรวมตัวแปร X V1 ถึง V100 ในขณะที่ymatมีตัวแปร y ตัวเดียว set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data …

2
การถดถอยโลจิสติกกับ LDA เป็นตัวแยกประเภทสองระดับ
ฉันพยายามที่จะตัดหัวของฉันรอบความแตกต่างทางสถิติระหว่างการวิเคราะห์จำแนกเชิงเส้นและโลจิสติกการถดถอย ความเข้าใจของฉันถูกต้องหรือไม่สำหรับปัญหาการจำแนกประเภทสองชั้น LDA คาดการณ์ฟังก์ชันความหนาแน่นปกติสองฟังก์ชัน (หนึ่งรายการสำหรับแต่ละคลาส) ที่สร้างขอบเขตเชิงเส้นตรงที่พวกเขาตัดกันในขณะที่การถดถอยโลจิสติก สร้างขอบเขต แต่ไม่ถือว่าฟังก์ชันความหนาแน่นสำหรับแต่ละคลาสหรือไม่

4
จะตีความค่าสัมประสิทธิ์จากแบบจำลองพหุนามได้อย่างไร
ฉันพยายามสร้างพหุนามลำดับที่สองกับข้อมูลบางอย่างที่ฉันมี สมมติว่าฉันพล็อตแบบนี้ด้วยggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) ฉันเข้าใจ: ดังนั้นคำสั่งที่สองนั้นทำงานได้ค่อนข้างดี ฉันคำนวณด้วย R: summary(lm(data$bar ~ poly(data$foo, 2))) และฉันได้รับ: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 …

3
วิธีหาค่าแปรปรวน - ความแปรปรวนร่วมของสัมประสิทธิ์ในการถดถอยเชิงเส้น
ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้นและมีปัญหาในการเข้าใจเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของ :bb\mathbf{b} สิ่งที่เป็นแนวทแยงนั้นง่ายพอ แต่สิ่งที่อยู่นอกแนวทแยงนั้นยากกว่าเล็กน้อยสิ่งที่ไขปริศนาให้ฉันคือ σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 แต่ไม่มีร่องรอยของβ0β0\beta_0และβ1β1\beta_1ที่นี่
36 regression 

4
ฉันจะพอดีกับการถดถอยที่ จำกัด ใน R เพื่อให้สัมประสิทธิ์รวม = 1 ได้อย่างไร
ฉันเห็นการถดถอยที่มีข้อ จำกัด คล้ายกันที่นี่: จำกัด การถดถอยเชิงเส้นผ่านจุดที่ระบุ แต่ความต้องการของฉันแตกต่างกันเล็กน้อย ฉันต้องการค่าสัมประสิทธิ์ในการเพิ่มเป็น 1 โดยเฉพาะฉันกำลังถดถอยผลตอบแทนของ 1 ชุดแลกเปลี่ยนเงินตราต่างประเทศกับ 3 ชุดแลกเปลี่ยนเงินตราต่างประเทศอื่น ๆ เพื่อให้นักลงทุนสามารถแทนที่การสัมผัสกับชุดนั้นด้วยการรวมกันของชุดที่ 3 การจ่ายเงินสดจะต้องไม่เปลี่ยนแปลงและโดยเฉพาะอย่างยิ่ง (แต่ไม่บังคับ) ค่าสัมประสิทธิ์ควรเป็นค่าบวก ฉันพยายามค้นหาการถดถอยแบบ จำกัด ใน R และ Google แต่โชคดีเล็กน้อย
36 r  regression 

2
วิธีการตีความ glmnet?
ฉันกำลังพยายามปรับตัวแบบการถดถอยเชิงเส้นหลายตัวแปรที่มีตัวแปรทำนาย 60 ตัวและการสังเกต 30 ครั้งดังนั้นฉันจึงใช้แพ็คเกจglmnetสำหรับการถดถอยแบบปกติเพราะ p> n ฉันได้อ่านเอกสารและคำถามอื่น ๆ แล้ว แต่ฉันก็ยังไม่สามารถตีความผลลัพธ์ได้นี่คือตัวอย่างโค้ด (ที่มีตัวทำนาย 20 ตัวและตัวสังเกต 10 ข้อเพื่อลดความซับซ้อน): ฉันสร้างเมทริกซ์ x พร้อมแถว num = การสังเกต num และ num cols = ตัวทำนาย NUM และเวกเตอร์ y ซึ่งแสดงถึงตัวแปรตอบสนอง > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) ฉันพอดีกับรูปแบบ glmnet ที่ปล่อยให้อัลฟาเป็นค่าเริ่มต้น (= 1 สำหรับการลงโทษบ่วงบาศ) > fit1=glmnet(x,y) > print(fit1) ฉันเข้าใจว่าฉันได้รับการทำนายที่แตกต่างจากการลดค่าแลมบ์ดา (เช่นการลงโทษ) Call: glmnet(x …

4
ตัวแปรเครื่องมือคืออะไร?
ตัวแปรเครื่องมือกำลังกลายเป็นเรื่องธรรมดามากขึ้นในเศรษฐศาสตร์ประยุกต์และสถิติ สำหรับผู้เริ่มต้นเราสามารถมีคำตอบที่ไม่ใช่ด้านเทคนิคสำหรับคำถามต่อไปนี้: ตัวแปรเครื่องมือคืออะไร? เมื่อไหร่ที่จะต้องการใช้ตัวแปรเครื่องมือ? เราจะค้นหาหรือเลือกตัวแปรเครื่องมือได้อย่างไร

5
เหตุใดปัญหาการถดถอยจึงเรียกว่าปัญหา“ การถดถอย”
ฉันแค่สงสัยว่าทำไมปัญหาการถดถอยจึงถูกเรียกว่า "ปัญหาการถดถอย" เรื่องราวเบื้องหลังชื่อคืออะไร? คำนิยามเดียวสำหรับการถดถอย: "กำเริบไปสู่สถานะที่ไม่สมบูรณ์หรือพัฒนาแล้ว"

2
การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?
ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้ ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?

2
การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (
การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.