คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
สารตกค้างเกี่ยวข้องกับการรบกวนพื้นฐานอย่างไร
ในวิธีกำลังสองน้อยที่สุดเราต้องการประมาณค่าพารามิเตอร์ที่ไม่รู้จักในโมเดล: YJ= α + βxJ+εJ( j = 1 ... n )Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) เมื่อเราทำเช่นนั้น (สำหรับค่าที่สังเกตได้) เราจะได้เส้นการถดถอยที่พอดี: YJ=α^+β^x +อีJ( J = 1 , . . . n )Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) ตอนนี้เห็นได้ชัดว่าเราต้องการตรวจสอบบางแปลงเพื่อให้แน่ใจว่าสมมติฐานเป็นจริง สมมติว่าคุณต้องการตรวจสอบ homoscedasticity อย่างไรก็ตามในการทำเช่นนี้เรากำลังตรวจสอบเหลืออยู่ สมมติว่าคุณตรวจสอบพล็อตค่าที่ตกค้างเทียบกับที่คาดการณ์ไว้ถ้านั่นแสดงให้เราเห็นว่า heteroscedasticity นั้นชัดเจนแล้วสิ่งนั้นเกี่ยวข้องกับคำว่ารบกวนอย่างไร heteroscedasticity …

1
การประมาณค่าตัดและความชันของการถดถอยเชิงเส้นอย่างง่ายเป็นอิสระหรือไม่
พิจารณาแบบจำลองเชิงเส้น Yผม= α + βxผม+εผมyi=α+βxi+ϵiy_i= \alpha + \beta x_i + \epsilon_i และการประมาณความชันและการสกัดกั้น α^α^\hat{\alpha} และ β^β^\hat{\beta}ใช้กำลังสองน้อยสุดธรรมดา นี้อ้างอิงสำหรับสถิติคณิตศาสตร์ทำให้คำสั่งว่าα^α^\hat{\alpha} และ β^β^\hat{\beta} มีความเป็นอิสระ (ในการพิสูจน์ทฤษฎีบทของพวกเขา) ฉันไม่แน่ใจว่าฉันเข้าใจว่าทำไม ตั้งแต่ α^=Y¯-β^x¯α^=Y¯-β^x¯\hat{\alpha}=\bar{y}-\hat{\beta} \bar{x} นี่ไม่ได้หมายความว่า α^α^\hat{\alpha} และ β^β^\hat{\beta}มีความสัมพันธ์กันอย่างไร ฉันอาจจะคิดถึงบางสิ่งที่ชัดเจนที่นี่

1
การถดถอยด้วยขนาดตัวอย่างที่เล็กมาก
ฉันต้องการเรียกใช้การถดถอยด้วยตัวแปรอธิบาย 4 ถึง 5 แต่มีข้อสังเกตเพียง 15 ข้อ ไม่สามารถสันนิษฐานได้ว่าตัวแปรเหล่านี้มีการกระจายโดยทั่วไปมีวิธีการที่ไม่เป็นพารามิเตอร์หรือวิธีการถดถอยที่ถูกต้องอื่น ๆ หรือไม่?

2
วิธีการประเมินความดีของความพอดีสำหรับฟังก์ชั่นการเอาตัวรอด
ฉันเป็นนักวิเคราะห์การรอดชีวิตคนใหม่แม้ว่าฉันจะมีความรู้ในการจำแนกและการถดถอย สำหรับการถดถอยเรามีสถิติ MSE และ R กำลังสอง แต่เราจะบอกได้อย่างไรว่าแบบจำลองการเอาชีวิตรอด A นั้นเหนือกว่าแบบจำลองการเอาชีวิตรอด B นอกเหนือจากกราฟฟิค (KM curve) บางชนิด? หากเป็นไปได้โปรดอธิบายความแตกต่างด้วยตัวอย่าง (เช่น rpart package ใน R) คุณจะแสดงให้เห็นได้อย่างไรว่าต้นไม้การอยู่รอดของ CART หนึ่งต้นนั้นดีกว่าต้นไม้การอยู่รอดของ CART อีกต้น สามารถใช้การวัดใดได้บ้าง

1
โมเดลการถดถอยเชิงเส้นที่เหมาะสมที่สุดสำหรับข้อมูลที่มีข้อผิดพลาด
ฉันกำลังมองหาอัลกอริทึมการถดถอยเชิงเส้นที่เหมาะสมที่สุดสำหรับข้อมูลที่ตัวแปรอิสระ (x) มีข้อผิดพลาดการวัดค่าคงที่และตัวแปรตาม (y) มีข้อผิดพลาดขึ้นอยู่กับสัญญาณ ภาพด้านบนแสดงคำถามของฉัน

3
วิธีรวมและเข้ากับการถดถอยและจะรวมศูนย์ไว้ที่ใด
ฉันต้องการรวมคำว่าxxxและ square x2x2x^2 (ตัวแปรทำนาย) ลงในการถดถอยเพราะฉันคิดว่าค่าต่ำของxxxมีผลในเชิงบวกต่อตัวแปรตามและค่าสูงมีผลกระทบเชิงลบ x2x2x^2ควรจับผลกระทบของค่าที่สูงขึ้น ฉันจึงคาดหวังว่าสัมประสิทธิ์ของxxxจะเป็นค่าบวกและค่าสัมประสิทธิ์ของx2x2x^2จะเป็นค่าลบ นอกจากxxxผมยังรวมถึงตัวแปรอื่น ๆ ฉันอ่านในบางกระทู้ที่นี่เป็นความคิดที่ดีที่จะจัดวางตัวแปรในกรณีนี้เพื่อหลีกเลี่ยง เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน ฉันควรจะอยู่ตรงกลางทั้งสองตัวแปรแยก (ที่ค่าเฉลี่ย) หรือควรจะฉันเพียงศูนย์และจากนั้นใช้ตารางหรือฉันควรเพียงศูนย์และรวมถึงต้นฉบับ ?xxxx2x2x^2xxx มันเป็นปัญหาหรือไม่ถ้าเป็นจำนวนตัวแปร?xxx เพื่อหลีกเลี่ยงเป็นตัวแปรนับฉันคิดถึงการหารมันด้วยพื้นที่ที่กำหนดตามหลักวิชาเช่น 5 ตารางกิโลเมตร นี่ควรจะคล้ายกับการคำนวณความหนาแน่นของจุดxxx อย่างไรก็ตามฉันกลัวว่าในสถานการณ์นี้การสันนิษฐานเบื้องต้นของฉันเกี่ยวกับเครื่องหมายของสัมประสิทธิ์จะไม่ถืออีกต่อไปเช่นเมื่อและx² = 4x = 2x=2x=2x ² = 4x²=4x²=4 x = 2 / 5 กม.2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 กม.20.4 km20.4 \text{ km}^2 แต่x2x2x^2จากนั้นก็จะมีขนาดเล็กเพราะ x2= ( 2 …

1
ทำไมความสัมพันธ์ของคนตกค้างจึงไม่สำคัญเมื่อทำการทดสอบความเป็นปกติ?
เมื่อไหร่ Y=AX+εY=AX+εY = AX + \varepsilon (เช่น YYY มาจากตัวแบบการถดถอยเชิงเส้น) ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y~ยังไม่มีข้อความ(0,(ผม-H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{}) และในกรณีที่เหลือ e^1,…,e^ne^1,…,e^n\hat{e}_1, \ldots, \hat{e}_nมีความสัมพันธ์และไม่เป็นอิสระ แต่เมื่อเราทำการวิเคราะห์การถดถอยและต้องการทดสอบสมมติฐาน ε∼N(0,σ2I)ε∼N(0,σ2I)\varepsilon \sim \mathcal{N}(0, \sigma^2 I)หนังสือเรียนทุกเล่มแนะนำให้ใช้แผนการถาม - ตอบและการทดสอบทางสถิติเกี่ยวกับส่วนที่เหลือ e^e^\hat{e} ที่ถูกออกแบบมาเพื่อทดสอบว่า e^∼N(0,σ2I)e^∼N(0,σ2I)\hat{e} \sim \mathcal{N}(0, \sigma^2 I) สำหรับบางคน σ2∈Rσ2∈R\sigma^2 …

1
การติดตั้ง DLM สัมประสิทธิ์ตามเวลาที่ต่างกัน
ฉันต้องการให้พอดีกับ DLM ด้วยค่าสัมประสิทธิ์การแปรผันของเวลานั่นคือส่วนขยายของการถดถอยเชิงเส้นปกติ yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2. ฉันมีผู้ทำนาย (x2x2x_2) และตัวแปรตอบกลับ (ytyty_t) จับปลาประจำปีทางทะเลและในทะเลตามลำดับตั้งแต่ปี 1950 - 2011 ฉันต้องการให้โมเดลการถดถอย DLM ปฏิบัติตาม yt=θt,1+θt,2xtyt=θt,1+θt,2xty_t = \theta_{t,1} + \theta_{t,2}x_t สมการวิวัฒนาการของระบบอยู่ที่ไหน θt=Gtθt−1θt=Gtθt−1\theta_t = G_t \theta_{t-1} จากหน้า 43 ของโมเดลเชิงเส้นไดนามิกพร้อม R โดย Petris และคณะ บางรหัสที่นี่ fishdata <- read.csv("http://dl.dropbox.com/s/4w0utkqdhqribl4/fishdata.csv", header=T) x <- fishdata$marinefao y <- fishdata$inlandfao lmodel <- lm(y …

2
การรวมตัวแปรคำอธิบายที่ละเอียดมากขึ้นเมื่อเวลาผ่านไป
ฉันพยายามที่จะเข้าใจว่าฉันจะสร้างแบบจำลองตัวแปรที่ดีที่สุดได้อย่างไรเมื่อเวลาผ่านไป ตัวอย่างเช่นพิจารณาการสร้างแบบจำลองอัตราการกู้คืนเงินให้สินเชื่อที่ผิดนัด สมมติว่าเรามีชุดข้อมูลที่มีข้อมูล 20 ปีและในช่วง 15 ปีแรกเรารู้เพียงว่าเงินกู้นั้นมีหลักประกันหรือไม่ แต่ไม่มีอะไรเกี่ยวกับคุณลักษณะของหลักประกันนั้น อย่างไรก็ตามในช่วงห้าปีที่ผ่านมาเราสามารถแบ่งหลักประกันออกเป็นหมวดหมู่ต่างๆซึ่งคาดว่าจะเป็นตัวทำนายที่ดีของอัตราการกู้คืน ด้วยการตั้งค่านี้ฉันต้องการให้พอดีกับแบบจำลองของข้อมูลกำหนดมาตรการต่าง ๆ เช่นนัยสำคัญทางสถิติของตัวทำนายและจากนั้นทำนายด้วยตัวแบบ กรอบข้อมูลใดที่ขาดหายไปพอดีกับสิ่งนี้? มีการพิจารณาพิเศษใด ๆ ที่เกี่ยวข้องกับความจริงที่ว่าตัวแปรอธิบายที่ละเอียดมากขึ้นมีให้เฉพาะหลังจากเวลาที่กำหนดซึ่งต่างจากการกระจัดกระจายไปทั่วตัวอย่างประวัติศาสตร์หรือไม่?

3
เหตุใดการถดถอยเชิงเส้นจึงไม่สามารถคาดการณ์ผลลัพธ์ของลำดับที่กำหนดอย่างง่ายได้
เพื่อนร่วมงานของฉันส่งปัญหานี้ให้ฉันอย่างเห็นได้ชัดว่าทำให้รอบบนอินเทอร์เน็ต: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? คำตอบน่าจะเป็น 200 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 เมื่อฉันทำการถดถอยเชิงเส้นใน R: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 <- lm(b~a, data=data) new.data <- data.frame(a=c(10,20,30)) predict <- predict(lm1, newdata=new.data, interval='prediction') ฉันเข้าใจ: …
9 r  regression  lm 

1
การประยุกต์ใช้การถดถอยของริดจ์กับระบบสมการที่บ่อนทำลาย?
เมื่อปัญหากำลังสองน้อยที่สุดซึ่งกำหนดข้อ จำกัด เป็นทรงกลมบนค่าของ\ betaสามารถเขียนเป็น \ start {สมการ} \ \ \ {array} & \ operatorname {min} \ \ | y - X \ beta \ | ^ 2_2 \\ \ operatorname {st} \ \ | \ beta \ | ^ 2_2 \ le \ delta ^ 2 \ end {array} \ …

1
การตั้งค่าข้อมูลสำหรับความแตกต่าง
การตั้งค่าใดถูกต้องสำหรับความแตกต่างของรูปแบบการถดถอยที่ใช้ Yฉันs T= α +γs* T+ λdเสื้อ+ δ* ( T* * * *dเสื้อ) +εฉันs TYผมsเสื้อ=α+γs* * * *T+λdเสื้อ+δ* * * *(T* * * *dเสื้อ)+εผมsเสื้อY_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist} โดยที่ T คือดัมมี่ที่มีค่าเท่ากับ 1 ถ้าการสังเกตมาจากกลุ่มการรักษาและ d คือดัมมีที่เท่ากับ 1 ในช่วงเวลาหลังจากการรักษาเกิดขึ้น 1) สุ่มตัวอย่างจากแต่ละกลุ่มและเวลา (เช่น 4 ตัวอย่างสุ่ม) หรือ 2) ข้อมูลพาเนลที่มีการติดตามหน่วยเดียวกันตลอดช่วงเวลาทั้งสองหรือไม่ …

1
R: Anova และการถดถอยเชิงเส้น
ฉันใหม่สำหรับสถิติและฉันพยายามเข้าใจความแตกต่างระหว่าง ANOVA และการถดถอยเชิงเส้น ฉันใช้ R เพื่อสำรวจสิ่งนี้ ฉันอ่านบทความต่าง ๆ เกี่ยวกับสาเหตุที่ ANOVA และการถดถอยแตกต่างกัน แต่ก็ยังเหมือนเดิมและวิธีที่สามารถมองเห็นได้ ฯลฯ ฉันคิดว่าฉันสวยที่นั่น แต่หายไปหนึ่งบิต ฉันเข้าใจว่า ANOVA เปรียบเทียบความแปรปรวนภายในกลุ่มกับความแปรปรวนระหว่างกลุ่มเพื่อพิจารณาว่ามีหรือไม่มีความแตกต่างระหว่างกลุ่มที่ทดสอบ ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA ) สำหรับการถดถอยเชิงเส้นฉันพบโพสต์ในฟอรัมนี้ซึ่งบอกว่าสามารถทดสอบได้เหมือนกันเมื่อเราทดสอบว่า b (ความชัน) = 0 ( ทำไม ANOVA สอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น ) สำหรับกลุ่มมากกว่าสองกลุ่มฉันพบเว็บไซต์ที่ระบุ: สมมติฐานว่างคือ: H0:μ1=μ2=μ3H0:µ1=µ2=µ3\text{H}_0: µ_1 = µ_2 = µ_3 รูปแบบการถดถอยเชิงเส้นคือ: Y=ข0+ข1X1+ข2X2+ eY=ข0+ข1X1+ข2X2+อีy = b_0 + b_1X_1 + b_2X_2 …
9 r  regression  anova 

3
การถดถอยโลจิสติก: การเพิ่มผลบวกจริง - การบวกเท็จ
ฉันมีโมเดลการถดถอยโลจิสติก (พอดีผ่าน glmnet ใน R พร้อมกับการทำให้เป็นมาตรฐานสุทธิ) และฉันต้องการเพิ่มความแตกต่างระหว่างผลบวกจริงและผลบวกปลอม ในการดำเนินการดังกล่าวขั้นตอนต่อไปนี้อยู่ในใจ: พอดีกับโมเดลการถดถอยโลจิสติกมาตรฐาน ใช้เกณฑ์การทำนายเป็น 0.5 ระบุการคาดการณ์ในเชิงบวกทั้งหมด กำหนดน้ำหนัก 1 สำหรับการสังเกตที่คาดการณ์ไว้ในเชิงบวก 0 สำหรับคนอื่น ๆ ทั้งหมด พอดีกับรูปแบบการถดถอยโลจิสติกถ่วงน้ำหนัก อะไรคือข้อบกพร่องของวิธีนี้? อะไรจะเป็นวิธีที่ถูกต้องในการแก้ไขปัญหานี้ เหตุผลที่ต้องการเพิ่มความแตกต่างระหว่างจำนวนของผลบวกที่แท้จริงและเชิงลบที่ผิดเนื่องจากการออกแบบใบสมัครของฉัน ในฐานะส่วนหนึ่งของโครงงานในชั้นเรียนฉันกำลังสร้างผู้เข้าร่วมอิสระในตลาดออนไลน์ - ถ้าแบบจำลองของฉันทำนายว่าสามารถซื้อบางอย่างและขายในภายหลังด้วยราคาที่สูงกว่า ฉันต้องการยึดติดกับการถดถอยโลจิสติกและผลลัพธ์ไบนารีผลลัพธ์ (ชนะ, แพ้) ตามต้นทุนคงที่และการเพิ่มขึ้นของราคาต่อหน่วย (ฉันได้รับหรือสูญเสียจำนวนเดียวกันในทุกธุรกรรม) คิดบวกทำให้ฉันเจ็บเพราะหมายความว่าฉันซื้ออะไรและไม่สามารถขายได้ในราคาที่สูงขึ้น อย่างไรก็ตามการลบที่ผิดพลาดไม่ได้ทำร้ายฉัน (เฉพาะในแง่ของโอกาสเสียค่าใช้จ่าย) เพราะมันหมายถึงว่าฉันไม่ได้ซื้อ แต่ถ้าฉันมีฉันจะทำเงิน ในทำนองเดียวกัน ฉันยอมรับว่าการตัด 0.5 นั้นเป็นการสุ่มโดยพลการและเมื่อฉันปรับรูปแบบจากขั้นตอนที่ 1 บนขีด จำกัด การทำนายซึ่งให้ผลต่างสูงสุดระหว่างความจริง / เท็จบวกจะกลายเป็นใกล้กว่า 0.4 ฉันคิดว่านี่เป็นเพราะลักษณะที่บิดเบือนของข้อมูลของฉัน - อัตราส่วนระหว่างเชิงลบและบวกเป็นเรื่องเกี่ยวกับ …

2
การจำลองข้อมูลให้พอดีกับรูปแบบสื่อกลาง
ฉันสนใจที่จะค้นหาขั้นตอนเพื่อจำลองข้อมูลที่สอดคล้องกับรูปแบบการไกล่เกลี่ยที่ระบุ ตามการเชิงเส้นกรอบโครงสร้างโมเดลสมการทั่วไปสำหรับการทดสอบแบบจำลองการไกล่เกลี่ยที่ระบุไว้เป็นครั้งแรกโดยBarron และเคนนี (1986)และอธิบายอื่น ๆ เช่นจัดด์ Yzerbyt และมุลเลอร์ (2013) , รุ่นไกล่เกลี่ยสำหรับผลคนกลาง\ newcommand {\ med} {\ rm med} \ medและตัวทำนายXและอยู่ภายใต้สมการการถดถอยสามแบบต่อไปนี้: \ start {align} Y & = b_ {11} + b_ {12} X + e_1 \ tag {1} \\ \ med & = b_ {21} + b_ {22} X + e_2 \ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.