คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
เหตุใดค่าสัมประสิทธิ์การถดถอยแบบลอจิสติกแบบ exponentiated ถือเป็น“ อัตราส่วนอัตราต่อรอง”
การถดถอยโลจิสติกแบบจำลองอัตราต่อรองของเหตุการณ์เป็นชุดทำนาย นั่นคือ log (p / (1-p)) โดยที่ p คือความน่าจะเป็นของผลลัพธ์บางอย่าง ดังนั้นการตีความของสัมประสิทธิ์การถดถอยโลจิสติกดิบสำหรับบางตัวแปร (x) จะต้องอยู่ในระดับอัตราการเข้าสู่ระบบ นั่นคือถ้าสัมประสิทธิ์สำหรับ x = 5 เรารู้ว่าการเปลี่ยนแปลง 1 หน่วยใน x กระเทยเป็น 5 การเปลี่ยนแปลงในระดับสเกลอัตราต่อรองที่ผลจะเกิดขึ้น อย่างไรก็ตามฉันมักจะเห็นคนตีความค่าสัมประสิทธิ์การถดถอยโลจิสติกแบบ exponentiatedเป็นอัตราส่วนอัตราต่อรอง อย่างไรก็ตาม exp อย่างชัดเจน (log (p / (1-p))) = p / (1-p) ซึ่งเป็นอัตราต่อรอง เท่าที่ฉันเข้าใจอัตราการต่อรองคืออัตราต่อรองของเหตุการณ์หนึ่งที่เกิดขึ้น (เช่น p / (1-p) สำหรับกิจกรรม A) เหนืออัตราต่อรองของเหตุการณ์อื่นที่เกิดขึ้น (เช่น p / (1-p) สำหรับเหตุการณ์ …

3
การคำนวณค่า p ในกำลังสองน้อยที่สุด (ไม่เป็นลบ) ข้อ จำกัด
ฉันใช้ Matlab เพื่อดำเนินการแบบไม่ จำกัด สแควร์น้อย (กำลังสองน้อยที่สุดธรรมดา) และมันจะส่งออกสัมประสิทธิ์, สถิติการทดสอบและค่า p โดยอัตโนมัติ คำถามของฉันคือเมื่อทำการ จำกัด กำลังสองน้อยสุด (สัมประสิทธิ์ nonnegative อย่างเคร่งครัด), มันจะออกเฉพาะค่าสัมประสิทธิ์, ไม่มีสถิติทดสอบ, ค่า p เป็นไปได้หรือไม่ที่จะคำนวณค่าเหล่านี้เพื่อให้แน่ใจว่ามีความสำคัญ? และทำไมถึงไม่สามารถใช้งานได้โดยตรงบนซอฟต์แวร์ (หรือซอฟต์แวร์อื่น ๆ สำหรับเรื่องนั้น)

2
B-Splines VS พหุนามลำดับสูงในการถดถอย
ฉันไม่มีตัวอย่างหรืองานเฉพาะในใจ ฉันเพิ่งใหม่ในการใช้ b-splines และฉันต้องการทำความเข้าใจกับฟังก์ชันนี้ในบริบทการถดถอย สมมติว่าเราต้องการที่จะประเมินความสัมพันธ์ระหว่างตัวแปรตอบสนองและพยากรณ์บางx 1 , x 2 , . . , xพี ตัวทำนายประกอบด้วยตัวแปรตัวเลขบางตัวและตัวแปรบางตัวyyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p สมมติว่าหลังจากปรับโมเดลการถดถอยแล้วหนึ่งในตัวแปรตัวเลขเช่นนั้นมีความสำคัญ ตรรกะขั้นตอนหลังจากนั้นคือการประเมินว่าคำสั่งชื่อพหุนามที่สูงขึ้นเช่น: x 2 1และx 3 1จะต้องอธิบายความสัมพันธ์อย่างเพียงพอโดยไม่ต้อง overfittingx1x1x_1x21x12x_1^2x31x13x_1^3 คำถามของฉันคือ: คุณเลือกจุดไหนระหว่าง b-splines หรือพหุนามคำสั่งที่สูงขึ้นอย่างง่าย เช่นใน R: y ~ poly(x1,3) + x2 + x3 VS y ~ bs(x1,3) + x2 + x3 คุณจะใช้พล็อตเพื่อแจ้งการเลือกระหว่างสองสิ่งนี้กับสิ่งที่เกิดขึ้นได้อย่างไรหากไม่ชัดเจนจากพล็อต (เช่น: เนื่องจากจุดข้อมูลจำนวนมาก) คุณจะประเมินเงื่อนไขการโต้ตอบแบบสองทางระหว่างและสมมุติว่าx 3x2x2x_2x3x3x_3 …

2
เหตุใดความชัน 1 เสมอเมื่อทำการถดถอยข้อผิดพลาดในส่วนที่เหลือโดยใช้ OLS
ฉันกำลังทดสอบความสัมพันธ์ระหว่างข้อผิดพลาดและส่วนที่เหลือโดยใช้การจำลองแบบง่าย ๆ ในอาร์สิ่งหนึ่งที่ฉันพบคือไม่ว่าขนาดตัวอย่างหรือความแปรปรวนข้อผิดพลาดฉันได้สำหรับความชันเสมอเมื่อคุณพอดีกับโมเดล111 e r r o r s ∼ β0+ β1× r e s i d u a l serrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} นี่คือการจำลองที่ฉันทำ: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e …

1
ทำไมฉันถึงได้รับการคาดการณ์ที่แตกต่างกันสำหรับการขยายพหุนามด้วยตนเองและการใช้ฟังก์ชั่น R `poly`
ทำไมฉันถึงได้รับการคาดการณ์ที่แตกต่างกันสำหรับการขยายพหุนามด้วยตนเองและการใช้polyฟังก์ชั่นR set.seed(0) x <- rnorm(10) y <- runif(10) plot(x,y,ylim=c(-0.5,1.5)) grid() # xp is a grid variable for ploting xp <- seq(-3,3,by=0.01) x_exp <- data.frame(f1=x,f2=x^2) fit <- lm(y~.-1,data=x_exp) xp_exp <- data.frame(f1=xp,f2=xp^2) yp <- predict(fit,xp_exp) lines(xp,yp) # using poly function fit2 <- lm(y~ poly(x,degree=2) -1) yp <- predict(fit2,data.frame(x=xp)) lines(xp,yp,col=2) ความพยายามของฉัน: ดูเหมือนว่าจะมีปัญหากับการสกัดกั้นเมื่อฉันพอดีกับรูปแบบที่มีการสกัดกั้นคือไม่มี-1ในรูปแบบformulaทั้งสองเส้นจะเหมือนกัน แต่ทำไมไม่มีการสกัดกั้นสองบรรทัดจึงแตกต่างกัน …

3
คำถามสัมภาษณ์นักวิทยาศาสตร์ด้านข้อมูล: การถดถอยเชิงเส้นต่ำและคุณจะทำอย่างไร
ฉันเผชิญหน้ากับคำถามสัมภาษณ์สำหรับงานที่ผู้สัมภาษณ์ถามฉันว่าสมมติว่าของคุณต่ำมาก (ระหว่าง 5 ถึง 10%) สำหรับแบบจำลองความยืดหยุ่นราคา คุณจะแก้ไขคำถามนี้อย่างไรR2R2R^2 ฉันไม่สามารถคิดอย่างอื่นนอกเหนือจากความจริงที่ว่าฉันจะทำการวินิจฉัยการถดถอยเพื่อดูว่าเกิดข้อผิดพลาดหรือควรใช้วิธีการเชิงเส้นใด ๆ อย่างใดฉันคิดว่าผู้สัมภาษณ์ไม่พอใจกับคำตอบของฉัน มีอย่างอื่นที่ทำในสถานการณ์เช่นนี้เพื่อให้พอดีกับแบบจำลองและใช้สำหรับการทำนายระดับการผลิตแม้ว่ามันจะมีค่าต่ำหรือไม่?R2R2R^2 แก้ไข : ในเวลาต่อมาพวกเขาให้ข้อมูลกับฉันเพื่อจำลองปัญหาในระหว่างการสัมภาษณ์และฉันพยายามเพิ่มตัวแปรที่ล่าช้า, ผลกระทบของราคาของคู่แข่ง, หุ่นตามฤดูกาลเพื่อดูว่ามันสร้างความแตกต่างหรือไม่ ไปถึงร้อยละ 17.6 และประสิทธิภาพการทำงานในตัวอย่างที่เก็บไว้ไม่ดี โดยส่วนตัวฉันคิดว่ามันผิดจรรยาบรรณที่จะนำแบบจำลองดังกล่าวมาใช้ในการทำนายสภาพแวดล้อมจริงเพราะจะให้ผลลัพธ์ที่ผิดพลาดและทำให้ลูกค้าสูญเสีย มีอะไรอีกบ้างที่ทำในสถานการณ์เช่นนี้ซึ่งชัดเจนเกินไปที่ทุกคนต้องรู้ บางสิ่งที่ฉันไม่ทราบซึ่งฉันอยากจะพูดว่า 'กระสุนเงิน'R2R2R^2 นอกจากนี้ลองนึกภาพหลังจากเพิ่มตัวแปรภายนอกปรับปรุงให้ดีขึ้นอีก 2% แล้วจะทำอะไรได้บ้างในสถานการณ์นี้ เราควรยกเลิกโครงการสร้างแบบจำลองหรือยังมีความหวังในการพัฒนาแบบจำลองคุณภาพระดับการผลิตซึ่งระบุโดยผลการดำเนินงานในตัวอย่างที่เก็บไว้?R2R2R^2 แก้ไข 2 : ฉันได้โพสต์คำถามนี้ในฟอรัมeconomics.stackexchange.comเพื่อทำความเข้าใจปัญหานี้จากมุมมองของเศรษฐศาสตร์

1
อะไรคือความหมายของบาร์คู่และ 2 ที่ด้านล่างในช่องสี่เหลี่ยมน้อยที่สุดธรรมดา?
ผมเห็นเครื่องหมายนี้สำหรับสองน้อยสามัญที่นี่ นาทีW∥ Xw - y∥22minw‖Xw−y‖22 \min_w \left\| Xw - y \right\|^2_2 ฉันไม่เคยเห็นแถบคู่และ 2 ที่ด้านล่าง สัญลักษณ์เหล่านี้หมายถึงอะไร พวกเขามีคำศัพท์เฉพาะสำหรับพวกเขาหรือไม่?

2
ค่าเฉลี่ยความหมายแบบมีเงื่อนไขหมายถึงความเป็นกลางและความสอดคล้องของตัวประมาณค่า OLS
พิจารณาโมเดลการถดถอยหลายแบบต่อไปนี้:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} นี่คือคือคอลัมน์เวกเตอร์ aเมทริกซ์ ; aคอลัมน์เวกเตอร์ aเมทริกซ์; aเวกเตอร์คอลัมน์; และ , ข้อผิดพลาด, เวกเตอร์คอลัมน์YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 คำถาม อาจารย์ของฉันหนังสือแนะนำเศรษฐมิติฉบับที่ 3 โดย James H. Stock and Mark W. Watson, p. 281 และเศรษฐมิติ: Honor's Exam Review Session (PDF) , p. 7 ได้แสดงต่อไปนี้กับฉัน หากเราถือว่าสิ่งที่เรียกว่าความเป็นอิสระแบบมีเงื่อนไขซึ่งตามคำจำกัดความหมายความว่าE(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} และถ้าการสันนิษฐานของสี่เหลี่ยมจัตุรัสน้อยที่สุดเป็นไปตามเงื่อนไขยกเว้นค่าศูนย์ที่เป็นเงื่อนไข (ดังนั้นเราจึงถือว่า ) (ดู 1 -3 ด้านล่าง),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 จากนั้นตัวประมาณ …

1
การจำลองผลลัพธ์สำหรับการถดถอยเชิงเส้น glmnet โดยใช้เครื่องมือเพิ่มประสิทธิภาพทั่วไป
ฐานะที่เป็นรัฐชื่อฉันพยายามที่จะทำซ้ำผลจากการ glmnet เชิงเส้นโดยใช้เพิ่มประสิทธิภาพ LBFGS lbfgsจากห้องสมุด เครื่องมือเพิ่มประสิทธิภาพนี้ช่วยให้เราสามารถเพิ่มคำศัพท์ปกติ L1 โดยไม่ต้องกังวลเกี่ยวกับความแตกต่างตราบใดที่ฟังก์ชันวัตถุประสงค์ของเรา (ไม่มีคำศัพท์ปกติของ L1) นั้นเป็นนูน ปัญหาการถดถอยเชิงเส้นแบบยืดหยุ่นสุทธิในกระดาษ glmnetนั้นได้รับโดย ที่X \ in \ mathbb {R} ^ {n \ times p}คือเมทริกซ์การออกแบบy \ in \ mathbb {R} ^ pเป็นเวกเตอร์ของการสังเกต\ alpha \ in [0,1]คือพารามิเตอร์เน็ตยืดหยุ่นและ\ lambda> 0คือพารามิเตอร์การทำให้เป็นมาตรฐาน โอเปอเรเตอร์\ Vert x \ Vert_pหมายถึงบรรทัดฐาน Lp ปกติminβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta …

2
เปรียบเทียบนัยสำคัญทางสถิติของความแตกต่างระหว่างการถดถอยพหุนามทั้งสองใน R
ดังนั้นก่อนอื่นเลยฉันทำการค้นคว้าเกี่ยวกับฟอรัมนี้และฉันรู้ว่ามี คำถามที่คล้ายกันมากถูกถาม แต่พวกเขามักจะไม่ได้รับคำตอบที่ถูกต้องหรือบางครั้งคำตอบนั้นไม่ละเอียดพอที่จะเข้าใจ ดังนั้นเวลานี้คำถามของฉันคือฉันมีชุดข้อมูลสองชุดในแต่ละชุดฉันทำการถดถอยพหุนามดังนี้: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) พหุนามถดถอยพหุนามคือ: ค่าสัมประสิทธิ์คือ: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 และตอนนี้ฉันอยากรู้ว่าถ้ามีวิธีใช้ฟังก์ชัน R เพื่อทำการทดสอบที่จะบอกฉันว่ามีนัยสำคัญทางสถิติหรือไม่ในความแตกต่างระหว่างการถดถอยพหุนามทั้งสองที่รู้ว่าช่วงเวลาที่เกี่ยวข้องของวันคือ [ 1,100] จากสิ่งที่ฉันเข้าใจฉันไม่สามารถใช้การทดสอบ anova โดยตรงเพราะค่ามาจากชุดข้อมูลที่แตกต่างกันสองชุดหรือ AIC ซึ่งใช้ในการเปรียบเทียบแบบจำลอง / ข้อมูลจริง ฉันพยายามทำตามคำแนะนำของ @Roland ในคำถามที่เกี่ยวข้อง แต่ฉันอาจเข้าใจผิดบางอย่างเมื่อดูผลลัพธ์ของฉัน: นี่คือสิ่งที่ฉันทำ: ฉันรวมทั้งชุดข้อมูลของฉันเป็นหนึ่ง fเป็นตัวแปรที่ @Roland พูดถึง ฉันใส่ 1s สำหรับเซตแรกและ 0s …

1
เส้นโค้งเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ
ในความคิดเห็นสำหรับคำถามนี้ผู้ใช้ @whuber อ้างถึงความเป็นไปได้ของการใช้เส้นโค้งรุ่นเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ ฉันต้องการทราบเพิ่มเติมเกี่ยวกับวิธีนี้โดยเฉพาะอย่างยิ่งสมการที่กำหนดเส้นโค้งและวิธีการนำไปใช้ในทางปฏิบัติ (ส่วนใหญ่ฉันเป็นRผู้ใช้ แต่ฉันสามารถทำกับ MATLAB หรือ Python หากจำเป็นต้องเกิดขึ้น) นอกจากนี้ แต่นี่เป็น "ดีที่มี" มันจะเป็นการดีที่ได้ทราบเกี่ยวกับข้อดี / ข้อเสียที่เป็นไปได้เกี่ยวกับการปรับพอดีตรีโกณมิติเกี่ยวกับวิชาตรีโกณมิติซึ่งเป็นวิธีที่ฉันมักจะจัดการกับข้อมูลประเภทนี้ (เว้นแต่การตอบสนองจะไม่ราบรื่นมาก ในกรณีนี้ฉันสลับไปใช้กระบวนการ Gaussian ด้วยเคอร์เนลเป็นระยะ)

2
การถดถอย: ทำไมการทดสอบภาวะปกติของเศษโดยรวมแทนที่จะเหลือเงื่อนไขใน
ฉันเข้าใจว่าในการถดถอยเชิงเส้นข้อผิดพลาดจะถูกกระจายโดยปกติเงื่อนไขตามค่าที่ทำนายของ y จากนั้นเราดูที่เหลือเป็นพร็อกซีสำหรับข้อผิดพลาด มันมักจะแนะนำให้สร้างผลลัพธ์เช่นนี้ อย่างไรก็ตามฉันไม่เข้าใจว่าจุดใดที่ได้รับส่วนที่เหลือของแต่ละจุดข้อมูลและทำการบดเข้าด้วยกันในพล็อตเดียว ฉันเข้าใจว่าเราไม่น่าจะมีจุดข้อมูลเพียงพอที่จะประเมินว่าเรามีค่าคงที่ปกติตามค่าที่ทำนายไว้ของ y หรือไม่ อย่างไรก็ตามไม่ใช่คำถามว่าเรามีสารตกค้างตามปกติโดยรวมแยกจากกันหรือไม่และเป็นสิ่งที่ไม่เกี่ยวข้องอย่างชัดเจนกับสมมติฐานแบบจำลองของค่าคงที่ปกติที่แต่ละค่าคาดการณ์ของ y เราไม่สามารถมีค่าคงที่ปกติในแต่ละค่าที่คาดการณ์ของ y ในขณะที่มีค่าคงที่โดยรวมที่ค่อนข้างไม่ปกติ

3
ตัวแบบการถดถอยแบบใดที่เหมาะสมที่สุดที่จะใช้กับข้อมูลการนับ
ฉันกำลังพยายามหาสถิติเล็กน้อย แต่ฉันติดอยู่กับบางสิ่ง ข้อมูลของฉันมีดังนี้: Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 ตอนนี้ฉันต้องการสร้างแบบจำลองการถดถอยเพื่อให้สามารถทำนายจำนวนยีนสำหรับปีใดก็ตามโดยอ้างอิงจากข้อมูล ฉันทำมันด้วยการถดถอยเชิงเส้นจนกระทั่งตอนนี้ แต่ฉันได้อ่านมาแล้วและดูเหมือนจะไม่เป็นทางเลือกที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ฉันได้อ่านว่าการถดถอยของปัวซองอาจมีประโยชน์ แต่ฉันไม่แน่ใจว่าจะใช้อะไร ดังนั้นคำถามของฉันคือ: มีรูปแบบการถดถอยทั่วไปสำหรับข้อมูลประเภทนี้หรือไม่? ถ้าไม่ฉันต้องทำอย่างไรเพื่อค้นหาว่าวิธีใดเหมาะสมที่สุดที่จะใช้ (ในแง่ของสิ่งที่ฉันต้องค้นหาเกี่ยวกับข้อมูล)

1
การสร้างแบบจำลองอนุกรมเวลาไบนารีที่สัมพันธ์กันโดยอัตโนมัติ
อะไรคือวิธีปกติในการสร้างแบบจำลองอนุกรมเวลาไบนารี? มีกระดาษหรือหนังสือที่มีการรักษาไหม? ฉันคิดว่ากระบวนการแบบไบนารีที่มีความสัมพันธ์แบบอัตโนมัติที่แข็งแกร่ง บางอย่างเช่นสัญลักษณ์ของกระบวนการ AR (1) เริ่มต้นที่ศูนย์ Sayและ มีสัญญาณรบกวนสีขาว\ epsilon_t จากนั้นอนุกรมเวลาแบบไบนารี่(Y_t) _ {t \ ge 0} ที่กำหนดโดย Y_t = \ text {sign} (X_t) จะแสดงความสัมพันธ์อัตโนมัติซึ่งฉันต้องการแสดงด้วยรหัสต่อไปนี้X0= 0X0=0X_0 = 0Xt + 1= β1Xเสื้อ+ ϵเสื้อ,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, εเสื้อϵt\epsilon_t( Yเสื้อ)t ≥ 0(Yt)t≥0(Y_t)_{t \ge 0}Yเสื้อ= sign ( Xเสื้อ)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) …

3
สิ่งที่ไม่เป็นมาก่อนควรเป็นความชันเมื่อทำการถดถอยเชิงเส้น?
เมื่อดำเนินการถดถอยเชิงเส้นแบบเบย์ซึ่งเป็นหนึ่งในความต้องการที่จะกำหนดก่อนสำหรับความลาดชันและตัดขเนื่องจากเป็นพารามิเตอร์ตำแหน่งจึงเหมาะสมที่จะกำหนดชุดก่อน อย่างไรก็ตามสำหรับฉันแล้วดูเหมือนว่าคล้ายกับพารามิเตอร์ของเครื่องชั่งและดูเหมือนว่าไม่เป็นธรรมชาติที่จะกำหนดเครื่องแบบก่อนหน้านี้aaaขbbขbbaaa ในทางกลับกันมันดูเหมือนจะไม่ถูกต้องนักที่จะกำหนดเจฟฟรีย์ที่ไม่รู้เรื่องก่อนหน้า ( ) สำหรับความชันของการถดถอยเชิงเส้น สำหรับหนึ่งอาจเป็นค่าลบ แต่ฉันไม่เห็นว่ามันจะเป็นอะไร1 / a1/a1/a ดังนั้นสิ่งที่ "เหมาะสม" uninformative ก่อนความชันของการถดถอยเชิงเส้นแบบเบย์คืออะไร? (การอ้างอิงใด ๆ จะได้รับการชื่นชม)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.