คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
สถิติ F บางส่วนคืออะไร
สถิติ F บางส่วนคืออะไร นั่นเหมือนกับการทดสอบ F บางส่วนหรือไม่ คุณจะคำนวณสถิติ F บางส่วนเมื่อใด ฉันสมมติว่าสิ่งนี้เกี่ยวข้องกับการเปรียบเทียบแบบจำลองการถดถอย แต่ฉันไม่ได้ติดตามอะไรบางอย่าง (?)

1
ตัวประมาณแบบเอนเอียงสำหรับการถดถอยบรรลุผลลัพธ์ที่ดีกว่าแบบไม่เอนเอียงในแบบจำลองข้อผิดพลาดในตัวแปร
ฉันกำลังทำงานกับข้อมูล syntatic สำหรับข้อผิดพลาดในตัวแปรแบบจำลองสำหรับการวิจัยบางอย่าง ขณะนี้ฉันมีตัวแปรอิสระเดี่ยวและฉันคาดว่าฉันรู้ถึงความแปรปรวนสำหรับมูลค่าที่แท้จริงของตัวแปรตาม ดังนั้นด้วยข้อมูลนี้ฉันสามารถบรรลุตัวประมาณค่าแบบไม่เอนเอียงสำหรับค่าสัมประสิทธิ์ของตัวแปรตาม นางแบบ: โดยที่: สำหรับบางx~= x + e1x~=x+e1\tilde{x} = x + e_1 e 1 ~ N ( 0 , σ 2 ) σ e 2 ~ N ( 0 , 1 )Y= 0.5 x - 10 + e2y=0.5x−10+e2y = 0.5x -10 + e_2 อี1~ N( 0 , …

3
ทำไมการติดตาม
ในโมเดลY= Xβ+ ϵy=Xβ+ϵ{y} = X \beta + \epsilonเราสามารถประมาณββ\betaโดยใช้สมการปกติ: β^= ( X'X)- 1X'Y,β^=(X′X)−1X′y,\hat{\beta} = (X'X)^{-1}X'y,และเราจะได้รับ Y =XβY^= Xβ^.y^=Xβ^.\hat{y} = X \hat{\beta}. เวกเตอร์ของส่วนที่เหลือประมาณโดย ε^= y- Xβ^= ( I- X( X'X)- 1X') y= Q y= Q ( Xβ+ ϵ ) = Q ϵ ,ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,\hat{\epsilon} = y - X \hat{\beta} = (I - X …

3
โอกาสใดดีกว่าหรือโอกาสเกิดขึ้นเล็กน้อยและดีที่สุด
ขณะดำเนินการถดถอยหากเราดำเนินการตามคำจำกัดความจาก: ความแตกต่างระหว่างความน่าจะเป็นบางส่วน, ความน่าจะเป็นของโปรไฟล์และความเป็นไปได้ที่จะเกิดอะไรขึ้น นั่นคือการ ค้นหาความน่าจะเป็นสูงสุด βและθที่เพิ่ม L (β, θ | data) ให้สูงสุด ในขณะที่ความ เป็นไปได้ที่จะเกิดขึ้นเราได้รวมθจากสมการความน่าจะเป็นโดยการใช้ประโยชน์จากความจริงที่ว่าเราสามารถระบุการกระจายความน่าจะเป็นของθเงื่อนไขบน on วิธีใดที่ดีที่สุดในการเพิ่มประสิทธิภาพและเพราะเหตุใด

1
R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้
ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # …

1
เหตุใด R's lm () จึงส่งกลับค่าสัมประสิทธิ์ที่แตกต่างจากตำราของฉัน
พื้นหลัง ฉันพยายามที่จะเข้าใจตัวอย่างแรกในหลักสูตรเกี่ยวกับแบบจำลองที่เหมาะสม (ดังนั้นนี่อาจดูเรียบง่ายอย่างน่าหัวเราะ) ฉันทำการคำนวณด้วยมือและพวกมันจับคู่ตัวอย่าง แต่เมื่อฉันทำซ้ำใน R สัมประสิทธิ์ของโมเดลจะดับ ฉันคิดว่าความแตกต่างอาจเกิดจากหนังสือเรียนที่ใช้ความแปรปรวนประชากร ( ) ในขณะที่ R อาจใช้ความแปรปรวนตัวอย่าง ( ) แต่ฉันไม่เห็นว่าจะใช้ที่ใดในการคำนวณ ตัวอย่างเช่นหาก ใช้บางส่วนส่วนช่วยเหลือในบันทึกย่อ:S 2σ2σ2\sigma^2S2S2S^2lm()var()var() ตัวส่วน n - 1 ถูกใช้ซึ่งให้ค่าประมาณที่ไม่เอนเอียงของความแปรปรวน (ร่วม) สำหรับการสังเกต iid ฉันดูที่รหัสสำหรับทั้งlm()และlm.fit()และไม่ใช้var()แต่lm.fit()ส่งผ่านข้อมูลนั้นเพื่อรวบรวมรหัส C ( z <- .Call(C_Cdqrls, x, y, tol, FALSE)) ซึ่งฉันไม่สามารถเข้าถึงได้ คำถาม ทุกคนสามารถอธิบายได้หรือไม่ว่าเหตุใด R จึงให้ผลลัพธ์ที่ต่างกัน แม้ว่าจะมีความแตกต่างในการใช้กลุ่มตัวอย่างเทียบกับความแปรปรวนของประชากรทำไมค่าสัมประสิทธิ์ประมาณต่างกัน ข้อมูล พอดีกับเส้นเพื่อทำนายขนาดรองเท้าจากเกรดในโรงเรียน # model data mod.dat <- …
13 r  regression  self-study  lm 

2
เคยมีเหตุผลไหมที่จะไม่ใช้ชื่อโพลิโนเมียลแบบฉากฉากในการถดถอยที่เหมาะสม?
โดยทั่วไปแล้วฉันสงสัยว่าจะมีการใช้พหุนามแบบมุมฉากหรือไม่เมื่อปรับการถดถอยด้วยตัวแปรลำดับที่สูงขึ้น โดยเฉพาะอย่างยิ่งฉันสงสัยว่าด้วยการใช้ R: หากpoly()มีraw = FALSEการผลิตค่าติดตั้งเช่นเดียวpoly()กับraw = TRUEและpolyมีraw = FALSEแก้บางส่วนของปัญหาที่เกี่ยวข้องกับการถดถอยพหุนามแล้วควรpoly()มีraw = FALSE เสมอจะใช้สำหรับการกระชับการถดถอยพหุนาม? ในสถานการณ์ใดจะเป็นการดีกว่าที่จะไม่ใช้poly()?

3
แบบจำลองสมมติฐานของการถดถอยกำลังสองน้อยที่สุด (PLS)
ฉันพยายามค้นหาข้อมูลเกี่ยวกับสมมติฐานของการถดถอย PLS (single ) ฉันสนใจเป็นพิเศษในการเปรียบเทียบสมมติฐานของ PLS เกี่ยวกับการถดถอยของ OLS Yyy ฉันได้อ่าน / อ่านผ่านวรรณกรรมเป็นจำนวนมากในหัวข้อ PLS; เอกสารโดย Wold (Svante และ Herman), Abdi และอื่น ๆ อีกมากมาย แต่ไม่พบแหล่งที่น่าพอใจ ทุ่งและคณะ (2001) PLS-regression: เครื่องมือพื้นฐานของ chemometricsไม่ได้กล่าวถึงสมมติฐานของ PLS แต่เพียงกล่าวถึงว่า Xs ไม่จำเป็นต้องเป็นอิสระ ระบบเป็นฟังก์ชั่นของตัวแปรแฝงที่แฝงอยู่บางตัว ระบบควรแสดงความเป็นเนื้อเดียวกันตลอดกระบวนการวิเคราะห์และ ข้อผิดพลาดการวัดในเป็นที่ยอมรับ XXX ไม่มีการเอ่ยถึงข้อกำหนดใด ๆ ของข้อมูลที่สังเกตได้หรือแบบจำลองส่วนที่เหลือ ไม่มีใครรู้ถึงแหล่งที่มาที่อยู่ใด ๆ นี้หรือไม่? การพิจารณาพื้นฐานทางคณิตศาสตร์นั้นคล้ายคลึงกับ PCA (โดยมีเป้าหมายในการเพิ่มความแปรปรวนร่วมระหว่างและ ) คือภาวะปกติหลายตัวแปรของสมมติฐาน? ส่วนที่เหลือของแบบจำลองจำเป็นต้องแสดงความแปรปรวนแบบเดียวกันหรือไม่?YyyXXX( y, X)(y,X)(y, …

1
จะปรับขนาดการสังเกตใหม่สำหรับการคาดการณ์เมื่อแบบจำลองนั้นพอดีกับข้อมูลที่ปรับขนาดได้อย่างไร
ฉันเข้าใจแนวคิดของการปรับเมทริกซ์ข้อมูลเพื่อใช้ในตัวแบบการถดถอยเชิงเส้น ตัวอย่างเช่นใน R คุณสามารถใช้: scaled.data <- scale(data, scale=TRUE) คำถามเดียวของฉันคือสำหรับการสังเกตใหม่ที่ฉันต้องการทำนายค่าผลลัพธ์พวกเขาจะปรับขนาดได้อย่างถูกต้องอย่างไร มันจะเป็นscaled.new <- (new - mean(data)) / std(data)อย่างไร

1
ทำไมข้อผิดพลาดมาตรฐานของการดักจับเพิ่มขึ้นอีกมาจาก 0
ข้อผิดพลาดมาตรฐานของคำดักจับ ( ) ในมอบให้โดย ที่คือ ค่าเฉลี่ยของ 'sβ^0β^0\hat{\beta}_0y=β1x+β0+εy=β1x+β0+εy=\beta_1x+\beta_0+\varepsilonSE(β^0)2=σ2[1n+x¯2∑ni=1(xi−x¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]x¯x¯\bar{x}xixix_i จากสิ่งที่ฉันเข้าใจ SE คำนวณปริมาณความไม่แน่นอนของคุณ - ในตัวอย่าง 95%, ช่วงเวลาจะมีจริง . ผมไม่เข้าใจว่าทางทิศตะวันออก, ตัวชี้วัดของความไม่แน่นอนที่เพิ่มขึ้นกับ{x} ถ้าฉันเปลี่ยนข้อมูลของฉันดังนั้นความไม่แน่นอนของฉันลดลง ดูเหมือนว่าไม่มีเหตุผลβ 0 ˉ x ˉ x = 0[β^0−2SE,β^0+2SE][β^0−2SE,β^0+2SE][\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]β0β0\beta_0x¯x¯\bar{x}x¯=0x¯=0\bar{x}=0 การตีความแบบอะนาล็อกคือ - ในเวอร์ชันที่ไม่มีข้อมูลของฉันสอดคล้องกับการทำนายของฉันที่ในขณะที่อยู่ตรงกลางข้อมูลสอดคล้องกับการทำนายของฉันที่{x} ดังนั้นนี้ไม่แล้วหมายความว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่มีค่ามากกว่าความไม่แน่นอนของฉันเกี่ยวกับการทำนายของฉันที่ ? ที่ดูเหมือนว่าไม่มีเหตุผลเกินไปข้อผิดพลาดมีความแปรปรวนเหมือนกันสำหรับทุกค่าของดังนั้นความไม่แน่นอนของฉันในค่าคาดการณ์ของฉันควรจะเหมือนกันสำหรับทุกxx=0 β 0x= ˉ x x=0x= ˉ x εxxβ^0β^0\hat{\beta}_0x=0x=0x=0β^0β^0\hat{\beta}_0x=x¯x=x¯x=\bar{x}x=0x=0x=0x=x¯x=x¯x=\bar{x}ϵϵ\epsilonxxxxxx มีช่องว่างในความเข้าใจของฉันฉันแน่ใจ มีใครช่วยให้ฉันเข้าใจว่าเกิดอะไรขึ้น?

1
การตีความเชิงเรขาคณิตของตัวแบบเชิงเส้นทั่วไป
สำหรับรูปแบบเชิงเส้นเราสามารถมีการตีความทางเรขาคณิตที่ดีของรุ่นประมาณผ่าน OLS:{E} คือการฉายภาพของ y ลงบนพื้นที่ที่ถูกทอดโดย x และส่วนที่เหลือตั้งฉากกับพื้นที่นี้ซึ่งถูกขยายโดย xY = x β + E Y อีY= x β+ ey=xβ+ey=x\beta+eY^= x β^+ e^y^=xβ^+e^\hat{y}=x\hat{\beta}+\hat{e}Y^y^\hat{y}อี^e^\hat{e} ตอนนี้คำถามของฉันคือ: มีการตีความทางเรขาคณิตของโมเดลเชิงเส้นทั่วไป (การถดถอยโลจิสติก, การเป็นพิษ, การอยู่รอด) หรือไม่ ฉันอยากรู้มากเกี่ยวกับวิธีการตีความรูปแบบการถดถอยโลจิสติกส์ไบนารีโดยประมาณเรขาคณิตในลักษณะเดียวกันกับแบบจำลองเชิงเส้น มันยังไม่ได้มีข้อผิดพลาด พี^= logistic ( x β^)p^=logistic(xβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) ฉันพบหนึ่งพูดคุยเกี่ยวกับการตีความทางเรขาคณิตสำหรับโมเดลเชิงเส้นทั่วไป http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7) น่าเสียดายที่ตัวเลขไม่พร้อมใช้งานและค่อนข้างยากที่จะถ่ายภาพ ความช่วยเหลือการอ้างอิงและข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก !!!

1
ใช้ MLE กับ OLS
เมื่อใดควรเลือกใช้การประมาณความน่าจะเป็นสูงสุดแทนการใช้กำลังสองน้อยที่สุดแบบธรรมดา? จุดแข็งและข้อ จำกัด ของแต่ละจุดคืออะไร ฉันกำลังพยายามรวบรวมความรู้ที่เป็นประโยชน์เกี่ยวกับสถานที่ที่จะใช้ในสถานการณ์ทั่วไป

4
ความหมายของ“ การออกแบบ” ในเมทริกซ์การออกแบบ?
ในการถดถอยเชิงเส้นทำไมเรียกว่าเมทริกซ์การออกแบบ สามารถได้รับการออกแบบหรือสร้างโดยพลการในระดับหนึ่งเช่นเดียวกับในศิลปะ?Y=XβY=XβY= X\betaXXXXXX

2
การถดถอยเชิงเส้นและไม่เชิงเส้น
ฉันมีชุดของค่าและที่เกี่ยวข้องในทางทฤษฎีชี้แจง:xxxyyy y=axby=axby = ax^b วิธีหนึ่งในการรับค่าสัมประสิทธิ์คือการใช้ลอการิทึมธรรมชาติทั้งสองด้านและปรับโมเดลเชิงเส้นให้เหมาะสม: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] อีกวิธีหนึ่งในการได้มาซึ่งสิ่งนี้คือการใช้การถดถอยแบบไม่เชิงเส้นโดยกำหนดค่าเริ่มต้นตามทฤษฎี: > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) การทดสอบของฉันแสดงผลลัพธ์ที่เกี่ยวข้องกับทฤษฎีได้ดีขึ้นและมากขึ้นถ้าฉันใช้อัลกอริทึมที่สอง อย่างไรก็ตามฉันต้องการทราบความหมายทางสถิติและความหมายของแต่ละวิธี อันไหนดีกว่ากัน?

1
เมื่อสร้างแบบจำลองการถดถอยโดยใช้ชุดการสร้างแบบจำลอง / การตรวจสอบความถูกต้องแยกเป็นสัดส่วนแล้วมันเหมาะสมหรือไม่ที่จะ "หมุนเวียน" ข้อมูลการตรวจสอบความถูกต้อง?
สมมติว่าฉันมีการแบ่ง 80/20 ระหว่างการสร้างแบบจำลอง / การตรวจสอบความถูกต้อง ฉันพอดีกับแบบจำลองกับชุดข้อมูลการสร้างแบบจำลองและฉันพอใจกับข้อผิดพลาดที่ฉันเห็นในชุดข้อมูลการตรวจสอบความถูกต้อง ก่อนที่ฉันจะนำเสนอโมเดลของฉันสำหรับการทำคะแนนการสังเกตการณ์ในอนาคตมีความเหมาะสมหรือไม่ที่จะรวมการตรวจสอบกลับกับข้อมูลการสร้างแบบจำลองเพื่อรับการประมาณค่าพารามิเตอร์ที่อัปเดตกับข้อมูล 100% ฉันได้ยินสองมุมมองเกี่ยวกับเรื่องนี้: การตรวจสอบความถูกต้องที่ฉันดำเนินการคือการตรวจสอบความถูกต้องของโครงสร้างแบบจำลองนั่นคือชุดของตัวทำนายและการแปลงที่ฉันใช้ มันไม่สมเหตุสมผลเลยที่จะทิ้งข้อมูล 20% ของฉันไว้ในตารางเมื่อฉันสามารถใช้เพื่อปรับปรุงการประมาณของฉัน การตรวจสอบความถูกต้องที่ฉันดำเนินการส่วนหนึ่งเป็นการตรวจสอบความถูกต้องของพารามิเตอร์ประมาณการที่ฉันคำนวณในชุดข้อมูลการสร้างแบบจำลองของฉัน หากฉันอัปเดตโมเดลพอดีฉันได้เปลี่ยนค่าประมาณและฉันไม่มีวิธีที่มีวัตถุประสงค์เพื่อทดสอบประสิทธิภาพของโมเดลที่อัปเดตแล้ว ฉันเคยตามอาร์กิวเมนต์ # 1 เสมอ แต่ไม่นานมานี้ฉันได้ยินคนหลายคนโต้แย้ง # 2 ฉันต้องการที่จะเห็นสิ่งที่คนอื่นคิดเกี่ยวกับเรื่องนี้ คุณเคยเห็นการสนทนาที่ดีในวรรณคดีหรือที่อื่น ๆ ในหัวข้อนี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.