คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
มาตรการต่าง ๆ ของความต่างระดับ
ลิงค์วิกิพีเดียนี้แสดงเทคนิคต่าง ๆ ในการตรวจสอบความหลงไหลของ OLS ที่เหลืออยู่ ฉันต้องการเรียนรู้ว่าเทคนิคการลงมือปฏิบัติแบบใดที่มีประสิทธิภาพมากกว่าในการตรวจจับภูมิภาคที่ได้รับผลกระทบจากความแตกต่างทางเพศ ตัวอย่างเช่นที่นี่พื้นที่ภาคกลางในพล็อตเรื่อง 'Residuals vs vs Fitted' ของ OLS เห็นว่ามีความแปรปรวนสูงกว่าด้านข้างของพล็อต (ฉันไม่แน่ใจในข้อเท็จจริงทั้งหมด เพื่อยืนยันการดูป้ายข้อผิดพลาดในพล็อต QQ เราจะเห็นว่าพวกเขาตรงกับป้ายข้อผิดพลาดในใจกลางของพล็อตที่เหลือ แต่เราจะหาปริมาณส่วนที่เหลือที่มีความแปรปรวนสูงกว่าอย่างมีนัยสำคัญได้อย่างไร?

3
เป็นไปได้ไหมที่จะแบ่งชั้นข้อมูลที่กำหนดโดยขนาดของส่วนที่เหลือและทำการเปรียบเทียบสองตัวอย่าง?
นี่คือสิ่งที่ฉันเห็นทำในรูปแบบของการเฉพาะกิจและดูเหมือนว่าจะคาวมากสำหรับฉัน แต่บางทีฉันอาจขาดอะไรบางอย่าง ฉันเคยเห็นสิ่งนี้ทำในหลาย ๆ การถดถอย แต่ลองทำมันให้ง่าย: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} ตอนนี้นำส่วนที่เหลือจากรุ่นที่ติดตั้ง ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) และจัดกลุ่มตัวอย่างตามขนาดของสารตกค้าง ตัวอย่างเช่นสมมติว่าตัวอย่างแรกคือ 90% ด้านล่างของส่วนที่เหลือและตัวอย่างที่สองคือด้านบน 10% จากนั้นดำเนินการเปรียบเทียบสองตัวอย่าง - ฉันเคยเห็นสิ่งนี้ทำทั้งในตัวทำนายในโมเดลxxxและ เกี่ยวกับตัวแปรที่ไม่ได้อยู่ในแบบจำลอง ตรรกะที่ไม่เป็นทางการที่ใช้คือบางทีจุดที่มีค่าสูงกว่าสิ่งที่คุณคาดหวังภายใต้แบบจำลอง (เช่นส่วนที่เหลือขนาดใหญ่) จะแตกต่างกันในบางวิธีและมีการตรวจสอบความแตกต่างด้วยวิธีนี้ ความคิดของฉันเกี่ยวกับเรื่องนี้คือ: หากคุณเห็นความแตกต่าง 2 ตัวอย่างกับตัวทำนายในแบบจำลองนั้นจะมีผลกระทบของตัวทำนายที่ไม่ได้รับการพิจารณาโดยตัวแบบในสถานะปัจจุบัน (เช่นผลที่ไม่ใช่เชิงเส้น) หากคุณเห็นความแตกต่าง 2 ตัวอย่างในตัวแปรที่ไม่ได้อยู่ในแบบจำลองบางทีมันควรจะอยู่ในรูปแบบในตอนแรก สิ่งหนึ่งที่ฉันได้พบโดยสังเกตุ (ผ่านการจำลอง) คือถ้าคุณเปรียบเทียบค่าเฉลี่ยของตัวทำนายในโมเดลและแบ่งชั้นด้วยวิธีนี้เพื่อสร้างค่าเฉลี่ยตัวอย่างสองตัวอย่างคือ¯ …


2
เป็นการดีที่จะสร้างมาตรฐานข้อมูลของคุณในการถดถอยด้วยข้อมูลแบบพาเนล / ยาว
โดยทั่วไปฉันสร้างมาตรฐานตัวแปรอิสระของฉันในการถดถอยเพื่อเปรียบเทียบสัมประสิทธิ์อย่างถูกต้อง (ด้วยวิธีนี้พวกเขามีหน่วยเดียวกัน: ส่วนเบี่ยงเบนมาตรฐาน) อย่างไรก็ตามด้วยข้อมูลแบบพาเนล / ยาวฉันไม่แน่ใจว่าฉันควรทำให้ข้อมูลของฉันเป็นมาตรฐานโดยเฉพาะอย่างยิ่งถ้าฉันประเมินโมเดลแบบลำดับชั้น หากต้องการดูสาเหตุที่อาจเป็นปัญหาที่อาจเกิดขึ้นสมมติว่าคุณมีi=1,…,ni=1,…,ni = 1, \ldots, nบุคคลที่วัดตามช่วงเวลาและคุณวัดตัวแปรตาม,และตัวแปรอิสระหนึ่งตัวt} หากคุณใช้การรวมการถดถอยแบบสมบูรณ์คุณสามารถสร้างมาตรฐานของข้อมูลด้วยวิธีนี้:เนื่องจากจะไม่เปลี่ยน t- สถิติ. ในทางกลับกันถ้าคุณพอดีกับการถดถอยที่ไม่รวมคือการถดถอยหนึ่งครั้งสำหรับแต่ละคนคุณควรสร้างมาตรฐานให้กับข้อมูลของคุณเป็นรายบุคคลเท่านั้นไม่ใช่ชุดข้อมูลทั้งหมด (ในรหัส R):Y ผม, เสื้อ x ฉัน, เสื้อ x z = ( x - หมายถึง( x ) ) / sd ( x )t=1,…,Tt=1,…,Tt=1,\ldots, Tyi,tyi,ty_{i,t}xi,txi,tx_{i,t}x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in …

2
ผลรวมจากแบบจำลองเชิงเส้นวิ่ง R
เนื่องจากการสร้างแบบจำลองการถดถอยมักจะเป็น "ศิลปะ" มากกว่าวิทยาศาสตร์ฉันจึงมักจะทดสอบตัวเองซ้ำหลายครั้งเกี่ยวกับโครงสร้างการถดถอย วิธีที่มีประสิทธิภาพในการสรุปข้อมูลจากแบบจำลองเหล่านี้หลายแบบในความพยายามที่จะค้นหาแบบ "ดีที่สุด" คืออะไร? วิธีการหนึ่งที่ฉันใช้คือการวางแบบจำลองทั้งหมดลงในรายการและเรียกใช้summary()ข้ามรายการนั้น แต่ฉันคิดว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการเปรียบเทียบหรือไม่ ตัวอย่างรหัส & รุ่น: ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - …
16 r  regression 

1
การติดตั้งอุปกรณ์ในรุ่น R ที่ค่าสัมประสิทธิ์อยู่ภายใต้ข้อ จำกัด เชิงเส้น
ฉันจะกำหนดสูตรแบบจำลองใน R ได้อย่างไรเมื่อมีข้อ จำกัด เชิงเส้นตรงหนึ่งข้อ (หรือมากกว่า) ที่สัมพันธ์กับสัมประสิทธิ์ ตัวอย่างเช่นสมมติว่าคุณรู้ว่า b1 = 2 * b0 ในรูปแบบการถดถอยเชิงเส้นอย่างง่าย ขอขอบคุณ!
16 r  regression  modeling 

1
การถดถอยโลจิสติก - ความกังวลหลายฝ่าย / ข้อผิดพลาด
ใน Logistic Regression คุณจำเป็นต้องมีความกังวลเกี่ยวกับ multicollinearity เหมือนกับที่คุณต้องการในการถดถอย OLS หรือไม่ ตัวอย่างเช่นเมื่อมีการถดถอยโลจิสติกที่มีความสัมพันธ์หลายสีอยู่คุณจะต้องระมัดระวัง (เช่นเดียวกับใน OLS ถดถอย) ด้วยการอนุมานจากค่าสัมประสิทธิ์เบต้าหรือไม่ สำหรับ OLS regression หนึ่ง "แก้ไข" เพื่อความหลากสีสูงคือการถดถอยสันมีอะไรแบบนั้นสำหรับการถดถอยโลจิสติก? นอกจากนี้การวางตัวแปรหรือการรวมตัวแปร วิธีใดที่เหมาะสมสำหรับการลดผลกระทบของความหลากสีในการถดถอยโลจิสติก พวกมันเหมือนกับ OLS หรือเปล่า? (หมายเหตุ: นี่ไม่ได้มีวัตถุประสงค์เพื่อการทดสอบที่ออกแบบมา)

1
การถดถอยแบบมิติสูง: ทำไมพิเศษ?
ฉันพยายามอ่านงานวิจัยในเรื่องการถดถอยแบบมิติสูง เมื่อมีขนาดใหญ่กว่า , ที่อยู่,n ดูเหมือนว่าคำว่ามักปรากฏในรูปของอัตราการลู่เข้าสำหรับตัวประมาณค่าการถดถอยpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n ตัวอย่างเช่นที่นี่สมการ (17) บอกว่ารูปทรงพอดีเชือกสอดคล้องกับ β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. ปกตินี้ยังแสดงให้เห็นว่าlogplog⁡p\log pควรจะมีขนาดเล็กกว่าnnnn มีสัญชาตญาณว่าทำไมอัตราส่วนของlogp/nlog⁡p/n\log p/nจึงโดดเด่นเช่นนี้? นอกจากนี้ก็ดูเหมือนว่าจากวรรณกรรมปัญหาการถดถอยมิติสูงได้รับซับซ้อนเมื่อlogp≥nlog⁡p≥n\log p \geq nn ทำไมถึงเป็นเช่นนั้น? มีการอ้างอิงที่ดีที่กล่าวถึงปัญหาที่ว่าpppและnnnจะโตเร็วแค่ไหนเมื่อเปรียบเทียบกัน?

3
ความสัมพันธ์ระหว่างการแจกแจงเบต้าและรูปแบบการถดถอยโลจิสติกคืออะไร?
คำถามของฉันคืออะไรความสัมพันธ์ทางคณิตศาสตร์ระหว่างการแจกแจงเบต้าและสัมประสิทธิ์ของตัวแบบการถดถอยโลจิสติกคืออะไร? เพื่อแสดงให้เห็นถึง:ฟังก์ชันลอจิสติก (sigmoid) ได้รับจาก f(x)=11+exp(−x)f(x)=11+exp⁡(−x)f(x) = \frac{1}{1+\exp(-x)} และมันถูกใช้เพื่อสร้างโมเดลความน่าจะเป็นในโมเดลการถดถอยโลจิสติก ให้AAAเป็น dichotomous (0,1)(0,1)(0,1)ทำคะแนนผลลัพธ์และXXX a matrix ออกแบบ แบบจำลองการถดถอยโลจิสติกจะได้รับจาก P(A=1|X)=f(Xβ).P(A=1|X)=f(Xβ).P(A=1|X) = f(X \beta). หมายเหตุXXXมีคอลัมน์แรกของค่าคงที่111 (สกัดกั้น) และββ\betaเป็นคอลัมน์เวกเตอร์ของสัมประสิทธิ์การถดถอย ตัวอย่างเช่นเมื่อเรามีหนึ่ง regressor (ปกติมาตรฐาน) xxxและเลือกβ0=1β0=1\beta_0=1 (สกัดกั้น) และβ1=1β1=1\beta_1=1เราสามารถจำลองผลลัพธ์ 'การแจกแจงความน่าจะเป็น' พล็อตนี้จะแจ้งเตือนของการกระจายเบต้า (เช่นการทำแปลงสำหรับทางเลือกอื่น ๆ ของββ\beta ) ที่มีความหนาแน่นจะได้รับจาก g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} y^{(p-1)} (1-y)^{(q-1)}. ใช้โอกาสสูงสุดหรือวิธีการในช่วงเวลาที่มันเป็นไปได้ที่จะประเมินและQจากการกระจายของP ( = 1 | X ) ดังนั้นคำถามของฉันลงมาที่: ความสัมพันธ์ระหว่างตัวเลือกของβและpและqคืออะไร? สิ่งนี้เพื่อเริ่มต้นด้วยที่อยู่กรณี …

1
การเชื่อมต่อระหว่างกำลังสองน้อยที่สุดบางส่วนการถดถอยอันดับลดลงและการถดถอยองค์ประกอบหลักคืออะไร
การถดถอยอันดับที่ลดลงและการถดถอยส่วนประกอบหลักเป็นเพียงกรณีพิเศษที่มีกำลังสองน้อยที่สุดหรือไม่? บทช่วยสอนนี้ (หน้า 6, "การเปรียบเทียบวัตถุประสงค์") ระบุว่าเมื่อเราทำบางส่วนกำลังสองน้อยที่สุดโดยไม่ต้องฉาย X หรือ Y (เช่น "ไม่ใช่บางส่วน") มันจะกลายเป็นการลดอันดับการถดถอยหรือการถดถอยองค์ประกอบหลักตามลำดับ ข้อความที่คล้ายกันนี้จัดทำขึ้นในหน้าเอกสารของ SAS นี้หัวข้อ "การลดอันดับการถดถอย" และ "ความสัมพันธ์ระหว่างวิธีการ" คำถามติดตามพื้นฐานที่สำคัญกว่าคือมีแบบจำลองความน่าจะเป็นพื้นฐานที่คล้ายคลึงกันหรือไม่

4
ทำไมเราถึงบอกว่าตัวแปรผลลัพธ์“ ถูกทำให้ถดถอย” ตัวทำนาย (s)?
มีคำอธิบายที่เข้าใจง่ายสำหรับคำศัพท์นี้หรือไม่? ทำไมจึงเป็นเช่นนี้และไม่ใช่ผู้ทำนายที่ได้ผลลัพธ์ ฉันหวังว่าคำอธิบายที่เหมาะสมว่าทำไมศัพท์นี้จึงช่วยให้นักเรียนจดจำได้และหยุดพวกเขาไม่ให้พูดผิดวิธี

1
วิธีสร้างแบบจำลองข้อมูลต่อเนื่องที่ไม่เป็นศูนย์ที่ไม่ทำให้เกิดค่าลบ?
ตอนนี้ฉันกำลังพยายามใช้ตัวแบบเชิงเส้น ( family = gaussian) กับตัวบ่งชี้ความหลากหลายทางชีวภาพที่ไม่สามารถรับค่าที่ต่ำกว่าศูนย์ได้นั้นจะสูงเกินศูนย์และต่อเนื่อง ค่าตั้งแต่ 0 ถึงน้อยกว่า 0.25 ด้วยเหตุนี้จึงมีรูปแบบที่ชัดเจนในส่วนที่เหลือของแบบจำลองที่ฉันไม่ได้จัดการเพื่อกำจัด: ใครบ้างมีความคิดเกี่ยวกับวิธีการแก้ปัญหานี้?

3
การวิเคราะห์แยกแยะกับการถดถอยโลจิสติก
ฉันพบข้อดีของการวิเคราะห์ที่แยกแยะและฉันมีคำถามเกี่ยวกับพวกเขา ดังนั้น: เมื่อชั้นเรียนมีการแยกกันอย่างดีพารามิเตอร์ประมาณการสำหรับการถดถอยโลจิสติกจะไม่เสถียรอย่างน่าประหลาดใจ ค่าสัมประสิทธิ์อาจไปไม่มีที่สิ้นสุด LDA ไม่ประสบปัญหานี้ ถ้าจำนวนของคุณลักษณะมีขนาดเล็กและการแจกแจงของตัวทำนาย XXXเป็นปกติโดยประมาณในแต่ละคลาสโมเดล discriminant เชิงเส้นจะมีเสถียรภาพมากกว่าแบบจำลองการถดถอยโลจิสติกอีกครั้ง เสถียรภาพคืออะไรและทำไมจึงสำคัญ (ถ้าการถดถอยโลจิสติกส์ให้พอดีกับหน้าที่การใช้งานแล้วทำไมฉันถึงต้องสนใจเรื่องเสถียรภาพ) LDA เป็นที่นิยมเมื่อเรามีคลาสการตอบสนองมากกว่าสองคลาสเนื่องจากยังให้มุมมองข้อมูลในระดับต่ำ ฉันแค่ไม่เข้าใจสิ่งนั้น LDA ให้มุมมองแบบมิติต่ำได้อย่างไร หากคุณสามารถตั้งชื่อข้อดีหรือข้อเสียได้มากกว่านี้ก็คงจะดี

1
ทำไม“ บ่วงบาศแบบผ่อนคลาย” จึงแตกต่างจากบ่วงมาตรฐาน?
หากเราเริ่มต้นด้วยชุดข้อมูลให้ใช้ Lasso กับมันและหาทางออกเราสามารถใช้ Lasso อีกครั้งกับชุดข้อมูลโดยที่คือชุดที่ไม่ใช่ ดัชนีเป็นศูนย์ของเพื่อรับโซลูชันซึ่งเรียกว่าโซลูชัน 'relax LASSO' (แก้ไขให้ฉันถ้าฉันผิด!) วิธีการแก้ปัญหาต้องเป็นไปตามเงื่อนไขKarush – Kuhn – Tucker (KKT)สำหรับแต่เนื่องจากรูปแบบของเงื่อนไข KKT สำหรับก็ไม่เป็นไปตามนี้หรือไม่ ถ้าเป็นเช่นนั้นการทำ LASSO ครั้งที่สองคืออะไร?( X, วาย)(X,Y)(X,Y)βLβL\beta^L( XS, วาย)(XS,Y)(X_S, Y)SSSβLβL\beta^LβR LβRL\beta^{RL}βLβL\beta^L( X, วาย)(X,Y)(X,Y)( XS, วาย)(XS,Y)(X_S, Y) คำถามนี้เป็นคำถามที่ตามมา: ข้อดีของการทำ "double lasso" หรือการแสดง lasso สองครั้ง?

2
ทำไม GLM จึงแตกต่างจาก LM ด้วยตัวแปรที่ถูกแปลง
ตามที่อธิบายไว้ในเอกสารประกอบคำบรรยายนี้ (หน้า 1)โมเดลเชิงเส้นสามารถเขียนในรูปแบบ: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่คือตัวแปรตอบกลับและ เป็นตัวแปรอธิบายyyyxixix_{i}ithithi^{th} บ่อยครั้งที่มีเป้าหมายของการทดสอบสมมติฐานการประชุมหนึ่งสามารถเปลี่ยนตัวแปรการตอบสนอง ตัวอย่างเช่นเราใช้ฟังก์ชั่นบันทึกในแต่ละy_iการแปลงตัวแปรตอบกลับไม่ถือเอาการทำ GLMyiyiy_i สามารถเขียน GLM ในแบบฟอร์มต่อไปนี้ (จากเอกสารประกอบการเรียนอีกครั้ง (หน้า 3) ) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, โดยที่uuuเป็นเพียงสัญลักษณ์อื่นสำหรับyyyดังที่ฉันเข้าใจจากหน้า 2 ในเอกสารประกอบการบรรยาย g()g()g()เรียกว่าฟังก์ชั่นลิงค์ ฉันไม่เข้าใจความแตกต่างระหว่าง GLM และ LM กับตัวแปรที่แปลงจากสไลด์ในหลักสูตร คุณช่วยฉันได้ไหม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.