คำถามติดแท็ก regression-coefficients

พารามิเตอร์ของตัวแบบการถดถอย ส่วนใหญ่แล้วค่าที่ตัวแปรอิสระจะถูกคูณจะได้ค่าทำนายของตัวแปรตาม

3
จะตีความผลกระทบหลักได้อย่างไรเมื่อเอฟเฟกต์ปฏิสัมพันธ์ไม่สำคัญ
ฉันใช้โมเดลผสมแบบเส้นตรงทั่วไปใน R และรวมเอฟเฟกต์การโต้ตอบระหว่างตัวทำนายสองตัว ปฏิสัมพันธ์ไม่สำคัญ แต่ผลหลัก (ทั้งสองทำนาย) ทั้งสอง ตอนนี้ตัวอย่างหนังสือหลายเล่มบอกฉันว่าหากมีผลกระทบอย่างมีนัยสำคัญของการโต้ตอบผลกระทบหลักไม่สามารถตีความได้ แต่ถ้าการปฏิสัมพันธ์ของคุณไม่สำคัญ ฉันสามารถสรุปได้ว่าตัวทำนายสองตัวมีผลต่อการตอบสนองหรือไม่? หรือมันจะดีกว่าที่จะใช้รูปแบบใหม่ที่ฉันออกจากการมีปฏิสัมพันธ์? ฉันไม่ต้องการทำเช่นนั้นเพราะฉันจะต้องควบคุมการทดสอบหลายรายการ

2
การตีความของ betas เมื่อมีหลายตัวแปรเด็ดขาด
ผมเข้าใจแนวคิดที่ว่าเบต้า 0เป็นค่าเฉลี่ยสำหรับเมื่อตัวแปรเด็ดขาดจะมีค่าเท่ากับ 0 (หรือกลุ่มอ้างอิง) ทำให้การตีความท้ายว่าค่าสัมประสิทธิ์การถดถอยคือความแตกต่างในค่าเฉลี่ยของทั้งสองประเภท ถึงแม้จะมี> 2 ประเภทฉันจะถือว่าแต่ละβอธิบายความแตกต่างระหว่างของประเภทที่ค่าเฉลี่ยและการอ้างอิงβ^0β^0\hat\beta_0β^β^\hat\beta แต่จะเกิดอะไรขึ้นถ้ามีตัวแปรเพิ่มเติมเข้ามาในโมเดลหลายตัวแปร? ตอนนี้การสกัดกั้นหมายความว่าอะไรมันไม่สมเหตุสมผลที่จะเป็นค่าเฉลี่ยสำหรับการอ้างอิงของตัวแปรเด็ดขาดสองอัน ตัวอย่างเช่นหากเพศ (M (ref) / F) และ Race (white (ref) / black) ทั้งคู่อยู่ในแบบจำลอง เป็นβ 0ค่าเฉลี่ยสำหรับผู้ชายสีขาวเท่านั้น? เราตีความความเป็นไปได้อื่น ๆ อย่างไรβ^0β^0\hat\beta_0 ในฐานะที่เป็นข้อความแยกต่างหาก: คำสั่งที่ตรงกันข้ามนั้นทำหน้าที่เป็นวิธีในการตรวจสอบการดัดแปลงเอฟเฟกต์หรือไม่? หรือเพียงแค่เห็นเอฟเฟกต์ ( ) ในระดับที่ต่างกันβ^β^\hat\beta

3
วิธีการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยโลจิสติก
ฉันใช้ Scikit เรียนรู้ของ Python ในการฝึกอบรมและทดสอบการถดถอยโลจิสติก scikit-Learn จะส่งกลับค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระ แต่ไม่ได้ให้ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ ฉันต้องการข้อผิดพลาดมาตรฐานเหล่านี้เพื่อคำนวณสถิติ Wald สำหรับค่าสัมประสิทธิ์แต่ละค่าและเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้กับแต่ละอื่น ๆ ฉันได้พบคำอธิบายวิธีการคำนวณข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของการถดถอยโลจิสติก ( ที่นี่ ) แต่มันค่อนข้างยากที่จะติดตาม หากคุณรู้วิธีอธิบายง่ายๆเกี่ยวกับการคำนวณข้อผิดพลาดมาตรฐานเหล่านี้และ / หรือสามารถให้ข้อผิดพลาดมาตรฐานกับฉันได้ฉันขอขอบคุณจริงๆ! ฉันไม่ได้หมายถึงรหัสเฉพาะ (แต่โปรดโพสต์รหัสใด ๆ ที่อาจเป็นประโยชน์) แต่เป็นคำอธิบายอัลกอริทึมของขั้นตอนที่เกี่ยวข้อง

2
คำนวณค่าสัมประสิทธิ์ในการถดถอยโลจิสติกกับ R
ในการถดถอยเชิงเส้นแบบหลายค่าสามารถหาค่าสัมประสิทธิ์ได้ด้วยสูตรต่อไปนี้ b = ( X'X)- 1( X') Yข=(X'X)-1(X')Yb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta ตัวอย่างเช่น > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- …

1
ข้อผิดพลาดมาตรฐานสำหรับสัมประสิทธิ์การถดถอยหลายค่า?
ฉันรู้ว่านี่เป็นคำถามพื้นฐาน แต่ฉันไม่สามารถหาคำตอบได้ทุกที่ ฉันคำนวณสัมประสิทธิ์การถดถอยโดยใช้สมการปกติหรือการสลายตัว QR ฉันจะคำนวณข้อผิดพลาดมาตรฐานสำหรับแต่ละสัมประสิทธิ์ได้อย่างไร ฉันมักจะคิดว่าข้อผิดพลาดมาตรฐานที่คำนวณเป็น: SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} คืออะไรสำหรับแต่ละค่าสัมประสิทธิ์? วิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณสิ่งนี้ในบริบทของ OLS คืออะไร?σx¯σx¯\sigma_{\bar x}

1
วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO
ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง: รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ : โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ : คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง คำถาม: การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร? สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร? เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on …

2
วิธีจัดการกับข้อผิดพลาดเช่น“ ค่าสัมประสิทธิ์: 14 ไม่ได้ถูกนิยามเนื่องจากภาวะเอกฐาน” ใน R?
เมื่อทำ GLM และคุณได้รับข้อผิดพลาด "ไม่ได้ถูกกำหนดเนื่องจากภาวะเอกฐาน" ในผลลัพธ์ anova หนึ่งจะตอบโต้ข้อผิดพลาดนี้ได้อย่างไร บางคนบอกว่าเป็นเพราะ collinearity ระหว่าง covariates หรือว่าหนึ่งในระดับที่ไม่ได้อยู่ในชุดข้อมูล (ดู: การตีความ "ไม่ได้กำหนดไว้เพราะเอกภาวะ" ใน lm ) ถ้าผมอยากจะดูว่า "การรักษาโดยเฉพาะอย่างยิ่ง" คือการขับรถรูปแบบและฉันมี 4 ระดับของการรักษา: Treat 1, Treat 2, Treat 3และTreat 4ซึ่งได้รับการบันทึกไว้ในสเปรดชีตของฉันเป็น: เมื่อTreat 11 ส่วนที่เหลือเป็นศูนย์เมื่อTreat 21 ส่วนที่เหลือเป็นศูนย์ เป็นต้นฉันต้องทำอย่างไร

1
คำถามเกี่ยวกับวิธีการทำให้ค่าสัมประสิทธิ์การถดถอยเป็นปกติ
ไม่แน่ใจว่าคำว่า normalize เป็นคำที่ถูกต้องที่จะใช้ที่นี่หรือไม่ แต่ฉันจะพยายามอย่างดีที่สุดเพื่ออธิบายสิ่งที่ฉันพยายามถาม ตัวประมาณที่ใช้ในที่นี้คือกำลังสองน้อยสุด สมมติว่าคุณมีy = β 0 + β 1 x 1y=β0+β1x1y=\beta_0+\beta_1x_1คุณสามารถจัดให้อยู่กึ่งกลางค่าเฉลี่ยโดยy = β ′ 0 + β 1 x ′ 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1'โดยที่β ′ 0 = β 0 + β 1 ˉ x 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1และx ′ 1 = x - ˉ xx′1=x−x¯x_1'=x-\bar x , ดังนั้นβ ′ 0β′0\beta_0'ไม่มีอิทธิพลต่อการประมาณβ 1β1\beta_1อีกต่อไป โดยที่ผมหมายถึงนี้β …

1
ตัวประมาณค่าที่เป็นอิสระของอัตราส่วนของสัมประสิทธิ์การถดถอยสองตัว?
สมมติว่าคุณพอดีกับเส้น / โลจิสติกการถดถอยโดยมีวัตถุประสงค์ของการประมาณการเป็นกลางของ1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2 . คุณมีความมั่นใจมากว่าทั้งสอง1และ2เป็นบวกมากเมื่อเทียบกับเสียงในประมาณการของพวกเขาa1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 หากคุณมีความแปรปรวนร่วมกันของ1 , 2คุณสามารถคำนวณหรืออย่างน้อยจำลองคำตอบ มีวิธีใดที่ดีกว่าและในปัญหาชีวิตจริงที่มีข้อมูลจำนวนมากคุณมีปัญหามากเพียงใดในการประเมินอัตราส่วนหรือสำหรับครึ่งขั้นตอนและสมมติว่าสัมประสิทธิ์เป็นอิสระ?a1,a2a1,a2a_1, a_2

1
จะตีความค่าสัมประสิทธิ์จากการถดถอยเบต้าได้อย่างไร?
ฉันมีข้อมูลบางอย่างที่ถูกล้อมรอบระหว่าง 0 และ 1 ฉันได้ใช้betaregแพคเกจใน R เพื่อให้พอดีกับรูปแบบการถดถอยกับข้อมูลที่ถูกผูกไว้เป็นตัวแปรตาม คำถามของฉันคือฉันจะตีความสัมประสิทธิ์จากการถดถอยได้อย่างไร

5
ฉันสามารถละเว้นค่าสัมประสิทธิ์สำหรับปัจจัยที่ไม่มีนัยสำคัญในแบบจำลองเชิงเส้นได้หรือไม่?
หลังจากหาความกระจ่างเกี่ยวกับสัมประสิทธิ์โมเดลเชิงเส้นตรงนี้ฉันมีคำถามติดตามเกี่ยวกับค่าที่ไม่ลงนาม (ค่า p สูง) สำหรับค่าสัมประสิทธิ์ระดับปัจจัย ตัวอย่าง: หากโมเดลเชิงเส้นของฉันมีปัจจัยที่มี 10 ระดับและมีเพียง 3 ของระดับเหล่านั้นที่มีค่า p สำคัญที่เกี่ยวข้องกับพวกเขาเมื่อใช้แบบจำลองในการทำนาย Y ฉันสามารถเลือกที่จะไม่รวมคำว่าสัมประสิทธิ์ได้ ระดับที่ไม่มีนัยสำคัญ? ยิ่งไปกว่านั้นมันจะผิดหรือไม่ที่จะปั้นก้อนหิน 7 ระดับที่ไม่สำคัญออกเป็นระดับเดียวและวิเคราะห์อีกครั้ง?

2
การถดถอยไปสู่ค่าเฉลี่ยใน“ การคิดเร็วและช้า”
ในการคิดเร็วและช้า Daniel Kahneman วางคำถามสมมุติฐานต่อไปนี้: (หน้า 186) Julie ปัจจุบันเป็นรุ่นพี่ในมหาวิทยาลัยของรัฐ เธออ่านได้คล่องเมื่อเธออายุสี่ขวบ เกรดเฉลี่ย (GPA) ของเธอคืออะไร ความตั้งใจของเขาคือการแสดงให้เห็นว่าเรามักจะล้มเหลวในการบัญชีสำหรับการถดถอยถึงค่าเฉลี่ยเมื่อทำการทำนายเกี่ยวกับสถิติบางอย่าง ในการอภิปรายต่อไปเขาแนะนำ: (หน้า 190) จำได้ว่าความสัมพันธ์ระหว่างสองมาตรการ - ในกรณีการอ่านอายุปัจจุบันและเกรดเฉลี่ย - เท่ากับสัดส่วนของปัจจัยที่ใช้ร่วมกันในปัจจัยของพวกเขา คุณคาดเดาสิ่งที่ดีที่สุดเกี่ยวกับสัดส่วนนั้นได้อย่างไร การคาดเดาในแง่ดีที่สุดของฉันคือประมาณ 30% สมมติว่าประมาณการนี้เรามีทุกอย่างที่เราต้องการในการทำนายอย่างเป็นกลาง นี่คือคำแนะนำสำหรับวิธีการเดินทางในสี่ขั้นตอนง่าย ๆ : เริ่มต้นด้วยการประมาณเกรดเฉลี่ย กำหนดเกรดเฉลี่ยที่ตรงกับการแสดงหลักฐานของคุณ ประมาณค่าสหสัมพันธ์ระหว่างการอ่านค่าความฉลาดสูงกับเกรดเฉลี่ย หากความสัมพันธ์คือ. 30 ให้ย้าย 30% ของระยะทางจากค่าเฉลี่ยไปยังเกรดเฉลี่ยที่ตรงกัน การตีความคำแนะนำของเขาของฉันเป็นดังนี้: ใช้ "เธออ่านได้อย่างคล่องแคล่วเมื่อเธออายุสี่ขวบ" เพื่อสร้างคะแนนมาตรฐานสำหรับความฉลาดเกินอายุการอ่านของจูลี่ กำหนดเกรดเฉลี่ยที่มีคะแนนมาตรฐานที่สอดคล้องกัน (GPA ที่มีเหตุผลในการทำนายจะสอดคล้องกับคะแนนมาตรฐานนี้หากความสัมพันธ์ระหว่าง GPA และความแม่นยำในการอ่านนั้นสมบูรณ์แบบ) ประมาณเปอร์เซ็นต์ของความแปรปรวนใน GPA ที่สามารถอธิบายได้ด้วยความแปรปรวนในการอ่านความแม่นยำ (ฉันคิดว่าเขาหมายถึงสัมประสิทธิ์การตัดสินใจด้วย "สหสัมพันธ์" …

3
สัมประสิทธิ์การถดถอยโลจิสติกมีความหมายหรือไม่?
ฉันมีปัญหาการจำแนกเลขฐานสองจากคุณสมบัติหลายอย่าง สัมประสิทธิ์ของการถดถอยโลจิสติก (ทำให้เป็นปกติ) มีความหมายที่ตีความได้หรือไม่? ฉันคิดว่าพวกเขาสามารถระบุขนาดของอิทธิพลได้เนื่องจากฟีเจอร์นั้นได้รับการปรับให้เป็นมาตรฐานล่วงหน้า อย่างไรก็ตามในปัญหาของฉันค่าสัมประสิทธิ์ดูเหมือนจะขึ้นอยู่กับคุณสมบัติที่ฉันเลือก แม้แต่สัญลักษณ์ของสัมประสิทธิ์ก็เปลี่ยนไปด้วยชุดคุณสมบัติที่แตกต่างกันซึ่งเลือกเป็นอินพุต มันสมเหตุสมผลหรือไม่ที่จะตรวจสอบคุณค่าของสัมประสิทธิ์และวิธีที่ถูกต้องในการค้นหาสัมประสิทธิ์ที่มีความหมายมากที่สุดและระบุความหมายด้วยคำพูดคืออะไร? มีบางรุ่นที่ติดตั้งและสัญลักษณ์ของสัมประสิทธิ์ของพวกเขาไม่ถูกต้อง - แม้ว่าพวกเขาเรียงลำดับข้อมูลพอดี? (ความสัมพันธ์สูงสุดที่ฉันมีระหว่างฟีเจอร์ต่าง ๆ มีเพียง 0.25 แต่นั่นมีบทบาทอย่างแน่นอน?)

1
ความแตกต่างระหว่างสัมประสิทธิ์การถดถอยและสัมประสิทธิ์การถดถอยบางส่วนคืออะไร?
ฉันอ่านใน Abdi (2003)แล้ว เมื่อตัวแปรอิสระเป็นค่ามุมฉากคู่ผลของแต่ละตัวแปรในการถดถอยจะถูกประเมินโดยการคำนวณความชันของการถดถอยระหว่างตัวแปรอิสระนี้และตัวแปรตาม ในกรณีนี้ (เช่น orthogonality ของ IV) สัมประสิทธิ์การถดถอยบางส่วนจะเท่ากับสัมประสิทธิ์การถดถอย ในกรณีอื่น ๆ ทั้งหมดสัมประสิทธิ์การถดถอยจะแตกต่างจากสัมประสิทธิ์การถดถอยบางส่วน อย่างไรก็ตามเอกสารไม่ได้อธิบายก่อนหน้านี้ว่าความแตกต่างระหว่างสัมประสิทธิ์การถดถอยทั้งสองประเภทนี้คืออะไร Abdi, H. (2003) สัมประสิทธิ์การถดถอยบางส่วน ใน Lewis-Beck M. , Bryman, A. , Futing T. (บรรณาธิการ) (2003) สารานุกรมสังคมศาสตร์: วิธีการวิจัย Thousand Oaks, CA: สิ่งพิมพ์ SAGE

1
ค่าสัมประสิทธิ์การถดถอยแนวสันที่ใหญ่กว่าค่าสัมประสิทธิ์ OLS หรือเครื่องหมายการเปลี่ยนแปลงนั้นขึ้นอยู่กับ
เมื่อเรียกใช้การถดถอยแบบสันคุณจะตีความค่าสัมประสิทธิ์ที่มีขนาดใหญ่กว่าค่าสัมประสิทธิ์ที่เกี่ยวข้องภายใต้กำลังสองน้อยที่สุด (สำหรับค่าบางค่าของ ) อย่างไร การถดถอยสันไม่ควรทำให้ค่าสัมประสิทธิ์หดตัวเป็นก้อนหรือไม่λλ\lambda ในบันทึกที่เกี่ยวข้องเราตีความค่าสัมประสิทธิ์ที่มีการเปลี่ยนแปลงเครื่องหมายระหว่างการถดถอยของสันได้อย่างไร (กล่าวคือการติดตามของสันเขาข้ามจากลบเป็นบวกกับพล็อตการติดตามสัน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.