การตีความเอาท์พุทของ R สำหรับการถดถอยแบบทวินาม


38

ฉันค่อนข้างใหม่กับการทดสอบข้อมูลทวินาม แต่จำเป็นต้องทำและตอนนี้ฉันไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ตัวแปร y คือตัวแปรตอบสนองเป็นแบบทวินามและปัจจัยที่อธิบายได้นั้นมีความต่อเนื่อง นี่คือสิ่งที่ฉันได้รับเมื่อสรุปผลลัพธ์:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

มีหลายสิ่งที่ฉันไม่ได้มาที่นี่สิ่งที่พูดจริง ๆ :

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

และการทำซ้ำคะแนน AIC และจำนวนฟิชเชอร์หมายความว่าอะไร?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

และนี่หมายถึงอะไร:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
เนื่องจากคำถามของคุณกว้างมาก - "ใครจะตีความการถดถอยแบบทวินามได้อย่างไร" - ฉันขอแนะนำให้เลือกข้อความแนะนำเบื้องต้นในหัวข้อ การวิเคราะห์ข้อมูลเบื้องต้นอย่างละเอียดของ Agresti นั้นเข้าถึงได้ง่ายมาก
Reinstate Monica

2
นี่อาจจะกว้างเกินไปที่จะตอบคำถามที่นี่ ตามที่ @ user777 กล่าวว่าการให้คำปรึกษาข้อความที่ดีอาจเป็นไปตามลำดับ ฉันเห็นด้วย Hosmer & Lemeshow ก็ดีเช่นกัน หากคุณต้องการบางสิ่งบางอย่างสั้น ๆ และฟรี (เตือนตัวเองปลั๊ก) ดูการแนะนำของฉันเกี่ยวกับการถดถอยโลจิสติกแต่มันอาจจะพื้นฐานเกินไปสำหรับความต้องการของคุณ
Peter Flom - Reinstate Monica

โอเคขอบคุณสำหรับคำตอบด่วน ๆ ฉันจะลอง Agresti แล้วดูว่ามันช่วยได้ไหม :)
user40116

4
ฉันไม่คิดว่าคำถามนี้กว้างเกินกว่าจะตอบได้ สำหรับฉันแล้วมันเป็นเวอร์ชั่นถดถอยของการตีความของการตีความของอาร์เอสแอลเอ็มซึ่งได้รับการพิจารณาอย่างต่อเนื่องในหัวข้อ
gung - Reinstate Monica

1
ฉันอยู่กับ @ gung สำหรับคำถามนี้หากคำถามเกี่ยวกับการตีความสิ่งที่ R ฉีดเข้าไปบนหน้าจอ ความหมายของคำว่า "หมายถึง" คืออะไร? หาก OP ยินดีที่จะบอกว่าค่าสัมประสิทธิ์เป็นค่าประมาณของโมเดลที่มีค่าตามมาตราส่วนของอัตราต่อรองของบันทึกดังนั้น Q นี้จะตกลง หาก OP ไม่พอใจกับสิ่งนี้และต้องการคำอธิบายความหมายของพวกเขาในแง่ของข้อมูลแบบจำลอง ฯลฯ นั่นจะเป็นคำถามที่กว้างเกินไปที่ระบุว่านี่เป็นคำถามหนึ่งในหลายคำถาม
Reinstate Monica - G. Simpson

คำตอบ:


74

สิ่งที่คุณได้ทำคือการถดถอยโลจิสติก ซึ่งสามารถทำได้โดยทั่วไปซอฟต์แวร์ทางสถิติใด ๆ และผลลัพธ์จะคล้ายกัน (อย่างน้อยในเนื้อหาแม้ว่าการนำเสนออาจแตกต่างกัน) มีคำแนะนำเกี่ยวกับการถดถอยโลจิสติกด้วย Rบนเว็บไซต์ช่วยเหลือสถิติที่ยอดเยี่ยมของ UCLA หากคุณไม่คุ้นเคยกับสิ่งนี้คำตอบของฉันที่นี่: ความแตกต่างระหว่างรุ่น logit และ probitอาจช่วยให้คุณเข้าใจว่า LR เกี่ยวกับอะไร (แม้ว่ามันจะถูกเขียนในบริบทที่แตกต่างกัน)

คุณดูเหมือนจะมีสองรุ่นที่นำเสนอฉันจะมุ่งเน้นไปที่ด้านบนอย่างใดอย่างหนึ่ง นอกจากนี้ดูเหมือนว่าจะมีข้อผิดพลาดในการคัดลอกและวางโมเดลหรือเอาต์พุตดังนั้นฉันจะสลับleaves.presenceกับAreaเอาต์พุตเพื่อให้สอดคล้องกับโมเดล นี่คือรูปแบบที่ฉันหมายถึง (โปรดสังเกตว่าฉันเพิ่ม(link="logit")ซึ่งมีนัยโดยfamily=binomial; เห็น? glmและ? ครอบครัว ):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

เรามาดูผลลัพธ์นี้ (สังเกตว่าฉันเปลี่ยนชื่อของตัวแปรในบรรทัดที่สองใต้Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

เช่นเดียวกับมีเหลือในเชิงเส้น (OLS) ถดถอยอาจมีความคลาดเคลื่อนในการถดถอยโลจิสติกและอื่น ๆ ทั่วไปเส้นตรงรุ่น พวกเขามีความซับซ้อนมากขึ้นเมื่อตัวแปรตอบสนองไม่ต่อเนื่อง GLiMs มีห้าประเภทที่แตกต่างกัน แต่สิ่งที่มาในรายการมาตรฐานคือส่วนเบี่ยงเบนความเบี่ยงเบน ( อันซ์และเบี่ยงเบนความคลาดเคลื่อนสูงขึ้นดังนั้นฉันจะเป็นช่วงสั้น ๆ ที่นี่หากการสนทนานี้ค่อนข้างยากที่จะทำตามฉันจะไม่ต้องกังวลมากเกินไปคุณสามารถข้ามได้):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

สำหรับจุดข้อมูลทุกจุดที่ใช้ในแบบจำลองของคุณจะคำนวณความเบี่ยงเบนที่เกี่ยวข้องกับจุดนั้น ในการทำสิ่งนี้ในแต่ละจุดคุณมีชุดของส่วนที่เหลือและผลลัพธ์ข้างต้นเป็นเพียงคำอธิบายแบบไม่อิงพารามิเตอร์ของการแจกแจง


ต่อไปเราจะดูข้อมูลเกี่ยวกับเพื่อนร่วมงานซึ่งเป็นสิ่งที่คนทั่วไปให้ความสนใจเป็นหลัก:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

สำหรับโมเดลการถดถอยโลจิสติกอย่างง่ายเช่นนี้มีเพียง covariate ( Areaที่นี่) และการสกัดกั้น (บางครั้งเรียกว่า 'ค่าคงที่') หากคุณมีการถดถอยโลจิสติกหลายรายการจะมีตัวแปรร่วมเพิ่มเติมด้านล่างนี้ แต่การตีความผลลัพธ์จะเหมือนกัน ภายใต้Estimateในแถวที่สองสัมประสิทธิ์เกี่ยวข้องกับตัวแปรที่อยู่ทางซ้าย เป็นจำนวนเงินโดยประมาณที่อัตราต่อรองของleaves.presenceจะเพิ่มขึ้นหากAreaสูงกว่าหนึ่งหน่วย อัตราต่อรองของleaves.presenceเวลาที่Areaเป็นอยู่เหนือในแถวแรก (หากคุณไม่คุ้นเคยกับอัตราต่อรองอย่างเพียงพออาจช่วยให้คุณอ่านคำตอบของฉันได้ที่นี่: การตีความการคาดการณ์อัตราต่อรองแบบง่าย ๆ ในการถดถอยโลจิสติกส์0.) ในคอลัมน์ถัดไปเราจะเห็นข้อผิดพลาดมาตรฐานที่เกี่ยวข้องกับการประมาณการเหล่านี้ นั่นคือพวกเขาประมาณว่าโดยเฉลี่ยการประมาณการเหล่านี้จะเด้งถ้าการศึกษานั้นถูกเรียกใช้ซ้ำเหมือนกัน แต่มีข้อมูลใหม่เป็นวรรคเป็นเวร (หากคุณไม่คุ้นเคยกับแนวคิดของข้อผิดพลาดมาตรฐานอาจช่วยให้คุณอ่านคำตอบของฉันได้ที่นี่: วิธีตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ในการถดถอยเชิงเส้น ) หากเราหารการประมาณด้วยข้อผิดพลาดมาตรฐานเราจะ รับความฉลาดทางซึ่งสันนิษฐานว่าจะกระจายตามปกติด้วยตัวอย่างที่มากพอ ค่านี้แสดงอยู่ในรายการด้านz valueล่าง ด้านล่างนี้Pr(>|z|)จะแสดงรายการค่า p แบบสองด้านที่สอดคล้องกับค่า z เหล่านั้นในการแจกแจงแบบปกติมาตรฐาน สุดท้ายมีดาวนัยสำคัญดั้งเดิม (และจดบันทึกคีย์ใต้ตารางค่าสัมประสิทธิ์)


Dispersionเส้นถูกพิมพ์โดยเริ่มต้นด้วย GLiMs แต่ไม่ได้เพิ่มข้อมูลมากที่นี่ (มันเป็นสิ่งสำคัญมากที่มีรูปแบบการนับเช่น) เราไม่สนใจสิ่งนี้


สุดท้ายเราได้รับข้อมูลเกี่ยวกับโมเดลและข้อดีของมัน:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

บรรทัดที่เกี่ยวกับmissingnessมักจะอืมหายไป มันแสดงให้เห็นถึงที่นี่เพราะคุณมี 314 ข้อสังเกตที่ทั้งสองleaves.presence, Areaหรือทั้งสองอย่างได้หายไป การสังเกตบางส่วนนั้นไม่ได้ใช้ในการปรับโมเดล

การResidual devianceวัดเป็นการขาดความพอดีของแบบจำลองของคุณโดยรวมในขณะที่Null devianceการวัดแบบจำลองที่ลดลงซึ่งรวมถึงการสกัดกั้นเท่านั้น ขอให้สังเกตว่าดีกรีอิสระที่เกี่ยวข้องกับทั้งสองนั้นต่างกันเพียงคนเดียว เนื่องจากโมเดลของคุณมี covariate เพียงหนึ่งตัวเท่านั้นจึงมีการประมาณพารามิเตอร์เพิ่มเติมเพียงตัวเดียว ( EstimateสำหรับArea) ดังนั้นจึงมีการใช้ระดับความอิสระเพิ่มขึ้นเพียงหนึ่งระดับเท่านั้น สองค่านี้สามารถนำมาใช้ในการดำเนินการทดสอบของรูปแบบในภาพรวมซึ่งจะคล้ายกับโลก -test ที่มาพร้อมกับรูปแบบการถดถอยเชิงเส้น เนื่องจากคุณมี covariate เพียงหนึ่งการทดสอบดังกล่าวจะไม่น่าสนใจในกรณีนี้ F

AICเป็นตัวชี้วัดความดีของพอดีอีกที่คำนึงถึงความสามารถของรูปแบบให้พอดีกับข้อมูล สิ่งนี้มีประโยชน์มากเมื่อเปรียบเทียบสองรุ่นที่หนึ่งอาจเหมาะสมดีกว่า แต่บางทีอาจเป็นเพราะความยืดหยุ่นและทำให้สามารถใส่ข้อมูลใด ๆ ได้ดียิ่งขึ้น เนื่องจากคุณมีรูปแบบเดียวจึงไม่แปลก

การอ้างอิงที่Fisher scoring iterationsเกี่ยวข้องกับการประเมินตัวแบบ แบบจำลองเชิงเส้นสามารถพอดีได้ด้วยการแก้สมการแบบปิด น่าเสียดายที่ไม่สามารถทำได้กับ GLiM ส่วนใหญ่รวมถึงการถดถอยโลจิสติก แต่จะใช้วิธีวนซ้ำ ( อัลกอริทึม Newton-Raphsonตามค่าเริ่มต้น) แทน แบบจำลองนั้นพอดีโดยยึดตามการคาดเดาเกี่ยวกับค่าประมาณที่อาจเป็น อัลกอริทึมจะมองไปรอบ ๆ เพื่อดูว่าแบบเต็มจะได้รับการปรับปรุงโดยใช้การประมาณการแบบอื่นแทนหรือไม่ ถ้าเป็นเช่นนั้นมันจะเคลื่อนที่ไปในทิศทางนั้น (พูดโดยใช้ค่าที่สูงกว่าสำหรับการประมาณค่า) จากนั้นปรับโมเดลให้เหมาะสมอีกครั้ง อัลกอริธึมหยุดลงเมื่อไม่รู้สึกว่าการเคลื่อนไหวอีกครั้งจะให้ผลดีขึ้นมากขึ้น บรรทัดนี้จะบอกคุณว่ามีการวนซ้ำหลายครั้งก่อนที่กระบวนการจะหยุดและส่งผลลัพธ์ออกมา



เกี่ยวกับรุ่นที่สองและผลลัพธ์ที่คุณแสดงรายการนี่เป็นเพียงวิธีที่แตกต่างในการแสดงผลลัพธ์ โดยเฉพาะสิ่งเหล่านี้

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

เป็นการประมาณการแบบเดียวกันที่กล่าวถึงข้างต้น (แม้ว่าจะมาจากโมเดลที่แตกต่างและนำเสนอด้วยข้อมูลเสริมที่น้อยกว่า)


1

การโทร : นี่เป็นเพียงการโทรที่คุณใช้กับฟังก์ชั่น มันจะเป็นรหัสเดียวกับที่คุณพิมพ์ลงในอาร์ซึ่งจะเป็นประโยชน์สำหรับการดูว่าคุณพิมพ์ผิด

(ความเบี่ยงเบน) ส่วนที่เหลือ:คุณสามารถเพิกเฉยต่อการถดถอยโลจิสติกส์ได้ สำหรับปัวซองหรือการถดถอยเชิงเส้นคุณต้องการให้การกระจายเหล่านี้ปกติมากขึ้นหรือน้อยลง (ซึ่งเป็นสิ่งเดียวกันกับที่พล็อตการวินิจฉัยสองตัวกำลังตรวจสอบอยู่) คุณสามารถตรวจสอบสิ่งนี้ได้โดยดูว่าค่าสัมบูรณ์ของ 1Q และ 3Q อยู่ใกล้กัน (ish) หรือไม่และถ้าค่ามัธยฐานอยู่ใกล้กับ 0 ค่าเฉลี่ยจะไม่แสดงเพราะมันเป็น 0 เสมอหากค่าใด ๆ เหล่านี้เป็น super off คุณอาจมีข้อมูลบางอย่างผิดปกติ (สิ่งนี้จะปรากฏในแผนการวินิจฉัยของคุณด้วย!)

ค่าสัมประสิทธิ์ : นี่คือเนื้อของเอาท์พุท

  • สกัดกั้น : สำหรับปัวซองและการถดถอยเชิงเส้นนี่คือผลลัพธ์ที่คาดการณ์ไว้เมื่ออินพุตทั้งหมดของเราเป็น 0 สำหรับการถดถอยโลจิสติกค่านี้จะอยู่ห่างจาก 0 มากขึ้นความแตกต่างระหว่างจำนวนการสังเกตในแต่ละชั้น ความไม่แน่นอนของเราเกี่ยวกับสิ่งนี้ (ต่ำกว่าดีกว่า) ในกรณีนี้เนื่องจากการสกัดกั้นของเราอยู่ห่างจาก 0 และข้อผิดพลาดมาตรฐานของเรามีขนาดเล็กกว่าการสกัดกั้นมากเราจึงมั่นใจได้ว่าหนึ่งในชั้นเรียนของเรา (ล้มเหลวหรือไม่ล้มเหลว) มีข้อสังเกตมากมาย (ในกรณีนี้มันคือ "ไม่ล้มเหลว" ขอบคุณ!)

  • อินพุตต่าง ๆ (แต่ละอินพุตจะอยู่ในบรรทัดที่แตกต่างกัน): การประเมินนี้แสดงให้เห็นว่าเราคิดว่าเอาต์พุตจะเปลี่ยนไปมากน้อยแค่ไหนในแต่ละครั้งที่เราเพิ่มอินพุตนี้ 1 ยิ่งการประมาณการยิ่งมาก ข้อผิดพลาดมาตรฐานคือความมั่นใจของเรา โดยปกติเราค่อนข้างมั่นใจได้ว่าข้อมูลที่ป้อนเข้านั้นมีข้อผิดพลาดมาตรฐานคือ 1/10 ของการประมาณการ ดังนั้นในกรณีนี้เราค่อนข้างมั่นใจว่าการสกัดกั้นนั้นสำคัญ

  • signif รหัส : นี่คือกุญแจสู่ความสำคัญของแต่ละรายการ: อินพุตและการสกัดกั้น สิ่งเหล่านี้จะถูกต้องก็ต่อเมื่อคุณพอดีกับรุ่นเดียวกับข้อมูลของคุณ (กล่าวอีกอย่างหนึ่งคือมันยอดเยี่ยมสำหรับข้อมูลทดลองถ้าคุณเริ่มต้นจากตัวแปรที่คุณสนใจและไม่ให้ข้อมูลสำหรับการวิเคราะห์ข้อมูลหรือการเลือกตัวแปร)

    รอทำไมเราไม่สามารถใช้นัยสำคัญทางสถิติได้? คุณสามารถฉันจะไม่แนะนำโดยทั่วไป ในศาสตร์ข้อมูลคุณมักจะเหมาะสมกับหลาย ๆ โมเดลโดยใช้ชุดข้อมูลเดียวกันเพื่อลองและเลือกโมเดลที่ดีที่สุด หากคุณเคยทดสอบมากกว่าหนึ่งครั้งสำหรับนัยสำคัญทางสถิติในชุดข้อมูลเดียวกันคุณจำเป็นต้องปรับค่า p ของคุณเพื่อทำการทดสอบ คุณสามารถคิดได้ด้วยวิธีนี้: ถ้าคุณตัดสินใจว่าคุณจะยอมรับผลลัพธ์ที่ต่ำกว่า p = 0.05 คุณจะบอกว่าคุณผิดด้วยยี่สิบครั้ง อย่างไรก็ตามถ้าคุณทำการทดสอบห้าครั้งและแต่ละครั้งมีโอกาส 1/20 ที่คุณจะผิดตอนนี้คุณมีโอกาส 1/4 ที่จะผิดในการทดสอบอย่างน้อยหนึ่งครั้ง ... แต่คุณ ไม่รู้ว่าอันไหน คุณสามารถแก้ไขได้ (โดยการคูณค่า p ที่คุณจะยอมรับอย่างมีนัยสำคัญจากจำนวนการทดสอบที่คุณจะ preform ) แต่ในทางปฏิบัติฉันคิดว่ามันง่ายกว่าที่จะหลีกเลี่ยงการใช้ค่า p ทั้งหมด

(พารามิเตอร์การกระจายสำหรับตระกูลทวินามที่เป็น 1):คุณจะเห็นสิ่งนี้สำหรับการถดถอยของปัวซองและทวินาม (โลจิสติก) เป็นเพียงการแจ้งให้คุณทราบว่ามีการเพิ่มพารามิเตอร์มาตราส่วนเพิ่มเติมเพื่อช่วยให้พอดีกับโมเดล คุณสามารถเพิกเฉยได้

ความเบี่ยงเบนว่างเปล่า:ความเบี่ยงเบนว่างเปล่าบอกเราว่าเราสามารถทำนายผลลัพธ์ของเราได้ดีเพียงใช้การสกัดกั้น เล็กกว่าดีกว่า

การเบี่ยงเบนที่เหลือ:การเบี่ยงเบนที่เหลือบอกเราว่าเราสามารถทำนายผลลัพธ์ของเราได้ดีเพียงใดโดยใช้การสกัดกั้นและอินพุตของเรา เล็กกว่าดีกว่า ความแตกต่างที่ใหญ่กว่าระหว่างการเบี่ยงเบนที่ว่างเปล่าและการเบี่ยงเบนที่เหลืออยู่ก็ยิ่งมีประโยชน์มากขึ้นที่ตัวแปรอินพุตของเรามีไว้สำหรับการทำนายตัวแปรเอาต์พุต

AIC: AIC เป็น "เกณฑ์ข้อมูล Akaike" และเป็นค่าประมาณว่าโมเดลของคุณอธิบายรูปแบบในข้อมูลของคุณได้ดีเพียงใด ส่วนใหญ่จะใช้สำหรับการเปรียบเทียบรุ่นที่ได้รับการฝึกอบรมในชุดข้อมูลเดียวกัน หากคุณต้องการเลือกระหว่างรุ่นต่างๆรุ่นที่มี AIC ที่ต่ำกว่ากำลังทำงานได้ดีขึ้นอธิบายความแปรปรวนในข้อมูล

จำนวนการทำซ้ำการให้คะแนนของชาวประมง:นี่เป็นเพียงการวัดระยะเวลาที่เหมาะสมกับแบบจำลองของคุณ คุณสามารถเพิกเฉยได้อย่างปลอดภัย

ฉันแนะนำทั้งหมดนี้เพื่อเรียนรู้เพิ่มเติม https://www.kaggle.com/rtatman/regression-challenge-day-5

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.