สิ่งที่คุณได้ทำคือการถดถอยโลจิสติก ซึ่งสามารถทำได้โดยทั่วไปซอฟต์แวร์ทางสถิติใด ๆ และผลลัพธ์จะคล้ายกัน (อย่างน้อยในเนื้อหาแม้ว่าการนำเสนออาจแตกต่างกัน) มีคำแนะนำเกี่ยวกับการถดถอยโลจิสติกด้วย Rบนเว็บไซต์ช่วยเหลือสถิติที่ยอดเยี่ยมของ UCLA หากคุณไม่คุ้นเคยกับสิ่งนี้คำตอบของฉันที่นี่: ความแตกต่างระหว่างรุ่น logit และ probitอาจช่วยให้คุณเข้าใจว่า LR เกี่ยวกับอะไร (แม้ว่ามันจะถูกเขียนในบริบทที่แตกต่างกัน)
คุณดูเหมือนจะมีสองรุ่นที่นำเสนอฉันจะมุ่งเน้นไปที่ด้านบนอย่างใดอย่างหนึ่ง นอกจากนี้ดูเหมือนว่าจะมีข้อผิดพลาดในการคัดลอกและวางโมเดลหรือเอาต์พุตดังนั้นฉันจะสลับleaves.presence
กับArea
เอาต์พุตเพื่อให้สอดคล้องกับโมเดล นี่คือรูปแบบที่ฉันหมายถึง (โปรดสังเกตว่าฉันเพิ่ม(link="logit")
ซึ่งมีนัยโดยfamily=binomial
; เห็น? glmและ? ครอบครัว ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
เรามาดูผลลัพธ์นี้ (สังเกตว่าฉันเปลี่ยนชื่อของตัวแปรในบรรทัดที่สองใต้Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
เช่นเดียวกับมีเหลือในเชิงเส้น (OLS) ถดถอยอาจมีความคลาดเคลื่อนในการถดถอยโลจิสติกและอื่น ๆ ทั่วไปเส้นตรงรุ่น พวกเขามีความซับซ้อนมากขึ้นเมื่อตัวแปรตอบสนองไม่ต่อเนื่อง GLiMs มีห้าประเภทที่แตกต่างกัน แต่สิ่งที่มาในรายการมาตรฐานคือส่วนเบี่ยงเบนความเบี่ยงเบน ( อันซ์และเบี่ยงเบนความคลาดเคลื่อนสูงขึ้นดังนั้นฉันจะเป็นช่วงสั้น ๆ ที่นี่หากการสนทนานี้ค่อนข้างยากที่จะทำตามฉันจะไม่ต้องกังวลมากเกินไปคุณสามารถข้ามได้):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
สำหรับจุดข้อมูลทุกจุดที่ใช้ในแบบจำลองของคุณจะคำนวณความเบี่ยงเบนที่เกี่ยวข้องกับจุดนั้น ในการทำสิ่งนี้ในแต่ละจุดคุณมีชุดของส่วนที่เหลือและผลลัพธ์ข้างต้นเป็นเพียงคำอธิบายแบบไม่อิงพารามิเตอร์ของการแจกแจง
ต่อไปเราจะดูข้อมูลเกี่ยวกับเพื่อนร่วมงานซึ่งเป็นสิ่งที่คนทั่วไปให้ความสนใจเป็นหลัก:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
สำหรับโมเดลการถดถอยโลจิสติกอย่างง่ายเช่นนี้มีเพียง covariate ( Area
ที่นี่) และการสกัดกั้น (บางครั้งเรียกว่า 'ค่าคงที่') หากคุณมีการถดถอยโลจิสติกหลายรายการจะมีตัวแปรร่วมเพิ่มเติมด้านล่างนี้ แต่การตีความผลลัพธ์จะเหมือนกัน ภายใต้Estimate
ในแถวที่สองสัมประสิทธิ์เกี่ยวข้องกับตัวแปรที่อยู่ทางซ้าย เป็นจำนวนเงินโดยประมาณที่อัตราต่อรองของleaves.presence
จะเพิ่มขึ้นหากArea
สูงกว่าหนึ่งหน่วย อัตราต่อรองของleaves.presence
เวลาที่Area
เป็นอยู่เหนือในแถวแรก (หากคุณไม่คุ้นเคยกับอัตราต่อรองอย่างเพียงพออาจช่วยให้คุณอ่านคำตอบของฉันได้ที่นี่: การตีความการคาดการณ์อัตราต่อรองแบบง่าย ๆ ในการถดถอยโลจิสติกส์0.) ในคอลัมน์ถัดไปเราจะเห็นข้อผิดพลาดมาตรฐานที่เกี่ยวข้องกับการประมาณการเหล่านี้ นั่นคือพวกเขาประมาณว่าโดยเฉลี่ยการประมาณการเหล่านี้จะเด้งถ้าการศึกษานั้นถูกเรียกใช้ซ้ำเหมือนกัน แต่มีข้อมูลใหม่เป็นวรรคเป็นเวร (หากคุณไม่คุ้นเคยกับแนวคิดของข้อผิดพลาดมาตรฐานอาจช่วยให้คุณอ่านคำตอบของฉันได้ที่นี่: วิธีตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ในการถดถอยเชิงเส้น ) หากเราหารการประมาณด้วยข้อผิดพลาดมาตรฐานเราจะ รับความฉลาดทางซึ่งสันนิษฐานว่าจะกระจายตามปกติด้วยตัวอย่างที่มากพอ ค่านี้แสดงอยู่ในรายการด้านz value
ล่าง ด้านล่างนี้Pr(>|z|)
จะแสดงรายการค่า p แบบสองด้านที่สอดคล้องกับค่า z เหล่านั้นในการแจกแจงแบบปกติมาตรฐาน สุดท้ายมีดาวนัยสำคัญดั้งเดิม (และจดบันทึกคีย์ใต้ตารางค่าสัมประสิทธิ์)
Dispersion
เส้นถูกพิมพ์โดยเริ่มต้นด้วย GLiMs แต่ไม่ได้เพิ่มข้อมูลมากที่นี่ (มันเป็นสิ่งสำคัญมากที่มีรูปแบบการนับเช่น) เราไม่สนใจสิ่งนี้
สุดท้ายเราได้รับข้อมูลเกี่ยวกับโมเดลและข้อดีของมัน:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
บรรทัดที่เกี่ยวกับmissingness
มักจะอืมหายไป มันแสดงให้เห็นถึงที่นี่เพราะคุณมี 314 ข้อสังเกตที่ทั้งสองleaves.presence
, Area
หรือทั้งสองอย่างได้หายไป การสังเกตบางส่วนนั้นไม่ได้ใช้ในการปรับโมเดล
การResidual deviance
วัดเป็นการขาดความพอดีของแบบจำลองของคุณโดยรวมในขณะที่Null deviance
การวัดแบบจำลองที่ลดลงซึ่งรวมถึงการสกัดกั้นเท่านั้น ขอให้สังเกตว่าดีกรีอิสระที่เกี่ยวข้องกับทั้งสองนั้นต่างกันเพียงคนเดียว เนื่องจากโมเดลของคุณมี covariate เพียงหนึ่งตัวเท่านั้นจึงมีการประมาณพารามิเตอร์เพิ่มเติมเพียงตัวเดียว ( Estimate
สำหรับArea
) ดังนั้นจึงมีการใช้ระดับความอิสระเพิ่มขึ้นเพียงหนึ่งระดับเท่านั้น สองค่านี้สามารถนำมาใช้ในการดำเนินการทดสอบของรูปแบบในภาพรวมซึ่งจะคล้ายกับโลก -test ที่มาพร้อมกับรูปแบบการถดถอยเชิงเส้น เนื่องจากคุณมี covariate เพียงหนึ่งการทดสอบดังกล่าวจะไม่น่าสนใจในกรณีนี้ F
AICเป็นตัวชี้วัดความดีของพอดีอีกที่คำนึงถึงความสามารถของรูปแบบให้พอดีกับข้อมูล สิ่งนี้มีประโยชน์มากเมื่อเปรียบเทียบสองรุ่นที่หนึ่งอาจเหมาะสมดีกว่า แต่บางทีอาจเป็นเพราะความยืดหยุ่นและทำให้สามารถใส่ข้อมูลใด ๆ ได้ดียิ่งขึ้น เนื่องจากคุณมีรูปแบบเดียวจึงไม่แปลก
การอ้างอิงที่Fisher scoring iterations
เกี่ยวข้องกับการประเมินตัวแบบ แบบจำลองเชิงเส้นสามารถพอดีได้ด้วยการแก้สมการแบบปิด น่าเสียดายที่ไม่สามารถทำได้กับ GLiM ส่วนใหญ่รวมถึงการถดถอยโลจิสติก แต่จะใช้วิธีวนซ้ำ ( อัลกอริทึม Newton-Raphsonตามค่าเริ่มต้น) แทน แบบจำลองนั้นพอดีโดยยึดตามการคาดเดาเกี่ยวกับค่าประมาณที่อาจเป็น อัลกอริทึมจะมองไปรอบ ๆ เพื่อดูว่าแบบเต็มจะได้รับการปรับปรุงโดยใช้การประมาณการแบบอื่นแทนหรือไม่ ถ้าเป็นเช่นนั้นมันจะเคลื่อนที่ไปในทิศทางนั้น (พูดโดยใช้ค่าที่สูงกว่าสำหรับการประมาณค่า) จากนั้นปรับโมเดลให้เหมาะสมอีกครั้ง อัลกอริธึมหยุดลงเมื่อไม่รู้สึกว่าการเคลื่อนไหวอีกครั้งจะให้ผลดีขึ้นมากขึ้น บรรทัดนี้จะบอกคุณว่ามีการวนซ้ำหลายครั้งก่อนที่กระบวนการจะหยุดและส่งผลลัพธ์ออกมา
เกี่ยวกับรุ่นที่สองและผลลัพธ์ที่คุณแสดงรายการนี่เป็นเพียงวิธีที่แตกต่างในการแสดงผลลัพธ์ โดยเฉพาะสิ่งเหล่านี้
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
เป็นการประมาณการแบบเดียวกันที่กล่าวถึงข้างต้น (แม้ว่าจะมาจากโมเดลที่แตกต่างและนำเสนอด้วยข้อมูลเสริมที่น้อยกว่า)