การตีความเอาต์พุต drop1 ใน R


14

ใน R drop1คำสั่งจะให้ผลลัพธ์ที่เรียบร้อย
คำสั่งทั้งสองนี้ควรให้ผลลัพธ์บางอย่างแก่คุณ:
example(step)#-> swiss
drop1(lm1, test="F")

ฉันมีลักษณะเช่นนี้:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

ทั้งหมดนี้หมายความว่าอย่างไร ฉันสมมติว่า "ดวงดาว" ช่วยในการตัดสินใจว่าควรป้อนตัวแปรอินพุตใดไว้ เมื่อดูที่ผลลัพธ์ข้างต้นฉันต้องการทิ้งตัวแปร "ตรวจสอบ" และมุ่งเน้นไปที่ตัวแปร "การศึกษา" การตีความนี้ถูกต้องหรือไม่

นอกจากนี้ค่า AIC ที่ต่ำกว่าดีกว่าใช่ไหม

เอ็ด โปรดทราบคำตอบ Community Wiki ด้านล่างและเพิ่มลงไปหากคุณเห็นว่าเหมาะสมเพื่อชี้แจงผลลัพธ์นี้


7
ความช่วยเหลือใน R มีไว้เพื่ออธิบายวิธีใช้ฟังก์ชัน มันไม่ได้หมายถึงการเป็นหลักสูตรเกี่ยวกับสถิติ โดยทั่วไปแล้วฉันเชื่อว่าหน้าความช่วยเหลือ R เป็นหนึ่งในที่สุดที่สมบูรณ์และมีประโยชน์จากแพ็คเกจโอเพนซอร์สทั้งหมดที่ฉันรู้จัก และจ่ายแพ็คเกจสำหรับเรื่องนั้น ๆ SPSS และ SAS มอบ mumbo-jumbo จำนวนมากให้กับครึ่งความจริงและ nonsens ที่สมบูรณ์เป็น "แนวทางสำหรับการตีความ"
Joris Meys

1
คำถามนี้ถูกลดระดับลงแล้ว ฉันไม่ได้ตั้งใจจะให้ +1 ของฉัน แต่ตอนนี้ดูเหมือนว่าการลงคะแนนจะไม่สร้างสรรค์มาก: (1) OP ทำให้ชัดเจนว่าเป็นการบ้านและใช้ชุดข้อมูล R built-in เพื่อเป็นภาพประกอบไม่ใช่ของเขา ข้อมูล (2) คำถามที่เกี่ยวข้องกับstep()ได้รับการจัดอันดับ +2 ในขณะที่เขียนนี้ (ดังนั้นทำไม?!), (3) OP ยอมรับถึงประโยชน์ของการตอบกลับของ @ Joris
chl

@chl: ดูเหมือนว่าฉันไม่ใช่คนเดียวที่มีนิ้วเท้าที่บอบบางเมื่อพูดถึงหน้าช่วยเหลือ R :-) แต่ฉันเห็นด้วยสุดใจกับคุณ คำถามนั้นถูกต้องถามอย่างชัดเจนและด้วยเหตุนี้จึงไม่มีเหตุผลใด ๆ ที่จะลงคะแนน
Joris Meys

เฮ้ฉันขอโทษถ้าฉันเหยียบนิ้วเท้าของคุณด้วยความเย่อหยิ่งของฉันที่ความช่วยเหลือฉันแค่ไม่อดทนเมื่อมันมาถึงอะไรกับบรรทัดคำสั่งจริง ๆ ฉันประหลาดแบบนั้นฉันรู้ คุณจะไม่เป็นคนแรกที่โทรหาฉัน :) ฉันชอบสถานที่แห่งนี้ผู้คนมีความซื่อสัตย์
gakera

เราไปกันแล้วฉันแก้ไขคำถามเพื่อไม่ให้เป็นการสนับสนุนผู้สนับสนุนของ R และ R ช่วย :) และตั้งคำถามใหม่เกี่ยวกับ AIC เพื่อหลีกเลี่ยงการทำให้ผู้อ่าน OP เข้าใจผิดเท่านั้น
gakera

คำตอบ:


10

drop1แสดงการเปรียบเทียบรุ่นตามเกณฑ์ AIC และเมื่อใช้ตัวเลือกที่test="F"คุณเพิ่ม "type II ANOVA" ตามที่อธิบายไว้ในไฟล์วิธีใช้ ตราบใดที่คุณมีตัวแปรต่อเนื่องเท่านั้นตารางนี้จะเทียบเท่ากับ summary(lm1)ทั้งหมดเนื่องจากค่า F เป็นเพียงค่า T สองค่าเหล่านั้น ค่า P เหมือนกันทุกประการ

ดังนั้นจะทำอย่างไรกับมัน? Interprete ในลักษณะนั้น: มันแสดงออกในแบบที่โมเดลที่ไม่มีคำว่า "สำคัญ" แตกต่างจากโมเดลที่มีคำนั้น นึกถึง "" อย่างมีนัยสำคัญเนื่องจากความสำคัญที่นี่ไม่สามารถตีความได้เหมือนที่คนส่วนใหญ่คิด (ปัญหาการทดสอบหลายอย่างและทั้งหมด ... )

และเกี่ยวกับ AIC: ยิ่งต่ำยิ่งดีก็ยิ่งชอบ AIC เป็นค่าที่ใช้สำหรับโมเดลไม่ใช่สำหรับตัวแปร โมเดลที่ดีที่สุดจากผลลัพธ์นั้นจะเป็นรุ่นที่ไม่มีการตรวจสอบตัวแปร

ใจคุณคำนวณของทั้งสอง AIC และสถิติ F มีความแตกต่างจากฟังก์ชั่น R AIC(lm1)รับผิดชอบ anova(lm1). สำหรับการที่จะได้รับข้อมูลในหน้าความช่วยเหลือของAIC() extractAIC()สำหรับanova()ฟังก์ชั่นนั้นค่อนข้างชัดเจนว่า type I และ type II SS นั้นไม่เหมือนกัน

ฉันพยายามไม่หยาบคาย แต่ถ้าคุณไม่เข้าใจสิ่งที่อธิบายไว้ในไฟล์ช่วยเหลือที่นั่นคุณไม่ควรใช้ฟังก์ชั่นนี้ตั้งแต่แรก การถดถอยแบบขั้นตอนเป็นเรื่องยากอย่างไม่น่าเชื่อทำให้ค่า p ของคุณในลักษณะที่ลึกซึ้งที่สุด ดังนั้นอีกครั้งไม่ได้ยึดตัวเองใน P-ค่า แบบจำลองของคุณควรสะท้อนสมมติฐานของคุณและไม่ใช่วิธีอื่น


1
ฉันชอบความรู้สึกนี้ "ถ้าฉันไม่เข้าใจสิ่งที่ฉันทำไปแล้วฉันไม่ควรพยายามที่จะเรียนรู้ ... " นี่เป็นวิธีที่ใช้ในการช่วยเหลือ R - มันไม่มีประโยชน์เว้นแต่คุณจะรู้ว่ามีอะไรบ้าง กำลังเกิดขึ้น. ฉันหวังว่านี่อาจเป็นการเริ่มต้นของสิ่งที่แตกต่าง
gakera

แต่ฉันสามารถใช้ส่วนนี้ของคำตอบของคุณ: "Interprete ด้วยวิธีนั้น: มันเป็นการแสดงออกถ้าโมเดลที่ไม่มีคำนั้นแตกต่างจากแบบจำลองกับคำนั้นอย่างมีนัยสำคัญ" สำหรับฉันนี่หมายความว่าค่า Pr (F) เป็นความสำคัญของแต่ละคำเหล่านี้และค่าเล็กน้อยหมายความว่าตัวแปรนี้มีความสำคัญ แบบจำลองที่ดีควรรวมตัวแปร "***" และไม่ใช่แบบที่ไม่มีดาว
gakera

4
@gakera: คุณเข้าใจฉันผิด ถ้าคุณไม่เข้าใจสิ่งที่คุณกำลังทำคุณแน่นอนควรพยายามที่จะเรียนรู้มันก่อนที่จะใช้ นั่นหมายถึงการอ่านสถิติและติดตามหลักสูตร ดังนั้นตัวแบบที่ดีควรรวมตัวแปรที่กำหนดไว้ในสมมติฐาน หากคุณยึดตามตัวแปร "***" คุณต้องเรียนรู้วิธีการสร้างแบบจำลองอย่างละเอียดก่อน เห็นได้ชัดว่าคุณไม่เข้าใจความคิดเห็นล่าสุดของฉัน ขออภัยสำหรับการสื่อสารโดยตรงมาพร้อมกับผู้ชาย ไม่มีอะไรเป็นส่วนตัว.
Joris Meys

@gakera: ฉันได้อัปเดตคำตอบของฉันเพื่อชี้แจงประเด็นที่สำคัญ สาเหตุหลักมาจากคุณตีความส่วนที่คุณคิดผิดไป
Joris Meys

ฉันกำลังเรียนรู้ด้วยการทำนี่คือการบ้านหลังจากทั้งหมดไม่มีใครจะตายถ้าฉันไม่ได้สิ่งนี้ - ปลาตายแล้ว: P ขอบคุณสำหรับความช่วยเหลือจนถึงตอนนี้และไม่ต้องกังวลนี่ไม่ใช่ ครั้งแรกของฉันบนอินเทอร์เน็ต :)
gakera

4

สำหรับการอ้างอิงนี่คือค่าที่รวมอยู่ในตาราง:
DfหมายถึงDegrees of freedom "จำนวนองศาอิสระคือจำนวนของค่าในการคำนวณขั้นสุดท้ายของสถิติที่มีอิสระในการเปลี่ยนแปลง"

Sum of Sqคอลัมน์หมายถึงผลรวมของสี่เหลี่ยม (หรืออย่างแม่นยำมากขึ้นรวมของส่วนเบี่ยงเบนยกกำลังสอง ) ในระยะสั้นนี้เป็นการวัดจำนวนเงินที่แต่ละค่าเบี่ยงเบนจากค่าเฉลี่ยโดยรวมของค่าเหล่านั้น
RSSคือผลรวมที่เหลือของกำลังสอง สิ่งเหล่านี้เป็นการวัดว่าค่าที่ทำนายของตัวแปร dependent (หรือ output) แตกต่างจากค่าจริงสำหรับแต่ละจุดข้อมูลในชุด (หรือมากกว่าเรียกขาน: แต่ละ "บรรทัด" ในตารางข้อมูล)

AICเป็นเกณฑ์ข้อมูล Akaikeซึ่งโดยทั่วไปถือว่าเป็น "ซับซ้อนเกินกว่าที่จะอธิบาย" แต่ในระยะสั้นการวัดความดีของความพอดีของแบบจำลองทางสถิติโดยประมาณ หากคุณต้องการรายละเอียดเพิ่มเติมคุณจะต้องหันไปหาต้นไม้ที่ตายแล้วพร้อมคำพูด (เช่นหนังสือ) หรือวิกิพีเดียและแหล่งข้อมูลที่นั่น

F valueถูกนำมาใช้ในการดำเนินการในสิ่งที่เรียกว่าF-ทดสอบและมันเป็นที่ได้รับPr(F)ความคุ้มค่าซึ่งจะอธิบายวิธีแนวโน้ม (หรือน่าจะเป็น = Pr) ที่ค่า F คือ ค่า Pr (F) ใกล้กับศูนย์ (บ่งชี้โดย***) บ่งบอกถึงตัวแปรอินพุตที่มีความสำคัญในการรวมไว้ในตัวแบบที่ดีนั่นคือแบบจำลองที่ไม่รวมมันคือ "นัยสำคัญ" ที่แตกต่างจากที่หนึ่ง ที่ทำ

ค่าทั้งหมดเหล่านี้คือในบริบทของdrop1คำสั่งคำนวณเพื่อเปรียบเทียบรูปแบบโดยรวม (รวมถึงตัวแปรอินพุตทั้งหมด) ด้วยรูปแบบที่เกิดจากการลบตัวแปรเฉพาะหนึ่งตัวต่อแต่ละบรรทัดในตารางผลลัพธ์

ตอนนี้หากสามารถปรับปรุงได้โปรดอย่าลังเลที่จะเพิ่มเข้าไปหรือชี้แจงปัญหาใด ๆ เป้าหมายของฉันคือการชี้แจงและให้การอ้างอิง "การค้นหาแบบย้อนกลับ" ที่ดีขึ้นจากเอาต์พุตของคำสั่ง R ไปยังความหมายที่แท้จริงของมัน


@gakera การถดถอยเชิงปฏิบัติและ Anova โดยใช้ Rเป็นจุดเริ่มต้นที่ดีสำหรับการทำความเข้าใจโมเดลเชิงเส้นและวิธีการที่เกี่ยวข้องกับตัวแปร / การเลือกแบบจำลอง ตามที่โจริสชี้ให้เห็นการถดถอยแบบขั้นตอนนั้นแทบจะไม่ใช่ยาครอบจักรวาล
chl

ฮะขอบคุณที่เพิ่มลิงค์ @chl ในขณะที่ยังคงปฏิเสธความรับผิดชอบของฉันเป็นสาเหตุที่ฉันไม่สามารถโพสต์ คุณต้องยอมรับว่าฉันดูด: D
gakera

1
@gakera ฉันคิดว่าคุณต้องมีตัวแทนเพิ่มเติมเพื่อเพิ่มมากกว่าหนึ่งลิงก์ต่อการแก้ไข - ฉันสามารถเข้าใจได้ว่ามันไม่ได้เป็นที่น่าพอใจเมื่อเริ่มต้นในเว็บไซต์ถามตอบ ฉันคิดว่าคุณจะลบประโยคสุดท้ายของคุณเอง ในทางกลับกันฉันรู้สึกว่าคุณไม่ควรคาดหวัง upvotes มากเกินไปสำหรับการให้คำตอบสำหรับคำถามของคุณเพราะมันเป็นประเภทของการสรุป '(มีประโยชน์แม้ว่า)
chl

ฉันไม่ได้ทำสิ่งนี้เพื่อ upvotes (นั่นคือ Reddit: P) - บทสรุปที่มีประโยชน์เป็นสิ่งที่ฉันจะทำ - ส่วนใหญ่สำหรับตัวเอง แต่อาจเป็นประโยชน์สำหรับผู้อื่นเช่นกัน
gakera

@gakera ฉันแน่ใจว่านี่ไม่ใช่เพื่อการ upvotes ส่วนใหญ่เราตั้งค่าการตอบสนองของเราเองเป็น Community Wiki (CW) เมื่อพวกเขาไม่ได้เพิ่มข้อมูลเพิ่มเติมหรือขัดแย้ง นี่เป็นวิธีที่เป็นกลางในการสรุปหรือรวมการตอบกลับของผู้อื่น
CHL
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.