การคำนวณปัญหาการตีความ regsubsets และคำถามทั่วไปเกี่ยวกับขั้นตอนการเลือกรุ่น


9

regsubsets()ฉันต้องการที่จะเลือกใช้แบบจำลอง ฉันมีชื่อไฟล์ชื่อ olympiadaten (อัปโหลดข้อมูลแล้ว: http://www.sendspace.com/file/8e27d0 ) ฉันแนบไฟล์ข้อมูลนี้ก่อนแล้วจึงเริ่มวิเคราะห์รหัสของฉันคือ:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

สกรีนช็อตของพล็อต:
http://tinypic.com/r/2pq8agy/6

ปัญหาคือตอนนี้ที่ฉันต้องการให้พอดีกับรุ่นที่ดีที่สุดอีกครั้ง "ด้วยตนเอง" และได้ดูมัน แต่ค่าของ R กำลังสองปรับไม่เหมือนในการส่งออก regsubsets? นี่เป็นกรณีสำหรับรุ่นอื่นเช่นเมื่อฉันทำแบบจำลองที่ง่ายที่สุดในกราฟิก:

summary(lm(Gesamt~ExpHealth))

กราฟิกบอกว่ามันควรจะมีค่า R ที่ได้รับการปรับประมาณ 0.14 แต่เมื่อฉันดูผลลัพธ์ฉันจะได้รับค่า 0.06435

นี่คือผลลัพธ์ของsummary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271 

ฉันไม่รู้ว่าฉันทำผิดอะไรความช่วยเหลือจะได้รับการชื่นชม

และสุดท้าย แต่ไม่ท้ายสุดมีคำถามเพิ่มเติม:

  • ความแตกต่างระหว่างการเลือกรุ่นโดย AIC และโดย adj คืออะไร R กำลังสองใช่ไหม
  • ทั้งสองวัดความพอดีและรับรู้จำนวนของตัวแปรดังนั้นโมเดลที่ดีที่สุดที่เลือกโดย AIC ไม่ใช่รุ่นที่มี adj สูงสุด กำลังสอง?
  • เมื่อฉันมี 12 ตัวแปรหมายความว่ามีความเป็นไปได้รุ่นใช่มั้ย 212
  • ดังนั้นregsubsets()คำสั่งจะคำนวณแต่ละโมเดลและแสดงสองดีที่สุด ( nbest=2) ของแต่ละขนาดหรือไม่
  • ถ้าเป็นเช่นนั้นฉันจะได้รุ่นที่ดีที่สุดจริง ๆ หรือไม่
  • และเมื่อฉันใช้ AIC โดยใช้การเลือกแบบย้อนกลับ (เริ่มจากรุ่นที่มีตัวแปรทั้งหมด) สิ่งนี้จะจบลงด้วยรูปแบบเดียวกันกับที่regsubsets()บอกว่าดีที่สุดหรือไม่?

1
ความแตกต่างในการปรับเป็นเพราะตัวแปรบางตัวมีค่าขาดหายไป ฉันเชื่อว่าคุณจะได้รับการปรับเหมือนกันหากคุณติดตั้งแบบจำลอง "ด้วยตนเอง" เพียงแค่ใช้ชุดย่อยของข้อมูลซึ่งตัวแปรทั้งหมด (ในสูตรใน regsubsets) จะไม่หายไป หมายเหตุ: การเลือกรุ่นของคุณโดยใช้ regsubsets ถือว่าเป็นวิธีที่ไม่ดี R2R2
mark999

1
@ mark999 ความคิดเห็นของคุณดีและดูเหมือนว่าจะให้คำตอบที่ถูกต้อง คุณควรแปลงเป็นคำตอบ
Michael R. Chernick

ขอบคุณ @MichaelChernick แต่ฉันชอบที่จะแสดงความคิดเห็น
mark999

@ user1690846 ฉันขอแนะนำให้ดูคำตอบของ Peter Flom ต่อstats.stackexchange.com/questions/8303/…
mark999

@ mark999 ก่อนอื่นเลยขอบคุณสำหรับคำตอบ แต่ทำไมถึงเป็นวิธีที่แย่? และการเลือกกับ AIC ดีกว่าไหม? ดังนั้นฉันควรติดตั้งโมเดลโดยใช้ na.omit (olympiadaten) หรือไม่ หากใครมีคำตอบสำหรับคำถามอื่น ๆ คำตอบเพิ่มเติมใด ๆ ที่จะได้รับการชื่นชมอย่างมากขอบคุณ
user1690846

คำตอบ:


7

เพื่อเพิ่มเติมแนวคิดเกี่ยวกับการใช้ชุดย่อยทั้งหมดหรือชุดเครื่องมือย่อยที่ดีที่สุดสำหรับการค้นหาโมเดลที่เหมาะสม "ดีที่สุด" หนังสือ "How to Lie with Statistics" โดย Darrell Huff บอกเล่าเรื่องราวเกี่ยวกับ Readers Digest ที่เผยแพร่การเปรียบเทียบสารเคมีในควันบุหรี่ จุดประสงค์ของบทความของพวกเขาคือการแสดงให้เห็นว่าไม่มีความแตกต่างที่แท้จริงระหว่างแบรนด์ที่แตกต่างกัน แต่แบรนด์หนึ่งมีค่าต่ำที่สุดในสารเคมีบางประเภท (แต่มีน้อยมากที่ความแตกต่างนั้นไม่มีความหมาย) และแบรนด์นั้นเริ่มแคมเปญโฆษณาขนาดใหญ่ เป็น "ต่ำสุด" หรือ "ดีที่สุด" ตาม Readers Digest

การย่อยทั้งหมดหรือชุดย่อยที่ดีที่สุดนั้นคล้ายคลึงกันข้อความจริงจากกราฟที่คุณแสดงไม่ใช่ "นี่คือดีที่สุด" แต่จริงๆแล้วไม่มีโมเดลที่ดีที่สุดเลย จากมุมมองทางสถิติ (โดยใช้ r-squared ที่ปรับแล้ว) โมเดลส่วนใหญ่ของคุณจะเหมือนกันมาก (ไม่กี่ที่ด้านล่างจะด้อยกว่าที่แสดงไว้ด้านบน แต่ส่วนที่เหลือจะคล้ายกันทั้งหมด) คุณต้องการที่จะหาโมเดล "ดีที่สุด" จากตารางนั้นเหมือน บริษัท บุหรี่ที่บอกว่าผลิตภัณฑ์ของพวกเขาดีที่สุดเมื่อมีจุดประสงค์เพื่อแสดงว่าพวกเขาเหมือนกันหมด

นี่คือสิ่งที่ต้องลองสุ่มลบจุดหนึ่งจากชุดข้อมูลและรันการวิเคราะห์อีกครั้งคุณได้รับแบบจำลอง "ดีที่สุด" เดียวกันหรือไม่ หรือมันจะเปลี่ยน? ทำซ้ำ 2-3 ครั้งเพื่อลบจุดที่แตกต่างกันในแต่ละครั้งเพื่อดูว่ารูปแบบ "ดีที่สุด" เปลี่ยนแปลงไปอย่างไร คุณสบายใจที่อ้างว่าโมเดลเป็น "ดีที่สุด" เมื่อการเปลี่ยนแปลงเล็กน้อยในข้อมูลให้ "ดีที่สุด" ที่แตกต่างกันหรือไม่? ดูที่ค่าสัมประสิทธิ์ที่แตกต่างกันระหว่างโมเดลต่าง ๆ คุณจะตีความการเปลี่ยนแปลงเหล่านั้นได้อย่างไร

เป็นการดีกว่าที่จะเข้าใจคำถามและวิทยาศาสตร์ที่อยู่เบื้องหลังข้อมูลและใช้ข้อมูลนั้นเพื่อช่วยในการตัดสินใจในรูปแบบ "ดีที่สุด" พิจารณา 2 รุ่นที่คล้ายกันมากความแตกต่างเพียงอย่างเดียวคือแบบจำลองหนึ่งรวมx1 และอื่น ๆ รวมถึง x2แทน. รูปแบบด้วยx1 เหมาะกับที่ดีกว่าเล็กน้อย (adj r-squared จาก 0.49 เทียบกับ 0.48) อย่างไรก็ตามในการวัด x1 ต้องใช้การผ่าตัดและรอผลการตรวจทางห้องปฏิบัติการเป็นเวลา 2 สัปดาห์ x2ใช้เวลา 5 นาทีและ Sphygmomanometer มันจะคุ้มค่ากับเวลาพิเศษค่าใช้จ่ายและความเสี่ยงที่จะได้รับ 0.01 เพิ่มเติมใน adjuster r-squared หรือโมเดลที่ดีกว่าจะเป็นโมเดลที่เร็วกว่าราคาถูกและปลอดภัยกว่าหรือไม่ อะไรทำให้รู้สึกจากมุมมองทางวิทยาศาสตร์ ในตัวอย่างข้างต้นคุณคิดว่าการใช้จ่ายด้านการทหารเพิ่มขึ้นจะช่วยเพิ่มประสิทธิภาพการแข่งขันกีฬาโอลิมปิกได้หรือไม่? หรือเป็นกรณีของตัวแปรที่ทำหน้าที่เป็นตัวแทนสำหรับตัวแปรการใช้จ่ายอื่น ๆ ที่จะมีผลกระทบโดยตรงมากขึ้น?

สิ่งอื่น ๆ ที่ควรพิจารณารวมถึงการใช้แบบจำลองที่ดีหลาย ๆ แบบและรวมเข้าด้วยกัน (การหาค่าเฉลี่ยแบบจำลอง) หรือแทนที่จะให้แต่ละตัวแปรมีทั้งหมดเข้าหรือออกทั้งหมดเพิ่มรูปแบบของการลงโทษ (สันถดถอย LASSO, elasticnet, ... )


คำตอบที่ดี! ไฮไลท์"จะดีกว่าที่จะเข้าใจคำถามและวิทยาศาสตร์ที่อยู่เบื้องหลังข้อมูลและใช้ข้อมูลนั้นเพื่อช่วยในการตัดสินใจในรูปแบบ" ดีที่สุด "และทุกย่อหน้าที่ตามมา
อังเดรซิลวา

2

มีการตอบคำถามบางข้อดังนั้นฉันจึงพูดถึงเรื่องการเลือกรุ่นเท่านั้น AIC, BIC, Mallow Cp และปรับ R2เป็นวิธีการทั้งหมดในการเปรียบเทียบและเลือกรุ่นที่มีปัญหาบัญชีของโมเดลที่ติดตั้งมากเกินไปโดยการวัดที่ปรับปรุงหรือฟังก์ชันการลงโทษในเกณฑ์ แต่ในกรณีที่ฟังก์ชั่นการลงโทษแตกต่างกันเป็นไปได้มากที่เกณฑ์สองข้อที่คล้ายกันจะนำไปสู่ตัวเลือกที่แตกต่างกันสำหรับรุ่นสุดท้าย ค่าต่ำสุดสำหรับเกณฑ์ที่แตกต่างกันสามารถเกิดขึ้นได้กับรุ่นที่แตกต่างกัน สิ่งนี้ถูกสังเกตบ่อยครั้งเมื่อดูที่รุ่นที่เลือกโดย AIC และ BIC

ฉันไม่รู้จริงๆว่าคุณหมายถึงอะไรโดยนางแบบที่ดีที่สุด เกณฑ์แต่ละข้อนั้นให้คำจำกัดความที่ดีที่สุด คุณสามารถโทรหาโมเดลได้ดีที่สุดในแง่ของข้อมูลเอนโทรปีความซับซ้อนสุ่มอธิบายความแปรปรวนร้อยละ (ปรับปรุง) และอื่น ๆ หากคุณกำลังเผชิญกับ crtierion ที่เฉพาะเจาะจงและมีความหมายโดยการจับขั้นต่ำที่แท้จริงสำหรับการพูด AIC ผ่านแบบจำลองที่เป็นไปได้ทั้งหมดซึ่งสามารถรับประกันได้โดยดูที่แบบจำลองทั้งหมดเท่านั้น (เช่นการเลือกชุดย่อยทั้งหมดสำหรับตัวแปร) ขั้นตอนแบบขั้นตอนแบบขั้นตอนและแบบขั้นตอนมักไม่พบรุ่นที่ดีที่สุดในแง่ของการวิเคราะห์เฉพาะ ด้วยการถดถอยขั้นตอนคุณสามารถได้คำตอบที่แตกต่างกันโดยเริ่มโมเดลที่แตกต่างกัน ฉันแน่ใจว่า Frank Harrell จะมีหลายสิ่งที่จะพูดเกี่ยวกับเรื่องนี้

หากต้องการเรียนรู้เพิ่มเติมมีหนังสือดีๆหลายเล่มเกี่ยวกับการเลือกรุ่น / ชุดย่อยและฉันได้อ้างอิงไว้ที่นี่ในโพสต์อื่น ๆ นอกจากนี้เอกสารของ Lacey Gunter กับ Springer ในซีรีย์ SpringerBrief จะออกมาเร็ว ๆ นี้ ฉันเป็นผู้เขียนร่วมกับเธอในหนังสือเล่มนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.