การตีความ Pseudo-R2 ของ McFadden


29

ฉันมีรูปแบบการถดถอยแบบโลจิสติกแบบไบนารีที่มีการปลอม R-squared ของ McFadden 0.192 โดยมีตัวแปรตามเรียกว่าการชำระเงิน (1 = การชำระเงินและ 0 = ไม่มีการชำระเงิน) การตีความ R-squared แบบหลอกคืออะไร?

มันเป็นการเปรียบเทียบแบบสัมพัทธ์สำหรับโมเดลที่ซ้อนกัน (เช่นแบบจำลองตัวแปร 6 ตัวมีการปลอม R-squared ของ McFadden 0.192 ในขณะที่แบบจำลองตัวแปร 5 ตัว (หลังจากลบตัวแปรหนึ่งตัวจากแบบจำลองตัวแปร 6 ดังกล่าวข้างต้น) รุ่นตัวแปร 5 ตัวนี้มีหลอก R - จาก 0.131 เราอยากจะเก็บตัวแปรที่ 6 ไว้ในตัวแบบหรือไม่? หรือเป็นปริมาณที่แน่นอน (เช่นแบบจำลองที่กำหนดซึ่งมีการหลอกของ McFadden R-squared ของ 0.192 นั้นดีกว่ารุ่นใด ๆ ที่มีแบบหลอกของ McFadden R-squared ของ 0.180 (สำหรับรุ่นที่ไม่ได้ซ้อนกัน) - นี่เป็นวิธีที่เป็นไปได้ที่จะดูการหลอก R-squared ของ McFadden อย่างไรก็ตามฉันคิดว่ามุมมองทั้งสองนี้ปิดไปแล้วดังนั้นเหตุผลที่ฉันถามคำถามนี้ที่นี่

ฉันได้ทำการวิจัยอย่างมากเกี่ยวกับหัวข้อนี้และฉันยังไม่พบคำตอบที่ฉันกำลังมองหาในแง่ของความสามารถในการตีความหลอกหลอกของ McFadden R-squared 0.192 ข้อมูลเชิงลึกและ / หรือการอ้างอิงใด ๆ ที่ชื่นชมอย่างมาก! ก่อนที่จะตอบคำถามนี้ฉันทราบดีว่านี่ไม่ใช่มาตรการที่ดีที่สุดในการอธิบายรูปแบบการถดถอยโลจิสติก แต่ฉันต้องการความเข้าใจที่ดีขึ้นเกี่ยวกับสถิตินี้โดยไม่คำนึงถึง!

คำตอบ:


34

ดังนั้นฉันคิดว่าฉันจะสรุปสิ่งที่ฉันได้เรียนรู้เกี่ยวกับหลอก R2 ของ McFadden เป็นคำตอบที่เหมาะสม

การอ้างอิงน้ำเชื้อที่ฉันเห็นสำหรับการหลอกของ McFadden R2 คือ: McFadden, D. (1974)“ การวิเคราะห์ logit แบบมีเงื่อนไขของพฤติกรรมการเลือกเชิงคุณภาพ” Pp 105-142 ใน P. Zarembka (ed.), Frontiers in เศรษฐมิติ สื่อวิชาการ http://eml.berkeley.edu/~mcfadden/travel.html รูปที่ 5.5 แสดงความสัมพันธ์ระหว่างมาตรการ rho-squared และ R2 แบบดั้งเดิมจาก OLS การตีความของฉันคือค่า rho-squared ที่ใหญ่กว่า (pseudo R2 ของ McFadden) ดีกว่าค่าที่น้อยกว่า

การตีความของหลอก R2 ของ McFadden ระหว่าง 0.2-0.4 มาจากบทที่เขาสนับสนุน: การสร้างแบบจำลองการท่องเที่ยว Bahvioural แก้ไขโดย David Hensher และ Peter Stopher 2522 ได้ McFadden Ch 15 "วิธีการเชิงปริมาณสำหรับวิเคราะห์พฤติกรรมการเดินทางของแต่ละบุคคล: การพัฒนาล่าสุดบางอย่าง" การอภิปรายเกี่ยวกับการประเมินแบบจำลอง (ในบริบทของโมเดลลอจิคัลพหุนาม) เริ่มต้นในหน้า 306 โดยที่เขาแนะนำ rho-squared (pseudo R2 ของ McFadden) McFadden กล่าวว่า "ในขณะที่ดัชนี R2 เป็นแนวคิดที่คุ้นเคยมากกว่าสำหรับนักวางแผนที่มีประสบการณ์ใน OLS แต่ก็ไม่ได้มีพฤติกรรมที่ดีเท่ามาตรการ rho-squared สำหรับการประเมิน ML ผู้ที่ไม่คุ้นเคยกับ rho-squared ควรได้รับการเตือนล่วงหน้าว่า ต่ำกว่าดัชนี R2 มาก ... ตัวอย่างเช่นค่า 0.2 ถึง 0.4 สำหรับ rho-squared เป็นตัวแทนที่ยอดเยี่ยม

ดังนั้นโดยทั่วไปแล้ว Rho-squared สามารถตีความได้เช่น R2 แต่อย่าคาดหวังว่ามันจะใหญ่ และค่าจาก 0.2-0.4 บ่งชี้ (ในคำพูดของ McFadden) แบบจำลองที่ยอดเยี่ยมพอดี


ดีมากคริส ขอบคุณสำหรับความพยายามของคุณ!
Matt Reichenbach

13

McFadden's R กำลังสองถูกกำหนดให้เป็น 1-l_mod / l_null โดยที่ l_mod เป็นค่าความน่าจะเป็นบันทึกสำหรับแบบจำลองการติดตั้งและ l_null เป็นโอกาสในการบันทึกสำหรับโมเดลโมฆะซึ่งรวมถึงการสกัดกั้นความเป็นไปได้แบบเดียวกันเท่านั้น ของ 'ความสำเร็จ')

สำหรับโมเดลการถดถอยโลจิสติกค่าความน่าจะเป็นของบันทึกจะเป็นค่าลบเสมอ (เนื่องจากความน่าจะเป็นที่ได้รับจากการสังเกตแต่ละครั้งจะเป็นความน่าจะเป็นระหว่าง 0 ถึง 1) หากโมเดลของคุณไม่คาดการณ์ผลลัพธ์ที่ดีกว่าตัวแบบโมฆะจริง ๆ l_mod จะไม่ใหญ่กว่า l_null มากดังนั้น l_mod / l_null จะมีค่าประมาณ 1 และ R R ของ McFadden นั้นใกล้กับ 0 (โมเดลของคุณไม่มีค่าทำนาย) .

ในทางกลับกันถ้าแบบจำลองของคุณดีมากบุคคลที่มีผลสำเร็จ (1) จะมีความน่าจะเป็นใกล้เคียงกับ 1 และในทางกลับกันสำหรับผู้ที่ล้มเหลว (0) ผลลัพธ์ ในกรณีนี้หากคุณผ่านการคำนวณความน่าจะเป็นไปได้การสนับสนุนความน่าจะเป็นจากแต่ละคนสำหรับแบบจำลองของคุณจะใกล้เคียงกับศูนย์เช่น l_mod นั้นใกล้กับศูนย์และ McFadden ของ R กำลังสองเท่ากับ 1 ซึ่งบ่งชี้ความสามารถในการทำนายที่ดีมาก

สำหรับสิ่งที่ถือได้ว่าคุ้มค่ามุมมองส่วนตัวของฉันก็คือเหมือนคำถามที่คล้ายกันในสถิติ (เช่นสิ่งที่ถือว่ามีความสัมพันธ์ขนาดใหญ่?) นั่นคือไม่สามารถเป็นคำตอบที่ชัดเจน ปีที่แล้วฉันเขียนโพสต์บล็อกเกี่ยวกับ McFadden's R กำลังสองในการถดถอยโลจิสติกซึ่งมีภาพประกอบการจำลองเพิ่มเติม


5

ฉันได้ทำการวิจัยที่เน้นหัวข้อนี้มากขึ้นและพบว่าการตีความของหลอก R-squared ของ McFadden (หรือที่รู้จักกันว่าดัชนีความน่าจะเป็นอัตราส่วน) ไม่ชัดเจน อย่างไรก็ตามสามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 แต่จะไม่ถึงหรือเกิน 1 เนื่องจากการคำนวณ

กฎง่ายๆที่ฉันพบว่ามีประโยชน์มากก็คือการหลอก R-squared ของ McFadden ตั้งแต่ 0.2 ถึง 0.4 แสดงถึงแบบจำลองที่ดีมาก ดังนั้นโมเดลดังกล่าวข้างต้นที่มีการปลอม R-squared ของ McFadden ที่ 0.192 น่าจะไม่ใช่โมเดลที่แย่มากอย่างน้อยก็โดยเมตริกนี้ แต่มันก็ไม่ได้แข็งแกร่งเช่นกัน

นอกจากนี้ยังเป็นสิ่งสำคัญที่จะต้องทราบว่าการหลอก R-squared ของ McFadden นั้นใช้ดีที่สุดในการเปรียบเทียบข้อกำหนดที่แตกต่างกันของรุ่นเดียวกัน (เช่นรุ่นซ้อน) จากตัวอย่างข้างต้นโมเดลตัวแปร 6 ตัว (หลอกหลอกของ McFadden R-squared = 0.192) เหมาะกับข้อมูลที่ดีกว่าแบบจำลองตัวแปร 5 ตัว (หลอกหลอก R-squared = 0.131) ของ McFadden ซึ่งบ่งชี้ว่ามีความแตกต่างอย่างมีนัยสำคัญ ( p <0.001) ระหว่างทั้งสองรุ่นและดังนั้นจึงต้องการตัวแบบตัวแปร 6 ตัวสำหรับชุดข้อมูลที่กำหนด


1
การอ้างอิงที่คุณพบซึ่งอ้างว่า R2 ของ McFadden ระหว่าง 0.2 - 0.4 นั้นเป็นสิ่งที่ "ดีมาก"?
Chris

Btw ... นี่คือการอ้างอิงและเชื่อมโยงไปยังบทความ McFadden ดั้งเดิมซึ่งเขากำหนดการวัดหลอกของเขา R2 McFadden, D. (1974)“ การวิเคราะห์ logit แบบมีเงื่อนไขของพฤติกรรมการเลือกเชิงคุณภาพ” Pp 105-142 ใน P. Zarembka (ed.), Frontiers in เศรษฐมิติ สื่อวิชาการ elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
คริส

1
ขอบคุณสำหรับการอ้างอิง ดูเหมือนว่างานของ McFadden จำนวนมากสามารถพบได้ในเว็บไซต์ Berkeley ของเขา ด้านล่างคือลิงก์ไปยังหนังสือทั้งเล่มที่คุณอ้างถึงข้างต้น: elsa.berkeley.edu/users/mcfadden/travel.htmlบททั้งหมดปรากฏเป็น PDF Rho-square (การปลอมแปลงของ McFadden R2) ถูกกล่าวถึงในบทที่ 5 หน้า 122 เป็นต้นไป (ดูสมการ 5.33 และกราฟซึ่งตามมาหลังจากนั้นทันที) ฉันไม่เห็นพูดถึง 0.2-0.4 = "VG model fit" ฉันจะค้นหาลักษณะน้ำเชื้อของ "กฎแห่งหัวแม่มือ" นี้ต่อไป ขอบคุณสำหรับความช่วยเหลือของคุณ!
Chris

1
ไม่มีปัญหา! ฉันขอขอบคุณความอยากรู้และความละเอียดของคุณ วลีที่ถูกต้องสามารถหาได้ที่lifesciencesite.com/lsj/life1002/…ซึ่งผู้เขียนระบุว่า "ความดีงามพอดีโดยใช้ McFadden's pseudo r-square (ρ2) ของ McFadden เพื่อให้เหมาะสมกับแบบจำลองโดยรวม McFadden แนะนำρ2 ควรใช้ค่าระหว่าง 0.2 ถึง 0.4 เพื่อแสดงถึงแบบจำลองที่ดีมาก (Louviere et al., 2000) "
Matt Reichenbach

4
สถาบันของฉันมีสำเนาอิเล็กทรอนิกส์ของ Louviere และคณะ (2000) "ทางเลือกวิธีการระบุ: การวิเคราะห์และการประยุกต์" สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ นี่คือการอ้างอิงที่ Lee (วารสารวิทยาศาสตร์เพื่อชีวิต) อ้างถึง rho-squared ใน {0.2-0.4} = "VG fit" ในหน้า 55 ของ Louviere (ที่เกี่ยวข้องกับสมการ 3.32) เราเห็นข้อความต่อไปนี้: "ค่าของ rho-squared ระหว่าง 0.2-0.4 ถือว่าเป็นตัวบ่งชี้ของแบบจำลองที่ดีมากพอดีการจำลองโดย Domenich และ McFadden (1975) เทียบเท่ากับช่วงนี้ 0.7 ถึง 0.9 สำหรับฟังก์ชันเชิงเส้น "
Chris

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.