สัมประสิทธิ์การถดถอยโลจิสติกส์มีความสำคัญอย่างไร?


42

ฉันกำลังอ่านบทความเกี่ยวกับตำแหน่งการลงคะแนนและการตั้งค่าการลงคะแนนในการเลือกตั้งปี 2000 และ 2004 ในนั้นมีแผนภูมิที่แสดงค่าสัมประสิทธิ์การถดถอยโลจิสติก จากหลักสูตรปีหลัง ๆ และอ่านน้อยฉันเข้าใจการถดถอยโลจิสติกเป็นวิธีการอธิบายความสัมพันธ์ระหว่างตัวแปรอิสระหลายตัวและตัวแปรตอบกลับแบบไบนารี่ สิ่งที่ฉันสับสนเกี่ยวกับคือให้ตารางด้านล่างเพราะภาคใต้มีค่าสัมประสิทธิ์การถดถอยโลจิสติกที่. 903 นั่นหมายความว่า 90.3% ของภาคใต้โหวตสาธารณรัฐรีพับลิกัน? เนื่องจากลักษณะทางลอจิสติกของตัวชี้วัดจึงไม่มีความสัมพันธ์โดยตรงนี้ แต่ฉันคิดว่าคุณสามารถพูดได้ว่าทางใต้ด้วย. 903 โหวตให้รีพับลิกันมากกว่าภูเขา / ที่ราบด้วยการลดลงของ. 506 เมื่อพิจารณาถึงกรณีฉันจะรู้ได้อย่างไรว่าอะไรคือสิ่งสำคัญและอะไรที่ไม่เป็นไปได้และเป็นไปได้ที่จะประเมินเปอร์เซ็นต์ของการลงมติพรรครีพับลิกันจากค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกส์ ตารางแสดงค่าสัมประสิทธิ์การถดถอยโลจิสติก

ในฐานะที่เป็นบันทึกด้านข้างโปรดแก้ไขโพสต์ของฉันหากมีสิ่งใดที่ระบุไว้ไม่ถูกต้อง


นี่เป็นคำถามที่ตามมาอีกมาก (และฉันอาจไม่ควรโพสต์ไว้) แต่คุณค้นพบวิธีที่ดีในการ "เป็นไปได้ที่จะคาดการณ์เปอร์เซ็นต์" เพราะนั่นเป็นสิ่งที่ฉันกำลังมองหา
Stefan Andersson

2
ฉันคิดว่ามันจะเป็นการดีกว่าถ้าคุณจะกำหนดเป็นคำถามแบบสแตนด์อะโลนและโพสต์แยกต่างหากแทนที่จะเป็นคำตอบที่นี่
พระคาร์ดินัล

หากมีใครสงสัยเกี่ยวกับบทความนี้ก็คือ SC McKee และ JM Teigen 's Probing reds and blues: ตำแหน่งและผู้มีสิทธิเลือกตั้งในการเลือกตั้งประธานาธิบดีสหรัฐในปี 2000 และ 2004 (ค.ศ. 2009) ภูมิศาสตร์การเมือง
Alex Nelson

คำตอบ:


36

ที่ผู้เขียนได้บังคับให้คนที่คิดในขณะที่คุณจะมีการถามคำถามเช่นนี้เป็นภาพประกอบที่น่าสนใจว่าทำไมการปฏิบัติ - ยังคงวิธีด้วยกัน - การ จำกัด การรายงานผลแบบการถดถอยในตารางเช่นนี้เพื่อให้เป็นที่ยอมรับ

  1. คุณสามารถลองเปลี่ยนค่าสัมประสิทธิ์ logit เป็นตัวบ่งชี้ที่มีความหมายถึงผลกระทบที่คาดการณ์ไว้สำหรับตัวทำนายที่เป็นปัญหา แต่มันค่อนข้างยุ่งยากและไม่ได้นำเสนอข้อมูลเกี่ยวกับความแม่นยำของการทำนายซึ่งมักจะสำคัญใน แบบจำลองการถดถอยโลจิสติก (โดยเฉพาะอย่างยิ่งการลงคะแนน)

  2. นอกจากนี้ยังมีการใช้เครื่องหมายดอกจันหลายเพื่อรายงาน "ระดับ" อย่างมีนัยสำคัญตอกย้ำความเข้าใจผิดว่าค่า P-คือบางส่วนดัชนีความหมายของขนาดอิทธิพล ( "ว้าว - ที่หนึ่งมี3ดอกจัน !!"); สำหรับการร้องไห้ออกมาดัง ๆ โดยมี 10,000 ถึง 20,000 ความแตกต่างเล็กน้อยโดยสิ้นเชิงจะเป็น "นัยสำคัญ" ที่ p <.001 blah blah

  3. ไม่จำเป็นต้องประหลาดใจอย่างนี้ แบบจำลองการถดถอยโลจิสติกเป็นสมการที่สามารถนำมาใช้ (ผ่านการคำนวณที่กำหนดหรือการจำลองที่ดีกว่ายังคง) เพื่อทำนายความน่าจะเป็นของผลลัพธ์ตามเงื่อนไขในค่าที่ระบุสำหรับตัวทำนาย ดังนั้นผู้วิจัยควรรายงานสิ่งที่ผลกระทบของการทำนายความสนใจคือความน่าจะเป็นของตัวแปรผลลัพธ์ของความสนใจ & สัมพันธ์ CI ซึ่งวัดได้ในหน่วยที่มีความสำคัญในทางปฏิบัติซึ่งสามารถเข้าใจได้ง่าย เพื่อให้มั่นใจว่าพร้อมที่จะจับผลลัพธ์ควรแสดงเป็นภาพกราฟิก ยกตัวอย่างเช่นที่นี่นักวิจัยสามารถรายงานว่าเป็นชนบทเมื่อเทียบกับผู้มีสิทธิเลือกตั้งในเขตเมืองเพิ่มโอกาสในการลงคะแนนเสียงของพรรครีพับลิกันทุกคนเท่าเทียมกันโดยคะแนน X pct (ฉันคาดเดารอบ 17 ในปี 2000; "หารด้วย 4" คือ heuristic ที่สมเหตุสมผล) +/- x% ที่ระดับความเชื่อมั่น 0.95 - ถ้านั่นเป็นสิ่งที่มีประโยชน์ที่จะรู้

  4. การรายงานหลอก R ^ 2 ก็เป็นสัญญาณว่าผู้สร้างแบบจำลองมีส่วนร่วมในพิธีกรรมทางสถิติมากกว่าที่จะพยายามส่องสว่าง มีหลายวิธีในการคำนวณ "หลอก R ^ 2"; บางคนอาจบ่นว่าสิ่งที่ใช้ที่นี่ไม่ได้ระบุ แต่ทำไมต้องรำคาญ? ทั้งหมดอยู่ถัดจากไร้ความหมาย เหตุผลเดียวที่ทุกคนใช้หลอก R ^ 2 คือพวกเขาหรือผู้ตรวจสอบที่ทรมานพวกเขาเรียนรู้ (น่าจะ 25 ปีขึ้นไป) ว่าการถดถอยเชิงเส้น OLS เป็นจอกศักดิ์สิทธิ์ของสถิติและคิดว่าสิ่งเดียวที่เราพยายามหา คือ "อธิบายความแปรปรวน" มีวิธีการที่สามารถป้องกันได้มากมายในการประเมินความเพียงพอของแบบจำลองโดยรวมที่เหมาะสมสำหรับการวิเคราะห์โลจิสติกและอัตราส่วนความน่าจะเป็นที่บ่งบอกข้อมูลที่มีความหมายสำหรับการเปรียบเทียบแบบจำลองที่สะท้อนสมมติฐานทางเลือก King, G. ไม่โกหกกับสถิติอย่างไร. Am เจ. วิทย์ 30, 666-687 (1986)

  5. หากคุณอ่านกระดาษที่รายงานถูก จำกัด อยู่ในตารางเช่นนี้ไม่สับสนไม่ต้องกลัวและไม่ต้องประทับใจอย่างแน่นอน แทนที่จะโกรธ & บอกนักวิจัยว่าเขาหรือเธอกำลังทำงานที่มีหมัด (โดยเฉพาะอย่างยิ่งถ้าเขาหรือเธอกำลังก่อมลภาวะต่อสภาพแวดล้อมทางปัญญาในท้องถิ่นของคุณด้วยเวทย์มนต์และความน่าสะพรึงกลัว / c พวกเขาสามารถสร้างตารางที่หลังไม่เข้าใจ) สำหรับสมาร์ทและสมควรนิทรรศการของความคิดเหล่านี้ให้ดูคิงกรัม Tomz, M. & Wittenberg เจ. ทำส่วนใหญ่ของการวิเคราะห์ทางสถิติ: การปรับปรุงการตีความและนำเสนอ Am เจ. วิทย์ 44, 347-361 (2000); และ Gelman, A. , Pasarica, C. & Dodhia, R.ปฏิบัติ Let 's สิ่งที่เราสั่งสอน: เปิดตารางลงในกราฟ Am สถิติ 56, 121-130 (2002)


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
การวิเคราะห์พฤติกรรม: หารด้วย 4 - logit coeff / 4 คือความต่างประมาณ pct-pt ในโพรบ จากการเปลี่ยนแปลง 1 หน่วย นั่นไม่เหมือนกับการพูดว่า "คนที่มีความสามารถพิเศษ = z คือ x% น่าจะเป็น" ไม่เพียง แต่ตามที่ระบุไว้เราไม่จำเป็นต้องเพิ่ม ubsub0 & ลบโอกาสที่เกี่ยวข้องกับคลาสอ้างอิง นอกจากนี้ยังจำเป็นต้องคำนึงถึง collinearity ของผู้ทำนายด้วย B / c เป็นภาคใต้มีความสัมพันธ์กับการทำนายอื่น ๆ มันจะไม่เป็นความจริงที่เป็นปัญหา ของ repub การลงคะแนนของชาวใต้คือ ubsub0 - อัตราต่อรองของการแปลงสำหรับ NE รวมทั้งอัตราต่อรองของการแปลงสำหรับภาคใต้ ดีกว่าที่จะพูดว่า "สิ่งอื่นเท่ากันมาจากทางทิศใต้ทำนายการเปลี่ยนแปลงจุด pct ในหน่วยของ"
dmk38

1
'ราคาจริงที่ได้จาก 0.43 ถึง 1' 0.43 มาจากครั้งแรกไหม?
โมนิกา Heddneck

0.30.3/(10.3)0.43

6

ค่าสัมประสิทธิ์ในการถดถอยโลจิสติกเป็นตัวแทนของแนวโน้มสำหรับภูมิภาค / กลุ่มประชากรที่จะลงคะแนนเสียงให้สาธารณรัฐเมื่อเทียบกับหมวดหมู่อ้างอิง ค่าสัมประสิทธิ์เชิงบวกหมายความว่าภูมิภาคมีแนวโน้มที่จะลงคะแนนให้พรรครีพับลิกันมากกว่าและในทางกลับกันสำหรับค่าสัมประสิทธิ์เชิงลบ ค่าสัมบูรณ์ที่ใหญ่กว่าหมายถึงแนวโน้มที่แข็งแกร่งกว่าค่าที่น้อยกว่า

หมวดหมู่อ้างอิงคือ "อีสาน" และ "ผู้มีสิทธิเลือกตั้งในเมือง" ดังนั้นค่าสัมประสิทธิ์ทั้งหมดจึงแสดงถึงความแตกต่างกับผู้มีสิทธิเลือกตั้งประเภทนี้โดยเฉพาะ

โดยทั่วไปแล้วยังไม่มีข้อ จำกัด เกี่ยวกับสัมประสิทธิ์ในการถดถอยโลจิสติกที่อยู่ใน [0, 1] แม้ในค่าสัมบูรณ์ โปรดสังเกตว่าบทความของ Wikipedia นั้นมีตัวอย่างของการถดถอยโลจิสติกที่มีค่าสัมประสิทธิ์เท่ากับ -5 และ 2


5

คุณยังถามว่า "ฉันจะรู้ได้อย่างไรว่าอะไรสำคัญและอะไรไม่ได้" (ฉันถือว่าคุณหมายถึงนัยสำคัญทางสถิติเนื่องจากความสำคัญเชิงปฏิบัติหรือเชิงสาระสำคัญเป็นอีกเรื่องหนึ่ง) เครื่องหมายดอกจันในตารางอ้างถึงเชิงอรรถ: เอฟเฟกต์บางอย่างถูกบันทึกไว้ว่ามีค่าpน้อย สิ่งเหล่านี้ได้จากการทดสอบ Wald ของความสำคัญของสัมประสิทธิ์แต่ละค่า สมมติว่าการสุ่มตัวอย่างp <.05 หมายความว่าหากไม่มีประชากรดังกล่าวเพิ่มขึ้นความน่าจะเป็นที่จะเห็นการเชื่อมต่อที่แข็งแกร่งอย่างที่สังเกตหรือรุนแรงกว่าในตัวอย่างที่มีขนาดนี้จะน้อยกว่า. 05 . คุณจะเห็นหลายกระทู้ในเว็บไซต์นี้พูดคุยเกี่ยวกับประเด็นที่ลึกซึ้ง แต่สำคัญที่เกี่ยวข้องที่p <.05 ไม่ หมายความว่ามีความเป็นไปได้ที่. 05 ที่จะไม่มีการเชื่อมต่อกับประชากรขนาดใหญ่


5

ให้ฉันแค่เน้นความสำคัญของสิ่งที่ rolando2 และ dmk38 ทั้งสองตั้งข้อสังเกต: ความสำคัญคือการอ่านผิดทั่วไปและมีความเสี่ยงสูงที่เกิดขึ้นกับการนำเสนอผลของตารางนั้น

พอล Schrodt เมื่อเร็ว ๆ นี้นำเสนอคำอธิบายที่ดีของปัญหา:

นักวิจัยพบว่าแทบเป็นไปไม่ได้ที่จะปฏิบัติตามการตีความที่ถูกต้องของการทดสอบความสำคัญ ค่า p จะบอกคุณถึงโอกาสที่คุณจะได้รับผลลัพธ์ภายใต้เงื่อนไขที่ไม่สมจริงอย่างสมบูรณ์ [โดยปกติ] ของสมมติฐานว่าง ซึ่งไม่ใช่สิ่งที่คุณต้องการรู้ - โดยปกติคุณต้องการทราบขนาดของผลกระทบของตัวแปรอิสระที่ได้รับจากข้อมูล นั่นเป็นคำถามแบบเบย์ไม่ใช่คำถามที่พบบ่อย แต่เราเห็น - ตลอดเวลา - ค่า p ถูกตีความราวกับว่ามันให้ความแข็งแกร่งของการเชื่อมโยง: นี่คือลัทธิลึกลับที่แพร่หลายของดาวและค่า P- ซึ่งแทรกซึมวารสารของเรา (fn) นี่ไม่ใช่สิ่งที่ p-value กล่าว และจะไม่เคย

จากประสบการณ์ของฉันความผิดพลาดนี้แทบจะเป็นไปไม่ได้ที่จะหลีกเลี่ยง: แม้แต่นักวิเคราะห์ที่ระมัดระวังอย่างมากที่ตระหนักถึงปัญหามักจะเปลี่ยนโหมดเมื่อพูดคุยเกี่ยวกับผลลัพธ์ด้วยวาจาแม้ว่าพวกเขาจะหลีกเลี่ยงปัญหาในงานเขียน และอย่าแม้แต่จะคาดเดากับเวลาหลายพันชั่วโมงและปริมาณน้ำหมึกที่เราได้ทำการแก้ไขในเอกสารระดับบัณฑิตศึกษา

(fn) เชิงอรรถยังแจ้งให้ทราบถึงปัญหาอื่นที่กล่าวถึงโดย dmk38:“ [ลัทธิลึกลับของดวงดาวและค่า P-แพร่หลาย] แทนที่ด้วยก่อนหน้านี้ - และแพร่หลายอย่างเท่าเทียมกัน - ลัทธิสูงสุด R2, ถูกทำลาย…โดยKing (1986) .”


โอ้ - ฉันเพิ่งเพิ่ม King อ้างอิงไปยังคำตอบที่แก้ไขแล้วของฉัน บทความนี้ได้ทำลายความบ้าคลั่ง R ^ 2 (ยังคงมีผลเฉพาะกับเศรษฐมิติ) แม้ว่าสถิติจะมีความหมาย - สำหรับการถดถอย OLS คิงยังตั้งข้อสังเกตอีกด้วยว่าการหลอก R ^ 2 นั้นเป็นการพูดพล่อยๆที่ผลิตขึ้นเพื่อเพิ่มความไร้สติที่เกี่ยวข้องกับ "การอธิบายความแปรปรวน"
dmk38
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.