ปัญหาของการใช้เปอร์เซ็นต์ผลลัพธ์ในการถดถอยเชิงเส้นคืออะไร


11

ฉันมีการศึกษาที่ผลลัพธ์จำนวนมากแสดงเป็นเปอร์เซ็นต์และฉันใช้การถดถอยเชิงเส้นหลายครั้งเพื่อประเมินผลของตัวแปรหมวดหมู่ต่อผลลัพธ์เหล่านี้

ฉันสงสัยว่าเนื่องจากการถดถอยเชิงเส้นสันนิษฐานว่าผลลัพธ์คือการกระจายอย่างต่อเนื่องมีปัญหาเกี่ยวกับระเบียบวิธีในการใช้แบบจำลองดังกล่าวกับเปอร์เซ็นต์ซึ่งมีข้อ จำกัด ระหว่าง 0 ถึง 100


1
เปอร์เซ็นต์เหล่านี้เป็นแบบต่อเนื่อง (เช่นเปอร์เซ็นต์ของครีมในนมเป็นต้น) หรือไม่ต่อเนื่อง (เช่นสัดส่วนแบบทวินามนับเป็นบางหมวดหมู่จากจำนวนทั้งหมด) หรือไม่
Glen_b -Reinstate Monica

1
อืม ... ฉันไม่ได้รับความแตกต่าง พวกเขาทั้งคู่ไม่ต่อเนื่องกันเหรอ? อย่างไรก็ตามฉันคิดว่าข้อที่สองอธิบายข้อมูลของฉันได้ดีกว่าเนื่องจากเรากำลังพูดถึงผู้คนโดยรวม
Bakaburg

การกระจายของการนับหารด้วยจำนวนการนับไม่แน่นอน ที่จริงแล้วตัวเศษนั้นมักจะถูกจำลองเป็นทวินามตัวส่วนจะถูกปรับ (ถือว่าเป็นค่าคงที่) ดังนั้นอัตราส่วนจึงมักจะถือว่าเป็นทวินาม อย่างไรก็ตามแม้ว่าตัวหารจะเป็นตัวแปรสุ่มอัตราส่วนก็จะยังคงไม่ต่อเนื่องเนื่องจากพื้นที่ตัวอย่างนั้นนับได้
Glen_b

คำตอบ:


17

ฉันจะแก้ไขปัญหาที่เกี่ยวข้องกับความเป็นไปได้แบบแยกหรือแบบต่อเนื่อง:

  1. ปัญหาเกี่ยวกับคำอธิบายของค่าเฉลี่ย

    คุณมีการตอบสนองที่ จำกัด แต่โมเดลที่คุณกำลังสวมอยู่นั้นไม่ได้ถูกผูกไว้และสามารถระเบิดทะลุขอบเขตได้ ค่าติดตั้งบางส่วนของคุณอาจเป็นไปไม่ได้และค่าที่คาดการณ์ไว้จะต้องเป็น

    ในที่สุดความสัมพันธ์ที่แท้จริงจะต้องประจบยิ่งกว่าที่อยู่ตรงกลางเมื่อใกล้ถึงขอบเขตดังนั้นจึงคาดว่าจะโค้งงอในบางลักษณะ

  2. ปัญหาเกี่ยวกับคำอธิบายความแปรปรวน

    เมื่อค่าเฉลี่ยเข้าใกล้ขอบเขตความแปรปรวนจะมีแนวโน้มลดลงเช่นกันสิ่งอื่น ๆ จะเท่ากัน มีความแตกต่างระหว่างค่าเฉลี่ยและขอบเขตน้อยกว่าดังนั้นความแปรปรวนโดยรวมจึงมีแนวโน้มลดลง (ไม่เช่นนั้นค่าเฉลี่ยจะถูกดึงออกจากขอบเขตโดยคะแนนที่อยู่ห่างออกไปทางด้านข้างไม่ใกล้กับขอบ

(แน่นอนถ้าค่าประชากรทั้งหมดในบางพื้นที่ใกล้เคียงอย่างแน่นอนความแปรปรวนจะมีศูนย์)

แบบจำลองที่เกี่ยวข้องกับขอบเขตดังกล่าวควรคำนึงถึงผลกระทบดังกล่าวด้วย

หากสัดส่วนเป็นตัวแปรนับรูปแบบทั่วไปสำหรับการกระจายของสัดส่วนคือทวินาม GLM มีหลายตัวเลือกสำหรับรูปแบบของความสัมพันธ์ของสัดส่วนค่าเฉลี่ยและตัวทำนาย แต่ส่วนที่พบมากที่สุดคือ GLM โลจิสติกส์ (ตัวเลือกอื่น ๆ อีกมากมายเป็นการใช้งานทั่วไป)

หากสัดส่วนเป็นแบบต่อเนื่อง (เช่นร้อยละของครีมในนม) มีตัวเลือกมากมาย การถดถอยของเบต้าน่าจะเป็นทางเลือกที่ค่อนข้างธรรมดา อีกครั้งมันอาจใช้ความสัมพันธ์โลจิสติกระหว่างค่าเฉลี่ยและตัวทำนายหรืออาจใช้รูปแบบการทำงานอื่น

ดูเพิ่มเติมถดถอยสำหรับผล (อัตราส่วนหรือส่วน) ระหว่าง 0 และ 1


1
+1 และฉันใช้เสรีภาพในการเพิ่มลิงก์ไปยังสิ่งที่อาจเห็นได้ในหัวข้อ "ปรมาจารย์" ของเราในหัวข้อนี้
อะมีบา

2
อาร์กิวเมนต์ทั่วไปที่ง่ายคือถ้าค่าเฉลี่ยเป็น 0 ซึ่งเป็นไปได้ก็ต่อเมื่อค่าทั้งหมดเป็น 0 และในทำนองเดียวกันกับ 1 = 100% และค่าทั้งหมดเป็น 1 ดังนั้นความแปรปรวนจะต้องเป็น 0 ที่ส่วนปลายโดยไม่คำนึงว่าสัดส่วนจะขึ้นอยู่กับ การนับหรือการวัด แม้ว่ามันจะเป็นไปได้ที่ค่าอื่น ๆ ทั้งหมดจะมีค่าคงที่ แต่ในทางปฏิบัตินั้นหายากมาก ดังนั้นความแปรปรวนจะสูงสุดสำหรับค่าระหว่าง 0 ถึง 1
Nick Cox

คุณจะสามารถให้การอ้างอิงบางส่วนสำหรับ 2 ประเด็นที่อธิบายไว้ได้ไหม
user1607

3

นี่เป็นสิ่งเดียวกับกรณีเมื่อผลลัพธ์อยู่ระหว่าง 0 ถึง 1 และโดยทั่วไปกรณีนั้นจะถูกจัดการด้วยโมเดลเชิงเส้น (GLM) ทั่วไปเหมือนกับการถดถอยแบบโลจิสติกส์ มีไพรเมอร์ที่ยอดเยี่ยมมากมายสำหรับการถดถอยโลจิสติกส์ (และ GLMs อื่น ๆ ) บนอินเทอร์เน็ตและยังมีหนังสือที่รู้จักกันดีโดย Agresti ในหัวข้อ

การถดถอยเบต้าเป็นทางเลือกที่มีศักยภาพ แต่ซับซ้อนกว่า โอกาสที่การถดถอยแบบลอจิสติกจะทำงานได้ดีสำหรับแอปพลิเคชันของคุณและโดยทั่วไปแล้วจะง่ายต่อการใช้งานกับซอฟต์แวร์สถิติส่วนใหญ่

ทำไมไม่ใช้การถดถอยกำลังสองน้อยสุดธรรมดา? ที่จริงแล้วคนทำบางครั้งภายใต้ชื่อ "แบบจำลองความน่าจะเป็นเชิงเส้น" (LPM) เหตุผลที่ชัดเจนที่สุดว่าเหตุใด LPM จึง "ไม่ดี" คือไม่มีวิธีง่ายๆในการ จำกัด ผลลัพธ์ให้อยู่ในช่วงที่กำหนดและคุณสามารถคาดการณ์ได้สูงกว่า 1 (หรือ 100% หรือขอบเขตอื่น ๆ บนขอบเขต จำกัด ) และต่ำกว่า 0 (หรือ ขอบเขตล่างอื่น ๆ ) ด้วยเหตุผลเดียวกันการคาดคะเนที่อยู่ใกล้กับขอบบนมักจะสูงเกินไปอย่างเป็นระบบและการคาดการณ์ที่อยู่ใกล้กับขอบล่างนั้นมีแนวโน้มต่ำเกินไป การถดถอยเชิงเส้นเชิงคณิตศาสตร์อย่างชัดเจนถือว่าไม่มีแนวโน้มเช่นนี้ โดยทั่วไปไม่มีเหตุผลที่ดีในการปรับ LPM ให้เหมาะสมกับการถดถอยโลจิสติกส์

นอกเหนือจากนั้นปรากฎว่าแบบจำลองการถดถอย OLS ทั้งหมดรวมถึง LPM สามารถกำหนดเป็น GLM ชนิดพิเศษและในบริบทนี้ LPM เกี่ยวข้องกับการถดถอยแบบโลจิสติกส์


4
แม้ว่าโดยรวมแล้วคำตอบส่วนใหญ่จะดูคุ้มค่า แต่ก็มีข้อมูลที่ผิดบางอย่างที่อาจสร้างความสับสนให้กับผู้อ่าน บัญชีของการถดถอยโลจิสติกในย่อหน้าแรกดูเหมือนคำอธิบายของการเปลี่ยนแปลงเช่นบันทึกของตัวแปรตามแล้วตามด้วยการถดถอยเชิงเส้น: มันไม่ใช่การถดถอยโลจิสติก การตีความสัมประสิทธิ์นั้นไม่ถูกต้องเช่นกัน ปัญหาที่สำคัญกว่าของ "LPMs" คือเมื่อข้อมูลอยู่ใกล้กับสุดขั้วพวกเขามีแนวโน้มที่จะแสดงการกระจายแบบไม่สมมาตรของส่วนที่เหลือซึ่งเป็นการละเมิดที่สำคัญของการสันนิษฐานของการถดถอย
whuber

ฉันไม่คิดว่ามันคุ้มค่าที่จะได้รับอัตราต่อรองและเช่นนั้น ฉันจะตัดสิ่งนั้นออกแล้วให้ OP อ่านบนมัน จุดที่ดีเกี่ยวกับการตกค้าง
shadowtalker

(+1) ขอบคุณสำหรับคำตอบที่สร้างสรรค์ของคุณ!
whuber

2

มันอาจคุ้มค่าที่จะตรวจสอบการถดถอยเบต้า (ซึ่งฉันเข้าใจว่ามีแพ็คเกจ R) ซึ่งดูเหมือนว่าเหมาะสมกับปัญหาดังกล่าว

http://www.jstatsoft.org/v34/i02/paper


7
คุณจะได้คำตอบที่ดียิ่งขึ้นถ้าคุณพบกับสาเหตุสำคัญบางประการที่ทำให้การถดถอยเชิงเส้นเกิดขึ้นเมื่อผลลัพธ์เป็นเปอร์เซ็นต์
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.