ควรใช้การถดถอยแบบไม่อิงพารามิเตอร์เมื่อใด


9

ฉันใช้ PROC GLM ใน SAS เพื่อให้สมการถดถอยของแบบฟอร์มต่อไปนี้

Y=b0+b1X1+b2X2+b3X3+b4t

พล็อต QQ ของ redsiduals ที่เกิดขึ้นบ่งบอกถึงการเบี่ยงเบนจากปกติ การเปลี่ยนแปลงของใด ๆจะไม่เป็นประโยชน์ในการทำให้ส่วนที่เหลือเป็นปกติY

ณ จุดนี้ฉันสามารถเปลี่ยนเป็นวิธีที่ไม่ใช่พารามิเตอร์อย่างปลอดภัยเช่น PROC LOESS

ฉันใช้ PROC LOESS แล้วและแบบที่ดูดีกว่า PROC GLM แต่ฉันไม่มีความรู้มากนักในการถดถอยแบบไม่อิงพารามิเตอร์ ฉันไม่ทราบว่าเมื่อใดควรเลือกการถดถอยแบบไม่อิงพารามิเตอร์ในการถดถอยแบบพารามิเตอร์

มีคนช่วยฉันได้ไหม

ฉันจะดำเนินการต่อและเพิ่มคำถามอื่น ต่อไปนี้เป็นคำอธิบายของตัวแปรของฉันในรูปแบบ บางครั้งฉันได้รับค่าใช้จ่ายคาดการณ์เชิงลบ สิ่งนี้ไม่สมเหตุสมผล ฉันจะแก้ไขปัญหานี้ได้อย่างไร

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time

2
คุณสามารถหลีกเลี่ยงการคาดการณ์ค่าใช้จ่ายติดลบได้โดยการสร้างแบบจำลองบันทึก:ล.โอก.(Y)=0+1X1+2X2+3X3+4เสื้อ
Dirk Horsten

คำตอบ:


10

ก่อนที่จะดู QQplots ของส่วนที่เหลือคุณควรประเมินคุณภาพของความพอดีโดยการพล็อตส่วนที่เหลือกับตัวทำนายในรูปแบบ (และอาจรวมถึงตัวแปรอื่น ๆ ที่คุณไม่ได้ใช้) การไม่เป็นเชิงเส้นควรแสดงในแผนการนี้ หากผลกระทบของตัวแปรx เป็นเส้นตรงคุณคาดหวังว่ามีเศษเหลืออยู่ x เป็น "แนวนอน" โดยไม่มีโครงสร้างที่มองเห็นได้:

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

นั่นคือ "blob" แนวนอนแบบสุ่มของคะแนนโดยมีศูนย์กลางอยู่ที่เส้นตรง = 0

หากเอฟเฟกต์ไม่ใช่แบบเส้นตรงคุณคาดหวังว่าจะเห็นความโค้งของพล็อตนี้ (และโปรดละเว้น QQplots จนกว่าคุณจะไม่ได้เป็นเชิงเส้นที่แยกออกโดยใช้พล็อตข้างต้น!)

คุณควรคิดถึงการโต้ตอบที่เป็นไปได้ (ตามแบบจำลองโดยเงื่อนไขของผลิตภัณฑ์) นั่นคือผลกระทบของตัวแปรหนึ่งจะขึ้นอยู่กับระดับของอีกตัวแปรหนึ่ง (หากตัวแปรทั้งสามของคุณมีค่าสูงในเวลาเดียวกัน ถ้าเป็นเช่นนั้นอาจจำเป็นต้องมีการโต้ตอบ)

ถ้าคุณไปหาตัวแบบที่ไม่ใช่เชิงเส้นหลังจากลองใช้การโต้ตอบและการแปลงรูป (คุณลองlog(Cost)หรือไม่) คุณลองใช้ box-cox-transformations บ้างไหม? เนื่องจากคุณมีการถดถอยหลายครั้งฉันไม่คิดว่านั่นloessคือสิ่งที่คุณต้องการคุณควรมองหาgam(โมเดลเสริมทั่วไป, SAS ควรมีสิ่งนั้นใน R มันอยู่ในแพ็คเกจmgcv)


1
ขอบคุณสำหรับข้อมูลที่มีค่า ฉันลองใช้บันทึก (ราคา) ด้วยการถดถอยเชิงเส้น แต่ก็ไม่ได้ช่วยอะไรมาก ฉันจะเพิ่มเอฟเฟกต์การโต้ตอบและสังเกตสิ่งที่เกิดขึ้น ฉันจะทดลองเปลี่ยนรูปอีกครั้ง ฉันจะให้ทุกคนโพสต์กับการพัฒนาและการค้นพบของฉัน
แอน

6

การลอยตัวจะให้ความพอดีที่ดีกว่าการถดถอยเสมอเว้นแต่ว่าข้อมูลจะอยู่ในแนวเส้นตรง LOESS เป็นค่าประมาณเชิงเส้นในพื้นที่ที่ออกแบบมาเพื่อให้ผ่านเข้าไปใกล้กับข้อมูล วิธีการเหล่านี้มีการสำรวจโดยทั่วไป และในขณะที่มันเป็นสิ่งที่อันตรายที่จะคาดการณ์แบบจำลองเชิงเส้นเกินกว่าขอบเขตของความพอดี

หากแบบจำลองของคุณให้ค่าใช้จ่ายติดลบนั่นเป็นสัญญาณที่ดีทีเดียวที่การถดถอยเชิงเส้นไม่เหมาะสมกับตัวแปรที่คุณมี คุณบอกว่าคุณพยายามแปลงร่าง คุณใช้บันทึกค่าใช้จ่ายเทียบกับตัวทำนายของคุณหรือไม่

ในลักษณะของสิ่งต่าง ๆ ไม่น่าเป็นไปได้ที่จะมีความสัมพันธ์อย่างง่ายระหว่างต้นทุนกับตัวแปรที่คุณพูดถึง บางครั้งจุดประสงค์ของการถดถอยเชิงเส้นก็เพื่อแสดงให้เห็นว่ามีความสัมพันธ์บางอย่างอยู่และบางทีอาจเลือกชุดพยากรณ์ที่สมเหตุสมผล


1
มันสมเหตุสมผลมากเมื่อคุณพูดถึงว่าค่าใช้จ่ายติดลบบ่งชี้ว่าการถดถอยเชิงเส้นอาจไม่เหมาะสม ฉันจะทำการวิเคราะห์ต่อไปและเพิ่มปฏิสัมพันธ์บางอย่าง ขอบคุณ.
แอน

3

ไชโยสำหรับทำการวิเคราะห์ที่เหลือ ทำให้คุณก้าวไปข้างหน้าของนักวิเคราะห์ทั่วไป (คำอธิบายโมเดลของคุณมีข้อบกพร่องในการไม่อธิบายโครงสร้างข้อผิดพลาด) คุณควรพิจารณาการแปลงของ X รวมถึงดูการแปลงของ Y ฉันรู้ว่า SAS อยู่เบื้องหลัง R ในการสร้างแบบจำลองที่มีเส้นโค้งพอดี แต่ฉันเข้าใจว่ารุ่นล่าสุดได้เสนอความสามารถนั้น พิจารณาการเพิ่มคิวบ์แบบ จำกัด ที่เหมาะสำหรับคำ X ในฐานะที่เป็นข้อความอ้างอิงของ Frank Harrell ข้อความ "กลยุทธ์การสร้างแบบจำลองการถดถอย" นั้นยากที่จะเอาชนะ มันมีข้อโต้แย้งทางสถิติที่มั่นคงสำหรับวิธีการนี้ มันเป็นวิธีการเชิงพารามิเตอร์ที่ช่วยให้การค้นพบโครงสร้างในข้อมูลที่จะพลาดอื่น ๆ ที่ชาญฉลาด


ขอบคุณสำหรับการขอบคุณ DWIN ฉันเพิ่งจบการศึกษาและนี่เป็นงานแรกของฉันในฐานะนักวิเคราะห์ การวิเคราะห์ประเภทนี้ก็เป็นสิ่งใหม่สำหรับ บริษัท เช่นกัน ดังนั้นฉันแค่พยายามหาวิธีการวิเคราะห์ที่ไม่ไร้สาระอย่างสมบูรณ์ ฉันจะรับข้อเสนอแนะของคุณและลองเปลี่ยนรูปทั้งสองแบบY และ Xตัวแปร ฉันจะผ่านการอ้างอิงด้วย ฉันเพิ่งพบไฟล์ PDF ออนไลน์ ขอบคุณสำหรับข้อมูลของคุณ
แอน

มีบางอย่างผิดปกติกับการแปลงและเอาท์พุทที่ขึ้นอยู่กับความต้องการเชิงเส้น หากคุณเป็นนางแบบล.โอก.(Y)=0+1ล.โอก.(X1)+2ล.โอก.(X2) ที่ไหน X1 เป็นการฉีดที่แขนขวาและ X2เป็นการฉีดที่แขนซ้ายคุณคาดการณ์ค่าใช้จ่ายที่แตกต่างกันอย่างสิ้นเชิงสำหรับคนที่มีการฉีดที่แขนเดียวกันและคนที่มีครึ่งหนึ่งของพวกเขาในแต่ละด้าน
Dirk Horsten

ความคิดเห็นของคุณดูเหมือนจะค่อนข้างตอบสนองต่อการตอบสนองของฉัน (และสำหรับคำถามตั้งแต่การแบ่งการฉีดด้วยแขนไม่เคยพูดถึง) ฉันหวังว่าคุณจะไม่คิดว่าฟังก์ชั่นอิสระจะเทียบเท่ากับการแปลงบันทึก การแปลงบันทึกของ Y สร้างแบบจำลองที่แบบจำลองหลายตัวในตัวทำนายเมื่อเปลี่ยนกลับเป็นระดับต้นทุน นั่นเป็นการเปลี่ยนแปลงครั้งใหญ่และเป็นปัญหาที่คุณยังไม่ได้อธิบายผู้ถามอย่างเพียงพอ
DWIN

2

ฉันคิดว่า kjetil ให้คำแนะนำดีๆกับคุณ ฉันจะเพิ่มที่เหลือไม่ปกติไม่ได้หมายความว่าคุณต้องกระโดดจากการถดถอยเชิงเส้นหรือไม่เชิงเส้นเพื่อการถดถอยแบบไม่อิงพารามิเตอร์ โดยไปที่การถดถอยแบบไม่อิงพารามิเตอร์คุณยอมแพ้โครงสร้างของแบบฟอร์มการทำงาน มีทางเลือกการถดถอยที่แข็งแกร่งสำหรับ OLS regression ที่คุณสามารถไปก่อนได้ จากนั้นโมเดลเชิงเส้นทั่วไปและโมเดลเสริมทั่วไปถ้าต้องการขั้นตอนต่อไป LOESS ในมุมมองของฉันควรเป็นทางเลือกสุดท้ายของคุณ ฉันคิดว่าฉันเห็นด้วยกับ kjetil

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.