ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง


17

ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้

ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น)

ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xyyx

ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน)

ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)?

ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?


1
มีการใช้ข้อความ (แต่น่าเสียดาย) ที่แตกต่างกันโดยคนที่แตกต่างกันและในบริบทที่แตกต่างกัน คุณสามารถลิงค์ไปยัง / ให้ตัวอย่างที่ผู้คนมีความแตกต่างระหว่างพวกเขา?
gung - Reinstate Monica

นั่นคือสิ่งที่ฉันกำลังพยายามคิดออกว่าพวกเขาแตกต่างกันอย่างไรและฉันจะแยกแยะระหว่างพวกเขาได้อย่างไร
Ali Sultan

1
ยุติธรรมพอ แต่มีคนบอกคุณว่าพวกเขาควรจะแตกต่างกันอย่างไร
gung - Reinstate Monica

2
ในเว็บไซต์นี้มีคนใช้ "เส้นโค้งที่เหมาะสม" ในความรู้สึกที่ไม่สามารถพิจารณาการถดถอย ตัวอย่างเช่นบางคนมองว่าการประเมินความหนาแน่นเป็นรูปแบบของ "การปรับโค้งให้เหมาะสม" กับฮิสโตแกรม
whuber

คำตอบ:


22

ฉันสงสัยว่ามีความแตกต่างที่ชัดเจนและสอดคล้องกันระหว่างวิทยาศาสตร์ใจสถิติและสาขาระหว่างการถดถอย และโค้งกระชับ

การถดถอยที่ไม่มีคุณสมบัติหมายถึงการถดถอยเชิงเส้นและการประมาณกำลังสองน้อยที่สุด นั่นไม่ได้กีดกันความรู้สึกอื่น ๆ หรือกว้างขึ้น: แน่นอนเมื่อคุณอนุญาตให้ logit, Poisson, การถดถอยแบบทวินามเชิงลบ ฯลฯ ฯลฯ มันยากที่จะเห็นว่าการสร้างแบบจำลองไม่ได้ถดถอยในบางแง่มุม

Curve-fitting นั้นแนะนำให้โค้งที่สามารถวาดบนเครื่องบินหรืออย่างน้อยในพื้นที่มิติต่ำ การถดถอยไม่ได้ จำกัด ขอบเขตและสามารถทำนายพื้นผิวในพื้นที่หลายมิติได้

การปรับเส้นโค้งอาจหรือไม่ใช้การถดถอยเชิงเส้นและ / หรือกำลังสองน้อยที่สุด มันอาจหมายถึงการปรับให้พอดีกับพหุนาม (ชุดพลังงาน) หรือชุดของเงื่อนไขไซน์และโคไซน์หรือในทางอื่นที่มีคุณสมบัติเป็นการถดถอยเชิงเส้นในความรู้สึกที่สำคัญของการปรับรูปแบบการทำงานเชิงเส้นในพารามิเตอร์ ความโค้งงอที่เหมาะสมเมื่อการถดถอยแบบไม่เชิงเส้นคือการถดถอยด้วย

คำที่ใช้ในการปรับความโค้ง - ดูหมิ่นเสื่อมเสียหรือไม่สนใจความรู้สึก ("นั่นเป็นเพียงเส้นโค้งที่เหมาะสม!") หรือ (เกือบจะตรงกันข้ามตรงกันข้าม) มันอาจหมายถึงการปรับเส้นโค้งที่เหมาะสมกับร่างกายโดยเฉพาะเจาะจงเลือกเฉพาะทางชีวภาพ เศรษฐกิจสิ่งใดก็ตาม) เหตุผลหรือปรับแต่งให้เข้ากับพฤติกรรมเริ่มต้นหรือ จำกัด ชนิดใดประเภทหนึ่ง (เช่นเป็นบวกเสมอกระโดดไปในทิศทางใดทิศทางหนึ่งหรือทั้งสองอย่างเสียงเดียวกับ inflexion ด้วยจุดหักเหเดี่ยวผันผวนเป็นต้น)

หนึ่งในปัญหาที่คลุมเครือหลายอย่างในที่นี้ก็คือรูปแบบการทำงานที่เหมือนกันอาจจะเป็นเชิงประจักษ์ที่ดีที่สุดในบางสถานการณ์และทฤษฎีที่ยอดเยี่ยมของผู้อื่น นิวตันสอนว่าวิถีกระสุนของกระสุนปืนสามารถเป็นรูปโค้งและเป็นไปตามธรรมชาติโดยสมการกำลังสองในขณะที่สมการกำลังสองที่เหมาะกับการพึ่งพาอายุในสังคมศาสตร์มักเป็นเพียงความเหลวไหลที่ตรงกับความโค้งของข้อมูล การสลายตัวแบบเอกซ์โปเนนเชียลเป็นการประมาณที่ดีมากสำหรับไอโซโทปกัมมันตรังสีและบางครั้งก็ไม่ได้คาดเดาอย่างบ้าคลั่งสำหรับวิธีที่ค่าที่ดินลดลงตามระยะทางจากศูนย์กลาง

ตัวอย่างของคุณไม่ได้เดาจากฉันอย่างชัดเจน ประเด็นส่วนใหญ่ในที่นี้คือด้วยชุดข้อมูลขนาดเล็กมากและไม่มีข้อมูลที่แน่นอนเกี่ยวกับตัวแปรที่มีหรือวิธีการที่พวกเขาคาดว่าจะประพฤติตนอาจไม่รับผิดชอบหรือโง่เง่าที่จะแนะนำรูปแบบของแบบจำลอง บางทีข้อมูลควรเพิ่มขึ้นอย่างรวดเร็วจาก (0, 0) จากนั้นเข้าใกล้ (1, 1) หรืออาจเป็นอย่างอื่น คุณบอกเรา!

บันทึก. การถดถอยหรือการปรับโค้งไม่ได้ จำกัด อยู่ที่ตัวทำนายเดี่ยวหรือพารามิเตอร์เดียว (ค่าสัมประสิทธิ์)


2
"Curve-fitting" มีความหมายอะไรบางอย่างทางทฤษฎี (เช่น lowess) สำหรับฉัน ในบางครั้งนักเศรษฐศาสตร์จะใช้ฟังก์ชั่น a-theoretical fitting ในขณะที่ 'charting' ซึ่งฟังดูคล้ายกับการใช้งานของการปรับโค้ง ฉันคิดว่ามัน (เช่น lowess) มีทั้งข้อดีและข้อเสียเมื่อเข้าใจถูกต้อง เป็นเรื่องยากที่จะทราบว่ามีใครบางคนหมายถึงคำศัพท์อย่างชัดเจนโดยไม่มีบริบทเพิ่มเติม
gung - Reinstate Monica

1
@ gung ฉันคิดว่ามีการใช้จ้องมองส่วนที่คล้ายกันส่วนที่ร้ายแรงในหลายวิทยาศาสตร์ธรรมชาติ (และผิดธรรมชาติ) หนึ่งในปัญหาคือการให้พารามิเตอร์เพียงพอคุณจำเป็นต้องมีห้องเลื้อยจำนวนมาก ฉันนึกถึงโมเดลอนุกรมเวลาที่ไม่เพียง แต่ให้ ARIMA เท่านั้น แต่ยังรวมถึงคำศัพท์และขั้นตอนไซน์, ทางลาดและหนามที่ใดก็ตามที่ข้อมูลแนะนำ
Nick Cox

ฉันสอง @ gung, การปรับเส้นโค้งมีความหมายแฝงแบบไม่มีพารามิเตอร์มากกว่าอย่างน้อยสำหรับฉัน
Christoph Hanck

1
@ChristophHanck โปรดอย่านำ "nonparametric" มาเป็นอย่างนี้! การสนทนาเต็มไปด้วยโคลนแล้ว!
Nick Cox

1
@ gung: การคิดถึงเส้นโค้งเรียบและวิธี RKHS โดยทั่วไปเป็นกระดูกสันหลังของ "การปรับโค้ง" เช่นฉันรู้สึกว่า "การปรับโค้ง" ให้เป็นทฤษฎีมากกว่า "การถดถอย" (+1 ถึง NickCox สำหรับคำตอบนี้)
usεr11852พูดว่า Reinstate Monic

8

นอกจากคำตอบที่ยอดเยี่ยมของ @ NickCox (+1) ฉันต้องการแบ่งปันความรู้สึกส่วนตัวของฉันในหัวข้อคำศัพท์ที่ค่อนข้างคลุมเครือ ฉันคิดว่าความแตกต่างที่ลึกซึ้งระหว่างสองคำนี้อยู่ในคำต่อไปนี้ หนึ่งในมือถดถอยบ่อยถ้าไม่เสมอหมายถึงวิธีการแก้ปัญหาการวิเคราะห์ (อ้างอิงถึงregressorsหมายถึงการกำหนดของพวกเขาพารามิเตอร์จึงโต้แย้งของฉันเกี่ยวกับการแก้ปัญหาการวิเคราะห์) บนมืออื่น ๆ , เส้นโค้งไม่จำเป็นต้องหมายถึงการผลิตโซลูชันการวิเคราะห์และ IMHO มักอาจจะมีและใช้เป็นแนวทางการสอบสวน


2
ไม่สามารถใช้บางสิ่งกับโซลูชันการวิเคราะห์ด้วยเหตุผลเชิงสำรวจด้วยใช่หรือไม่ ฉันไม่คิดว่าฉันจะได้รับการต่อต้านที่คุณกำลังทำ
อะมีบาพูดว่า Reinstate Monica

@ amoeba: โซลูชันการวิเคราะห์สามารถใช้สำหรับการวิจัยเชิงสำรวจได้เช่นกัน อย่างไรก็ตามจุดที่ฉันทำอยู่เกี่ยวกับสาระสำคัญโดยนัยที่เป็นที่นิยมที่สุด ของคำที่เป็นปัญหา
Aleksandr Blekh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.