เบาะแสว่าปัญหาเหมาะสมอย่างยิ่งสำหรับการถดถอยเชิงเส้น


12

ฉันเรียนรู้การถดถอยเชิงเส้นโดยใช้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์การถดถอยเชิงเส้นโดยอจิกและ Vining ฉันต้องการเลือกโครงการวิเคราะห์ข้อมูล

ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้ แต่การถดถอยเชิงเส้นค่อนข้างแพร่หลาย

แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น


3
ฉันขอขอบคุณที่คุณกำลังเรียนรู้เทคนิคและต้องการทราบว่ามันจะทำงานที่ไหน แต่สำหรับนักสถิติที่มีประสบการณ์ (และนักวิทยาศาสตร์ที่มีใจรักในเชิงสถิติ) สถานการณ์นั้นเป็นไปในทางตรงกันข้าม: มีปัญหาและข้อมูลแล้วคำถามก็คือรูปแบบและวิธีการใดเป็นตัวเลือกที่ดีที่สุด คุณจะได้เห็นการถดถอยเชิงเส้นที่พบครั้งแรกเป็นเพียงรสชาติเดียว ด้วยประสบการณ์ผู้คนมีความสุขที่จะข้ามไปปัวซองถดถอยถดถอย logit ฯลฯ และแม้กระทั่งความเป็นเส้นตรงในพารามิเตอร์สามารถรวมกับโครงสร้างทั่วไปได้ง่ายขึ้น
Nick Cox

และแน่นอนอนุกรมเวลา mdels เมื่อการสังเกตอาจมีความสัมพันธ์กันโดยอัตโนมัติ
IrishStat

3
ในความเป็นจริงแล้วตัวแบบเชิงเส้นถูกใช้ไปทางซ้ายและขวาแม้ว่าเราจะรู้ว่าความสัมพันธ์นั้นไม่เชิงเส้นก็ตาม คิดว่าตัวแบบเชิงเส้นเป็นการประมาณลำดับแรกจัดเรียงของการขยายเทย์เลอร์หลายตัวแปร
Aksakal

คำตอบ:


12

ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้

นี่ไม่ใช่ความเข้าใจที่ถูกต้องของสิ่งที่ "เชิงเส้น" ใน "การถดถอยเชิงเส้น"

มันไม่ใช่ความสัมพันธ์ระหว่างกับที่สันนิษฐานว่าเป็นรูปแบบเชิงเส้น (แม้ว่าตัวอย่างเบื้องต้นทั้งหมดจะทำให้คุณเข้าใจผิด)xyx

"เส้นตรง" หมายถึงโมเดลที่เป็นเส้นตรงในพารามิเตอร์และความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างและบางตัวสามารถจำลองแบบได้อย่างแน่นอนxyx

มีตัวอย่างที่มีตัวพยากรณ์เดี่ยวที่นี่แต่โมเดล curvilinear นั้นมักจะพอดีกับการถดถอยหลายครั้งโดยที่ฟังก์ชันหลายอย่างของตัวทำนาย (ตัวแปร x ตัวแปรอิสระ) อาจเกิดขึ้นในการถดถอยและสิ่งนี้ทำให้มีความยืดหยุ่นมาก ซึ่งรวมถึงการถดถอยพหุนาม ดูการอภิปรายและตัวอย่างที่นี่

อย่างไรก็ตามถ้าเรายอมให้ความจริงที่ว่าตัวทำนายนั้นสามารถถูกแปลงเพื่อให้เหมาะสมกับความสัมพันธ์ที่โค้งงอ, ความเป็นเส้นตรงในพารามิเตอร์ก็สอดคล้องกับความเป็นเส้นตรงในตัวทำนายที่ถูกเปลี่ยนรูปด้วยเช่นกัน

นอกจากนี้ปัญหาหลายอย่างอยู่ใกล้กับเส้นตรง (อย่างน้อยในช่วงของค่าที่พิจารณา) หรือมีเสียงดังจนความโค้งอ่อน ๆ ไม่สามารถมองเห็นได้และแบบจำลองที่เรียบง่ายหลากหลายรูปแบบสำหรับการเพิ่มหรือลดความสัมพันธ์อาจทำได้ - และในกรณีนั้นตัวเลือกเชิงเส้นอาจมีทั้งเพียงพอและง่ายที่สุดเพื่อให้พอดีและเข้าใจ

แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น

ครั้งเดียวที่ฉันอาจมองหาปัญหาที่จะนำการถดถอยไปใช้คือเมื่อฉันพยายามหาตัวอย่างที่ดีสำหรับการสอน เมื่อจริง ๆ แล้วในตำแหน่งของการทำงานทางสถิติ (แทนที่จะอธิบายหรือสอนมัน) ฉันเลือกวิธีการที่เหมาะสมกับคำถามที่สนใจ (และลักษณะของข้อมูล) แทนที่จะเลือกข้อมูลให้เหมาะกับวิธีการ

ลองจินตนาการถึงช่างไม้ ช่างไม้ไม่รับโฆษกและพูดว่า "ฉันจะใช้สิ่งนี้กับอะไรได้บ้าง" ค่อนข้างช่างไม้มีปัญหาในการแก้ปัญหาและในการพิจารณาลักษณะของปัญหา ("ฉันกำลังพยายามทำอะไร" และ "ฉันใช้ไม้ชนิดใด?" และอื่น ๆ ... ) อาจเป็นเครื่องมือพิเศษ มีความเกี่ยวข้องมากกว่าคนอื่น บางครั้งเครื่องมือที่มีอยู่อาจ จำกัด หรือแนวทางในการเลือก (ถ้าคุณไม่ได้มี spokeshave คุณอาจจะต้องทำอย่างไรกับสิ่งอื่น ... หรือคุณก็อาจจะต้องไปซื้อ spokeshave ก)

อย่างไรก็ตามสมมติว่าคุณมีนักสถิติพ็อกเก็ตช่วยคุณและคุณพยายามค้นหาปัญหาที่เหมาะสมกับการถดถอยเชิงเส้น จากนั้นพวกเขาอาจแนะนำให้คุณพิจารณาสมมติฐานการถดถอยที่หลากหลายและเมื่อพวกเขาสำคัญ ฉันจะพูดถึงบางสิ่ง

หากคุณสนใจที่จะปรับความสัมพันธ์ระหว่าง y และunivariate (อาจจะถูกแปลง) x ส่วนใหญ่ของสมมติฐานไม่จำเป็นว่าจะต้องเกี่ยวข้องกับคุณ (ทฤษฎีของ Gauss-Markov อาจมีความเกี่ยวข้องกัน) คุณกำลังมองหากรณีที่คุณคิดว่ามีลักษณะเป็นเส้นตรงในสำหรับบางคนรู้จัก - (นั่นคือถือว่าเรารู้ว่ารูปแบบการทำงานของความสัมพันธ์ที่เราต้องการ) . การเขียนเราต้องการอย่างน้อยก็ประมาณจริงg ( x ) g x = x E ( y | x ) = a + b x E(y|g(x))g(x)gx=xE(y|x)=a+bx

หากคุณสามารถใช้การถดถอยหลายครั้งแม้ว่าจะไม่ใช่ปัญหาสำคัญโดยเฉพาะเนื่องจากสามารถใช้ (ตัวอย่าง) เส้นโค้งการถดถอยแบบลูกบาศก์เพื่อให้เหมาะกับความสัมพันธ์ทั่วไปได้

ฉันขอแนะนำให้คุณหลีกเลี่ยงข้อมูลเมื่อเวลาผ่านไปเว้นแต่คุณจะเข้าใจปัญหาที่เกิดขึ้นกับการถดถอยแบบลวงตา ติดกับปัญหาหน้าตัด

หากคุณกำลังติดต่อกับเพียงคนเดียวฉันหวังว่าคุณต้องการอย่างต่อเนื่องมากกว่าเด็ดขาดxxxx

คุณไม่ต้องการที่จะมีข้อผิดพลาดในการวัดในเว้นแต่คุณจะสนใจในการปรับความคาดหวังของค่าที่วัดได้x

หากคุณสนใจในการทดสอบสมมติฐานช่วงความเชื่อมั่นหรือช่วงเวลาการคาดเดาสมมติฐานการถดถอยตามปกติอาจมีความสำคัญมากกว่า (แต่มีทางเลือกอื่นที่ไม่ได้ตั้งสมมติฐานเหล่านั้นและในบางกรณีอย่างน้อยสมมติฐานบางข้ออาจไม่ มีความสำคัญเป็นพิเศษอยู่แล้ว)

อย่างน้อยสิ่งหนึ่งที่พยายามจะระวังคือสิ่งที่สมมติฐานเหล่านั้นทำขึ้นเพื่อให้ได้กระบวนการอนุมานที่คุณใช้และความสำคัญของปัญหาที่อาจเกิดขึ้นกับปัญหาเฉพาะของคุณ (เป็นตัวอย่างเมื่อทำการทดสอบสมมติฐานตามปกติ ปกติเป็นข้อสันนิษฐาน แต่ในตัวอย่างขนาดใหญ่ที่การสันนิษฐานอาจไม่สำคัญในทางกลับกันสมมติฐานของความแปรปรวนคงที่อาจมีปัญหามากขึ้น)

มีโพสต์จำนวนมากที่กล่าวถึงข้อสันนิษฐานของการถดถอยและบางโพสต์ที่กล่าวถึงเมื่อพวกเขาจำเป็นต้องทำและจำนวนที่พวกเขาอาจมีความสำคัญและแม้กระทั่งสิ่งที่สั่งให้พิจารณาพวกเขามา


คำตอบที่ดี แต่ฉันคิดว่ามันไม่ตอบคำถามอย่างสมบูรณ์ แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น ยังไม่ได้ตอบ
Dawny33

@ Dawny33 ฉันตั้งใจจะเพิ่มมากขึ้นในภายหลัง - มีบางอย่างเกิดขึ้นขณะที่ฉันกำลังพิมพ์สิ่งที่ป้องกันไม่ให้ฉันเขียนคำตอบทั้งหมดที่ฉันตั้งใจไว้ ฉันมีเวลาเพียงเพื่อจบประโยคที่ฉันทำและตอนนี้อาจไม่กลับมาเป็นวันหรือสองวัน แน่นอนฉันไม่มีเวลาแก้ไขข้อผิดพลาดทั้งหมดในนั้น (ในขณะเดียวกันคุณไม่ควรลังเลที่จะโพสต์คำตอบ) ในทางกลับกันชี้ให้เห็นว่าข้อบกพร่องของคำถามนั้นอาจนำไปสู่ ​​OP ที่ต้องการถามสิ่งที่แตกต่างจากที่ตั้งใจไว้ (มักจะเป็นเมื่อ สถานที่ตั้งกลางล้มเหลว)
Glen_b

ตัวอย่างเช่นฉันคาดหวังว่าคำถามใหม่ที่อาจเกิดขึ้นคือ "คุณมีตัวอย่างหรือไม่"
Glen_b -Reinstate Monica

@Glen_b ขอบคุณ "การเชิงเส้น" หมายถึงรูปแบบที่เป็นเชิงเส้นในพารามิเตอร์ ขออภัยถ้าฉันเขียนผิดฉันไม่ได้ตั้งใจจะบอกเป็นอย่างอื่น คำหลักนั้นใช้งานได้
cwackers

@Glen_b พวกเขาอาจจะแนะนำให้คุณพิจารณาสมมติฐานการถดถอยต่างๆ ตกลงอีกครั้ง ฉันไม่ได้ชัดเจนเกี่ยวกับเรื่องนี้ แต่คำถามของฉันเป็นเรื่องเกี่ยวกับโดเมน ฉันสงสัยว่านักสถิติที่มีประสบการณ์จะมองหาอะไรในระบบที่กำลังได้รับการพิจารณาสำหรับการวิเคราะห์ LR ดังนั้นข้อเสนอที่ไร้เดียงสาของฉันเกี่ยวกับการมีการถดถอยที่เกี่ยวข้องกับการตอบสนองเชิงเส้นและเชิงหน้าที่
cwackers

4

นอกจากนี้ยังมีคำตอบที่ดีข้างต้นมีข้อกำหนดทั่วไปสำหรับรูปแบบเชิงเส้นในการทำงานได้ดีพอสมควรส่วนใหญ่ที่เกี่ยวข้องกับY จะต้องมีความประพฤติดีในแง่ของการไม่มีค่าสุดขีดที่จะมีอิทธิพลต่อแบบจำลองมากเกินไป ประการที่สองต้องการเปลี่ยนโชคดีเพื่อให้แบบจำลองมีความหวังในการเป็นสารเติมแต่งและเพื่อให้ส่วนที่เหลือเป็นแบบเกาส์เซียน (ถ้าทำการอนุมาน) นักวิเคราะห์บ่อยทำผิดพลาดของการพยายามกว่า 2 แปลงของเพื่อตอบสนองรูปแบบการตั้งสมมติฐานซึ่งบิดเบือนข้อสรุปสุดท้าย วิธีที่ง่ายกว่าในการพูดแบบนี้คือเราต้องเข้าใจการกระจายตัว (เงื่อนไขบนY Y Y Y XYYYYYX) ดี จากประสบการณ์หลายปีที่คุณจะเห็นว่าตัวแปรบางอย่างเช่นความดันโลหิตมีแนวโน้มที่จะทำงานได้ดีในแบบจำลองเชิงเส้นและอื่น ๆ (เช่นการวัดเคมีในเลือด) ไม่ได้

ทั้งหมดนี้ตรงกันข้ามกับแบบจำลอง semiparametric ที่สมมติว่าเป็นเลขลำดับนั้นมีความแข็งแกร่งอย่างสมบูรณ์ต่อค่าแปลก ๆ และไม่สนใจว่าจะถูกแปลงเป็นอย่างไร อัตราต่อรองตามสัดส่วนและโมเดลความเป็นอันตรายตามสัดส่วนเป็นสองตัวอย่างคลาสของโมเดลYYY


ขอบคุณสำหรับการชี้ให้เห็นแง่มุมของการมีความประพฤติดี ฉันคิดว่าการเปลี่ยนแปลงของ regressors แต่ไม่ใช่ตัวแปรการตอบสนอง อย่างไรก็ตามตอนนี้ฉันเห็นแล้วว่าสามารถใช้ในภายหลังเพื่อปรับสัดส่วนการกระจายของสารตกค้างได้อย่างไร ขอขอบคุณที่กรอกข้อมูลลงในรูปภาพ โพสต์ที่เป็นประโยชน์มาก
cwackers

3

@Glen_b ให้คำตอบที่ดีมาก แต่ตามที่ระบุไว้ไม่ได้จบ

ดังนั้นตามคำถามสุดท้ายของคุณ:

ฉันคิดว่านักสถิติที่มีประสบการณ์จะไม่ถามคำถามนี้ ในฐานะที่เป็น Glen บันทึกปัญหานั้นเป็นตัวกำหนดเครื่องมือที่จะใช้ไม่ใช่วิธีอื่น

หากฉันพยายามเรียนรู้เทคนิคเช่นการถดถอยเชิงเส้นฉันจะใช้ตัวอย่างที่ทำงานแล้ว - แต่สิ่งที่มีข้อมูลจริงไม่ใช่ข้อมูลที่ออกแบบมาเพื่อทำให้สิ่งต่าง ๆ เป็นเรื่องง่าย หนังสือเช่นแบบจำลองการถดถอยโดยตัวอย่างอาจให้คำแนะนำ

อย่างไรก็ตามหนึ่งในขั้นตอนแรกในการดูปัญหาการถดถอยคือการตัดสินใจว่าการถดถอยเชิงเส้นนั้นเหมาะสมหรือไม่


ฉันคิดว่านักสถิติที่มีประสบการณ์จะไม่ถามคำถามนี้ ใช่นั่นเป็นเหตุผลว่าทำไมฉันถึงมีคุณสมบัติ Q ใน "รองเท้าของฉัน" ขอบคุณมากสำหรับคำแนะนำหนังสือ ฉันจะติดตามการคัดลอก ตัวอย่างที่เชื่องช้าจะช่วยอย่างน้อยครึ่งหนึ่งของเรื่องราวโดยมีตัวอย่างที่เคาน์เตอร์เป็นอีกครึ่งหนึ่ง
cwackers

อ่าคำพูด! จากหน้า 2 ของรุ่นที่ 4: เราขอเชิญชวนผู้อ่านให้คิดถึงคำถาม (ในด้านการทำงานการวิจัยหรือความสนใจ) ที่สามารถแก้ไขได้โดยใช้การวิเคราะห์การถดถอย
cwackers

0

การตอบสนองจำนวนมากได้สัมผัสกับสมมติฐานที่ต้องพบ: เส้นตรงในส่วนที่เหลือความสม่ำเสมอของความแปรปรวนในช่วงของการทำนายไม่มีค่ามากที่สามารถมีอิทธิพลต่อสายการถดถอยและการสังเกตที่เป็นอิสระ แปลงที่เหลือค่อนข้างง่ายต่อการผลิตด้วยโปรแกรมการถดถอยส่วนใหญ่และแพคเกจบางอย่างจะจัดเตรียมบางอย่างโดยอัตโนมัติ (SAS)

คนหนึ่งพูดคุยเกี่ยวกับการแปลง y นี่เป็นวิธีปฏิบัติทั่วไปในบางพื้นที่ แต่เป็นวิธีปฏิบัติที่นำไปสู่ผลลัพธ์ที่เอนเอียงและอาจตีความไม่ได้ อคติจะปรากฏขึ้นเมื่อคุณพยายามแปลงผลลัพธ์เป็นเมตริกเดิม ดีกว่าที่จะเปลี่ยนไปใช้การถดถอยประเภทอื่นที่มีรูปแบบที่เหลือซึ่งตรงกับสมมติฐานการกระจายตัวของส่วนที่เหลือ ดูบทที่ 3 ในบทนำของ Agresti เกี่ยวกับการวิเคราะห์ข้อมูลอย่างละเอียดซึ่งเขาแนะนำแนวคิดของลิงก์ หนังสือเรียนการถดถอยจำนวนหนึ่งยังแนะนำโมเดลเชิงเส้นทั่วไป


ฉันไม่ได้แบ่งปันแง่ร้ายเกี่ยวกับการเปลี่ยนแปลง หลังจากการเปลี่ยนแปลงเดิมทั้งหมดโดยพลการค่อนข้าง หากคุณแปลงและรับส่วนที่เหลือด้วยการกระจายแบบสมมาตรการแปลงกลับของค่าที่ทำนายคือค่ามัธยฐานที่คาดการณ์ในระดับเดิม ค่ามัธยฐานที่คาดการณ์ไว้มีประโยชน์มาก หากคุณต้องการได้ค่าเฉลี่ยที่คาดการณ์ไว้ในระดับเดิมคุณสามารถใช้ตัวประมาณค่าการละเลง
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.