การทำความเข้าใจความถดถอย - บทบาทของตัวแบบ


46

แบบจำลองการถดถอยสามารถใช้งานได้อย่างไรหากคุณไม่ทราบว่าฟังก์ชั่นที่คุณพยายามรับพารามิเตอร์นั้นเป็นอย่างไร

ฉันเห็นงานวิจัยชิ้นหนึ่งที่กล่าวว่าแม่ที่เลี้ยงลูกด้วยนมแม่มีโอกาสน้อยที่จะเป็นโรคเบาหวานในภายหลัง การวิจัยครั้งนี้มาจากการสำรวจมารดา 1,000 คนและควบคุมปัจจัยอื่น ๆ และใช้แบบจำลองเชิงเส้น

ตอนนี้นี่หมายความว่าพวกเขาคำนึงถึงปัจจัยทั้งหมดที่กำหนดความน่าจะเป็นของโรคเบาหวานในฟังก์ชั่นที่ดี (แทนได้อย่างน่าสันนิษฐาน) ที่แปลอย่างประณีตในรูปแบบเชิงเส้นที่มีท่อนซุงและไม่ว่าเต้านมผู้หญิง

ฉันขาดอะไรบางอย่างฉันแน่ใจแต่ว่าพวกเขารู้รูปแบบได้อย่างไร


ขอบคุณมาก ๆ ฉันต้องการใช้เวลาคิดสักเล็กน้อยเกี่ยวกับคำตอบของคุณและบางทีถ้าคุณไม่รังเกียจที่จะลองเขียนในมุมมองของคุณ ฉันชอบคำอธิบายของกระบวนการนี้ที่มาจากซีรี่ส์ Taylor ฉันต้องรับความรู้ของฉันเกี่ยวกับการถดถอยอย่างบังเอิญและผ่านเศรษฐศาสตร์และคณิตศาสตร์สำหรับนักเศรษฐศาสตร์
Jonathan Andrews

ฉันได้รวมบัญชีของคุณแล้ว แต่โปรดลงทะเบียนที่นี่stats.stackexchange.com/users/loginดังนั้นคุณจะไม่หลวมอีก

คำตอบ:


43

ช่วยในการดูการถดถอยเป็นการประมาณเชิงเส้นของรูปแบบที่แท้จริง สมมติว่าความสัมพันธ์ที่แท้จริงคือ

Y=(x1,...,xk)

กับปัจจัยอธิบายY จากนั้นลำดับแรกเทย์เลอร์ประมาณfรอบศูนย์คือ:x1,...,xkY

(x1,...,xk)=(0,...,0)+Σผม=1k(0)xkxk+ε,

โดยที่เป็นข้อผิดพลาดโดยประมาณ ตอนนี้แสดงว่าα 0 = F ( 0 , . . . , 0 )และα k = ( 0 )εα0=(0,...,0)และคุณมีการถดถอย:αk=(0)xk

Y=α0+α1x1+...+αkxk+ε

ดังนั้นแม้ว่าคุณจะไม่ทราบความสัมพันธ์ที่แท้จริงหากมีขนาดเล็กคุณจะได้รับการประมาณซึ่งคุณยังสามารถสรุปข้อสรุปที่เป็นประโยชน์ได้ε


1
สวัสดีคำอธิบายที่ดีมาก แต่ฉันไม่สามารถเข้าใจส่วน "ซิกม่า" ในการขยายตัวของเทย์เลอร์ได้ คุณจะลดสมการนี้ได้ที่นี่: mathworld.wolfram.com/TaylorSeries.html ภายใต้ "ชุด Taylor ของฟังก์ชันจริงในสองตัวแปร" ให้กับคุณหรือไม่
อรุณ

1
@Arun ใช้ในสูตร (32) n=1
mpiktas

18

อีกด้านหนึ่งของคำตอบประกอบกับคำตอบของ mpiktas แต่ยังไม่ได้กล่าวถึงคือ:

"พวกเขาทำไม่ได้ แต่ทันทีที่พวกเขาคิดโครงสร้างของแบบจำลองพวกเขาสามารถตรวจสอบกับข้อมูล"

สองสิ่งพื้นฐานที่ผิดพลาดคือ: รูปแบบของฟังก์ชั่นเช่นมันไม่ได้เป็นเชิงเส้นในบันทึก ดังนั้นคุณจะเริ่มต้นด้วยการพล็อตของสารตกค้างที่เหมาะสมกับค่าที่คาดไว้ หรือตัวเลือกของการแจกแจงแบบมีเงื่อนไขเช่นจำนวนที่สังเกตนั้นนับว่าสัมพันธ์กันมากเกินไปกับปัวซอง ดังนั้นคุณจะทดสอบกับแบบจำลองลบ Binomial ของรุ่นเดียวกันหรือดูว่าเพื่อนร่วมตัวแปรพิเศษสำหรับรูปแบบพิเศษหรือไม่

คุณต้องการตรวจสอบค่าผิดปกติการสังเกตที่มีอิทธิพลและโฮสต์ของสิ่งอื่น ๆ สถานที่ที่เหมาะสมในการอ่านเกี่ยวกับการตรวจสอบปัญหารูปแบบเหล่านี้คือ ch.5 ของ Cameron และ Trivedi 1998 (แน่นอนว่าเป็นสถานที่ที่ดีกว่าสำหรับนักวิจัยเชิงระบาดวิทยาที่จะเริ่มต้น - บางทีชาวบ้านคนอื่น ๆ อาจแนะนำมัน)

หากการวินิจฉัยเหล่านี้ระบุว่าแบบจำลองไม่สามารถพอดีกับข้อมูลได้คุณจะเปลี่ยนมุมมองที่เกี่ยวข้องของตัวแบบและเริ่มกระบวนการทั้งหมดอีกครั้ง


1
+1 นี่คือกุญแจที่ทำให้ทุกอย่างไม่ต้องโบกมือ: คุณไม่รู้ แต่คุณลองอะไรแล้วดูว่ามันเข้ากันได้ดีแค่ไหนและมันเข้ากันไม่ตรงกับข้อมูลของคุณอย่างไร
Wayne

15

คำถามแรกที่ยอดเยี่ยม! ฉันเห็นด้วยกับคำตอบของ mpiktas นั่นคือคำตอบสั้น ๆ คือ "พวกเขาไม่ได้ แต่พวกเขาหวังว่าจะมีการประมาณค่ารุ่นที่เหมาะสมซึ่งให้คำตอบที่ถูกต้อง"

ในศัพท์แสงระบาดวิทยาในรูปแบบความไม่แน่นอนนี้เป็นหนึ่งในแหล่งที่มาของสิ่งที่เรียกว่า ' รบกวนที่เหลือ ' ดูหน้าของสตีฟไซมอน 'สิ่งที่หลงเหลืออยู่คืออะไร' สำหรับคำอธิบายสั้น ๆ ที่ดีหรือบทความของHeiko Becher ในปี 1992 สาขาวิชาสถิติการแพทย์ (การสมัครสมาชิก) สำหรับการรักษาทางคณิตศาสตร์ที่ยาวนานขึ้นหรือFewell, Davey Smith & Sterne เป็นบทความล่าสุดในวารสาร American Journal of Epidemiology (การสมัครสมาชิกต้องการ )

นี่คือเหตุผลหนึ่งที่ระบาดวิทยาของเอฟเฟกต์เล็ก ๆ เป็นเรื่องยากและการค้นพบมักจะแย้งกัน - ถ้าขนาดเอฟเฟ็กต์ที่วัดได้มีขนาดเล็กมันก็ยากที่จะแยกแยะการรบกวนที่หลงเหลืออยู่


1
ฉันยืนยันว่ารูปแบบการสะกดผิดพลาด - ซึ่งดูเหมือนจะเป็นสิ่งที่ OP พูดถึงค่อนข้างแตกต่างจากการรบกวนที่เหลือ การรบกวนต้องใช้ covariate คุณสามารถกรูขึ้นถดถอยที่มีเพียง misspecification ของการเปิดรับและผล
Fomite

13

มีคำพูดที่มีชื่อเสียงคือ "หลักทุกรุ่นจะผิด แต่บางคนจะมีประโยชน์" ของจอร์จกล่อง เมื่อแบบจำลองที่เหมาะสมเช่นนี้เราพยายามคิด (หรือควร) เกี่ยวกับกระบวนการสร้างข้อมูลและทางกายภาพโลกแห่งความจริงความสัมพันธ์ระหว่างการตอบสนองและเพื่อนร่วมงาน เราพยายามที่จะแสดงความสัมพันธ์เหล่านี้ในรูปแบบที่เหมาะกับข้อมูล หรือเพื่อนำไปใช้ในทางอื่นสอดคล้องกับข้อมูล เช่นการสร้างแบบจำลองเชิงประจักษ์

ไม่ว่าจะเป็นประโยชน์หรือไม่ได้มีการพิจารณาในภายหลัง - มันให้การคาดการณ์ที่ดีและน่าเชื่อถือตัวอย่างเช่นผู้หญิงที่ไม่ได้ใช้แบบจำลองหรือไม่? สัมประสิทธิ์รูปแบบสามารถตีความได้และใช้งานทางวิทยาศาสตร์หรือไม่ ขนาดของเอฟเฟกต์มีความหมายหรือไม่?


3

คำตอบที่คุณได้รับมานั้นเป็นคำตอบที่ยอดเยี่ยม แต่ฉันจะให้คำตอบเสริม (หวังว่า) จากมุมมองของนักระบาดวิทยา ฉันมีสามความคิดในเรื่องนี้:

ครั้งแรกพวกเขาทำไม่ได้ ดูเพิ่มเติม: ทุกรุ่นผิดรุ่นบางรุ่นมีประโยชน์ เป้าหมายคือการไม่สร้างตัวเลขที่แน่นอนซึ่งถือเป็น "ความจริง" ของฟังก์ชันพื้นฐาน เป้าหมายคือการประเมินฟังก์ชั่นนั้นโดยการหาปริมาณของความไม่แน่นอนรอบ ๆ นั่นคือการประมาณที่สมเหตุสมผลและมีประโยชน์ของฟังก์ชันพื้นฐาน

นี่คือความจริงโดยเฉพาะอย่างยิ่งสำหรับมาตรการผลกระทบขนาดใหญ่ ข้อความ "นำออกไป" จากการศึกษาที่พบว่ามีความเสี่ยงสัมพัทธ์ 3.0 ไม่แตกต่างกันมากหากความสัมพันธ์ "จริง" คือ 2.5 หรือ 3.2 ดังที่ @estop กล่าวถึงสิ่งนี้จะได้รับยากขึ้นโดยใช้การวัดผลขนาดเล็กเนื่องจากความแตกต่างระหว่าง 0.9, 1.0 และ 1.1 อาจมีขนาดใหญ่มากจากมุมมองด้านสุขภาพและนโยบาย

ประการที่สองมีกระบวนการที่ซ่อนอยู่ในเอกสารระบาดวิทยาส่วนใหญ่ นั่นคือความจริงขั้นตอนการคัดเลือกรูปแบบ เรามักจะรายงานแบบจำลองที่เราลงเอยด้วยไม่ใช่แบบจำลองทั้งหมดที่เราพิจารณา (เพราะมันน่าเบื่อถ้าไม่มีอะไรอื่น) มีขั้นตอนการสร้างแบบจำลองไดอะแกรมแนวความคิดการวินิจฉัยสถิติที่พอดีการวิเคราะห์ความอ่อนไหวการสบถที่คอมพิวเตอร์และการเขียนลวก ๆ บนกระดานสีขาวที่เกี่ยวข้องกับการวิเคราะห์การศึกษาเชิงสังเกตแม้แต่น้อย

เพราะในขณะที่คุณกำลังทำสมมติฐานหลายคนนอกจากนี้ยังมีการตั้งสมมติฐานคุณสามารถตรวจสอบ

สามบางครั้งเราทำไม่ได้ จากนั้นเราก็ไปที่การประชุมและโต้แย้งกันเกี่ยวกับเรื่องนี้;)

หากคุณสนใจถั่วและกลอนของวิทยาการระบาดในฐานะที่เป็นทุ่งนาและวิธีการที่เราทำการวิจัยจุดเริ่มต้นที่ดีที่สุดน่าจะเป็นModern Epidemiology 3rd Editionโดย Rothman, Greenland และ Lash มันเป็นภาพรวมทางเทคนิคในระดับปานกลางและภาพรวมที่ดีมากของการดำเนินการวิจัยของ Epi


1
+1 นี่คือส่วนเติมเต็มที่ดีสำหรับสิ่งที่อยู่ที่นี่ เป็นเรื่องดีที่ได้เห็นว่ามีส่วนร่วมที่เป็นประโยชน์สามารถสร้างขึ้นได้แม้ว่าจะมีสิ่งดีๆอื่น ๆ อีกมากมายที่มีอยู่แล้ว
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.