วิธีการแนวความคิดข้อผิดพลาดในรูปแบบการถดถอยหรือไม่?


11

ฉันกำลังเข้าร่วมชั้นเรียนวิเคราะห์ข้อมูลและแนวคิดที่หยั่งรากลึกของฉันบางอย่างกำลังสั่นไหว ความคิดที่ว่าข้อผิดพลาด (เอปไซลอน) รวมถึงความแปรปรวนประเภทอื่น ๆ นั้นมีผลเฉพาะกับ (ฉันคิดว่า) กับกลุ่ม (ตัวอย่างหรือประชากรทั้งหมด) ตอนนี้เรากำลังได้รับการสอนว่าหนึ่งในสมมติฐานการถดถอยคือความแปรปรวนคือ "เหมือนกันสำหรับทุกคน" นี่เป็นเรื่องที่ทำให้ฉันตกใจ ฉันคิดเสมอว่ามันเป็นความแปรปรวนใน Y ที่สอดคล้องกับค่าทั้งหมดของ X ที่คิดว่าคงที่

ฉันได้คุยกับศาสตราจารย์ผู้ซึ่งบอกฉันว่าเมื่อเราถดถอยเราคิดว่าแบบจำลองของเราเป็นจริง และฉันคิดว่านั่นเป็นส่วนที่ยุ่งยาก สำหรับฉันคำว่าข้อผิดพลาด (epsilon) หมายถึงบางสิ่งบางอย่างเช่น "องค์ประกอบใดก็ตามที่เราไม่ทราบและอาจส่งผลต่อตัวแปรผลลัพธ์ของเรารวมถึงข้อผิดพลาดในการวัด" ในวิธีการสอนในชั้นเรียนไม่มีสิ่งเช่น "สิ่งอื่น ๆ "; แบบจำลองของเราถือว่าเป็นจริงและสมบูรณ์ ซึ่งหมายความว่าการเปลี่ยนแปลงส่วนที่เหลือทั้งหมดจะต้องถูกคิดว่าเป็นผลมาจากความผิดพลาดในการวัด

ฉันรู้สึกว่ามีบางอย่างผิดปกติฉันอยากจะมีความเห็นจากผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้ ... มีห้องสำหรับการตีความหรือไม่ว่าคำผิดพลาดคืออะไร


3
บางทีสิ่งที่เขาหมายถึงก็คือแม้ว่าตัวแบบจะเป็นจริง แต่ก็ยังมีความแปรปรวนแบบสุ่มในการตอบสนอง - สิ่งนี้ถูกจับโดยความแปรปรวนข้อผิดพลาด - ตัวอย่างเช่นนี้สามารถนำมาประกอบกับเครื่องมือวัดที่ไม่สมบูรณ์ บางครั้งคนอื่น ๆ คิดความแปรปรวนข้อผิดพลาดเนื่องจากการคาดการณ์ที่ขาดหายไป (ไม่จำเป็นต้องมีข้อผิดพลาดในรูปแบบของแบบจำลอง) ซึ่งหมายความว่าหากมีการวัดตัวทำนายที่เป็นไปได้ทั้งหมดความแปรปรวนข้อผิดพลาดจะเป็น 0 ในการวัดสามารถคิดว่าเป็น "ตัวทำนายที่หายไป"
มาโคร

ฉันคิดว่าสิ่งแรกที่จะเข้าใจได้ยากในตอนแรกคือ "ความผิดพลาด" อาจหมายถึงสิ่งที่แตกต่างในกรณีนี้ "ข้อผิดพลาด" อาจหมายถึงความแตกต่างระหว่างค่าติดตั้งที่เราได้รับจากแบบจำลองของเราและค่าที่สังเกตได้ "ข้อผิดพลาด" อาจหมายถึงความแตกต่างระหว่างค่าที่สังเกตและค่าจริง (ความคลาดเคลื่อนอาจเกิดจากการพูดอุปกรณ์ที่คุณใช้ในการวัดค่ารอบเป็นจำนวนเต็ม / ทศนิยมสิบ / ฯลฯ ที่ใกล้เคียงที่สุด) [ประเภทแรกคือตำแหน่งที่คุณจะได้ยินคำศัพท์เช่น "ส่วนที่เหลือ / ความแปรปรวนส่วนที่เหลือ"]

@Macro ใช่ฉันคิดว่านี่เป็นวิธีคิดที่ผิด อย่างไรก็ตามฉันพยายามที่จะเข้าใจว่าทำไมศาสตราจารย์ยืนยันในคำจำกัดความที่เข้มงวดของมัน (คิดว่ามันใช้ได้กับแต่ละคนแม้ว่าเราจะรู้ในความเป็นจริงมันไม่เป็นความจริง)
Dominic Comtois

@MikeWierzbicki ถูกต้อง และถ้าฉันเข้าใจอย่างถูกต้องสิ่งนี้จะถูกรวมเข้าด้วยกันในมุมมอง "เข้มงวด" หมายความว่าความแตกต่างทั้งหมดระหว่างค่าที่สังเกตและค่าทำนายมาจากข้อผิดพลาดการวัดเนื่องจากแบบจำลองของเรา "ต้องเป็นจริง"
Dominic Comtois

คำตอบ:


2

หากมีแง่มุมของบุคคลที่มีผลต่อค่า y ที่เกิดขึ้นก็จะมีวิธีที่จะได้รับที่ด้านเหล่านั้น (ในกรณีที่พวกเขาควรจะเป็นส่วนหนึ่งของการทำนาย x) หรือมีวิธีที่เคยได้รับที่ ข้อมูล.

หากไม่มีวิธีในการรับข้อมูลนี้และไม่มีวิธีการวัดค่า y ซ้ำ ๆ สำหรับแต่ละบุคคลมันก็ไม่สำคัญ หากคุณสามารถวัดค่า y ซ้ำ ๆ ได้และหากชุดข้อมูลของคุณมีการวัดซ้ำหลายครั้งสำหรับบางคนคุณอาจมีปัญหาที่อาจเกิดขึ้นในมือของคุณเนื่องจากทฤษฎีสถิติถือว่าความเป็นอิสระของข้อผิดพลาดในการวัด / ส่วนที่เหลือ

ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามให้พอดีกับแบบจำลองของแบบฟอร์ม

y=β0+β1x ,

และสำหรับแต่ละบุคคล

yind=100+10x+z ,

โดยที่ z ขึ้นอยู่กับแต่ละบุคคลและกระจายตามปกติด้วยค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 10 สำหรับการวัดซ้ำของแต่ละบุคคล

ymeas=100+10x+z+e ,

e

คุณสามารถลองทำแบบนี้เป็น

y=β0+β1x+ϵ

ϵ

σ=102+0.12=100.01

ตราบใดที่คุณมีการวัดเพียงอย่างเดียวสำหรับแต่ละคน อย่างไรก็ตามหากคุณมีการวัดหลายรายการสำหรับบุคคลเดียวกันค่าคงค้างของคุณจะไม่เป็นอิสระอีกต่อไป!

β0=100β1=10χ2


ฉันพยายามหลีกเลี่ยงการใช้คำว่า "การสร้างแบบจำลองหลายระดับ" ที่น่ากลัวในคำตอบของฉัน แต่คุณควรระวังว่าในบางกรณีมันมีวิธีจัดการกับสถานการณ์เช่นนี้
Brian Borchers

1

ฉันคิดว่า "ข้อผิดพลาด" อธิบายได้ดีที่สุดว่า "ส่วนของการสังเกตที่ไม่สามารถคาดเดาได้เนื่องจากข้อมูลปัจจุบันของเรา" การพยายามคิดในแง่ของประชากรกับกลุ่มตัวอย่างนำไปสู่ปัญหาเชิงแนวคิด (มันทำเพื่อฉันแล้ว) เช่นเดียวกับที่คิดถึงข้อผิดพลาดในรูปแบบ "สุ่มล้วนๆ" ที่ดึงมาจากการแจกแจงบางอย่าง การคิดในแง่ของการทำนายและ "การคาดการณ์ได้" ทำให้ฉันมีเหตุผลมากขึ้น

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

และโดยใกล้ฉันหมายถึงการลดความแตกต่าง kl
ความน่าจะเป็นทาง

ขึ้นเขียงไม่ได้อยู่ระหว่างตัวอย่างและประชากร มันเกี่ยวกับการคิดถึงข้อผิดพลาดที่เกี่ยวข้องกับบุคคลเทียบกับตัวอย่าง / ประชากร
Dominic Comtois

1

นี่คือลิงค์ที่มีประโยชน์มากเพื่ออธิบายการถดถอยเชิงเส้นอย่างง่าย: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.htmlบางทีมันอาจช่วยเข้าใจแนวคิด "ข้อผิดพลาด"

FD


นั่นเป็นแอปเพล็ตที่ดีมาก! ขอบคุณสำหรับการอ้างอิง มันทำให้ฉันนึกถึงภาพที่ฉันสร้างขึ้นสำหรับคำถามอื่นซึ่งการตอบของคุณอาจมีความเกี่ยวข้องมากกว่า
whuber

1

ฉันไม่เห็นด้วยกับสูตรของศาสตราจารย์ในเรื่องนี้ ดังที่คุณพูดความคิดที่ว่าความแปรปรวนนั้นเหมือนกันสำหรับแต่ละคนหมายความว่าคำผิดพลาดแสดงถึงข้อผิดพลาดในการวัดเท่านั้น นี่ไม่ใช่วิธีสร้างตัวแบบการถดถอยพหุคูณพื้นฐาน เช่นเดียวกับที่คุณพูดความแปรปรวนถูกกำหนดสำหรับกลุ่ม (ไม่ว่าจะเป็นกลุ่มของบุคคลหรือกลุ่มของการวัด) มันใช้ไม่ได้ในแต่ละระดับยกเว้นว่าคุณมีมาตรการซ้ำ ๆ

แบบจำลองจะต้องสมบูรณ์ในระยะที่ข้อผิดพลาดไม่ควรมีอิทธิพลจากตัวแปรใด ๆ ที่มีความสัมพันธ์กับการทำนาย สมมติฐานคือข้อผิดพลาดที่เป็นอิสระจากการทำนาย หากละเว้นตัวแปรที่เกี่ยวข้องบางตัวคุณจะได้ค่าสัมประสิทธิ์แบบเอนเอียง (ซึ่งเรียกว่าการละเว้นตัวแปรอคติ )


ฉันไม่เข้าใจคำตอบนี้มากนัก ดูเหมือนว่าจะรับรู้ถึงความแตกต่างระหว่างข้อผิดพลาดเนื่องจากการขาดความพอดีและข้อผิดพลาดแบบสุ่ม แต่คำถามเชิงโวหารครั้งสุดท้ายดูเหมือนสับสน จากมุมมองที่เป็นทางการล้วน ๆ การอนุมานใด ๆ ที่ทำด้วยความเคารพต่อแบบจำลองการถดถอยบานพับบนสมมติฐานที่ชัดเจนมากเกี่ยวกับโครงสร้างเสียง
พระคาร์ดินัล

1
ประเด็นของฉันคือในหลาย ๆ กรณีจุดประสงค์ของการสร้างแบบจำลองการถดถอยคือการหาสิ่งที่เกิดขึ้นแม้ว่าเราจะไม่ทราบสาเหตุทั้งหมดของผลลัพธ์ที่เฉพาะเจาะจง แต่ดูเหมือนว่าไม่ชัดเจนฉันจะลบคำถามนั้น
Anne Z.

ขอบคุณ จุดในความคิดเห็นของคุณเป็นสิ่งที่ดี คำถามก่อนหน้านี้ที่คุณระบุไว้สามารถอ่านเป็นการตั้งคำถามพื้นฐานทั้งหมดที่ทฤษฎีการถดถอยวางอยู่ :)
สำคัญ

ฉันเห็นด้วยกับคุณในความไม่เห็นด้วยของคุณ (ดังนั้นคำถามของฉัน!) และการตั้งค่าตัวแปรที่ละเว้นนั้นค่อนข้างเกี่ยวข้องกับปัญหานี้ ขอบคุณ
Dominic Comtois
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.