อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้น?


70

ฉันอยากรู้อยากเห็นสำหรับพวกคุณที่มีประสบการณ์มากมายที่ร่วมมือกับนักวิจัยคนอื่น ๆ อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้นที่คุณพบ

ฉันคิดว่าเป็นแบบฝึกหัดที่มีประโยชน์ที่จะคิดเกี่ยวกับความเข้าใจผิดที่พบบ่อยล่วงหน้าเพื่อ

  1. คาดการณ์ความผิดพลาดของผู้คนและสามารถบอกกล่าวความสำเร็จได้ว่าทำไมความเข้าใจผิดบางอย่างไม่ถูกต้อง

  2. ตระหนักดีว่าถ้าฉันปิดบังความเข้าใจผิดบางอย่างด้วยตัวเอง!

พื้นฐานสองสามข้อที่ฉันนึกได้:

ตัวแปรอิสระ / ขึ้นอยู่กับต้องกระจายตามปกติ

ตัวแปรจะต้องเป็นมาตรฐานสำหรับการตีความที่ถูกต้อง

อื่น ๆ ?

คำตอบทั้งหมดยินดีต้อนรับ


5
นี่น่าจะเป็น CW เพราะมันจะเชิญรายชื่อของความเป็นไปได้ & มันจะเป็นการยากที่จะบอกว่าเป็นคำตอบที่ถูกต้อง
gung

ผู้คนจำนวนมากที่ฉันรู้ว่ายังคงยืนยันในการดำเนินการเชิงเส้นบนข้อมูลของพวกเขาและทิ้งไว้ที่แม้ว่าสภาพแวดล้อมการคำนวณที่พวกเขาใช้มีการสนับสนุนที่ดีสำหรับการถดถอยแบบไม่เชิงเส้น (การสร้างเส้นตรงนั้นมีประโยชน์ในฐานะจุดเริ่มต้นสำหรับความไม่เป็นเชิงเส้น แต่คนเหล่านี้ไม่รู้ด้วยซ้ำว่า)
JM ไม่ใช่นักสถิติ

1
@gung: Wiki ชุมชนยังเป็นสิ่งหรือไม่ เครือข่ายที่ไม่ได้รับการสนับสนุนส่วนใหญ่ CW ไม่เคยมีส่วนเกี่ยวข้องกับการให้คำถามในรายการใหญ่ ๆ ที่ไม่ได้รับคำถามจากบัตรฟรีคุกหรือปล้นผู้มีชื่อเสียงที่พวกเขาอาจได้มา วิธีเดียวที่คุณสามารถตั้งคำถามได้อีกต่อไปคือหากคุณขอให้ผู้ดำเนินการทำ
Robert Harvey

1
ถ้าพระเจ้าสร้างโลกให้เป็นแนวตรงคงไม่มีการถดถอยแบบไม่เชิงเส้น
Mark L. Stone

1
@RobertHarvey: ใช่มันเป็นยังคงมากสิ่งบน CrossValidated (ในความคิดของฉันโชคร้าย) เรามีการอภิปราย Meta ที่ร้อนแรงเกี่ยวกับเรื่องนี้ ( เช่นเรื่องนี้ ) แต่สถานะปัจจุบันคือสถานะ CW จะถูกบังคับใช้ในทุกคำถามที่อิงความเห็นหรือคำถามใหญ่ที่พิจารณาในหัวข้อที่เปิดอยู่
อะมีบา

คำตอบ:


38

หลักฐานเท็จ: Aหมายความว่าไม่มีความสัมพันธ์ที่ดีระหว่าง DV และ IV β^0
ความสัมพันธ์ในการทำงานที่ไม่เป็นเชิงเส้นนั้นมีมากมาย แต่ข้อมูลที่ผลิตโดยความสัมพันธ์ดังกล่าวจำนวนมากมักจะสร้างความลาดเอียงเกือบเป็นศูนย์ถ้าสมมติว่าความสัมพันธ์นั้นต้องเป็นเชิงเส้น

ที่เกี่ยวข้องในหลักฐานที่ผิดพลาดนักวิจัยมักจะสันนิษฐานว่าอาจเป็นเพราะหนังสือตำราการถดถอยเบื้องต้นหลายเล่มสอนว่า "การทดสอบแบบไม่เป็นเชิงเส้น" โดยการสร้างชุดการถดถอยของ DV บนการขยายพหุนามของ IV (เช่นตามด้วยตามมา โดยYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+εฯลฯ ) เช่นเดียวกับเส้นตรงไม่สามารถดีเป็นตัวแทนของความสัมพันธ์ในการทำงานไม่เป็นเชิงเส้นระหว่าง DV และ IV, รูปโค้งไม่สามารถดีแทนตัวอักษรจำนวนอนันต์ของความสัมพันธ์ที่ไม่เป็นเชิงเส้น (เช่นไซน์, cycloids ฟังก์ชั่นขั้นตอนผลกระทบอิ่มตัว S-โค้ง ฯลฯไม่มีที่สิ้นสุด ) หนึ่งอาจใช้วิธีการถดถอยที่ไม่ถือว่ารูปแบบการทำงานใด ๆ โดยเฉพาะ (เช่นการใช้งานเส้นเรียบ, เกม, ฯลฯ )

หลักฐานเท็จที่สามคือการเพิ่มจำนวนของประมาณพารามิเตอร์จำเป็นต้องส่งผลในการสูญเสียพลังงานทางสถิติ นี้อาจเป็นเท็จเมื่อความสัมพันธ์ที่แท้จริงคือไม่เชิงเส้นและต้องใช้หลายพารามิเตอร์ในการประมาณการ (เช่น "ติดเสีย" ฟังก์ชั่นต้องไม่เพียง แต่ตัดและความลาดชันแง่ของการเป็นเส้นตรง แต่ต้องมีจุดที่เปลี่ยนแปลงความลาดชันและเท่าใด การเปลี่ยนแปลงความชันโดย การประมาณด้วย): ส่วนที่เหลือของรูปแบบที่ผิดพลาด (เช่นเส้นตรง) อาจมีขนาดค่อนข้างใหญ่ (สัมพันธ์กับความสัมพันธ์ในการทำงานที่ระบุไว้อย่างเหมาะสม) ส่งผลให้ความน่าจะเป็นในการปฏิเสธที่ต่ำลงและช่วงความเชื่อมั่น .


4
(+1) Quibbles: (1) ฉันไม่คิดว่าแม้แต่ข้อความเกริ่นนำหมายความว่าเส้นโค้งทั้งหมดเป็นฟังก์ชันพหุนาม แต่พวกมันสามารถประมาณได้ดีพอในช่วงที่กำหนดโดยฟังก์ชันพหุนาม ดังนั้นพวกเขาจึงตกอยู่ในชั้นเรียนของ "วิธีการถดถอยที่ไม่ใช้รูปแบบการทำงานใด ๆ " ซึ่งควบคุมโดย "hyperparameter" ที่ระบุความผิดพลาด: ช่วงเวลาสำหรับเหลือง นอตสำหรับการถดถอยบนพื้นฐานอิสระ, ระดับสำหรับการถดถอยบนพื้นฐานพหุนาม (ฉันไม่ได้โบกธงสำหรับชื่อพหุนาม - มันเป็นที่รู้จักกันดีว่าพวกเขามักจะโบกมือไปรอบ ๆ ปลายมากกว่าที่เราต้องการ -, ...
Scortchi

2
... เพียงแค่ให้พวกเขาเนื่องจากพวกเขา.) (2) ไซนัสอาจจะพอดีเช่นนี้ภายในกรอบโมเดลเชิงเส้น; เอฟเฟ็กต์ความอิ่มตัวโดยใช้โมเดลที่ไม่ใช่เชิงเส้น (ไฮเพอร์โบลารูปสี่เหลี่ยมผืนผ้า, พูด); c & แน่นอนคุณไม่ได้พูดอย่างอื่น แต่อาจคุ้มค่าที่ชี้ให้เห็นว่าถ้าคุณรู้ว่ามีวงจรหรือเส้นกำกับการใช้ข้อ จำกัด เหล่านั้นในแบบจำลองของคุณจะเป็นประโยชน์
Scortchi

2
@Scortchi ฉันไม่สามารถตกลงกันได้อีก! (อันที่จริงเมื่อได้รับจำนวนพหุนามจำนวนจำกัดฟังก์ชันใด ๆ ก็สามารถแสดงได้อย่างสมบูรณ์แบบ) มุ่งไปที่ความรัดกุม :)
อเล็กซิส

2
@Alexis ลองใช้ฟังก์ชันฐาน 13 ของ Conway โดยประมาณซึ่งมีหลายชื่อ :)
ความลับของ Solomonoff

1
หรือ ...χQ
Stephan Kolassa

22

เป็นเรื่องธรรมดามากที่จะสันนิษฐานว่ามีเพียงข้อมูลเท่านั้นที่มีข้อผิดพลาดในการวัด (หรืออย่างน้อยนั่นเป็นข้อผิดพลาดเดียวที่เราจะพิจารณา) แต่สิ่งนี้จะเพิกเฉยต่อความเป็นไปได้และผลที่ตามมาของข้อผิดพลาดในการวัดสิ่งนี้อาจรุนแรงในการศึกษาเชิงสังเกตการณ์ที่ตัวแปรไม่อยู่ภายใต้การควบคุมการทดลองyxx

การเจือจางการถดถอยหรือการลดทอนการถดถอยเป็นปรากฏการณ์ที่ได้รับการยอมรับโดย Spearman (1904) โดยความชันของการถดถอยโดยประมาณในการถดถอยเชิงเส้นอย่างง่ายจะเอนเอียงไปทางศูนย์โดยการมีข้อผิดพลาดการวัดในตัวแปรอิสระ สมมติว่าความชันที่แท้จริงนั้นเป็นบวก - ผลของการสั่นของจุดพิกัด(อาจมองเห็นได้ง่ายที่สุดในฐานะ "รอยเปื้อน" จุดในแนวนอน) คือการทำให้เส้นถดถอยมีความชันน้อยลง โดยสังหรณ์ใจคะแนนที่มีขนาดใหญ่ขณะนี้มีแนวโน้มที่จะเป็นเช่นนั้นเนื่องจากข้อผิดพลาดการวัดในเชิงบวกในขณะที่ค่ามีแนวโน้มที่จะสะท้อนให้เห็นถึงค่าที่แท้จริง (ปราศจากข้อผิดพลาด) ของและต่ำกว่าเส้นที่แท้จริงจะ สำหรับการสังเกตxxyxx .

ในแบบจำลองที่ซับซ้อนยิ่งขึ้นข้อผิดพลาดในการวัดในตัวแปรสามารถสร้างผลกระทบที่ซับซ้อนกว่าในการประมาณค่าพารามิเตอร์ มีข้อผิดพลาดในตัวแบบตัวแปรที่พิจารณาข้อผิดพลาดดังกล่าว Spearman เสนอแนะปัจจัยการแก้ไขสำหรับการลดค่าสัมประสิทธิ์สหสัมพันธ์ bivariateและปัจจัยการแก้ไขอื่น ๆ ได้รับการพัฒนาสำหรับสถานการณ์ที่ซับซ้อนมากขึ้น อย่างไรก็ตามการแก้ไขดังกล่าวอาจเป็นเรื่องยาก - โดยเฉพาะอย่างยิ่งในกรณีหลายตัวแปรและต่อหน้าผู้รบกวน - และอาจเป็นที่ถกเถียงกันว่าการแก้ไขนั้นเป็นการปรับปรุงที่แท้จริงหรือไม่ดูตัวอย่างเช่น Smith และ Phillips (1996)x

ดังนั้นฉันคิดว่านี่เป็นความเข้าใจผิดที่สองสำหรับราคาหนึ่ง - ในมือข้างหนึ่งมันเป็นความผิดพลาดที่จะคิดว่าวิธีที่เราเขียนหมายถึง "ข้อผิดพลาดทั้งหมดอยู่ใน " และไม่สนใจ ความเป็นไปได้ที่แท้จริงของข้อผิดพลาดการวัดในตัวแปรอิสระ ในทางตรงกันข้ามมันอาจไม่เหมาะสมที่จะใช้ "การแก้ไข" สำหรับข้อผิดพลาดในการวัดในทุกสถานการณ์เช่นการตอบสนองต่อการกระตุกเข่า (แม้ว่าจะเป็นการดีที่ควรทำตามขั้นตอนเพื่อลดข้อผิดพลาดในการวัด) .yy=Xβ+εy

(ผมอาจจะยังเชื่อมโยงไปยังบางรุ่นอื่น ๆ ที่พบข้อผิดพลาดในตัวแปรในการสั่งซื้อทั่วไปมากขึ้น: การถดถอยมุมฉาก , Deming ถดถอยและสี่เหลี่ยมน้อยทั้งหมด .)

อ้างอิง


ในหมายเหตุที่: นี่คือเหตุผลหนึ่งสำหรับการใช้เทคนิคที่เรียกว่า "รวมกำลังสองน้อยที่สุด" หรือ "การถดถอยแบบ orthogonal" (ขึ้นอยู่กับการอ้างอิงที่คุณกำลังอ่าน); มันมีความซับซ้อนมากกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุดธรรมดา แต่ก็คุ้มค่าที่จะทำหากคะแนนทั้งหมดของคุณปนเปื้อนด้วยข้อผิดพลาด
JM ไม่ใช่นักสถิติ

@JM ขอบคุณ - ใช่ที่จริงแล้วฉันตั้งใจจะใส่ลิงค์ไปยัง TLS แต่ได้รับความสนใจจากบทความ Smith และ Phillips!
Silverfish

2
+1 ยิ่งใหญ่นอกเหนือไปจากหัวข้อนี้ ฉันมักจะพิจารณารุ่น EIV ในงานของฉัน แต่นอกเหนือจากความซับซ้อนหรือความเชื่อมั่นของพวกเขาเกี่ยวกับความรู้ของ "อัตราส่วนข้อผิดพลาด" มีปัญหาแนวความคิดที่จะต้องพิจารณา: วิเคราะห์หลายคนโดยเฉพาะอย่างยิ่งในการเรียนรู้ภายใต้การดูแลหรือการทำนายต้องการที่จะเกี่ยวข้องกับข้อสังเกตพยากรณ์เพื่อสังเกตผล รุ่น EIV บนมืออื่น ๆ ที่พยายามที่จะระบุความสัมพันธ์พื้นฐานระหว่างค่าเฉลี่ยทำนายและหมายถึงการตอบสนอง ... เป็นคำถามที่แตกต่างกันเล็กน้อย

2
ดังนั้นสิ่งหนึ่งที่เรียกว่า "การเจือจาง" ของการถดถอย "จริง" (ในบริบททางวิทยาศาสตร์) จะถูกเรียกว่า "ไม่มียูทิลิตี้การทำนาย" หรืออะไรทำนองนั้นในบริบทการทำนาย

21

มีความเข้าใจผิดมาตรฐานที่ใช้ในบริบทนี้เช่นเดียวกับบริบททางสถิติอื่น ๆ : เช่นความหมายของค่า value, อนุมานสาเหตุที่ไม่ถูกต้อง ฯลฯ p

สองความเข้าใจผิดที่ฉันคิดว่าเฉพาะเจาะจงกับการถดถอยหลายครั้งคือ:

  1. การคิดว่าตัวแปรที่มีค่าสัมประสิทธิ์ประมาณสูงกว่าและ / หรือต่ำกว่าค่าจะมีความสำคัญมากกว่า p
  2. การคิดว่าการเพิ่มตัวแปรเข้ากับโมเดลทำให้คุณ 'ใกล้ชิดกับความจริงมากขึ้น' ตัวอย่างเช่นความชันจากการถดถอยอย่างง่ายของบนอาจไม่ใช่ความสัมพันธ์โดยตรงที่แท้จริงระหว่างและแต่ถ้าฉันเพิ่มตัวแปรสัมประสิทธิ์นั้นจะเป็นการแสดงถึงความสัมพันธ์ที่ดีขึ้นจริงและ ถ้าฉันเพิ่มมันจะดีกว่านั้น YXXYZ1,,Z5Z6,,Z20

12
สิ่งที่ดี. คำตอบนี้อาจมีประโยชน์มากขึ้นถ้ามันอธิบายว่าทำไมทั้งสองผิดและสิ่งที่ควรทำแทน?
DW

14

ฉันจะบอกว่ารายการแรกที่คุณอาจพบบ่อยที่สุด - และบางทีสอนอย่างกว้างขวางที่สุด- ในสิ่งที่เห็นได้ชัดว่าผิด แต่นี่มีบางคนที่ไม่ชัดเจนในบางสถานการณ์ ( ไม่ว่าจะใช้จริงหรือไม่) แต่อาจส่งผลกระทบต่อการวิเคราะห์มากขึ้นและอาจจริงจังกว่า สิ่งเหล่านี้มักจะไม่เคยเอ่ยถึงเมื่อมีการนำเรื่องของการถดถอยมาใช้

  • ถือว่าเป็นกลุ่มตัวอย่างจากกลุ่มตัวอย่างที่น่าสนใจซึ่งไม่สามารถใกล้เคียงกับตัวแทนได้ (สุ่มตัวอย่างแบบสุ่ม) [การศึกษาบางอย่างอาจถูกมองว่าเป็นสิ่งที่ใกล้กว่าเพื่อความสะดวกของกลุ่มตัวอย่าง]

  • ด้วยข้อมูลเชิงสังเกตเพียงแค่เพิกเฉยผลที่ตามมาจากการละทิ้งไดรเวอร์ที่สำคัญของกระบวนการซึ่งจะทำให้มีอคติการประมาณค่าสัมประสิทธิ์ของตัวแปรที่รวมอยู่ (ในหลาย ๆ กรณีแม้จะเปลี่ยนเครื่องหมายของพวกเขา) โดยไม่พยายามพิจารณาวิธีการจัดการ กับพวกเขา (ไม่ว่าจะไม่รู้ปัญหาหรือเพียงแค่ไม่รู้ตัวว่าสามารถทำอะไรได้) [พื้นที่การวิจัยบางแห่งมีปัญหานี้มากกว่าที่อื่นไม่ว่าจะเป็นเพราะชนิดของข้อมูลที่รวบรวมหรือเพราะผู้คนในบางพื้นที่มีแนวโน้มที่จะได้รับการสอนเกี่ยวกับปัญหานี้มากขึ้น]

  • การถดถอยแบบลวงตา (ส่วนใหญ่มีการรวบรวมข้อมูลเมื่อเวลาผ่านไป) [แม้ว่าผู้คนจะรับรู้ว่ามันเกิดขึ้น แต่ก็มีความเข้าใจผิดอีกเรื่องหนึ่งที่แตกต่างจากการที่เครื่องเขียนนิ่งพอที่จะหลีกเลี่ยงปัญหาได้อย่างสมบูรณ์]

มีคนอื่นอีกหลายคนที่สามารถพูดถึงได้แน่นอน (การปฏิบัติเป็นข้อมูลอิสระที่เกือบจะแน่นอนจะมีความสัมพันธ์แบบลำดับหรือบูรณาการแม้อาจจะเป็นเรื่องธรรมดาเช่น)

คุณอาจสังเกตเห็นว่าการศึกษาเชิงสังเกตของข้อมูลที่เก็บรวบรวมเมื่อเวลาผ่านไปอาจได้รับผลกระทบจากสิ่งเหล่านี้ทั้งหมดในครั้งเดียว ... แต่การศึกษาแบบนั้นเป็นเรื่องปกติในหลาย ๆ ด้านของการวิจัยที่การถดถอยเป็นเครื่องมือมาตรฐาน วิธีที่พวกเขาจะได้รับการตีพิมพ์โดยปราศจากผู้ตรวจสอบหรือบรรณาธิการคนเดียวที่รู้เกี่ยวกับพวกเขาอย่างน้อยหนึ่งคนและอย่างน้อยก็ต้องการข้อจำกัดความรับผิดชอบระดับหนึ่งในข้อสรุปยังคงทำให้ฉันกังวล

สถิตินั้นเต็มไปด้วยปัญหาของผลลัพธ์ที่ไม่สามารถพิสูจน์ได้เมื่อจัดการกับการทดลองที่ควบคุมอย่างระมัดระวัง (เมื่อรวมกับการวิเคราะห์ที่ควบคุมไม่ได้อย่างระมัดระวัง) ดังนั้นทันทีที่ก้าวออกไปหนึ่งก้าวนอกขอบเขตเหล่านั้นสถานการณ์การทำซ้ำที่เลวร้ายลง


6
ที่เกี่ยวข้องอย่างใกล้ชิดกับบางจุดของคุณอาจเป็นความคิดที่ว่า " ข้อมูลเท่านั้นอาจมีข้อผิดพลาดการวัด" (หรืออย่างน้อย "นี่เป็นข้อผิดพลาดเดียวที่เราจะพิจารณา") ไม่แน่ใจว่าควรจะได้รับรองเท้า horning ที่นี่หรือไม่ แต่เป็นเรื่องธรรมดามากที่จะเพิกเฉยต่อความเป็นไปได้และผลที่ตามมาของข้อผิดพลาดแบบสุ่มในตัวแปรyx
Silverfish

2
@Silverfish ฉันทั้งหมดเห็นด้วยกับคุณ
Mark L. Stone

@Silverfish มันเป็น CW ดังนั้นคุณควรรู้สึกเป็นอิสระที่จะแก้ไขในการเพิ่มที่เหมาะสมเช่นนั้น
Glen_b

@Silverfish มีเหตุผลที่ฉันไม่ได้เพิ่มมันด้วยตัวคุณเองเมื่อคุณพูดถึง ... ฉันคิดว่ามันอาจจะคุ้มค่ากับคำตอบใหม่
Glen_b

12

ฉันอาจจะไม่เรียกความเข้าใจที่คลาดเคลื่อนเหล่านี้ แต่อาจจะมีจุดที่สับสน / เกิดอาการเมาค้างและในบางกรณีปัญหาที่นักวิจัยอาจไม่ทราบ

  • Multicollinearity (รวมถึงกรณีของตัวแปรมากกว่าจุดข้อมูล)
  • Heteroskedasticity
  • ค่าของตัวแปรอิสระนั้นขึ้นอยู่กับเสียงรบกวนหรือไม่
  • การปรับสเกล (หรือไม่ปรับสเกล) มีผลต่อการตีความสัมประสิทธิ์อย่างไร
  • วิธีการจัดการข้อมูลจากหลาย ๆ วิชา
  • วิธีจัดการกับความสัมพันธ์แบบอนุกรม (เช่นอนุกรมเวลา)

ในด้านความเข้าใจผิดของสิ่งต่าง ๆ :

  • ลิเนียริตี้หมายถึงอะไร (เช่นเป็นแบบไม่เชิงเส้น wrtแต่เป็นน้ำหนักเชิงเส้น wrt)y=ax2+bx+cx
  • นั่นคือ 'การถดถอย' หมายถึงกำลังสองน้อยที่สุดธรรมดาหรือการถดถอยเชิงเส้น
  • น้ำหนักต่ำ / สูงนั้นจำเป็นต้องมีความสัมพันธ์ที่อ่อนแอ / แข็งแกร่งกับตัวแปรตาม
  • การพึ่งพาระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระนั้นจำเป็นต้องลดลงเป็นการพึ่งพาแบบคู่
  • ความดีที่สูง - พอดีกับชุดฝึกแสดงถึงรูปแบบที่ดี (เช่นละเลยการใส่มากเกินไป)

7

จากประสบการณ์ของฉันนักเรียนมักนำมุมมองที่ผิดพลาดไปใช้ (หรือการถดถอย OLS) บ่อยครั้งเป็นสิ่งที่เหมาะสมถูกต้องแม่นยำและโดยรวมที่ดีต่อการใช้งาน ฉันได้เห็นโฆษณา OLS บ่อยครั้งพร้อมกับข้อสังเกตว่า "ให้น้ำหนักมากขึ้นสำหรับการสังเกตการณ์ที่รุนแรง / เบี่ยงเบน" และส่วนใหญ่แล้วอย่างน้อยก็ส่อให้เห็นว่านี่เป็นคุณสมบัติที่พึงประสงค์ แนวคิดนี้อาจได้รับการแก้ไขในภายหลังเมื่อมีการรักษาผู้ผิดปกติและแนวทางที่แข็งแกร่ง แต่ ณ จุดนั้นความเสียหายจะเกิดขึ้น อาจกล่าวได้ว่าการใช้ข้อผิดพลาดกำลังสองอย่างแพร่หลายในอดีตนั้นเกี่ยวข้องกับความสะดวกสบายทางคณิตศาสตร์มากกว่าในอดีตที่มีค่าใช้จ่ายของข้อผิดพลาดทางธรรมชาติที่เกิดขึ้นจริง

โดยรวมแล้วการเน้นที่มากขึ้นสามารถถูกเข้าใจได้ว่าการเลือกฟังก์ชั่นข้อผิดพลาดนั้นค่อนข้างมีข้อ จำกัด ตามหลักการแล้วตัวเลือกการปรับโทษใด ๆ ภายในอัลกอริทึมควรได้รับการชี้นำจากฟังก์ชั่นค่าใช้จ่ายในโลกแห่งความจริงที่เกี่ยวข้องกับข้อผิดพลาดที่อาจเกิดขึ้น (เช่นการใช้กรอบการตัดสินใจ) ทำไมไม่สร้างหลักการนี้ก่อนแล้วดูว่าเราทำได้ดีแค่ไหน?


2
ตัวเลือกนี้ขึ้นอยู่กับแอปพลิเคชันด้วย OLS มีประโยชน์สำหรับพีชคณิตและแกน y แต่น้อยกว่าดังนั้นสำหรับการใช้งานเชิงเรขาคณิตที่รวมกำลังสองน้อยที่สุด (หรือฟังก์ชันต้นทุนอื่น ๆ ตามระยะทางมุมฉาก) เหมาะสมกว่า
Willie Wheeler

4

ความเข้าใจผิดที่พบบ่อยอีกอย่างก็คือว่าข้อผิดพลาด (หรือการรบกวนในการล้อเลียนเศรษฐมิติ) และส่วนที่เหลือเป็นสิ่งเดียวกัน

คำผิดพลาดเป็นตัวแปรสุ่มในรูปแบบที่แท้จริงหรือกระบวนการสร้างข้อมูลและมักจะสันนิษฐานว่าเป็นไปตามการกระจายที่แน่นอนในขณะที่ส่วนที่เหลือเป็นส่วนเบี่ยงเบนของข้อมูลที่สังเกตได้จากแบบจำลองการติดตั้ง ดังนั้นจึงถือว่าส่วนที่เหลือเป็นประมาณการข้อผิดพลาด


ฉันพนันได้ว่าผู้คนจะสนใจในการอธิบายว่าทำไมเรื่องนี้หรือในกรณีใดบ้าง
rolando2

4

ความเข้าใจผิดที่พบบ่อยที่สุดที่ฉันพบคือการถดถอยเชิงเส้นจะถือว่าเป็นเรื่องปกติของข้อผิดพลาด มันไม่ได้ ความเป็นปกติมีประโยชน์ในการเชื่อมต่อกับบางแง่มุมของการถดถอยเชิงเส้นเช่นคุณสมบัติตัวอย่างขนาดเล็กเช่นขีดจำกัดความเชื่อมั่นของค่าสัมประสิทธิ์ แม้แต่สิ่งเหล่านี้ยังมีค่าแบบซีมโทติคสำหรับการแจกแจงแบบไม่ปกติ

ที่พบมากที่สุดที่สองคือกลุ่มของความสับสนเกี่ยวกับ endogeneity เช่นไม่ระมัดระวังกับข้อเสนอแนะลูป หากมีห่วงข้อเสนอแนะจาก Y กลับไปที่ X มันเป็นปัญหา


4

ข้อผิดพลาดที่ฉันทำคือสมมติความสมมาตรของ X และ Y ใน OLS ตัวอย่างเช่นถ้าฉันถือว่าความสัมพันธ์เชิงเส้น กับ a และ b ที่กำหนดโดยซอฟต์แวร์ของฉันโดยใช้ OLS แล้วฉันเชื่อว่าการสมมติว่า X เป็นฟังก์ชันของ Y จะให้ใช้สัมประสิทธิ์ OLS: ที่ผิด

Y=aX+b
X=1aYba

บางทีนี่อาจเกี่ยวข้องกับความแตกต่างระหว่าง OLS กับองค์ประกอบหลักอย่างน้อยหนึ่งส่วนหรือทั้งหมด


3

สิ่งที่ฉันเห็นบ่อยครั้งคือความเข้าใจผิดเกี่ยวกับการบังคับใช้การถดถอยเชิงเส้นในกรณีการใช้งานบางอย่างในทางปฏิบัติ

ตัวอย่างเช่นให้เราบอกว่าตัวแปรที่เราสนใจนั้นนับจากบางสิ่ง (ตัวอย่าง: ผู้เข้าชมบนเว็บไซต์) หรืออัตราส่วนของบางสิ่ง (ตัวอย่าง: อัตราการแปลง) ในกรณีเช่นนี้ตัวแปรสามารถสร้างแบบจำลองได้ดีขึ้นโดยใช้ฟังก์ชันลิงก์เช่น Poisson (นับ), เบต้า (อัตราส่วน) เป็นต้นดังนั้นการใช้โมเดลทั่วไปที่มีฟังก์ชันลิงก์เหมาะสมกว่านั้นเหมาะสมกว่า แต่เพียงเพราะตัวแปรไม่ได้จัดหมวดหมู่ฉันได้เห็นคนที่เริ่มต้นด้วยการถดถอยเชิงเส้นอย่างง่าย (ฟังก์ชั่นการเชื่อมโยง = ตัวตน) แม้ว่าเราจะไม่สนใจความหมายที่ถูกต้องสมมติฐานการสร้างแบบจำลองเป็นปัญหาที่นี่


2

นี่คือสิ่งที่ฉันคิดว่านักวิจัยมักมองข้าม:

  • การโต้ตอบที่แปรปรวน: นักวิจัยมักจะดู betas ที่แยกได้ของตัวทำนายแต่ละตัวและบ่อยครั้งที่ไม่ได้ระบุเงื่อนไขการโต้ตอบ แต่ในโลกแห่งความเป็นจริงการโต้ตอบ หากไม่มีข้อกำหนดที่เหมาะสมของคำศัพท์ที่เป็นไปได้ทั้งหมดคุณจะไม่รู้ว่า "ตัวทำนาย" ของคุณมีส่วนร่วมในการสร้างผลลัพธ์อย่างไร และหากคุณต้องการขยันและระบุปฏิสัมพันธ์ทั้งหมดจำนวนผู้ทำนายจะเกิดการระเบิด จากการคำนวณของฉันคุณสามารถตรวจสอบเพียง 4 ตัวแปรและการโต้ตอบกับ 100 วิชา หากคุณเพิ่มตัวแปรอีกหนึ่งตัวคุณก็จะสามารถปรับได้อย่างง่ายดาย

0

ความเข้าใจผิดที่พบบ่อยคือการประมาณ (ค่าติดตั้ง) ไม่คงที่ต่อการเปลี่ยนแปลงเช่น

f(y^i)f(yi)^
โดยทั่วไปโดยที่ , ค่าการถดถอยแบบพอดี ค่าสัมประสิทธิ์การถดถอยโดยประมาณของคุณy^i=xiTβ^

หากนี่คือสิ่งที่คุณต้องการสำหรับฟังก์ชัน monotonicไม่จำเป็นต้องเป็นเส้นตรงสิ่งที่คุณต้องการคือการถดถอยแบบควอไทล์f()

ความเสมอภาคข้างต้นถือเป็นการถดถอยเชิงเส้นสำหรับฟังก์ชันเชิงเส้น แต่ฟังก์ชันที่ไม่ใช่เชิงเส้น (เช่น ) สิ่งนี้จะไม่ถูกเก็บไว้ อย่างไรก็ตามสิ่งนี้จะมีไว้สำหรับฟังก์ชั่นแบบโมโนโทนิกใด ๆ ในการถดถอยเชิงปริมาณlog()

สิ่งนี้เกิดขึ้นตลอดเวลาเมื่อคุณทำการแปลงข้อมูลของคุณให้พอดีกับการถดถอยเชิงเส้นจากนั้นอธิบายค่าที่ได้รับการติดตั้งและผู้คนอ่านว่าเป็นการถดถอย นี่ไม่ใช่ค่าเฉลี่ยนี่เป็นค่ามัธยฐาน (ถ้ามีการแจกแจงแบบล็อกปกติอย่างแท้จริง)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.