เหตุใดการถดถอยเชิงเส้นจึงใช้ฟังก์ชันต้นทุนตามระยะทางแนวดิ่งระหว่างสมมติฐานและจุดข้อมูลอินพุต


14

สมมติว่าเรามีจุดข้อมูลอินพุต (ตัวทำนายผล) และเอาต์พุต (ตอบกลับ) A, B, C, D, E และเราต้องการให้เส้นตรงผ่านจุดต่างๆ นี่เป็นปัญหาง่าย ๆ ในการอธิบายคำถาม แต่สามารถขยายไปยังมิติที่สูงขึ้นได้เช่นกัน

คำชี้แจงปัญหา

ป้อนคำอธิบายรูปภาพที่นี่

แบบที่ดีที่สุดในปัจจุบันหรือสมมติฐานจะถูกแสดงด้วยเส้นสีดำด้านบน ลูกศรสีน้ำเงิน ( ) แสดงระยะทางแนวตั้งระหว่างจุดข้อมูลกับจุดที่เหมาะสมที่สุดในปัจจุบันโดยการวาดเส้นแนวตั้งจากจุดจนถึงจุดตัดกับเส้น

ลูกศรสีเขียว ( ) ถูกวาดเช่นนั้นในแนวตั้งฉากกับสมมติฐานปัจจุบันที่จุดตัดดังนั้นจึงแสดงระยะห่างน้อยที่สุดระหว่างจุดข้อมูลและสมมติฐานปัจจุบัน สำหรับจุด A และ B เส้นที่ลากขึ้นมานั้นจะเป็นแนวตั้งกับการคาดเดาที่ดีที่สุดในปัจจุบันและคล้ายกับเส้นที่แนวตั้งกับแกน x สำหรับจุดสองจุดนี้เส้นสีฟ้าและสีเขียวทับซ้อนกัน แต่ไม่ใช้สำหรับจุด C, D และ E

หลักการกำลังสองน้อยสุดกำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นโดยการลากเส้นแนวตั้งผ่านจุดข้อมูล (A, B, C, D หรือ E) ไปยังสมมติฐานที่คาดการณ์ ( ) ในรอบการฝึกอบรมที่กำหนดและแสดงด้วย

CostFunction=i=1N(yihθ(xi))2

ที่นี่แสดงถึงจุดข้อมูลและหมายถึงแบบที่ดีที่สุดh θ ( x i )(xi,yi)hθ(xi)

ระยะห่างต่ำสุดระหว่างจุด (A, B, C, D หรือ E) แสดงด้วยเส้นตั้งฉากที่ลากจากจุดนั้นไปยังการคาดเดาที่ดีที่สุดในปัจจุบัน (ลูกศรสีเขียว)

เป้าหมายของฟังก์ชันกำลังสองน้อยที่สุดคือการกำหนดฟังก์ชันวัตถุประสงค์ซึ่งเมื่อย่อเล็กสุดจะทำให้เกิดระยะห่างน้อยที่สุดระหว่างสมมติฐานและจุดรวมทั้งหมด แต่ไม่จำเป็นต้องลดระยะห่างระหว่างสมมติฐานและจุดอินพุตเพียงจุดเดียว

**คำถาม**

เหตุใดเราจึงไม่กำหนดฟังก์ชันต้นทุนสำหรับการถดถอยเชิงเส้นเป็นระยะทางน้อยที่สุดระหว่างจุดข้อมูลอินพุตและสมมติฐาน (กำหนดโดยเส้นตั้งฉากกับสมมติฐาน) ที่ส่งผ่านอินพุตดาต้าพอยน์ที่กำหนดโดย ( )?


5
=11

ดูโพสต์นี้บน PCA: cerebralmastication.com/2010/09/…
James

คำตอบ:


13

เมื่อคุณมีสัญญาณรบกวนทั้งในตัวแปรตาม (ข้อผิดพลาดในแนวตั้ง) และตัวแปรอิสระ (ข้อผิดพลาดแนวนอน) คุณสามารถแก้ไขฟังก์ชันวัตถุประสงค์กำลังสองน้อยที่สุดเพื่อรวมข้อผิดพลาดแนวนอนเหล่านี้ได้ ปัญหาในการรับน้ำหนักข้อผิดพลาดสองประเภทนี้ น้ำหนักนี้มักจะขึ้นอยู่กับอัตราส่วนของความแปรปรวนของข้อผิดพลาดที่สอง:

  1. หากความแปรปรวนของข้อผิดพลาดแนวตั้งมีขนาดใหญ่มากเมื่อเทียบกับความแปรปรวนของข้อผิดพลาดแนวนอน OLS จะถูกต้อง
  2. xYYβ
  3. หากอัตราส่วนของความแปรปรวนของข้อผิดพลาดแนวตั้งต่อความแปรปรวนของข้อผิดพลาดแนวนอนเท่ากับอัตราส่วนของความแปรปรวนของตัวแปรตามและตัวแปรอิสระเรามีกรณีของการถดถอยแบบ "ทแยงมุม" ซึ่งการประมาณที่สอดคล้องกันจะเปลี่ยนเป็น เป็นค่าเฉลี่ยเรขาคณิตของ OLS และผกผันตัวประมาณกำลังสองน้อยที่สุด
  4. หากอัตราส่วนของความแปรปรวนข้อผิดพลาดเหล่านี้เป็นหนึ่งเราจะมีการถดถอย "orthogonal" ซึ่งผลรวมของความคลาดเคลื่อนกำลังสองที่วัดได้ตามแนวเส้นตั้งฉากกับเส้นการประมาณจะลดลง นี่คือสิ่งที่คุณมีในใจ

ในทางปฏิบัติข้อเสียเปรียบอย่างมากของขั้นตอนนี้คือไม่ทราบอัตราส่วนของความแปรปรวนข้อผิดพลาดและไม่สามารถประมาณได้โดยทั่วไปดังนั้นเส้นทางไปข้างหน้าจึงไม่ชัดเจน


ฉันพยายามแก้ไขเพื่อเปลี่ยน "พึ่งพา" เป็น "อิสระ" ในประโยคแรก แต่การแก้ไขจะต้องมี 6 ตัวอักษร อาจปรับปรุงคำตอบเพื่อแก้ไขการพิมพ์ผิดหรือไม่
Ryan Stout

@ RyanStout ขอบคุณแล้วเสร็จ ฉันคิดว่าการแทรกช่องว่างจะทำให้คุณอยู่ในจุดนั้น
Dimitriy V. Masterov

ตอนนี้ฉันสับสนเล็กน้อย: ข้อผิดพลาดในแนวตั้งไม่ใช่ข้อผิดพลาดในตัวแปรตาม (y) และข้อผิดพลาดแนวนอนในตัวแปรอิสระ (x) หรือไม่
Ryan Stout

@ RyanStout ฉันทำมันยุ่งอีกครั้ง
Dimitriy V. Masterov

9

Σผม=1ยังไม่มีข้อความ(Yผม-ชั่วโมงθ(xผม))2
Σผม=1ยังไม่มีข้อความนาทีx,Y[(Yผม-ชั่วโมงθ(x))2+(xผม-x)2]
ชั่วโมงθ(x)

เป็นจุดที่ดี ฉันคิดว่าจะคำนวณฟังก์ชั่นต้นทุนโดยทั่วไปอย่างไร
alpha_989

ฉันไม่แน่ใจว่าจะประเมินระยะห่างระหว่างจุดและระนาบ / พื้นผิวที่ไม่ใช่เชิงเส้นได้อย่างไร แต่เพื่อประเมินระยะห่างระหว่างจุดหนึ่งกับพื้นผิวเชิงเส้น / ระนาบเราอาจไม่จำเป็นต้องลดการซ้อนกัน: mathinsight.org/distance_point_plane
alpha_989

ประการที่สองเมื่อเราใช้การถดถอยเป้าหมายของเราคือการประเมินน้ำหนักเพื่อหาแบบที่ดีที่สุด จากสิ่งที่ฉันเข้าใจในระหว่างการคำนวณจริงเราไม่ค่อยประเมินฟังก์ชันต้นทุน แต่มีอนุพันธ์ของฟังก์ชันต้นทุนบ้าง
alpha_989

1
@whuber ฉันเห็น. เมื่อเราสร้างความหมายเหล่านั้นสำหรับคำสองคำนี้ฉันยอมรับว่าปัญหาที่กำลังแก้ไขอยู่นั้นแตกต่างกัน (มีหรือไม่มีความเป็นไปได้ที่จะเกิดข้อผิดพลาดใน x) ฉันไม่คิดว่าคุณจะได้รับข้อตกลงที่กว้างขวางจากบุคคลที่มีความรู้เกี่ยวกับความหมายของคำเหล่านั้น แต่นั่นคือประเด็น
สุ่ม

1
@ Stochastic ฉันเห็นด้วยว่าอาจมีความสับสนเกี่ยวกับแนวคิดของ "การติดตั้งโค้ง" แต่แนวคิดของการถดถอยที่ฉันเรียกใช้ปรากฏขึ้นในงานเขียนโดยหน่วยงานที่ดีที่สุด
whuber

2

เวอร์ชันที่เกินจริงคือ X ถือว่าไม่มีข้อผิดพลาด ดังนั้นถ้าคุณดูที่จุด E ในพล็อตของคุณมันจะสันนิษฐานว่าพิกัด X นั้นมีความแม่นยำอย่างแม่นยำ โดยทั่วไปนี่เป็นกรณีที่เมื่อเราสามารถควบคุม X ได้อีกนัยหนึ่งเมื่อเราสามารถตั้งค่าให้เป็นค่าเฉพาะ ในกรณีนั้นข้อผิดพลาดเดียวที่มีอยู่คือในทิศทาง Y และนั่นคือสาเหตุที่ฟังก์ชันข้อผิดพลาด / ค่าใช้จ่ายรวมถึงทิศทาง Y เท่านั้น

เมื่อใดก็ตามที่ไม่เป็นเช่นนั้นเมื่อใดก็ตามที่เราไม่สามารถควบคุม X และ X มีข้อผิดพลาดได้ผู้คนจะรวมทิศทาง X ไว้ในฟังก์ชันข้อผิดพลาดในสิ่งที่เรียกว่าการถดถอยแบบ Type II หรือ model II และตัวแปร มันอาจเป็นเรื่องยากหากทำเช่นนี้หาก X และ Y มีสเกลที่แตกต่างกันดังนั้นคุณต้องคิดเกี่ยวกับการทำให้เป็นมาตรฐานและเช่นนั้น


1

ความเสี่ยงในการเป็นคนขี้เกียจเหตุผลของฟังก์ชั่นข้อผิดพลาดก็คือการตีความมาตรฐานก็คือการให้ x และหนึ่งพยายามที่จะอธิบายองค์ประกอบ y (หรือทำนาย) ที่ดีที่สุด ดังนั้นจึงไม่มีข้อผิดพลาดใน 'x' ตัวอย่างเช่นคุณอาจลองและเข้าใจ (หรือคาดการณ์) ราคาปิดของหุ้นในวันพรุ่งนี้ตามราคาปิดของวันนี้ ในทำนองเดียวกันเราสามารถลองและเข้าใจอุณหภูมิเฉลี่ยในวันพรุ่งนี้ในแง่ของอุณหภูมิเฉลี่ยในวันนี้ เห็นได้ชัดว่าตัวอย่างเหล่านี้เรียบง่าย แต่นั่นคือแนวคิด บางสิ่งบางอย่างที่คนส่วนใหญ่ไม่ได้ตระหนักถึง แต่ฉันคิดว่าชัดเจนจากตัวอย่างของคุณคือถ้ามีใครปฏิเสธ y ต่อ x เส้นถดถอยไม่ต้องมีความคล้ายคลึงกับการถดถอยของ x กับ y Orthogonal regression เป็นคำศัพท์สำหรับการถดถอยที่พยายามหาเส้นที่ลดระยะห่างของจุดจากบรรทัด ตัวอย่างเช่นหากพยายามเข้าใจความสัมพันธ์ระหว่างราคาของหุ้น IBM และราคาของหุ้น AAPL นั่นจะเป็นวิธีที่เหมาะสม


1

คุณถูกต้องที่เมื่อทำการต่อแถวผ่านจุดระยะทางมุมฉากเป็นฟังก์ชันการสูญเสียที่เป็นธรรมชาติที่สุดที่สามารถนำไปใช้กับเส้นที่กำหนดได้ (โปรดสังเกตว่าระยะทาง y กลายเป็นความหมายสำหรับเส้นตั้งฉากกับแกน x) ปัญหานี้เป็นที่รู้จักกันในชื่อต่าง ๆ เช่น "orthogonal ถดถอย" หรือ (คำที่ใช้มากที่สุด AFAIK) "การวิเคราะห์ส่วนประกอบหลัก" (PCA) สำหรับการสนทนาเกี่ยวกับปัญหานี้ในมิติเล็ก ๆ น้อย ๆ โปรดดูที่

Späth: "สี่เหลี่ยมมุมฉากน้อยที่สุดที่เหมาะสมกับท่อร่วมเชิงเส้น" Numerische Mathematik 48, pp. 441–445, 1986

@aginensky ชี้ให้เห็นแล้วความคิดเบื้องหลังการถดถอยเชิงเส้นไม่เหมาะกับจุดผ่านจุด แต่เพื่อทำนายค่า y สำหรับค่า x ที่กำหนด นั่นเป็นเหตุผลที่ใช้เฉพาะระยะทางใน y ซึ่งเป็นความแม่นยำในการทำนาย

x(เสื้อ)พีผมผม=1...ยังไม่มีข้อความเสื้อ

Wang, Pottmann, Liu: "การติดตั้ง B-spline curves เพื่อชี้เมฆโดยการลดระยะทางกำลังสองตามความโค้ง" ธุรกรรม ACM ในกราฟิก 25.2, pp. 214-238, 2006

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.