คำถามเกี่ยวกับการพิสูจน์สมการปกติ


11

คุณจะพิสูจน์ได้อย่างไรว่าสมการปกติ: (XTX)β=XTYมีวิธีแก้ปัญหาหนึ่งวิธีหรือมากกว่าโดยไม่มีสมมติฐานว่า X กลับด้านได้?

สิ่งเดียวที่ฉันคาดเดาก็คือมันมีบางอย่างที่เกี่ยวข้องกับการผกผันทั่วไป แต่ฉันก็หลงทางไปหมด


1
คุณได้รับคะแนนจากการถามคำถามที่กระตุ้นคำตอบที่น่าอัศจรรย์
Nikana Reklawyks

คำตอบ:


14

หนึ่งถูกล่อลวงให้เป็นกะล่อนและชี้ให้เห็นว่าเพราะรูปแบบกำลังสอง

β(YXβ)(YXβ)

เป็นบวกกึ่งแน่นอนมีอยู่ซึ่งมันเป็นขั้นต่ำและต่ำสุดที่พบ (โดยการตั้งค่าการไล่ระดับสีที่เกี่ยวกับβศูนย์) กับสมการปกติββ

XX(YXβ)=0,

ไหนจะต้องมีอย่างน้อยหนึ่งวิธีการแก้ปัญหาโดยไม่คำนึงถึงตำแหน่งของXX X อย่างไรก็ตามการโต้แย้งนี้ดูเหมือนจะไม่ได้อยู่ในจิตวิญญาณของคำถามซึ่งดูเหมือนจะเป็นคำเกี่ยวกับพีชคณิตอย่างหมดจด บางทีมันเป็นเรื่องที่น่าสนใจที่จะเข้าใจว่าทำไมสมการดังกล่าวจึงต้องมีทางออกและอยู่ภายใต้เงื่อนไขที่แน่นอน ดังนั้นเรามาเริ่มต้นใหม่และแกล้งทำเป็นว่าเราไม่รู้จักการเชื่อมต่อที่มีกำลังสองน้อยที่สุด


มันทั้งหมดลงมาถึงความหมายของ , ไขว้ของX สิ่งนี้จะกลายเป็นเรื่องของคำนิยามที่เรียบง่ายสัญกรณ์ที่เหมาะสมและแนวคิดของรูปแบบ sesquilinear ที่ไม่ได้สร้างขึ้น จง จำไว้ว่าXคือ "เมทริกซ์การออกแบบ" ของnแถว (หนึ่งแถวสำหรับการสังเกตแต่ละครั้ง) และคอลัมน์p (หนึ่งคอลัมน์สำหรับแต่ละตัวแปรรวมถึงค่าคงที่ถ้ามี) ดังนั้นจึงแสดงให้เห็นถึงการเปลี่ยนแปลงเชิงเส้นจากปริภูมิเวกเตอร์V = R Pเพื่อW = R nXXXnpV=RpW=Rn

transpose ของ , คิดว่าเป็นแปลงเชิงเส้นเป็นแปลงเชิงเส้นของช่องว่างคู่X ' : W *V * เพื่อที่จะทำให้ความรู้สึกขององค์ประกอบเช่นX ' Xแล้วมันเป็นสิ่งจำเป็นที่จะระบุW *กับW นั่นคือสิ่งที่ผลิตภัณฑ์ภายในปกติ (ผลรวมของกำลังสอง) บนWทำX X:WVXXWWW

จริง ๆ แล้วมีผลิตภัณฑ์ภายในสองตัวคือและg W ที่นิยามไว้บนVและWตามลำดับ เหล่านี้เป็นจริงมูลค่า bilinear หน้าที่สมมาตรที่ไม่ใช่คนเลว หลังหมายถึงว่าgVgWVW

gW(u,v)=0 uWv=0,

กับงบคล้ายคลึง V ผลิตภัณฑ์ภายในเหล่านี้ช่วยให้เราสามารถวัดความยาวและมุมได้ สภาพกรัม( U , V ) = 0สามารถจะคิดว่าเป็นยูเป็น "ตั้งฉาก" เพื่อโวลต์ Nondegeneracy หมายความว่าเฉพาะเวกเตอร์ศูนย์เท่านั้นที่ตั้งฉากกับพื้นที่เวกเตอร์ทั้งหมด (ทั่วไปซึ่งหมายความว่าผลที่ได้รับที่นี่จะนำไปใช้ทั่วไปน้อยสแควร์ตั้งค่าซึ่งกรัมWไม่จำเป็นต้องเป็นสินค้าภายในปกติให้เป็นผลรวมของผลิตภัณฑ์ของส่วนประกอบ แต่บางรูปแบบ nondegenerate พล. เราสามารถจัดการกับกรัมgVg(u,v)=0uvgWโดยรวม, นิยาม X : WV , แต่ฉันคาดว่าผู้อ่านหลายคนจะไม่คุ้นเคยหรืออึดอัดกับช่องว่างคู่และเลือกที่จะหลีกเลี่ยงสูตรนี้)gVX:WV

ด้วยผลิตภัณฑ์ด้านในมือการขนย้ายการแปลงเชิงเส้นใด ๆถูกกำหนดโดยX : WVผ่านX:VWX:WV

gV(X(w),v)=gW(w,X(v))

สำหรับทุกและวี V จริง ๆ แล้วมีเวกเตอร์X ( w ) V ที่มีคุณสมบัตินี้สามารถสร้างขึ้นได้โดยการเขียนสิ่งต่าง ๆ ด้วยฐานสำหรับVและW ; เวกเตอร์นี้มีลักษณะเฉพาะดังต่อไปนี้จากการเสื่อมสภาพของผลิตภัณฑ์ชั้นใน สำหรับถ้าv 1และv 2เป็นเวกเตอร์สองตัวที่g V ( v 1 , v ) = g V ( v 2 , vwWvVX(w)VVWv1v2สำหรับทุกวีVแล้ว (จากเส้นตรงในองค์ประกอบแรก)กรัมวี ( V 1 - วี2 , V ) = 0สำหรับทุกวีหมายความโวลต์1 - วี2 = 0gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

เมื่อเขียนUสำหรับชุดของเวกเตอร์ทั้งหมดที่ตั้งฉากกับเวกเตอร์ในทุกU เช่นเดียวกับสัญกรณ์ให้เขียนX ( V )สำหรับภาพของXซึ่งกำหนดเป็นชุด{ X ( v ) | วีV } W ความสัมพันธ์พื้นฐานระหว่างXและ transpose ของX 'คือUW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

นั่นคืออยู่ในเคอร์เนลของX 'และถ้าหากWจะตั้งฉากกับภาพของX wXwX การยืนยันนี้บอกว่าสองสิ่ง:

  1. ถ้าดังนั้นg W ( w , X ( v ) ) = g V ( X ( w ) , v ) = g V ( 0 , v ) = 0สำหรับv Vทั้งหมดซึ่งเพียง วิธีWจะตั้งฉากกับX ( V )X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. หากตั้งฉากกับX ( V )นั่นหมายถึงเฉพาะg W ( w , X ( v ) ) = 0สำหรับv Vทั้งหมด แต่นี่เทียบเท่ากับg V ( X ( w ) , v ) = 0และ nondegeneracy ของกรัมVหมายถึงX ' ( W ) = 0wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

ตอนนี้เราเสร็จแล้ว การวิเคราะห์แสดงให้เห็นว่าสลายตัวเป็นสินค้าโดยตรงW = X ( V ) X ( V ) นั่นก็คือเราสามารถใช้ใด ๆโดยพลY Wและเขียนไม่ซ้ำกันเป็นY = Y 0 + Y กับY 0X ( V )และY X ( V ) นั่นหมายถึงy 0WW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0จะอยู่ในรูปเป็นเวลาอย่างน้อยหนึ่งβ V แจ้งให้ทราบแล้วว่าX(β)βV

yXβ=(y0+y)y0=yX(V)

ความสัมพันธ์ขั้นพื้นฐานกล่าวว่าเหมือนกับด้านซ้ายมือที่อยู่ในเคอร์เนลของ :X

X(yXβ)=0,

ไหนแก้สมการปกติX ' X β = X ' YβXXβ=Xy.


ขณะนี้เราอยู่ในฐานะที่จะให้คำตอบทางเรขาคณิตสั้น ๆ สำหรับคำถาม (พร้อมกับความเห็นที่เปิดเผย): สมการปกติมีทางออกเพราะ vector y Wสลายตัว (ไม่ซ้ำกัน) เป็นผลรวมของเวกเตอร์y 0ใน ช่วงของXและอีกเวกเตอร์ Y ตั้งฉากกับY 0และY 0คือภาพของอย่างน้อยหนึ่งหน้าเวกเตอร์บีตา V มิติของภาพX ( V ) ( อันดับของมัน) คือขนาดของnyWy0Xyy0y0pβVX(V)พารามิเตอร์ที่ระบุตัวได้ มิติของเคอร์เนลของนับความสัมพันธ์เชิงเส้นที่ไม่สำคัญระหว่างพารามิเตอร์ พารามิเตอร์ทั้งหมดอยู่ที่สามารถระบุตัวเมื่อXคือแผนที่หนึ่งต่อหนึ่งจากVกับภาพในWXXVW

มันเป็นที่สุดมีประโยชน์ในการจัดการกับพื้นที่โดยสิ้นเชิงและการทำงานอย่างสิ้นเชิงกับสเปซU = X ( V ) Wที่ "พื้นที่คอลัมน์" ของเมทริกซ์X จำนวนสมการปกติในการฉายภาพลงบนฉากU นั่นทำให้เราเป็นอิสระจากการเชื่อมโยงกับการกำหนดพารามิเตอร์เฉพาะของโมเดลและแสดงให้เห็นว่าโมเดลกำลังสองน้อยที่สุดมีมิติภายในที่เป็นอิสระจากการที่พารามิเตอร์ถูกสร้างขึ้นVU=X(V)WXU


ผลลัพธ์ที่น่าสนใจอย่างหนึ่งของการสาธิตพีชคณิตนามธรรมนี้คือเราสามารถแก้สมการปกติในปริภูมิเวกเตอร์โดยพลการ ผลที่ได้จะเก็บไว้พูดสำหรับช่องว่างที่ซับซ้อนสำหรับช่องว่างเหนือเขตข้อมูลอัน จำกัด (ซึ่งการลดผลรวมของช่องสี่เหลี่ยมทำให้มีความรู้สึกน้อย) และแม้กระทั่งช่องว่างที่ไม่มีที่สิ้นสุดที่รองรับรูปแบบการตัดต่อ


1
ฉันไม่เคยมีตัวแทนที่จะยอมรับคำตอบนี้จนกระทั่งในภายหลัง ฉันเพิ่งกลับมาที่นี่และอยากจะขอบคุณอีกครั้ง!
ryati

ผมจะเขียนว่ารูปแบบสมการกำลังสองเป็นมากกว่าที่จะเป็นβ →การ( Y - X β ) ' ( Y - X β ) ,และใช้ลูกศรอื่น ๆ สำหรับสิ่งที่ต้องการ: B
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy

@Michael จะต้องมีข้อผิดพลาดในการพิมพ์ความคิดเห็นของคุณ คุณจะอธิบายความหมายของสิ่งที่คุณต้องการหรือไม่
whuber

@whuber: ฉันพบว่าไม่มีข้อผิดพลาดในการพิมพ์ ประเด็นก็คือลูกศรทั้งสองและมีความหมายต่างกัน''''
Michael Hardy

@Michael ยกโทษให้ฉันที่ไม่เห็นความแตกต่างนั้นแม้จะมีการอ่านจำนวนมาก โดยไม่คำนึงถึงฉันลูกศรแรกหมายถึงฟังก์ชั่นการฉีดส่วนที่สองหมายถึงฟังก์ชั่นใด ๆ แต่ฉันคิดว่านั่นไม่ใช่สิ่งที่คุณตั้งใจ คุณจะอธิบายความคิดของคุณได้ไหม?
whuber

0

มันง่ายที่จะแสดง (ลองด้วยตัวเองสำหรับจำนวนคะแนนโดยพลการ ) ว่าค่าผกผันของX T X นั้นมีอยู่หากมีx -value (ทำนาย) ในชุดตัวอย่างอย่างน้อยสองค่า เฉพาะในกรณีที่ข้อมูลทั้งหมดของคุณมีค่าเดียวกันx i = x (เช่นจุดที่ซ้อนกันในy -direction ตามเส้นแนวตั้ง) จากนั้นเส้นใดก็ตามที่ลากผ่านค่าเฉลี่ยของ¯ yจะมีความชันตามอำเภอใจ (สัมประสิทธิ์การถดถอย) ดังนั้น ว่าบรรทัดการถดถอย LSE นั้นไม่ซ้ำกันnXTXxxi=xyy¯


เพื่อความสมบูรณ์สำหรับการถดถอยเชิงเส้นอย่างง่ายขณะที่X=[1 x1;1 x2;;1 xn]สำหรับการถดถอยเชิงเส้นหลายครั้ง X=[1 x11xm1;;1 x1nxmn]
Lucozade

3
การอ้างอิงถึงการถดถอยหลายครั้งในความคิดเห็นนั้นทำให้งงงวยเนื่องจากคำตอบนี้ใช้เฉพาะกับกรณีของการถดถอยทั่วไปที่มีการปรับ "เส้น" ให้เหมาะสมแทนที่จะเป็นพื้นผิวมิติที่สูงกว่า นอกจากนี้คุณปรากฏว่าได้ตอบคำถามที่แตกต่างกันนี้ขอเพียงเกี่ยวกับกรณีที่ไม่สามารถกลับ XX
whuber

0

ในการถดถอยทั่วไป X นั้นผอมและแน่นอนว่าไม่สามารถย้อนกลับได้ (แม้ว่ามันอาจจะไม่สามารถย้อนกลับได้) มันตรงไปตรงมาที่จะพิสูจน์ (ถามว่าคุณต้องการความช่วยเหลือหรือไม่) ว่าถ้า X ผอมและไม่สามารถย้อนกลับได้ ในกรณีนี้จะมีวิธีแก้ไขปัญหาเดียว และถ้า X ไม่มีอันดับของคอลัมน์แบบเต็มดังนั้น X ^ T * X จะไม่เป็นอันดับเต็มดังนั้นคุณจะมีระบบที่บ่อนทำลาย


1
ข้อสังเกตเหล่านี้ดูเหมือนจะไม่อยู่คำถาม: คำนึงถึงตำแหน่งของจะยังคงมีทางออกอยู่ ยกตัวอย่างเช่นพิจารณากรณีสุดขีดที่ Xเป็นเมทริกซ์ของศูนย์ทั้งหมด แล้วสมการปกติลดลงเหลือ 0 β = 0และใด ๆ βเป็นวิธีแก้ปัญหา XXX0β=0 β
whuber

whuber: แน่นอนว่าพวกเขาตอบคำถาม: หนึ่งโซลถ้า X เป็นอันดับคอลัมน์เต็ม (ดังที่ฉันพูดถึง) และการแก้ปัญหาที่ไม่สิ้นสุดถ้ามันเป็นระบบที่
บ่อนทำลาย

1
ความจริงที่ว่าระบบคือ "บ่อนทำลาย" ไม่ได้หมายความว่ามันมีวิธีแก้ปัญหาใด ๆ เลย คำถามเกี่ยวกับการมีอยู่ของโซลูชั่น
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.