การคำนวณอนุพันธ์ของฟังก์ชันเมทริกซ์นี้คืออะไร


10

ในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng เขาใช้สูตรนี้:

Atr(ABATC)=CAB+CTABT

และเขาพิสูจน์อย่างรวดเร็วซึ่งแสดงด้านล่าง:

Atr(ABATC)=Atr(f(A)ATC)=tr(f()ATC)+tr(f(A)TC)=(ATC)Tf()+(Ttr(f(A)TC)T=CTABT+(Ttr(T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB

หลักฐานดูเหมือนหนาแน่นมากโดยไม่มีความคิดเห็นใด ๆ และฉันมีปัญหาในการทำความเข้าใจ เกิดอะไรขึ้นจากความเสมอภาคที่สองถึงสาม


เขาจะต้องตั้งสมมติฐานพิเศษเกี่ยวกับขนาดของ ,และมิฉะนั้นสูตรนี้ไม่สมเหตุสมผลโดยทั่วไป ที่ด้านซ้ายมือต้องเป็นเมทริกซ์เมทริกซ์และเมทริกซ์สำหรับพล integers เชิงลบม. แต่แล้วผลิตภัณฑ์ทางด้านขวาจะไม่ได้กำหนดเว้นแต่เมตร B C A ฉัน× j B j × j C ฉัน× m ฉัน, j , m ฉัน= mABCAi×jBj×jCi×mi,j,mi=m
whuber

@ เมื่อไรฉันเห็น จากสมมติฐานที่ได้รับฉันยังคงไม่เข้าใจว่าการเปลี่ยนแปลงเกิดขึ้นจากบรรทัดที่สองถึงสามที่เขาแนะนำได้อย่างไร
MoneyBall

ระหว่างที่สองและบรรทัดที่สามเขาก็ปล่อยให้fระหว่างบรรทัดที่สองและสามเขาใช้กฎผลิตภัณฑ์ หลังจากนั้นเขาก็ใช้กฎลูกโซ่ที่จะได้รับการกำจัดของ() f ( )f(A)=ABf()
Brian Borchers

คำตอบ:


14

มีการใช้สัญกรณ์ที่ละเอียดอ่อน แต่หนักหน่วงซึ่งทำให้หลายขั้นตอนสับสน ลองแก้ไขปัญหานี้โดยย้อนกลับไปที่คำจำกัดความของการคูณเมทริกซ์การขนย้ายร่องรอยและอนุพันธ์ สำหรับผู้ที่ต้องการละเว้นคำอธิบายเพียงข้ามไปยังส่วนสุดท้าย "รวมทุกอย่างเข้าด้วยกัน" เพื่อดูว่าการสาธิตที่สั้นและเรียบง่ายเป็นไปได้อย่างไร


สัญลักษณ์และแนวคิด

ขนาด

สำหรับนิพจน์เพื่อให้ความรู้สึกเมื่อเป็นเมทริกซ์,จะต้องเป็น (จตุรัส)เมทริกซ์และต้องเป็นเมทริกซ์ดังนั้นผลิตภัณฑ์จะเป็นคูณเมทริกซ์ เพื่อที่จะติดตาม (ซึ่งเป็นผลรวมขององค์ประกอบในแนวทแยง ) แล้วทำให้เมทริกซ์สแควร์A m × n B n × n C m × p m × p Tr ( X ) = ฉันX ฉันฉัน p = m CABACAm×nBn×nCm×pm×pTr(X)=iXiip=mC

สัญญาซื้อขายล่วงหน้า

สัญกรณ์ " " จะปรากฏขึ้นเพื่ออ้างถึงที่มาของการแสดงออกด้วยความเคารพ ปกติความแตกต่างคือการดำเนินการดำเนินการเกี่ยวกับฟังก์ชั่น M อนุพันธ์ที่จุดเป็นแปลงเชิงเส้น M เมื่อเลือกฐานสำหรับปริภูมิเวกเตอร์เหล่านี้การแปลงดังกล่าวสามารถแสดงเป็นเมทริกซ์ นั่นไม่ใช่กรณีที่นี่! A f : R NR M x R N D f ( x ) : R NR M M × NAAf:RNRMxRNDf(x):RNRMM×N

เมทริกซ์เป็นเวกเตอร์

แต่จะถูกพิจารณาเป็นองค์ประกอบของ : ค่าสัมประสิทธิ์ของมันจะถูกคลี่ (ปกติทั้งแถวโดยแถวหรือคอลัมน์ตามคอลัมน์) ลงในเวกเตอร์ของความยาวNฟังก์ชั่นมีค่าจริงดังนั้น 1 ดังนั้นจะต้องเป็นเมทริกซ์: มันเป็นเวกเตอร์แถวเป็นตัวแทนของรูปแบบเชิงเส้นใน{} อย่างไรก็ตามการคำนวณในคำถามใช้วิธีที่แตกต่างในการแสดงรูปแบบเชิงเส้น: สัมประสิทธิ์ของพวกมันจะถูกย้อนกลับไปเป็นเมทริกซ์R m n N = m n f ( A ) = Tr ( A B A C ) M = 1 D f ( x ) 1 × m n R m n m × nARmnN=mnf(A)=Tr(ABAC)M=1Df(x)1×mnRmnm×n

การติดตามเป็นรูปแบบเชิงเส้น

ปล่อยให้เป็นค่าคงที่ matrix จากนั้นโดยนิยามของการติดตามและการคูณเมทริกซ์m × nωm×n

Tr(Aω)=i=1m(Aω)ii=i=1m(j=1nAij(ω)ji)=i,jωijAij

เป็นการแสดงออกถึงการรวมกันเชิงเส้นที่เป็นไปได้มากที่สุดโดยทั่วไปของสัมประสิทธิ์ของ :เป็นเมทริกซ์ของรูปร่างเดียวกันกับและสัมประสิทธิ์ของมันในแถวและคอลัมน์คือสัมประสิทธิ์ของในการผสมเชิงเส้น เนื่องจากบทบาทของและอาจเปลี่ยนไปทำให้มีการแสดงออกเทียบเท่าω ฉันเจฉันเจ ω ฉันเจฉันJ = ฉันเจ ω ฉันเจ ωAωAijAijωijAij=AijωijωA

(1)i,jωijAij=Tr(Aω)=Tr(ωA).

โดยระบุคงเมทริกซ์มีทั้งฟังก์ชั่นหรือ , เราอาจจะเป็นเชิงเส้น แบบฟอร์มบนพื้นที่ของเมทริกซ์เป็นเมทริกซ์ (อย่าสับสนกับฟังก์ชันอนุพันธ์ของถึง !)Tr ( ω ' ) Tr ( ω ' ) ม. × n เมตร× n R n RเมตรωATr(Aω)ATr(ωA)m×nm×nRnRm


การคำนวณอนุพันธ์

คำนิยาม

อนุพันธ์ของฟังก์ชันเมทริกซ์จำนวนมากที่พบในสถิตินั้นคำนวณได้ง่ายที่สุดและเชื่อถือได้จากคำจำกัดความ: คุณไม่จำเป็นต้องหันไปใช้กฎที่ซับซ้อนของการแยกเมทริกซ์ที่ซับซ้อน คำจำกัดความนี้บอกว่าสามารถหาอนุพันธ์ได้ที่ถ้าหากมีการแปลงเชิงเส้นเช่นนั้นx LfxL

f(x+h)f(x)=Lh+o(|h|)

สำหรับการกระจัดขนาดเล็กโดยพล N เล็ก ๆ น้อย ๆ โอ้วิธีสัญกรณ์ว่าข้อผิดพลาดที่เกิดขึ้นในที่ใกล้เคียงกับความแตกต่างของโดยเป็นพลขนาดเล็กกว่าขนาดของสำหรับธุรกิจขนาดเล็กพอชั่วโมงโดยเฉพาะอย่างยิ่งเรามักจะอาจละเว้นข้อผิดพลาดที่มีสัดส่วนกับ 2 f ( x + h ) - f ( x ) L h h h | h | 2hRNf(x+h)f(x)Lhhh|h|2

การคำนวณ

ลองใช้คำจำกัดความกับฟังก์ชันที่เป็นปัญหา ทวีคูณขยายและเพิกเฉยคำด้วยผลิตภัณฑ์สองในนั้นh

(2)f(A+h)f(A)=Tr((A+h)B(A+h)C)Tr(ABAC)=Tr(hBAC)+Tr(ABhC)+o(|h|).

เพื่อแจ้งอนุพันธ์เราจะต้องได้รับนี้ลงในแบบฟอร์ม(1)ในระยะแรกทางด้านขวาที่มีอยู่แล้วในรูปแบบนี้ด้วยC คำอื่น ๆ ที่อยู่ด้านขวามีรูปแบบสำหรับXลองเขียนสิ่งนี้กัน:( 1 ) ω = B A C Tr ( X h C ) X = A BL=Df(A)(1)ω=BACTr(XhC)X=AB

(3)Tr(XhC)=i=1mj=1nk=1mXijhkjCki=i,j,khkj(CkiXij)=Tr((CX)h).

ระลึก ,สามารถเขียนใหม่( 2 )X=AB(2)

f(A+h)f(A)=Tr(hBAC)+Tr(CABh)+o(|h|).

ในแง่นี้เราอาจพิจารณาอนุพันธ์ของที่เป็นเพราะเมทริกซ์เหล่านี้เล่น บทบาทของในสูตรการติดตาม(1)A D f ( A ) = ( B A C ) + C A B = C A B + C A B , ω ( 1 )fA

Df(A)=(BAC)+CAB=CAB+CAB,
ω(1)

วางมันทั้งหมดเข้าด้วยกัน

ที่นี่จึงเป็นทางออกที่สมบูรณ์

ให้เป็นเมทริกซ์ , anเมทริกซ์, และ anคูณเมทริกซ์ ให้C) ให้เป็นเมทริกซ์มีสัมประสิทธิ์ขนาดเล็กโดยพลการ เพราะ (โดยตัวตน )คือ differentiable และอนุพันธ์ของมันคือรูปแบบเชิงเส้นที่กำหนดโดยเมทริกซ์เมตร× nAm×nn × n C m × m f ( A ) = Tr ( A B A C ) h m × n ( 3 ) f ( A + h ) - f ( A ) = Tr ( h B A C ) + Tr ( A B h C )Bn×nCm×mf(A)=Tr(ABAC)hm×n(3)เอฟซี'B'+CB

f(A+h)f(A)=Tr(hBAC)+Tr(ABhC)+o(|h|)=Tr(h(CAB)+(CAB)h)+o(|h|),
f
CAB+CAB.

เพราะสิ่งนี้ใช้เวลาเพียงครึ่งเดียวของงานและเกี่ยวข้องกับการจัดการขั้นพื้นฐานที่สุดของการฝึกอบรมและการติดตาม (การคูณและการขนย้าย) จึงต้องมีการพิจารณาที่ง่ายกว่าและชัดเจนกว่า หากคุณต้องการเข้าใจขั้นตอนของแต่ละบุคคลในการสาธิตดั้งเดิมคุณอาจพบว่ามีประโยชน์ในการเปรียบเทียบกับการคำนวณที่แสดงไว้ที่นี่


1
เป็นประโยชน์ที่จะทราบว่าโดยทั่วไปเมื่อใดก็ตามที่เมทริกซ์มีขนาดที่เข้ากันได้ การรู้จักสิ่งนี้ทำให้ (3) เป็นขั้นตอนที่ไม่สำคัญ tr(ABC)=tr(CAB)
Brian Borchers

1
@ อะมีบาฉันไม่สามารถบอกได้ว่าคุณกำลังพยายามที่จะมีอารมณ์ขันหรือไม่ ทั้งคำถามและคำตอบไม่มีส่วนเกี่ยวข้องโดยตรงกับอนุพันธ์บางส่วน รูปแบบอย่างชัดเจนเป็นรูปแบบเชิงเส้นที่กำหนดไว้ในพื้นที่เวกเตอร์ของเมทริกซ์จริง เมื่อมีคนอ้างว่าอนุพันธ์ของฟังก์ชันณ จุดเท่ากับเมทริกซ์บางตัวสิ่งที่พวกเขาหมายถึงคือเป็นเส้นตรง รูปแบบที่กำหนดโดยนายก}) (1)Mat(m,n)m×nf:Mat(m,n)RAωDf(A)X:→Tr(Xω)
whuber

2
@ Amoeba ถูกต้อง - มันเพียงพอที่จะยืนยันคำยืนยันในบรรทัดแรกของคำตอบนี้ มันเป็นเหตุผลที่ฉันเขียนว่า "ในแง่นี้ " และต่อมาในการสรุปใช้วลี "ที่กำหนดโดย" แทนที่จะเป็น "เท่ากับ" ฉันจะไม่ปฏิเสธว่าคำอธิบายนั้นท้าทาย ฉันจะคิดถึงวิธีที่จะอธิบายให้ชัดเจนและฉันขอขอบคุณสำหรับความคิดเห็นและคำแนะนำทั้งหมดของคุณ
whuber

1
@ user10324 สิ่งที่ฉันโพสต์บนเว็บไซต์นี้ส่วนใหญ่เป็นสูตรของตัวเอง - ฉันไม่ค่อยปรึกษาแหล่งข้อมูล (และฉันบันทึกไว้เมื่อฉันทำ) โพสต์เหล่านี้กลั่นจากการอ่านหนังสือและเอกสารจำนวนมาก หนังสือที่ดีที่สุดบางเล่มไม่ได้เป็นหนังสือที่มีความเข้มงวดทางด้านคณิตศาสตร์อย่างสมบูรณ์ แต่มีการอธิบายและอธิบายความคิดพื้นฐานอย่างสวยงาม สองสามคนแรกที่เข้ามาในความคิด - ตามลำดับของความซับซ้อน - เป็นอิสระ Pisani & Purves สถิติ (ทุกรุ่น); Jack Kiefer, การอนุมานทางสถิติเบื้องต้น ; และสตีเว่น Shreve, Stochastic แคลคูลัสการคลังครั้งที่สอง
whuber

1
@ ในที่สุดฉันก็เข้าใจว่ารูปแบบเชิงเส้นของร่องรอยคืออะไร ฉันขอโทษที่ถามคำถามเดียวกันอีกครั้งในโพสต์แยกเมื่อฉันสามารถอ่านคำอธิบายของคุณได้อย่างละเอียดมากขึ้น ฉันมีคำถามอีกหนึ่งคำถาม หากสมการของคุณสามารถนำมาใช้เพื่อค้นหาอนุพันธ์ของฟังก์ชันเมทริกซ์ใด ๆจะมีมิติเดียวกันกับหรือไม่? ดังนั้นถ้าดังนั้น ? h x x R m × n h R m × nf(x+h)f(x)=Lh+o(|h|)hxxRm×nhRm×n
MoneyBall
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.