ในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng เขาใช้สูตรนี้:
และเขาพิสูจน์อย่างรวดเร็วซึ่งแสดงด้านล่าง:
หลักฐานดูเหมือนหนาแน่นมากโดยไม่มีความคิดเห็นใด ๆ และฉันมีปัญหาในการทำความเข้าใจ เกิดอะไรขึ้นจากความเสมอภาคที่สองถึงสาม
ในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng เขาใช้สูตรนี้:
และเขาพิสูจน์อย่างรวดเร็วซึ่งแสดงด้านล่าง:
หลักฐานดูเหมือนหนาแน่นมากโดยไม่มีความคิดเห็นใด ๆ และฉันมีปัญหาในการทำความเข้าใจ เกิดอะไรขึ้นจากความเสมอภาคที่สองถึงสาม
คำตอบ:
มีการใช้สัญกรณ์ที่ละเอียดอ่อน แต่หนักหน่วงซึ่งทำให้หลายขั้นตอนสับสน ลองแก้ไขปัญหานี้โดยย้อนกลับไปที่คำจำกัดความของการคูณเมทริกซ์การขนย้ายร่องรอยและอนุพันธ์ สำหรับผู้ที่ต้องการละเว้นคำอธิบายเพียงข้ามไปยังส่วนสุดท้าย "รวมทุกอย่างเข้าด้วยกัน" เพื่อดูว่าการสาธิตที่สั้นและเรียบง่ายเป็นไปได้อย่างไร
สำหรับนิพจน์เพื่อให้ความรู้สึกเมื่อเป็นเมทริกซ์,จะต้องเป็น (จตุรัส)เมทริกซ์และต้องเป็นเมทริกซ์ดังนั้นผลิตภัณฑ์จะเป็นคูณเมทริกซ์ เพื่อที่จะติดตาม (ซึ่งเป็นผลรวมขององค์ประกอบในแนวทแยง ) แล้วทำให้เมทริกซ์สแควร์A m × n B n × n C m × p m × p Tr ( X ) = ∑ ฉันX ฉันฉัน p = m C
สัญกรณ์ " " จะปรากฏขึ้นเพื่ออ้างถึงที่มาของการแสดงออกด้วยความเคารพ ปกติความแตกต่างคือการดำเนินการดำเนินการเกี่ยวกับฟังก์ชั่น M อนุพันธ์ที่จุดเป็นแปลงเชิงเส้น M เมื่อเลือกฐานสำหรับปริภูมิเวกเตอร์เหล่านี้การแปลงดังกล่าวสามารถแสดงเป็นเมทริกซ์ นั่นไม่ใช่กรณีที่นี่! A f : R N → R M x ∈ R N D f ( x ) : R N → R M M × N
แต่จะถูกพิจารณาเป็นองค์ประกอบของ : ค่าสัมประสิทธิ์ของมันจะถูกคลี่ (ปกติทั้งแถวโดยแถวหรือคอลัมน์ตามคอลัมน์) ลงในเวกเตอร์ของความยาวNฟังก์ชั่นมีค่าจริงดังนั้น 1 ดังนั้นจะต้องเป็นเมทริกซ์: มันเป็นเวกเตอร์แถวเป็นตัวแทนของรูปแบบเชิงเส้นใน{} อย่างไรก็ตามการคำนวณในคำถามใช้วิธีที่แตกต่างในการแสดงรูปแบบเชิงเส้น: สัมประสิทธิ์ของพวกมันจะถูกย้อนกลับไปเป็นเมทริกซ์R m n N = m n f ( A ) = Tr ( A B A ′ C ) M = 1 D f ( x ) 1 × m n R m n m × n
ปล่อยให้เป็นค่าคงที่ matrix จากนั้นโดยนิยามของการติดตามและการคูณเมทริกซ์m × n
เป็นการแสดงออกถึงการรวมกันเชิงเส้นที่เป็นไปได้มากที่สุดโดยทั่วไปของสัมประสิทธิ์ของ :เป็นเมทริกซ์ของรูปร่างเดียวกันกับและสัมประสิทธิ์ของมันในแถวและคอลัมน์คือสัมประสิทธิ์ของในการผสมเชิงเส้น เนื่องจากบทบาทของและอาจเปลี่ยนไปทำให้มีการแสดงออกเทียบเท่าω ฉันเจฉันเจ ω ฉันเจฉันJ = ฉันเจ ω ฉันเจ ω
โดยระบุคงเมทริกซ์มีทั้งฟังก์ชั่นหรือ , เราอาจจะเป็นเชิงเส้น แบบฟอร์มบนพื้นที่ของเมทริกซ์เป็นเมทริกซ์ (อย่าสับสนกับฟังก์ชันอนุพันธ์ของถึง !)→ Tr ( ω ' ) → Tr ( ω ' ) ม. × n เมตร× n R n Rเมตร
อนุพันธ์ของฟังก์ชันเมทริกซ์จำนวนมากที่พบในสถิตินั้นคำนวณได้ง่ายที่สุดและเชื่อถือได้จากคำจำกัดความ: คุณไม่จำเป็นต้องหันไปใช้กฎที่ซับซ้อนของการแยกเมทริกซ์ที่ซับซ้อน คำจำกัดความนี้บอกว่าสามารถหาอนุพันธ์ได้ที่ถ้าหากมีการแปลงเชิงเส้นเช่นนั้นx L
สำหรับการกระจัดขนาดเล็กโดยพล N เล็ก ๆ น้อย ๆ โอ้วิธีสัญกรณ์ว่าข้อผิดพลาดที่เกิดขึ้นในที่ใกล้เคียงกับความแตกต่างของโดยเป็นพลขนาดเล็กกว่าขนาดของสำหรับธุรกิจขนาดเล็กพอชั่วโมงโดยเฉพาะอย่างยิ่งเรามักจะอาจละเว้นข้อผิดพลาดที่มีสัดส่วนกับ 2 f ( x + h ) - f ( x ) L h h h | h | 2
ลองใช้คำจำกัดความกับฟังก์ชันที่เป็นปัญหา ทวีคูณขยายและเพิกเฉยคำด้วยผลิตภัณฑ์สองในนั้น
เพื่อแจ้งอนุพันธ์เราจะต้องได้รับนี้ลงในแบบฟอร์ม(1)ในระยะแรกทางด้านขวาที่มีอยู่แล้วในรูปแบบนี้ด้วยC คำอื่น ๆ ที่อยู่ด้านขวามีรูปแบบสำหรับXลองเขียนสิ่งนี้กัน:( 1 ) ω = B A ′ C Tr ( X h ′ C ) X = A B
ระลึก ,สามารถเขียนใหม่( 2 )
ในแง่นี้เราอาจพิจารณาอนุพันธ์ของที่เป็นเพราะเมทริกซ์เหล่านี้เล่น บทบาทของในสูตรการติดตาม(1)A D f ( A ) = ( B A ′ C ) ′ + C A B = C ′ A B ′ + C A B , ω ( 1 )
ที่นี่จึงเป็นทางออกที่สมบูรณ์
ให้เป็นเมทริกซ์ , anเมทริกซ์, และ anคูณเมทริกซ์ ให้C) ให้เป็นเมทริกซ์มีสัมประสิทธิ์ขนาดเล็กโดยพลการ เพราะ (โดยตัวตน )คือ differentiable และอนุพันธ์ของมันคือรูปแบบเชิงเส้นที่กำหนดโดยเมทริกซ์เมตร× nn × n C m × m f ( A ) = Tr ( A B A ′ C ) h m × n ( 3 ) f ( A + h ) - f ( A ) = Tr ( h B A ′ C ) + Tr ( A B h ′ C )เอฟซี'B'+CB
เพราะสิ่งนี้ใช้เวลาเพียงครึ่งเดียวของงานและเกี่ยวข้องกับการจัดการขั้นพื้นฐานที่สุดของการฝึกอบรมและการติดตาม (การคูณและการขนย้าย) จึงต้องมีการพิจารณาที่ง่ายกว่าและชัดเจนกว่า หากคุณต้องการเข้าใจขั้นตอนของแต่ละบุคคลในการสาธิตดั้งเดิมคุณอาจพบว่ามีประโยชน์ในการเปรียบเทียบกับการคำนวณที่แสดงไว้ที่นี่