คำถามติดแท็ก backpropagation

1
ความแตกต่างระหว่างเทคนิคการ backpropagation
เพื่อความสนุกฉันพยายามพัฒนาโครงข่ายประสาทเทียม ตอนนี้สำหรับ backpropagation ฉันเห็นสองเทคนิค ตัวแรกใช้ที่นี่และที่อื่น ๆ อีกมากมาย มันคืออะไร: มันคำนวณข้อผิดพลาดสำหรับแต่ละเซลล์ประสาทออก มัน backpropates มันลงในเครือข่าย (การคำนวณข้อผิดพลาดสำหรับแต่ละเซลล์ประสาทภายใน) มันอัปเดตน้ำหนักด้วยสูตร: (ซึ่งการเปลี่ยนแปลงของน้ำหนัก, ความเร็วในการเรียนรู้, ข้อผิดพลาดของเซลล์ประสาทที่รับอินพุตจากไซแนปส์และเป็นเอาต์พุตที่ส่งในไซแนปส์) มันซ้ำสำหรับแต่ละรายการของชุดข้อมูลหลาย ๆ ครั้งตามที่ต้องการ อย่างไรก็ตามเครือข่ายประสาทที่เสนอในบทช่วยสอนนี้ (มีอยู่ใน GitHub ด้วย) ใช้เทคนิคที่แตกต่าง: มันใช้ฟังก์ชั่นข้อผิดพลาด (วิธีอื่นไม่มีฟังก์ชั่นข้อผิดพลาด แต่ไม่ได้ใช้สำหรับการฝึกอบรม) มันมีฟังก์ชั่นอื่นที่สามารถคำนวณข้อผิดพลาดสุดท้ายที่เริ่มต้นจากน้ำหนัก มันลดฟังก์ชั่นนั้น (ผ่านทางลาดลง) ตอนนี้ควรใช้วิธีใด ฉันคิดว่าอันแรกเป็นอันที่ใช้บ่อยที่สุด (เพราะฉันเห็นตัวอย่างที่แตกต่างจากการใช้มัน) แต่มันก็ใช้ได้ดีเช่นกัน? โดยเฉพาะอย่างยิ่งฉันไม่รู้: มันขึ้นอยู่กับค่าต่ำสุดในท้องถิ่น (เนื่องจากไม่ได้ใช้ฟังก์ชั่นสมการกำลังสอง)? เนื่องจากความแปรผันของน้ำหนักแต่ละตัวนั้นได้รับอิทธิพลจากค่าเอาท์พุทของเซลล์ประสาทเอาท์พุทของมันไม่ใช่รายการของชุดข้อมูลที่เพิ่งเกิดขึ้นเพื่อสร้างค่าที่สูงขึ้นในเซลล์ประสาท ตอนนี้ฉันชอบเทคนิคแรกเพราะฉันคิดว่ามันง่ายกว่าในการนำไปใช้และคิดง่ายกว่า แม้ว่าหากมีปัญหาที่ฉันกล่าวถึง (ซึ่งฉันหวังว่าจะไม่) มีเหตุผลจริงที่จะใช้มันมากกว่าวิธีที่สอง?

3
ความซับซ้อนของเวลาสำหรับการฝึกอบรมเครือข่ายประสาทเทียมโดยใช้การเผยแพร่กลับเป็นอย่างไร
สมมติว่ามี NN nnnชั้นซ่อนmmmตัวอย่างการฝึกอบรมxxxคุณสมบัติและninin_iโหนดในแต่ละชั้น ความซับซ้อนของเวลาในการฝึกอบรม NN นี้โดยใช้การเผยแพร่กลับเป็นอย่างไร ฉันมีความคิดพื้นฐานเกี่ยวกับวิธีที่พวกเขาค้นหาความซับซ้อนของเวลาของอัลกอริทึม แต่ที่นี่มีปัจจัยต่าง ๆ 4 ข้อที่ต้องพิจารณาที่นี่เช่นการทำซ้ำเลเยอร์โหนดในแต่ละชั้นตัวอย่างการฝึกอบรมและปัจจัยอื่น ๆ ฉันพบคำตอบที่นี่แต่มันไม่ชัดเจนพอ มีปัจจัยอื่น ๆ นอกเหนือจากที่ฉันได้กล่าวถึงข้างต้นหรือไม่ที่มีอิทธิพลต่อความซับซ้อนของเวลาในการฝึกอัลกอริทึมของ NN?

2
ข้อผิดพลาดเฉลี่ยกำลังสองนูนในบริบทของเครือข่ายประสาทเสมอหรือไม่
หลายแหล่งข้อมูลที่ฉันพูดถึงนั้นก็คือ MSE นั้นยอดเยี่ยมเพราะมันนูน แต่ฉันไม่เข้าใจโดยเฉพาะในบริบทของเครือข่ายประสาท สมมติว่าเรามีดังต่อไปนี้: XXX : ชุดข้อมูลการฝึกอบรม YYY : เป้าหมาย ΘΘ\Theta : ชุดพารามิเตอร์ของแบบจำลอง (แบบจำลองโครงข่ายใยประสาทเทียมที่ไม่มีเส้นตรง)fΘfΘf_\Theta แล้ว: MSE(Θ)=(fΘ(X)−Y)2MSE⁡(Θ)=(fΘ(X)−Y)2\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2 ฟังก์ชั่นการสูญเสียนี้ทำไมจะนูนตลอดเวลา สิ่งนี้ขึ้นอยู่กับหรือไม่?fΘ(X)fΘ(X)f_\Theta(X)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.