การทำให้เป็นมาตรฐานนั้นใช้ในอัลกอริทึมการเรียนรู้ของเครื่องเกือบทั้งหมดซึ่งเราพยายามเรียนรู้จากตัวอย่างที่ จำกัด ของข้อมูลการฝึกอบรม
ฉันจะพยายามตอบคำถามของคุณโดยอ้อมโดยอธิบายกำเนิดของแนวคิดของการทำให้เป็นปกติ ทฤษฎีเต็มรูปแบบมีรายละเอียดมากขึ้นและคำอธิบายนี้ไม่ควรตีความว่าสมบูรณ์ แต่มีจุดประสงค์เพื่อชี้ให้คุณเห็นทิศทางที่ถูกต้องสำหรับการสำรวจต่อไป เนื่องจากวัตถุประสงค์หลักของคุณคือการทำความเข้าใจกับการทำให้เป็นมาตรฐานอย่างง่ายฉันจึงสรุปและเรียบง่ายอย่างมากต่อคำอธิบายจากบทที่ 7 ของ "Neural Networks and Learning Machines" รุ่นที่ 3 โดย Simon Haykin (และละเว้นรายละเอียดหลายอย่างขณะทำ)
ให้ทบทวนปัญหาการเรียนรู้ภายใต้การดูแลด้วยตัวแปรอิสระและตัวแปรตามที่พยายามค้นหาฟังก์ชันที่จะสามารถ "แมป" อินพุต X เข้ากับเอาต์พุต Yxiyif
หากต้องการดำเนินการต่อไปให้ทำความเข้าใจกับคำศัพท์ของ Hadamard เกี่ยวกับปัญหา "well-posed" ซึ่งเป็นปัญหาที่ถูกจัดวางอย่างดีหากเป็นไปตามเงื่อนไขสามประการต่อไปนี้:
- สำหรับทุกอินพุตและเอาต์พุตมีอยู่xiyi
- สำหรับอินพุตคู่และ ,ถ้าหากเท่านั้นx1x2f(x1)=f(x2)x1=x2
- การทำแผนที่เป็นแบบต่อเนื่อง (เกณฑ์ความมั่นคง)f
สำหรับการเรียนรู้ภายใต้การดูแลเงื่อนไขเหล่านี้อาจถูกละเมิดตั้งแต่:
- เอาต์พุตที่แตกต่างกันอาจไม่มีอยู่สำหรับอินพุตที่กำหนด
- อาจมีข้อมูลไม่เพียงพอในตัวอย่างการฝึกอบรมเพื่อสร้างการแมปอินพุทเอาท์พุทที่ไม่ซ้ำกัน (ตั้งแต่ใช้อัลกอริทึมการเรียนรู้ในตัวอย่างการฝึกอบรมที่แตกต่างกัน
- เสียงรบกวนในข้อมูลช่วยเพิ่มความไม่แน่นอนให้กับกระบวนการสร้างใหม่ซึ่งอาจส่งผลต่อเสถียรภาพ
สำหรับการแก้ปัญหา "ไม่ดี" เช่นนี้ Tikhonov เสนอวิธีการทำให้เป็นมาตรฐานเพื่อทำให้เสถียรของการแก้ปัญหาโดยรวมถึงการทำงานที่ไม่ใช่เชิงลบที่ฝังข้อมูลก่อนหน้าเกี่ยวกับการแก้ปัญหา
รูปแบบที่พบบ่อยที่สุดของข้อมูลก่อนหน้านี้เกี่ยวข้องกับการสันนิษฐานว่าฟังก์ชั่นการทำแผนที่อินพุต - เอาท์พุตนั้นราบรื่น - เช่นอินพุตที่คล้ายกันสร้างเอาต์พุตที่คล้ายกัน
ทฤษฎีกู Tikhnov ของเพิ่มระยะกูไปยังฟังก์ชั่นค่าใช้จ่าย (ฟังก์ชั่นการสูญเสียจะลดลง) ซึ่งรวมถึงกูพารามิเตอร์และแบบฟอร์มการสันนิษฐานของการทำแผนที่ฉค่าของถูกเลือกระหว่าง 0 และ\ค่า 0 หมายถึงการแก้ปัญหาจะถูกกำหนดอย่างสมบูรณ์จากตัวอย่างการฝึกอบรม; ในขณะที่ค่าของแสดงถึงตัวอย่างการฝึกอบรมที่ไม่น่าเชื่อถือλfλ∞∞
ดังนั้นพารามิเตอร์การทำให้เป็นมาตรฐานจะถูกเลือกและปรับให้เหมาะสมเพื่อให้เกิดความสมดุลที่ต้องการระหว่างความลำเอียงแบบจำลองและความแปรปรวนของแบบจำลองโดยการรวมจำนวนข้อมูลที่ถูกต้องไว้ในนั้นλ
ตัวอย่างของฟังก์ชั่นค่าใช้จ่ายปกติดังกล่าวคือ:
การถดถอยเชิงเส้น:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
การถดถอยโลจิสติก:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
ที่มีค่าสัมประสิทธิ์ที่เราได้ระบุและเป็นประมาณการของปีθxhθ(x)y
คำศัพท์การสรุปที่สองในแต่ละตัวอย่างคือคำศัพท์ทั่วไป เนื่องจากเทอมนี้เป็นค่าที่ไม่เป็นลบเสมอจึงหยุดเครื่องมือเพิ่มประสิทธิภาพไม่ให้ถึงค่าต่ำสุดของโลกสำหรับฟังก์ชันต้นทุน รูปแบบของคำที่แสดงที่นี่เป็นกู มีหลายรูปแบบในรูปแบบของฟังก์ชั่นการทำให้เป็นปกติ, รูปแบบที่ใช้กันทั่วไปคือ: เชือก, ตาข่ายยืดหยุ่นและการถดถอยสัน เหล่านี้มีข้อดีและข้อเสียของตัวเองซึ่งช่วยในการตัดสินใจที่เหมาะสมที่สุดL2
ผลกระทบสุทธิของการใช้การทำให้เป็นมาตรฐานคือการลดความซับซ้อนของโมเดลซึ่งช่วยลดความกระชับ วิธีการอื่นในการทำให้เป็นมาตรฐาน (ไม่ได้แสดงไว้ในตัวอย่างด้านบน) รวมถึงการดัดแปลงโมเดลโครงสร้างเช่นการถดถอย / การจำแนกต้นไม้ต้นไม้ที่ได้รับการปรับปรุงเป็นต้นโดยการปล่อยโหนดเพื่อทำให้ต้นไม้ง่ายขึ้น เมื่อเร็ว ๆ นี้สิ่งนี้ได้ถูกนำมาใช้ในสิ่งที่เรียกว่า "การเรียนรู้ลึก" โดยตัดการเชื่อมต่อระหว่างเซลล์ประสาทในเครือข่ายประสาท
คำตอบเฉพาะในไตรมาสที่ 3 คือวิธีการตระการตาบางอย่างเช่น Random Forest (หรือแผนการลงคะแนนที่คล้ายกัน) บรรลุการทำให้เป็นระเบียบเนื่องจากวิธีการโดยธรรมชาติของพวกเขาเช่นการลงคะแนนและการเลือกคำตอบจากชุดของต้นไม้ที่ไม่ทำให้เป็นปกติ แม้ว่าต้นไม้แต่ละต้นจะมีความเหมาะสม แต่กระบวนการในการ "เฉลี่ย" ผลลัพธ์ของพวกเขาจะหยุดวงดนตรีทั้งหมดจากการ overfitting ไปจนถึงชุดฝึกซ้อม
แก้ไข:
แนวคิดเรื่องความสม่ำเสมอเป็นของทฤษฎีเซตซึ่งเป็นจริงคุณสามารถอ้างอิงบทความนี้สำหรับพอยน์เตอร์ - en.wikipedia.org/wiki/Axiom_of_regularityและสำรวจหัวข้อนี้เพิ่มเติมหากคุณสนใจรายละเอียด
ในการทำให้เป็นปกติสำหรับอวนประสาท: เมื่อทำการปรับน้ำหนักในขณะที่ใช้อัลกอริธึมการแพร่กระจายย้อนกลับคำศัพท์ในการทำให้เป็นมาตรฐานจะถูกเพิ่มไปยังฟังก์ชันต้นทุนในลักษณะเดียวกับตัวอย่างสำหรับการถดถอยเชิงเส้นและโลจิสติกส์ ดังนั้นการเพิ่มระยะเวลาการทำให้เป็นปกติจะหยุดการเผยแพร่กลับไปถึงระดับต่ำสุดทั่วโลก
บทความที่อธิบายการทำแบทช์ให้เป็นมาตรฐานสำหรับเครือข่ายนิวรัลคือ - การทำให้เป็นมาตรฐานแบทช์: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift, Ioffe, Szegedy, 2015. เป็นที่ทราบกันดีว่า backpropagation ในการฝึกอบรมโครงข่ายประสาทเทียมนั้นทำงานได้ดีขึ้นเมื่อตัวแปรอินพุตถูกทำให้เป็นมาตรฐาน ในบทความนี้ผู้เขียนได้ใช้การทำให้เป็นมาตรฐานกับมินิแต่ละแบทช์ที่ใช้ใน Stochastic Gradient Descent เพื่อหลีกเลี่ยงปัญหา "การไล่ระดับสีที่หายไป" เมื่อฝึกอบรมโครงข่ายประสาทหลายชั้น อัลกอริทึมที่อธิบายไว้ในเอกสารของพวกเขาปฏิบัติต่อค่าเฉลี่ยและความแปรปรวนที่คำนวณในแต่ละชุดสำหรับการเปิดใช้งานแต่ละเลเยอร์เป็นชุดของพารามิเตอร์อื่นที่ปรับให้เหมาะสมใน mini-batch SGD (นอกเหนือจากน้ำหนัก NN) การเปิดใช้งานจะถูกทำให้เป็นมาตรฐานโดยใช้ชุดการฝึกอบรมทั้งหมด คุณอาจอ้างถึงเอกสารของพวกเขาสำหรับรายละเอียดทั้งหมดของอัลกอริทึมนี้ ด้วยการใช้วิธีการนี้พวกเขาสามารถหลีกเลี่ยงการใช้งานแบบดรอปเอาท์สำหรับการทำให้เป็นมาตรฐาน