ระเบียบและการทำให้เป็นมาตรฐานคืออะไร

12

ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ

ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=> พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method => ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้)

ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้:

คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร
การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ?
เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน
ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง?

ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

— ราฟาเอล
แหล่งที่มา

8

การทำให้เป็นมาตรฐานนั้นใช้ในอัลกอริทึมการเรียนรู้ของเครื่องเกือบทั้งหมดซึ่งเราพยายามเรียนรู้จากตัวอย่างที่ จำกัด ของข้อมูลการฝึกอบรม

ฉันจะพยายามตอบคำถามของคุณโดยอ้อมโดยอธิบายกำเนิดของแนวคิดของการทำให้เป็นปกติ ทฤษฎีเต็มรูปแบบมีรายละเอียดมากขึ้นและคำอธิบายนี้ไม่ควรตีความว่าสมบูรณ์ แต่มีจุดประสงค์เพื่อชี้ให้คุณเห็นทิศทางที่ถูกต้องสำหรับการสำรวจต่อไป เนื่องจากวัตถุประสงค์หลักของคุณคือการทำความเข้าใจกับการทำให้เป็นมาตรฐานอย่างง่ายฉันจึงสรุปและเรียบง่ายอย่างมากต่อคำอธิบายจากบทที่ 7 ของ "Neural Networks and Learning Machines" รุ่นที่ 3 โดย Simon Haykin (และละเว้นรายละเอียดหลายอย่างขณะทำ)

ให้ทบทวนปัญหาการเรียนรู้ภายใต้การดูแลด้วยตัวแปรอิสระและตัวแปรตามที่พยายามค้นหาฟังก์ชันที่จะสามารถ "แมป" อินพุต X เข้ากับเอาต์พุต Y $x_i$ $y_i$ $f$

หากต้องการดำเนินการต่อไปให้ทำความเข้าใจกับคำศัพท์ของ Hadamard เกี่ยวกับปัญหา "well-posed" ซึ่งเป็นปัญหาที่ถูกจัดวางอย่างดีหากเป็นไปตามเงื่อนไขสามประการต่อไปนี้:

สำหรับทุกอินพุตและเอาต์พุตมีอยู่ $x_i$ $y_i$
สำหรับอินพุตคู่และ ,ถ้าหากเท่านั้น $x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
การทำแผนที่เป็นแบบต่อเนื่อง (เกณฑ์ความมั่นคง) $f$

สำหรับการเรียนรู้ภายใต้การดูแลเงื่อนไขเหล่านี้อาจถูกละเมิดตั้งแต่:

เอาต์พุตที่แตกต่างกันอาจไม่มีอยู่สำหรับอินพุตที่กำหนด
อาจมีข้อมูลไม่เพียงพอในตัวอย่างการฝึกอบรมเพื่อสร้างการแมปอินพุทเอาท์พุทที่ไม่ซ้ำกัน (ตั้งแต่ใช้อัลกอริทึมการเรียนรู้ในตัวอย่างการฝึกอบรมที่แตกต่างกัน
เสียงรบกวนในข้อมูลช่วยเพิ่มความไม่แน่นอนให้กับกระบวนการสร้างใหม่ซึ่งอาจส่งผลต่อเสถียรภาพ

สำหรับการแก้ปัญหา "ไม่ดี" เช่นนี้ Tikhonov เสนอวิธีการทำให้เป็นมาตรฐานเพื่อทำให้เสถียรของการแก้ปัญหาโดยรวมถึงการทำงานที่ไม่ใช่เชิงลบที่ฝังข้อมูลก่อนหน้าเกี่ยวกับการแก้ปัญหา

รูปแบบที่พบบ่อยที่สุดของข้อมูลก่อนหน้านี้เกี่ยวข้องกับการสันนิษฐานว่าฟังก์ชั่นการทำแผนที่อินพุต - เอาท์พุตนั้นราบรื่น - เช่นอินพุตที่คล้ายกันสร้างเอาต์พุตที่คล้ายกัน

ทฤษฎีกู Tikhnov ของเพิ่มระยะกูไปยังฟังก์ชั่นค่าใช้จ่าย (ฟังก์ชั่นการสูญเสียจะลดลง) ซึ่งรวมถึงกูพารามิเตอร์และแบบฟอร์มการสันนิษฐานของการทำแผนที่ฉค่าของถูกเลือกระหว่าง 0 และ\ค่า 0 หมายถึงการแก้ปัญหาจะถูกกำหนดอย่างสมบูรณ์จากตัวอย่างการฝึกอบรม; ในขณะที่ค่าของแสดงถึงตัวอย่างการฝึกอบรมที่ไม่น่าเชื่อถือ $\lambda$ $f$ $\lambda$ $\infty$ $\infty$

ดังนั้นพารามิเตอร์การทำให้เป็นมาตรฐานจะถูกเลือกและปรับให้เหมาะสมเพื่อให้เกิดความสมดุลที่ต้องการระหว่างความลำเอียงแบบจำลองและความแปรปรวนของแบบจำลองโดยการรวมจำนวนข้อมูลที่ถูกต้องไว้ในนั้น $\lambda$

ตัวอย่างของฟังก์ชั่นค่าใช้จ่ายปกติดังกล่าวคือ:

การถดถอยเชิงเส้น:

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

การถดถอยโลจิสติก:

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

ที่มีค่าสัมประสิทธิ์ที่เราได้ระบุและเป็นประมาณการของปี $\theta$ $x$ $h_\theta(x)$ $y$

คำศัพท์การสรุปที่สองในแต่ละตัวอย่างคือคำศัพท์ทั่วไป เนื่องจากเทอมนี้เป็นค่าที่ไม่เป็นลบเสมอจึงหยุดเครื่องมือเพิ่มประสิทธิภาพไม่ให้ถึงค่าต่ำสุดของโลกสำหรับฟังก์ชันต้นทุน รูปแบบของคำที่แสดงที่นี่เป็นกู มีหลายรูปแบบในรูปแบบของฟังก์ชั่นการทำให้เป็นปกติ, รูปแบบที่ใช้กันทั่วไปคือ: เชือก, ตาข่ายยืดหยุ่นและการถดถอยสัน เหล่านี้มีข้อดีและข้อเสียของตัวเองซึ่งช่วยในการตัดสินใจที่เหมาะสมที่สุด $L_2$

ผลกระทบสุทธิของการใช้การทำให้เป็นมาตรฐานคือการลดความซับซ้อนของโมเดลซึ่งช่วยลดความกระชับ วิธีการอื่นในการทำให้เป็นมาตรฐาน (ไม่ได้แสดงไว้ในตัวอย่างด้านบน) รวมถึงการดัดแปลงโมเดลโครงสร้างเช่นการถดถอย / การจำแนกต้นไม้ต้นไม้ที่ได้รับการปรับปรุงเป็นต้นโดยการปล่อยโหนดเพื่อทำให้ต้นไม้ง่ายขึ้น เมื่อเร็ว ๆ นี้สิ่งนี้ได้ถูกนำมาใช้ในสิ่งที่เรียกว่า "การเรียนรู้ลึก" โดยตัดการเชื่อมต่อระหว่างเซลล์ประสาทในเครือข่ายประสาท

คำตอบเฉพาะในไตรมาสที่ 3 คือวิธีการตระการตาบางอย่างเช่น Random Forest (หรือแผนการลงคะแนนที่คล้ายกัน) บรรลุการทำให้เป็นระเบียบเนื่องจากวิธีการโดยธรรมชาติของพวกเขาเช่นการลงคะแนนและการเลือกคำตอบจากชุดของต้นไม้ที่ไม่ทำให้เป็นปกติ แม้ว่าต้นไม้แต่ละต้นจะมีความเหมาะสม แต่กระบวนการในการ "เฉลี่ย" ผลลัพธ์ของพวกเขาจะหยุดวงดนตรีทั้งหมดจากการ overfitting ไปจนถึงชุดฝึกซ้อม

แก้ไข:

แนวคิดเรื่องความสม่ำเสมอเป็นของทฤษฎีเซตซึ่งเป็นจริงคุณสามารถอ้างอิงบทความนี้สำหรับพอยน์เตอร์ - en.wikipedia.org/wiki/Axiom_of_regularityและสำรวจหัวข้อนี้เพิ่มเติมหากคุณสนใจรายละเอียด

ในการทำให้เป็นปกติสำหรับอวนประสาท: เมื่อทำการปรับน้ำหนักในขณะที่ใช้อัลกอริธึมการแพร่กระจายย้อนกลับคำศัพท์ในการทำให้เป็นมาตรฐานจะถูกเพิ่มไปยังฟังก์ชันต้นทุนในลักษณะเดียวกับตัวอย่างสำหรับการถดถอยเชิงเส้นและโลจิสติกส์ ดังนั้นการเพิ่มระยะเวลาการทำให้เป็นปกติจะหยุดการเผยแพร่กลับไปถึงระดับต่ำสุดทั่วโลก

บทความที่อธิบายการทำแบทช์ให้เป็นมาตรฐานสำหรับเครือข่ายนิวรัลคือ - การทำให้เป็นมาตรฐานแบทช์: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift, Ioffe, Szegedy, 2015. เป็นที่ทราบกันดีว่า backpropagation ในการฝึกอบรมโครงข่ายประสาทเทียมนั้นทำงานได้ดีขึ้นเมื่อตัวแปรอินพุตถูกทำให้เป็นมาตรฐาน ในบทความนี้ผู้เขียนได้ใช้การทำให้เป็นมาตรฐานกับมินิแต่ละแบทช์ที่ใช้ใน Stochastic Gradient Descent เพื่อหลีกเลี่ยงปัญหา "การไล่ระดับสีที่หายไป" เมื่อฝึกอบรมโครงข่ายประสาทหลายชั้น อัลกอริทึมที่อธิบายไว้ในเอกสารของพวกเขาปฏิบัติต่อค่าเฉลี่ยและความแปรปรวนที่คำนวณในแต่ละชุดสำหรับการเปิดใช้งานแต่ละเลเยอร์เป็นชุดของพารามิเตอร์อื่นที่ปรับให้เหมาะสมใน mini-batch SGD (นอกเหนือจากน้ำหนัก NN) การเปิดใช้งานจะถูกทำให้เป็นมาตรฐานโดยใช้ชุดการฝึกอบรมทั้งหมด คุณอาจอ้างถึงเอกสารของพวกเขาสำหรับรายละเอียดทั้งหมดของอัลกอริทึมนี้ ด้วยการใช้วิธีการนี้พวกเขาสามารถหลีกเลี่ยงการใช้งานแบบดรอปเอาท์สำหรับการทำให้เป็นมาตรฐาน

— Sandeep S. Sandhu
แหล่งที่มา

ขอบคุณสำหรับคำตอบที่ดี คุณสามารถอธิบายทางคณิตศาสตร์ได้ว่าวิธีการเช่นการทำให้เป็นมาตรฐานได้รับการทำให้เป็นมาตรฐานหรือไม่? ในการพูดคุยโดย Goodfellow เขากล่าวว่าสิ่งที่แตกต่างสามารถทำหน้าที่เป็น regularizer สำหรับเครือข่ายประสาท นอกจากนี้คุณรู้หรือไม่ว่าสิ่งที่เป็นระเบียบคืออะไร? พวกมันหมายถึงรูปแบบหรือว่ามีคณิตศาสตร์อยู่บ้าง? ขอบคุณอีกครั้ง.

— Rafael

ขอบคุณสำหรับการตอบกลับ. ฉันจำการพูดคุยไม่ได้ ในตาข่ายประสาทเราเพิ่มเลเยอร์เช่นการทำให้เป็นมาตรฐาน ฉันต้องการที่จะรู้ว่าจอบพวกเขามีส่วนร่วมในการทำให้เป็นมาตรฐาน?

— Rafael

แก้ไขเพื่อตอบความคิดเห็นของคุณรวมถึงเพิ่มคำตอบกลับที่ได้รับในความคิดเห็นก่อนหน้า

— Sandeep S. Sandhu

3

คำถามที่ 1

ฉันไม่ได้ตระหนักถึงคำนิยามที่ยอมรับใด ๆ และคำถามของคุณแสดงให้เห็นว่าคำนี้ใช้กับความหมายที่แตกต่างกัน เริ่มจากตัวอย่างง่ายๆ (ซึ่งจะตอบคำถาม 2)

คำถามที่ 2

การถดถอยของสันเขาอาจเป็นจุดเริ่มต้นที่ดี มันเป็นวิธีการที่กูที่หลีกเลี่ยงปัญหาที่เกิดขึ้นโดยเมทริกซ์เอกพจน์

อย่างไรก็ตาม "พารามิเตอร์การทำให้เป็นปกติ" ที่กำหนดในวิธีการไล่ระดับสี (ต่อตัวอย่าง) อยู่ที่นี่เพื่อให้แน่ใจว่ามีความซับซ้อนต่ำสำหรับแบบจำลอง

คำถามที่ 3

การทำให้เป็นมาตรฐานในการทำให้เป็นปกติมีความหมายอื่น (และคำศัพท์นี้ค่อนข้างเข้าใจผิด) มันเปลี่ยนปัญหาที่ซับซ้อน "จากมุมมองลาดลงของการไล่ระดับสี" เป็นสิ่งที่ง่ายกว่า แม้ว่ามันจะไม่จำเป็นต้องทำการสอบเทียบเครือข่ายประสาท แต่มันก็ช่วยได้จริงๆในระหว่างการสอบเทียบ (อย่างไรก็ตามโปรดทราบว่าหากเราสามารถค้นหาส่วนขยายทั่วโลกของฟังก์ชันตามอำเภอใจก็จะไม่จำเป็นต้องทำการปรับสภาพให้เป็นมาตรฐาน)

คำถามที่ 4

การทำให้เป็นมาตรฐาน (เป็นวิธีการลดความซับซ้อนของแบบจำลอง) ใช้เพื่อลดความพอดี โมเดลที่มีความซับซ้อนน้อยกว่านั้นมีความเป็นไปได้น้อยที่จะมีน้ำหนักเกิน

นอกเหนือ

S. Watanabeใช้ประโยชน์อย่างเข้มงวดกับคำศัพท์นี้ในการวิจัยของเขา

— RUser4512
แหล่งที่มา