การทำให้เป็นมาตรฐาน: ทำไมคูณด้วย 1 / 2m


10

ในบันทึกการบรรยาย 3 สัปดาห์ของชั้นเรียน Coursera Machine LearningของAndrew Ngจะมีการเพิ่มคำศัพท์ในฟังก์ชั่นค่าใช้จ่ายเพื่อทำให้เป็นมาตรฐาน

J+(θ)=J(θ)+λ2mj=1nθj2

บันทึกการบรรยายพูดว่า:

เรายังสามารถทำให้พารามิเตอร์ theta ทั้งหมดของเราเป็นปกติในการสรุปเดียว:

minθ 12m [i=1m(hθ(x(i))y(i))2+λ j=1nθj2]

12mถูกนำไปใช้กับเทอม normalization ของเครือข่ายประสาท :

จำได้ว่าฟังก์ชั่นค่าใช้จ่ายสำหรับการถดถอยโลจิสติกปกติ:

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

สำหรับเครือข่ายประสาทมันจะซับซ้อนกว่าเล็กน้อย:

J(Θ)=1mi=1mk=1K[yk(i)log((hΘ(x(i)))k)+(1yk(i))log(1(hΘ(x(i)))k)]+λ2ml=1L1i=1slj=1sl+1(Θj,i(l))2
  • ทำไมค่าครึ่งหนึ่งคงที่ใช้ที่นี่? แล้วมันจะถูกยกเลิกในอนุพันธ์ ?J
  • ทำไมการแบ่งตัวอย่างการฝึกอบรมจำนวนตัวอย่างการฝึกอบรมมีผลต่อสิ่งต่าง ๆ อย่างไรm

คุณแน่ใจหรือไม่ว่า 1 / m อยู่ในการทำให้เป็นมาตรฐานและไม่ใช่คำตอบของ J (theta) AFAIK @DikranMarsupial กำลังทำให้สมมติฐานนั้น ...... หรือ J (theta) มีระยะเวลา 1 / m หรือไม่?
seanv507

สมมติฐานนั้นไม่ถูกต้อง -ถูกนำไปใช้กับทั้งฟังก์ชั่นค่าใช้จ่ายที่ยังไม่ทำให้เป็นมาตรฐานและเงื่อนไขการทำให้เป็นมาตรฐาน ฉันได้อัปเดตคำถามเพื่อให้สูตรเต็ม 12m
Tom Hale

คำตอบ:


5

ลองสมมติว่าคุณมี 10 ตัวอย่างและคุณไม่แบ่งค่าใช้จ่ายกู L2 จากจำนวนตัวอย่างเมตร จากนั้นค่าใช้จ่ายในการทำให้เป็นมาตรฐานของ L2 เมื่อเทียบกับค่าใช้จ่ายข้ามเอนโทรปีจะเป็น 10: 1 เนื่องจากตัวอย่างการฝึกอบรมแต่ละตัวอย่างสามารถมีส่วนทำให้ต้นทุนโดยรวมเป็น 1 / m = 1/10

หากคุณมีตัวอย่างเพิ่มเติมสมมติว่า 100 ค่า "การครอบงำ" ของต้นทุนการทำให้เป็นมาตรฐานของ L2 จะเป็นแบบ 100: 1 ดังนั้นคุณต้องลดλตามลำดับซึ่งไม่สะดวก มันจะดีกว่าที่จะมีλคงที่โดยไม่คำนึงถึงขนาดชุด

ปรับปรุง:เพื่อให้เรื่องนี้แข็งแกร่งมากขึ้นฉันสร้างโน้ตบุ๊ค jupyter


1
อืม แต่ไม่ได้มีวัตถุประสงค์ของปัจจัย 1 / m ก่อนฟังก์ชั่นค่าใช้จ่ายที่แต่ละตัวอย่างการฝึกอบรมมีส่วนเท่า ๆ กันกับค่าใช้จ่าย? ดังนั้นเนื่องจากเราเฉลี่ยค่าใช้จ่ายส่วนตัวอยู่แล้วนี่จึงไม่ควรเป็นสาเหตุของการครอบงำของเทอม L2 อย่างไรก็ตามฉันเห็นจากการจำลองที่ยอดเยี่ยมของคุณว่าปัจจัย 1 / m เช่นกันก่อนเทอม L2 จะช่วยได้เช่นกัน ฉันแค่ไม่ได้รับสัญชาตญาณด้านหลัง (ยัง)
Milania

ทำไมมันไม่สะดวก ?? มันง่ายในการแบ่งต้นทุน L2 ด้วยจำนวนตัวอย่าง ฉันคิดว่าบางทีคุณอาจใช้วิธีที่ผิด ฉันคิดว่าคุณตั้งใจจะบอกว่ามันไม่สะดวกในการปรับขนาด L2 ด้วยตนเองทุกครั้งมันจะดีกว่าถ้าคุณแบ่งจำนวนตัวอย่างเป็นส่วนหนึ่งของสูตรเพื่อปรับมาตราส่วนโดยอัตโนมัติ
SpaceMonkey

6

ฟังก์ชั่นการสูญเสียในการฝึกอบรมชุดโดยทั่วไปเป็นผลรวมมากกว่ารูปแบบประกอบด้วยชุดการฝึกอบรมเพื่อให้เป็นชุดการฝึกอบรมที่ได้รับมีขนาดใหญ่, เครื่องชั่งน้ำหนักในระยะแรกเป็นหลักเป็นเส้นตรงกับม.เราสามารถ จำกัด ช่วงสำหรับ seraching สำหรับค่าที่ดีของยุติธรรมบิตแรกถ้าเราแบ่งระยะกูโดยเพื่อชดเชยการพึ่งพาอาศัยกันของในม.2 ของหลักสูตรเป็นที่แน่นอนในส่วนที่จะลดความซับซ้อนของสัญญาซื้อขายล่วงหน้าที่จำเป็นสำหรับขั้นตอนวิธีการ opimisation ที่ใช้ในการตรวจสอบที่ดีที่สุด\J(θ)mλmJ(θ)mθ


ขอบคุณสำหรับการอธิบายการปรับค่าใช้จ่ายที่ไม่ใช่ regularized กับม.ผมก็ยังไม่ได้รับวิธีการหารด้วยจะช่วยให้เป็นหนึ่งเดียวค่าการทำงานที่ดีกว่าที่มีค่าที่แตกต่างกันอย่างแพร่หลายของม.ต้นทุนที่ไม่ทำให้เป็นมาตรฐานขึ้นอยู่กับอย่างมากแล้วเหตุใดจึงต้องสนใจคำที่ทำให้เป็นมาตรฐานซึ่งขึ้นอยู่กับพารามิเตอร์ไม่ใช่ตัวอย่างเป็นเพราะมีตัวอย่างการฝึกอบรมมากขึ้นความแปรปรวนจะลดลงตามจำนวนพารามิเตอร์ที่เท่ากันหรือไม่ mmλmmnm
Tom Hale

ฟังก์ชันการสูญเสียในคำถามนั้นเป็นค่าเฉลี่ยของตัวอย่างทั้งหมด (นั่นคือหารด้วย m) ไม่ใช่ผลรวมดังนั้นฉันจึงไม่เห็นว่าคำตอบนี้ทำงานอย่างไร
Denziloe

@Denziloe มันถูกนำไปใช้กับข้อกำหนดการทำให้เป็นปกติเช่นกัน
Dikran Marsupial

2

ฉันสงสัยเกี่ยวกับสิ่งเดียวกันแน่นอนเมื่อเรียนหลักสูตรนี้และจบการวิจัยนี้เล็กน้อย ฉันจะให้คำตอบสั้น ๆ ที่นี่ แต่คุณสามารถอ่านรายละเอียดภาพรวมมากขึ้นในการโพสต์บล็อกที่ผมเขียนเกี่ยวกับเรื่องนี้

ฉันเชื่อว่าอย่างน้อยส่วนหนึ่งของเหตุผลสำหรับค่าสัมประสิทธิ์การปรับขนาดเหล่านั้นก็คือการทำให้เป็นมาตรฐานL²อาจเข้าสู่สนามการเรียนรู้ลึกผ่านการแนะนำของแนวคิดการลดน้ำหนักที่เกี่ยวข้อง แต่ไม่เหมือนกัน

0.5 ปัจจัยคือมีค่าสัมประสิทธิ์ nice-only ที่ดีสำหรับการสลายตัวของน้ำหนักในการไล่ระดับสีและการปรับสเกลโดยm ... ดีมีอย่างน้อย 5 แรงจูงใจที่แตกต่างกันที่ฉันได้พบหรือเกิดขึ้นกับ:

  1. ผลข้างเคียงของการลดลงของการไล่ระดับแบทช์:เมื่อการวนซ้ำของการไล่ระดับสีแบบเดียวถูกทำให้เป็นรูปเป็นร่างแทนชุดฝึกอบรมทั้งหมดส่งผลให้อัลกอริทึมบางครั้งเรียกว่าการไล่ระดับแบทช์ ในชุดข้อมูลที่มีขนาดแตกต่างกันจะถูกนำไปใช้โดยอัตโนมัติกับเงื่อนไขการลดน้ำหนัก
  2. ขายต่อน้ำหนักของตัวอย่างเดียว:ดูสัญชาตญาณที่น่าสนใจของ grez
  3. การเป็นตัวแทนชุดการฝึกอบรม:มันสมเหตุสมผลที่จะลดขนาดการทำให้เป็นปกติเมื่อขนาดของชุดการฝึกอบรมเพิ่มขึ้นตามสถิติความเป็นตัวแทนของการกระจายโดยรวมก็เพิ่มขึ้นเช่นกัน โดยทั่วไปยิ่งเรามีข้อมูลมากเท่าไร
  4. ทำให้การเปรียบเทียบ By :โดยหวังว่าจะช่วยลดความจำเป็นในการเปลี่ยนแปลงλเมื่อการเปลี่ยนแปลง m การปรับขนาดนี้ทำให้λตัวเองเทียบเคียงได้กับชุดข้อมูลที่มีขนาดแตกต่างกัน สิ่งนี้ทำให้ estim เป็นตัวประมาณค่าแทนของระดับความเป็นจริงของการทำให้เป็นจริงตามที่กำหนดโดยแบบจำลองเฉพาะในปัญหาการเรียนรู้ที่เฉพาะเจาะจง
  5. คุณค่าเชิงประจักษ์:โน้ตบุ๊คที่ยอดเยี่ยมโดยgrezแสดงให้เห็นว่าสิ่งนี้ช่วยปรับปรุงประสิทธิภาพในทางปฏิบัติ

0

ฉันยังสับสนเกี่ยวกับเรื่องนี้ แต่แล้วในการบรรยายเรื่อง

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

อาจมีเหตุผลที่ลึกกว่าสำหรับการใช้ 1 / 2m แต่ฉันสงสัยว่ามันเป็นแค่พารามิเตอร์


นี่ไม่ได้ตอบคำถาม
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.