การทำให้เป็นมาตรฐาน: ทำไมคูณด้วย 1 / 2m

10

ในบันทึกการบรรยาย 3 สัปดาห์ของชั้นเรียน Coursera Machine LearningของAndrew Ngจะมีการเพิ่มคำศัพท์ในฟังก์ชั่นค่าใช้จ่ายเพื่อทำให้เป็นมาตรฐาน

J^{+} (θ) = J (θ) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}

$J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2$

บันทึกการบรรยายพูดว่า:

เรายังสามารถทำให้พารามิเตอร์ theta ทั้งหมดของเราเป็นปกติในการสรุปเดียว:

$m i n_{θ} \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]$ $min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right]$

$\frac 1 {2m}$ ถูกนำไปใช้กับเทอม normalization ของเครือข่ายประสาท :

จำได้ว่าฟังก์ชั่นค่าใช้จ่ายสำหรับการถดถอยโลจิสติกปกติ:

$J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$ $J(\theta) = - \frac{1}{m} \sum_{i=1}^m [ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$
สำหรับเครือข่ายประสาทมันจะซับซ้อนกว่าเล็กน้อย:
$\begin{matrix} J (Θ) = - \frac{1}{m} \sum_{i = 1}^{m} \sum_{k = 1}^{K} [y_{k}^{(i)} \log ((h_{Θ} (x^{(i)}))_{k}) + (1 - y_{k}^{(i)}) \log (1 - (h_{Θ} (x^{(i)}))_{k})] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l + 1}} (Θ_{j, i}^{(l)})^{2} \end{matrix}$ $\begin{gather*} J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}$

ทำไมค่าครึ่งหนึ่งคงที่ใช้ที่นี่? แล้วมันจะถูกยกเลิกในอนุพันธ์ ? $J'$
ทำไมการแบ่งตัวอย่างการฝึกอบรมจำนวนตัวอย่างการฝึกอบรมมีผลต่อสิ่งต่าง ๆ อย่างไร $m$

regularization

— ทอมเฮล
แหล่งที่มา

คุณแน่ใจหรือไม่ว่า 1 / m อยู่ในการทำให้เป็นมาตรฐานและไม่ใช่คำตอบของ J (theta) AFAIK @DikranMarsupial กำลังทำให้สมมติฐานนั้น ...... หรือ J (theta) มีระยะเวลา 1 / m หรือไม่?

— seanv507

สมมติฐานนั้นไม่ถูกต้อง -ถูกนำไปใช้กับทั้งฟังก์ชั่นค่าใช้จ่ายที่ยังไม่ทำให้เป็นมาตรฐานและเงื่อนไขการทำให้เป็นมาตรฐาน ฉันได้อัปเดตคำถามเพื่อให้สูตรเต็ม

\frac{1}{2 m}

$1 \over 2m$

— Tom Hale

5

ลองสมมติว่าคุณมี 10 ตัวอย่างและคุณไม่แบ่งค่าใช้จ่ายกู L2 จากจำนวนตัวอย่างเมตร จากนั้นค่าใช้จ่ายในการทำให้เป็นมาตรฐานของ L2 เมื่อเทียบกับค่าใช้จ่ายข้ามเอนโทรปีจะเป็น 10: 1 เนื่องจากตัวอย่างการฝึกอบรมแต่ละตัวอย่างสามารถมีส่วนทำให้ต้นทุนโดยรวมเป็น 1 / m = 1/10

หากคุณมีตัวอย่างเพิ่มเติมสมมติว่า 100 ค่า "การครอบงำ" ของต้นทุนการทำให้เป็นมาตรฐานของ L2 จะเป็นแบบ 100: 1 ดังนั้นคุณต้องลดλตามลำดับซึ่งไม่สะดวก มันจะดีกว่าที่จะมีλคงที่โดยไม่คำนึงถึงขนาดชุด

ปรับปรุง:เพื่อให้เรื่องนี้แข็งแกร่งมากขึ้นฉันสร้างโน้ตบุ๊ค jupyter

— grez
แหล่งที่มา

1

อืม แต่ไม่ได้มีวัตถุประสงค์ของปัจจัย 1 / m ก่อนฟังก์ชั่นค่าใช้จ่ายที่แต่ละตัวอย่างการฝึกอบรมมีส่วนเท่า ๆ กันกับค่าใช้จ่าย? ดังนั้นเนื่องจากเราเฉลี่ยค่าใช้จ่ายส่วนตัวอยู่แล้วนี่จึงไม่ควรเป็นสาเหตุของการครอบงำของเทอม L2 อย่างไรก็ตามฉันเห็นจากการจำลองที่ยอดเยี่ยมของคุณว่าปัจจัย 1 / m เช่นกันก่อนเทอม L2 จะช่วยได้เช่นกัน ฉันแค่ไม่ได้รับสัญชาตญาณด้านหลัง (ยัง)

— Milania

ทำไมมันไม่สะดวก ?? มันง่ายในการแบ่งต้นทุน L2 ด้วยจำนวนตัวอย่าง ฉันคิดว่าบางทีคุณอาจใช้วิธีที่ผิด ฉันคิดว่าคุณตั้งใจจะบอกว่ามันไม่สะดวกในการปรับขนาด L2 ด้วยตนเองทุกครั้งมันจะดีกว่าถ้าคุณแบ่งจำนวนตัวอย่างเป็นส่วนหนึ่งของสูตรเพื่อปรับมาตราส่วนโดยอัตโนมัติ

— SpaceMonkey

6

ฟังก์ชั่นการสูญเสียในการฝึกอบรมชุดโดยทั่วไปเป็นผลรวมมากกว่ารูปแบบประกอบด้วยชุดการฝึกอบรมเพื่อให้เป็นชุดการฝึกอบรมที่ได้รับมีขนาดใหญ่, เครื่องชั่งน้ำหนักในระยะแรกเป็นหลักเป็นเส้นตรงกับม.เราสามารถ จำกัด ช่วงสำหรับ seraching สำหรับค่าที่ดีของยุติธรรมบิตแรกถ้าเราแบ่งระยะกูโดยเพื่อชดเชยการพึ่งพาอาศัยกันของในม.2 ของหลักสูตรเป็นที่แน่นอนในส่วนที่จะลดความซับซ้อนของสัญญาซื้อขายล่วงหน้าที่จำเป็นสำหรับขั้นตอนวิธีการ opimisation ที่ใช้ในการตรวจสอบที่ดีที่สุด\ $J(\theta)$ $m$ $\lambda$ $m$ $J(\theta)$ $m$ $\theta$

— Dikran Marsupial
แหล่งที่มา

ขอบคุณสำหรับการอธิบายการปรับค่าใช้จ่ายที่ไม่ใช่ regularized กับม.ผมก็ยังไม่ได้รับวิธีการหารด้วยจะช่วยให้เป็นหนึ่งเดียวค่าการทำงานที่ดีกว่าที่มีค่าที่แตกต่างกันอย่างแพร่หลายของม.ต้นทุนที่ไม่ทำให้เป็นมาตรฐานขึ้นอยู่กับอย่างมากแล้วเหตุใดจึงต้องสนใจคำที่ทำให้เป็นมาตรฐานซึ่งขึ้นอยู่กับพารามิเตอร์ไม่ใช่ตัวอย่างเป็นเพราะมีตัวอย่างการฝึกอบรมมากขึ้นความแปรปรวนจะลดลงตามจำนวนพารามิเตอร์ที่เท่ากันหรือไม่

m

$m$

m

$m$

λ

$\lambda$

m

$m$

m

$m$

n

$n$

m

$m$

— Tom Hale

ฟังก์ชันการสูญเสียในคำถามนั้นเป็นค่าเฉลี่ยของตัวอย่างทั้งหมด (นั่นคือหารด้วย m) ไม่ใช่ผลรวมดังนั้นฉันจึงไม่เห็นว่าคำตอบนี้ทำงานอย่างไร

— Denziloe

@Denziloe มันถูกนำไปใช้กับข้อกำหนดการทำให้เป็นปกติเช่นกัน

— Dikran Marsupial

2

ฉันสงสัยเกี่ยวกับสิ่งเดียวกันแน่นอนเมื่อเรียนหลักสูตรนี้และจบการวิจัยนี้เล็กน้อย ฉันจะให้คำตอบสั้น ๆ ที่นี่ แต่คุณสามารถอ่านรายละเอียดภาพรวมมากขึ้นในการโพสต์บล็อกที่ผมเขียนเกี่ยวกับเรื่องนี้

ฉันเชื่อว่าอย่างน้อยส่วนหนึ่งของเหตุผลสำหรับค่าสัมประสิทธิ์การปรับขนาดเหล่านั้นก็คือการทำให้เป็นมาตรฐานL²อาจเข้าสู่สนามการเรียนรู้ลึกผ่านการแนะนำของแนวคิดการลดน้ำหนักที่เกี่ยวข้อง แต่ไม่เหมือนกัน

0.5 ปัจจัยคือมีค่าสัมประสิทธิ์ nice-only ที่ดีสำหรับการสลายตัวของน้ำหนักในการไล่ระดับสีและการปรับสเกลโดยm ... ดีมีอย่างน้อย 5 แรงจูงใจที่แตกต่างกันที่ฉันได้พบหรือเกิดขึ้นกับ:

ผลข้างเคียงของการลดลงของการไล่ระดับแบทช์:เมื่อการวนซ้ำของการไล่ระดับสีแบบเดียวถูกทำให้เป็นรูปเป็นร่างแทนชุดฝึกอบรมทั้งหมดส่งผลให้อัลกอริทึมบางครั้งเรียกว่าการไล่ระดับแบทช์ ในชุดข้อมูลที่มีขนาดแตกต่างกันจะถูกนำไปใช้โดยอัตโนมัติกับเงื่อนไขการลดน้ำหนัก
ขายต่อน้ำหนักของตัวอย่างเดียว:ดูสัญชาตญาณที่น่าสนใจของ grez
การเป็นตัวแทนชุดการฝึกอบรม:มันสมเหตุสมผลที่จะลดขนาดการทำให้เป็นปกติเมื่อขนาดของชุดการฝึกอบรมเพิ่มขึ้นตามสถิติความเป็นตัวแทนของการกระจายโดยรวมก็เพิ่มขึ้นเช่นกัน โดยทั่วไปยิ่งเรามีข้อมูลมากเท่าไร
ทำให้การเปรียบเทียบ By :โดยหวังว่าจะช่วยลดความจำเป็นในการเปลี่ยนแปลงλเมื่อการเปลี่ยนแปลง m การปรับขนาดนี้ทำให้λตัวเองเทียบเคียงได้กับชุดข้อมูลที่มีขนาดแตกต่างกัน สิ่งนี้ทำให้ estim เป็นตัวประมาณค่าแทนของระดับความเป็นจริงของการทำให้เป็นจริงตามที่กำหนดโดยแบบจำลองเฉพาะในปัญหาการเรียนรู้ที่เฉพาะเจาะจง
คุณค่าเชิงประจักษ์:โน้ตบุ๊คที่ยอดเยี่ยมโดยgrezแสดงให้เห็นว่าสิ่งนี้ช่วยปรับปรุงประสิทธิภาพในทางปฏิบัติ

— ShayPal5
แหล่งที่มา

0

ฉันยังสับสนเกี่ยวกับเรื่องนี้ แต่แล้วในการบรรยายเรื่อง

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

อาจมีเหตุผลที่ลึกกว่าสำหรับการใช้ 1 / 2m แต่ฉันสงสัยว่ามันเป็นแค่พารามิเตอร์

— Keyan P
แหล่งที่มา

นี่ไม่ได้ตอบคำถาม

— Michael R. Chernick