ข้อผิดพลาดเฉลี่ยกำลังสองนูนในบริบทของเครือข่ายประสาทเสมอหรือไม่


9

หลายแหล่งข้อมูลที่ฉันพูดถึงนั้นก็คือ MSE นั้นยอดเยี่ยมเพราะมันนูน แต่ฉันไม่เข้าใจโดยเฉพาะในบริบทของเครือข่ายประสาท

สมมติว่าเรามีดังต่อไปนี้:

  • X : ชุดข้อมูลการฝึกอบรม
  • Y : เป้าหมาย
  • Θ : ชุดพารามิเตอร์ของแบบจำลอง (แบบจำลองโครงข่ายใยประสาทเทียมที่ไม่มีเส้นตรง)fΘ

แล้ว:

MSE(Θ)=(fΘ(X)Y)2

ฟังก์ชั่นการสูญเสียนี้ทำไมจะนูนตลอดเวลา สิ่งนี้ขึ้นอยู่กับหรือไม่?fΘ(X)

คำตอบ:


1

คำตอบสั้น ๆ : MSE นั้นจะนูนในอินพุตและพารามิเตอร์ของมันเอง แต่ในเครือข่ายนิวรัลตามอำเภอใจมันไม่เสมอไปเนื่องจากการปรากฏตัวของเส้นตรงที่ไม่ใช่เชิงเส้นในรูปแบบของฟังก์ชั่นการเปิดใช้งาน แหล่งที่มาสำหรับคำตอบของฉันที่นี่


1

ความโค้งออก

ฟังก์ชั่นมีคือนูนถ้าสำหรับใด ๆ,และสำหรับ , f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

สามารถพิสูจน์ได้ว่านูนนั้นมีค่าต่ำสุดหนึ่งค่า ค่าต่ำสุดในระดับโลกที่ไม่ซ้ำใครช่วยลดกับดักที่สร้างขึ้นโดย local minima ที่สามารถเกิดขึ้นได้ในอัลกอริธึมที่พยายามทำให้เกิดการรวมกันในระดับต่ำสุดทั่วโลกเช่นการลดฟังก์ชั่นข้อผิดพลาดให้น้อยที่สุดf(x)

แม้ว่าฟังก์ชั่นข้อผิดพลาดอาจเชื่อถือได้ 100% ในบริบทเชิงเส้นต่อเนื่องและบริบทที่ไม่ใช่เชิงเส้นจำนวนมาก แต่ก็ไม่ได้หมายความว่าคอนเวอร์เจนซ์ในระดับต่ำสุดทั่วโลกสำหรับบริบทที่ไม่ใช่เชิงเส้นที่เป็นไปได้ทั้งหมด

หมายถึงข้อผิดพลาดของสแควร์

รับฟังก์ชั่นอธิบายพฤติกรรมของระบบในอุดมคติและแบบจำลองของระบบ (โดยที่คือพารามิเตอร์เวกเตอร์, เมทริกซ์, คิวบ์, หรือไฮเปอร์คิวบ์และ ) สร้างสมเหตุสมผลหรือผ่านการลู่เข้า (เช่นเดียวกับในการฝึกอบรมโครงข่ายประสาทเทียม) ฟังก์ชัน mean square error (MSE) สามารถแสดงได้ดังนี้s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

เนื้อหาที่คุณกำลังอ่านอาจไม่อ้างว่าหรือนั้นนูนด้วยความเคารพแต่นั้นนูนด้วยความเคารพและไม่ว่าพวกเขาจะเป็นอะไร คำสั่งในภายหลังนี้สามารถพิสูจน์ได้สำหรับการใด ๆ ต่อเนื่องและ(x) a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

ขั้นตอนวิธีการคอนเวอร์เจนซ์

หากคำถามคือว่าเฉพาะและวิธีการบรรลุที่ใกล้เคียงกับภายในขอบเขตการลู่เข้าของ MSE ที่สมเหตุสมผลสามารถทำให้สับสนได้คำตอบคือ "ใช่" นั่นคือสาเหตุที่ MSE ไม่ใช่แบบจำลองข้อผิดพลาดเท่านั้นa(x,p)s(x)a(x,p)

สรุป

วิธีสรุปที่ดีที่สุดคือควรกำหนดหรือเลือกจากชุดของโมเดลข้อผิดพลาดนูนของสต็อคตามความรู้ต่อไปนี้e(β)

  • คุณสมบัติที่รู้จักของระบบs(x)
  • คำจำกัดความของแบบจำลองการประมาณa(x,p)
  • Tensor ใช้เพื่อสร้างสถานะถัดไปในลำดับการรวม

ชุดของข้อผิดพลาดนูนแบบสต็อกรวมถึงรูปแบบ MSE อย่างแน่นอนเพราะความเรียบง่ายและความเจริญเติบโตของคอมพิวเตอร์


ดังนั้นคำตอบสั้น ๆ คือ MSE wrt Theta มักจะนูนเสมอ แม้ว่า Feedforard (X, Theta) ซึ่งอาจไม่ใช่แบบนูน?
user74211

ดี @ user74211 ความคิดเห็นนั้นไม่ได้ตอบคำถาม คำถามที่ถามโดยเฉพาะเจาะจงว่าค่าเฉลี่ยของข้อผิดพลาดแบบสี่เหลี่ยมสามารถเป็นค่านูนหากฟังก์ชันที่ใช้ไม่ได้ ความคิดเห็นของคุณเป็นส่วนหนึ่งของข้อความในคำถามโดยไม่ต้องการคำอธิบาย
FauChristian
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.