ข้อผิดพลาดเฉลี่ยกำลังสองนูนในบริบทของเครือข่ายประสาทเสมอหรือไม่

9

หลายแหล่งข้อมูลที่ฉันพูดถึงนั้นก็คือ MSE นั้นยอดเยี่ยมเพราะมันนูน แต่ฉันไม่เข้าใจโดยเฉพาะในบริบทของเครือข่ายประสาท

สมมติว่าเรามีดังต่อไปนี้:

$X$ : ชุดข้อมูลการฝึกอบรม
$Y$ : เป้าหมาย
$\Theta$ : ชุดพารามิเตอร์ของแบบจำลอง (แบบจำลองโครงข่ายใยประสาทเทียมที่ไม่มีเส้นตรง) $f_\Theta$

แล้ว:

MSE (Θ) = (f_{Θ} (X) - Y)^{2}

$\operatorname{MSE}(\Theta) = (f_\Theta(X) - Y)^2$

ฟังก์ชั่นการสูญเสียนี้ทำไมจะนูนตลอดเวลา สิ่งนี้ขึ้นอยู่กับหรือไม่? $f_\Theta(X)$

— user74211
แหล่งที่มา

1

คำตอบสั้น ๆ : MSE นั้นจะนูนในอินพุตและพารามิเตอร์ของมันเอง แต่ในเครือข่ายนิวรัลตามอำเภอใจมันไม่เสมอไปเนื่องจากการปรากฏตัวของเส้นตรงที่ไม่ใช่เชิงเส้นในรูปแบบของฟังก์ชั่นการเปิดใช้งาน แหล่งที่มาสำหรับคำตอบของฉันที่นี่

— varsh
แหล่งที่มา

1

ความโค้งออก

ฟังก์ชั่นมีคือนูนถ้าสำหรับใด ๆ,และสำหรับ , $f(x)$ $x ∈ Χ$ $x_1 ∈ Χ$ $x_2 ∈ Χ$ $0 ≤ λ ≤ 1$
$f (λ x_{1} + (1 - λ) x_{2}) \leq λ f (x_{1}) + (1 - λ) f (x_{2}) .$ $f(λ x_1 + (1 − λ) x_2) ≤ λf(x_1) + (1 − λ) f (x_2).$

สามารถพิสูจน์ได้ว่านูนนั้นมีค่าต่ำสุดหนึ่งค่า ค่าต่ำสุดในระดับโลกที่ไม่ซ้ำใครช่วยลดกับดักที่สร้างขึ้นโดย local minima ที่สามารถเกิดขึ้นได้ในอัลกอริธึมที่พยายามทำให้เกิดการรวมกันในระดับต่ำสุดทั่วโลกเช่นการลดฟังก์ชั่นข้อผิดพลาดให้น้อยที่สุด $f(x)$

แม้ว่าฟังก์ชั่นข้อผิดพลาดอาจเชื่อถือได้ 100% ในบริบทเชิงเส้นต่อเนื่องและบริบทที่ไม่ใช่เชิงเส้นจำนวนมาก แต่ก็ไม่ได้หมายความว่าคอนเวอร์เจนซ์ในระดับต่ำสุดทั่วโลกสำหรับบริบทที่ไม่ใช่เชิงเส้นที่เป็นไปได้ทั้งหมด

หมายถึงข้อผิดพลาดของสแควร์

รับฟังก์ชั่นอธิบายพฤติกรรมของระบบในอุดมคติและแบบจำลองของระบบ (โดยที่คือพารามิเตอร์เวกเตอร์, เมทริกซ์, คิวบ์, หรือไฮเปอร์คิวบ์และ ) สร้างสมเหตุสมผลหรือผ่านการลู่เข้า (เช่นเดียวกับในการฝึกอบรมโครงข่ายประสาทเทียม) ฟังก์ชัน mean square error (MSE) สามารถแสดงได้ดังนี้ $s(x)$ $a(x, p)$ $p$ $1 ≤ n ≤ N$

e (β) := N^{- 1} \sum_{n} [a (x_{n}) - s (x_{n})]^{2}

$e(β) := N^{-1} \sum_{n} [a(x_n) − s(x_n)]^2$

เนื้อหาที่คุณกำลังอ่านอาจไม่อ้างว่าหรือนั้นนูนด้วยความเคารพแต่นั้นนูนด้วยความเคารพและไม่ว่าพวกเขาจะเป็นอะไร คำสั่งในภายหลังนี้สามารถพิสูจน์ได้สำหรับการใด ๆ ต่อเนื่องและ(x) $a(x, p)$ $s(x)$ $x$ $e(β)$ $a(x, p)$ $s(x)$ $a(x, p)$ $s(x)$

ขั้นตอนวิธีการคอนเวอร์เจนซ์

หากคำถามคือว่าเฉพาะและวิธีการบรรลุที่ใกล้เคียงกับภายในขอบเขตการลู่เข้าของ MSE ที่สมเหตุสมผลสามารถทำให้สับสนได้คำตอบคือ "ใช่" นั่นคือสาเหตุที่ MSE ไม่ใช่แบบจำลองข้อผิดพลาดเท่านั้น $a(x, p)$ $s(x)$ $a(x, p)$

สรุป

วิธีสรุปที่ดีที่สุดคือควรกำหนดหรือเลือกจากชุดของโมเดลข้อผิดพลาดนูนของสต็อคตามความรู้ต่อไปนี้ $e(β)$

คุณสมบัติที่รู้จักของระบบ $s(x)$
คำจำกัดความของแบบจำลองการประมาณ $a(x, p)$
Tensor ใช้เพื่อสร้างสถานะถัดไปในลำดับการรวม

ชุดของข้อผิดพลาดนูนแบบสต็อกรวมถึงรูปแบบ MSE อย่างแน่นอนเพราะความเรียบง่ายและความเจริญเติบโตของคอมพิวเตอร์

— FauChristian
แหล่งที่มา

ดังนั้นคำตอบสั้น ๆ คือ MSE wrt Theta มักจะนูนเสมอ แม้ว่า Feedforard (X, Theta) ซึ่งอาจไม่ใช่แบบนูน?

— user74211

ดี @ user74211 ความคิดเห็นนั้นไม่ได้ตอบคำถาม คำถามที่ถามโดยเฉพาะเจาะจงว่าค่าเฉลี่ยของข้อผิดพลาดแบบสี่เหลี่ยมสามารถเป็นค่านูนหากฟังก์ชันที่ใช้ไม่ได้ ความคิดเห็นของคุณเป็นส่วนหนึ่งของข้อความในคำถามโดยไม่ต้องการคำอธิบาย

— FauChristian