ฉันคิดว่าฉันรู้ว่าผู้พูดกำลังทำอะไรอยู่ โดยส่วนตัวแล้วฉันไม่เห็นด้วยกับเขา / เธอและมีคนมากมายที่ไม่ชอบ แต่เพื่อความยุติธรรมยังมีอีกหลายคนที่ทำ :) ก่อนอื่นให้สังเกตว่าการระบุฟังก์ชันความแปรปรวนร่วม (เคอร์เนล) หมายถึงการระบุการกระจายก่อนหน้าที่ฟังก์ชัน เพียงแค่เปลี่ยนเคอร์เนลการรับรู้ของกระบวนการเกาส์เซียนก็เปลี่ยนไปอย่างมากจากฟังก์ชั่นที่ราบรื่นและแตกต่างอย่างไม่มีที่สิ้นสุดที่สร้างโดย Squared Exponential kernel
ไปที่ "แหลมคม" ฟังก์ชั่น nondifferentiable สอดคล้องกับเคอร์เนลเอก (หรือเคอร์เนล Matern กับν=1/2 )
อีกวิธีที่จะเห็นว่ามันคือการเขียนค่าเฉลี่ยการทำนาย (ค่าเฉลี่ยของกระบวนการคำนวณแบบเกาส์ที่ได้จากการปรับ GP ในจุดฝึกอบรม) ในจุดทดสอบในกรณีที่ง่ายที่สุดของฟังก์ชันหมายถึงศูนย์:x∗
y∗=k∗T(K+σ2I)−1y
เมื่อเป็นเวกเตอร์ของความแปรปรวนร่วมระหว่างจุดทดสอบx ∗และจุดฝึกอบรมx 1 , … , x n , Kคือเมทริกซ์ความแปรปรวนร่วมของจุดฝึกอบรม, σเป็นคำที่มีเสียงรบกวน (เพียงตั้งค่าσ = 0ถ้าการบรรยายของคุณ การคาดคะเนที่ปราศจากเสียงรบกวนที่เกี่ยวข้องเช่นการแก้ไขแบบเกาส์กระบวนการและy = ( y 1 , … , y n )k∗x∗x1,…,xnKσσ=0y=(y1,…,yn)เป็นเวกเตอร์ของการสังเกตในชุดฝึกซ้อม อย่างที่คุณเห็นแม้ว่าค่าเฉลี่ยของ GP ก่อนหน้าจะเป็นศูนย์ค่าเฉลี่ยของการทำนายไม่เป็นศูนย์เลยและขึ้นอยู่กับเคอร์เนลและตามจำนวนคะแนนการฝึกอบรมมันเป็นแบบจำลองที่ยืดหยุ่นมากสามารถเรียนรู้ได้อย่างมาก รูปแบบที่ซับซ้อน
โดยทั่วไปมันเป็นเคอร์เนลที่กำหนดคุณสมบัติการวางนัยทั่วไปของ GP เมล็ดบางเมล็ดมีคุณสมบัติการประมาณสากลเช่นพวกมันอยู่ในหลักการที่สามารถประมาณฟังก์ชันต่อเนื่องใด ๆ บนเซตย่อยเพื่อความทนทานสูงสุดที่กำหนดไว้ล่วงหน้าได้รับคะแนนการฝึกอบรมที่เพียงพอ
ถ้าเช่นนั้นทำไมคุณถึงสนใจฟังก์ชั่นค่าเฉลี่ยล่ะ? ประการแรกฟังก์ชั่นหมายถึงอย่างง่าย (พหุนามเชิงเส้นหรือมุมฉาก) ทำให้แบบจำลองตีความได้มากขึ้นและความได้เปรียบนี้จะต้องไม่ถูกประเมินต่ำกว่าสำหรับแบบจำลองที่ยืดหยุ่น (ดังนั้นซับซ้อน) ในขณะที่ GP ประการที่สองในทางใดทางหนึ่งค่าเฉลี่ยศูนย์ (หรือสำหรับสิ่งที่คุ้มค่ารวมถึงค่าเฉลี่ยคงที่) GP ชนิดของการดูดที่การคาดการณ์ที่อยู่ห่างไกลจากข้อมูลการฝึกอบรม เครื่องเขียนจำนวนมาก (ยกเว้นเมล็ดเป็นระยะ) เป็นเช่นนั้นที่สำหรับdist ( x i , x ∗ ) → ∞k(xi−x∗)→0dist(xi,x∗)→∞. การบรรจบกันของ 0 นี้สามารถเกิดขึ้นได้อย่างรวดเร็วอย่างน่าประหลาดใจโดยเฉพาะอย่างยิ่งกับ Squared Exponential kernel และโดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องมีความยาวสัมพัทธ์สั้นเพื่อให้เหมาะสมกับชุดฝึกอบรม ดังนั้นฟังก์ชั่น GP ที่มีค่าเฉลี่ยศูนย์จะทำนายค่าอย่างสม่ำเสมอเมื่อคุณออกไปจากชุดฝึกซ้อมy∗≈0
ตอนนี้สิ่งนี้เหมาะสมสำหรับแอปพลิเคชันของคุณ: โดยปกติแล้วมันเป็นความคิดที่ดีที่จะใช้แบบจำลองที่ขับเคลื่อนด้วยข้อมูลเพื่อทำการทำนายจากชุดของจุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลอง ดูที่นี่สำหรับตัวอย่างที่น่าสนใจและสนุกสนานมากมายว่าทำไมสิ่งนี้ถึงเป็นความคิดที่ไม่ดี ในแง่นี้ศูนย์ค่าเฉลี่ยจีพีซึ่งรวมกันเป็น 0 ห่างจากชุดฝึกอบรมนั้นปลอดภัยกว่าแบบจำลอง (เช่นตัวอย่างระดับพหุนาม orthogonal แบบพหุระดับสูง) ซึ่งจะยิงออกการคาดการณ์ขนาดใหญ่อย่างบ้าคลั่งอย่างรวดเร็ว คุณอยู่ห่างจากข้อมูลการฝึกอบรม
x∗