ทำไมฟังก์ชั่นเฉลี่ยในกระบวนการเสียนไม่น่าสนใจ


28

ฉันเพิ่งเริ่มอ่านเกี่ยวกับ GP และคล้ายกับการแจกแจงแบบเกาส์ทั่วไปมันมีลักษณะโดยฟังก์ชันเฉลี่ยและฟังก์ชันความแปรปรวนร่วมหรือเคอร์เนล ฉันกำลังคุยกันอยู่และผู้พูดพูดว่าฟังก์ชั่นเฉลี่ยนั้นค่อนข้างไม่น่าสนใจและใช้ความพยายามในการอนุมานเพื่อประเมินฟังก์ชั่นความแปรปรวนร่วมที่ถูกต้อง

มีคนอธิบายให้ฉันฟังได้ไหม

คำตอบ:


33

ฉันคิดว่าฉันรู้ว่าผู้พูดกำลังทำอะไรอยู่ โดยส่วนตัวแล้วฉันไม่เห็นด้วยกับเขา / เธอและมีคนมากมายที่ไม่ชอบ แต่เพื่อความยุติธรรมยังมีอีกหลายคนที่ทำ :) ก่อนอื่นให้สังเกตว่าการระบุฟังก์ชันความแปรปรวนร่วม (เคอร์เนล) หมายถึงการระบุการกระจายก่อนหน้าที่ฟังก์ชัน เพียงแค่เปลี่ยนเคอร์เนลการรับรู้ของกระบวนการเกาส์เซียนก็เปลี่ยนไปอย่างมากจากฟังก์ชั่นที่ราบรื่นและแตกต่างอย่างไม่มีที่สิ้นสุดที่สร้างโดย Squared Exponential kernel

ป้อนคำอธิบายรูปภาพที่นี่

ไปที่ "แหลมคม" ฟังก์ชั่น nondifferentiable สอดคล้องกับเคอร์เนลเอก (หรือเคอร์เนล Matern กับν=1/2 )

ป้อนคำอธิบายรูปภาพที่นี่

อีกวิธีที่จะเห็นว่ามันคือการเขียนค่าเฉลี่ยการทำนาย (ค่าเฉลี่ยของกระบวนการคำนวณแบบเกาส์ที่ได้จากการปรับ GP ในจุดฝึกอบรม) ในจุดทดสอบในกรณีที่ง่ายที่สุดของฟังก์ชันหมายถึงศูนย์:x

y=kT(K+σ2I)1Y

เมื่อเป็นเวกเตอร์ของความแปรปรวนร่วมระหว่างจุดทดสอบx และจุดฝึกอบรมx 1 , , x n , Kคือเมทริกซ์ความแปรปรวนร่วมของจุดฝึกอบรม, σเป็นคำที่มีเสียงรบกวน (เพียงตั้งค่าσ = 0ถ้าการบรรยายของคุณ การคาดคะเนที่ปราศจากเสียงรบกวนที่เกี่ยวข้องเช่นการแก้ไขแบบเกาส์กระบวนการและy = ( y 1 , , y n )kxx1,,xnKσσ=0y=(y1,,yn)เป็นเวกเตอร์ของการสังเกตในชุดฝึกซ้อม อย่างที่คุณเห็นแม้ว่าค่าเฉลี่ยของ GP ก่อนหน้าจะเป็นศูนย์ค่าเฉลี่ยของการทำนายไม่เป็นศูนย์เลยและขึ้นอยู่กับเคอร์เนลและตามจำนวนคะแนนการฝึกอบรมมันเป็นแบบจำลองที่ยืดหยุ่นมากสามารถเรียนรู้ได้อย่างมาก รูปแบบที่ซับซ้อน

โดยทั่วไปมันเป็นเคอร์เนลที่กำหนดคุณสมบัติการวางนัยทั่วไปของ GP เมล็ดบางเมล็ดมีคุณสมบัติการประมาณสากลเช่นพวกมันอยู่ในหลักการที่สามารถประมาณฟังก์ชันต่อเนื่องใด ๆ บนเซตย่อยเพื่อความทนทานสูงสุดที่กำหนดไว้ล่วงหน้าได้รับคะแนนการฝึกอบรมที่เพียงพอ

ถ้าเช่นนั้นทำไมคุณถึงสนใจฟังก์ชั่นค่าเฉลี่ยล่ะ? ประการแรกฟังก์ชั่นหมายถึงอย่างง่าย (พหุนามเชิงเส้นหรือมุมฉาก) ทำให้แบบจำลองตีความได้มากขึ้นและความได้เปรียบนี้จะต้องไม่ถูกประเมินต่ำกว่าสำหรับแบบจำลองที่ยืดหยุ่น (ดังนั้นซับซ้อน) ในขณะที่ GP ประการที่สองในทางใดทางหนึ่งค่าเฉลี่ยศูนย์ (หรือสำหรับสิ่งที่คุ้มค่ารวมถึงค่าเฉลี่ยคงที่) GP ชนิดของการดูดที่การคาดการณ์ที่อยู่ห่างไกลจากข้อมูลการฝึกอบรม เครื่องเขียนจำนวนมาก (ยกเว้นเมล็ดเป็นระยะ) เป็นเช่นนั้นที่สำหรับdist ( x i , x ) k(xix)0dist(xi,x). การบรรจบกันของ 0 นี้สามารถเกิดขึ้นได้อย่างรวดเร็วอย่างน่าประหลาดใจโดยเฉพาะอย่างยิ่งกับ Squared Exponential kernel และโดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องมีความยาวสัมพัทธ์สั้นเพื่อให้เหมาะสมกับชุดฝึกอบรม ดังนั้นฟังก์ชั่น GP ที่มีค่าเฉลี่ยศูนย์จะทำนายค่าอย่างสม่ำเสมอเมื่อคุณออกไปจากชุดฝึกซ้อมy0

ตอนนี้สิ่งนี้เหมาะสมสำหรับแอปพลิเคชันของคุณ: โดยปกติแล้วมันเป็นความคิดที่ดีที่จะใช้แบบจำลองที่ขับเคลื่อนด้วยข้อมูลเพื่อทำการทำนายจากชุดของจุดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลอง ดูที่นี่สำหรับตัวอย่างที่น่าสนใจและสนุกสนานมากมายว่าทำไมสิ่งนี้ถึงเป็นความคิดที่ไม่ดี ในแง่นี้ศูนย์ค่าเฉลี่ยจีพีซึ่งรวมกันเป็น 0 ห่างจากชุดฝึกอบรมนั้นปลอดภัยกว่าแบบจำลอง (เช่นตัวอย่างระดับพหุนาม orthogonal แบบพหุระดับสูง) ซึ่งจะยิงออกการคาดการณ์ขนาดใหญ่อย่างบ้าคลั่งอย่างรวดเร็ว คุณอยู่ห่างจากข้อมูลการฝึกอบรม

x


เดลต้าคุณรู้หรือไม่ว่าอะไรคือฟังก์ชั่นเฉลี่ยที่ดี?
ชายชราในทะเล

1
@Anoldmaninthesea มันขึ้นอยู่กับแอปพลิเคชันเป็นอย่างมาก ขณะที่ผมอธิบายเว้นแต่คุณจะต้องมีรูปแบบ interpretable หรือคุณกำลังสนใจในการคาดการณ์ "ห่างไกล" จากชุดฝึกอบรมของคุณก็จะอาจจะดีกว่าที่จะเน้นความพยายามของคุณในการปรับปรุงการทำงานแปรปรวนมากกว่าฟังก์ชั่นค่าเฉลี่ย
DeltaIV

1
เดลต้าได้ดีในกรณีที่ฉันต้องพยายามที่จะทำให้การคาดการณ์บางอย่างที่อาจจะห่างไกลจากข้อมูลที่สังเกต ... ฉันเคยถามคำถามนี้ที่นี่stats.stackexchange.com/questions/375468/...
ชายชราคนหนึ่งใน ทะเล.

6

เราไม่สามารถพูดในนามของบุคคลที่ให้การบรรยาย; บางทีผู้พูดอาจมีความคิดที่แตกต่างออกไปในใจเมื่อผู้พูดออกแถลงการณ์นั้น อย่างไรก็ตามในกรณีที่คุณพยายามสร้างการคาดการณ์หลังจาก GP ฟังก์ชั่นค่าเฉลี่ยคงที่มีวิธีแก้ปัญหาแบบปิดที่สามารถคำนวณได้อย่างแม่นยำ อย่างไรก็ตามในกรณีของฟังก์ชั่นค่าเฉลี่ยที่กว้างกว่าคุณต้องใช้วิธีการประมาณเช่นการจำลอง

นอกจากนี้ฟังก์ชันความแปรปรวนร่วมจะควบคุมว่าค่าเบี่ยงเบนจากและค่าเฉลี่ยของฟังก์ชันเกิดขึ้นเร็วเพียงใดดังนั้นจึงมักเป็นกรณีที่ฟังก์ชันความแปรปรวนร่วมที่ยืดหยุ่น / แข็งกว่านั้นสามารถ "ดีพอ" เพื่อประมาณค่าเฉลี่ยของฟังก์ชันที่หรูหรามากขึ้น การเข้าถึงคุณสมบัติความสะดวกสบายของฟังก์ชั่นค่าคงที่


ขอบคุณสำหรับคำอธิบาย ใช่ฉันไม่สามารถถามคำถามของฉันและสงสัยว่ามีเหตุผลหลักสำหรับเรื่องนี้
Luca

6

yt=c+γyt1+etE[yt]μ=c1γ

cγ

V=μr
r

y1=c+γy0
y0


0

เพื่อให้ง่ายฟังก์ชั่นหมายถึงควบคุมความแปรปรวนร่วมของอินพุตที่ห่างไกลจากการสังเกต
มันเป็นวิธีในการฉีดความรู้ก่อนหน้าของคุณไปสู่การเปลี่ยนแปลงในระดับมหภาคของระบบของคุณ


1
ฉันไม่เข้าใจคำตอบของคุณ คุณช่วยอธิบายได้ไหม
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.