การรวมการสังเกตในกระบวนการเสียน


11

ฉันใช้กระบวนการ Gaussian (GP) สำหรับการถดถอย

ในปัญหาของฉันมันเป็นเรื่องธรรมดาสำหรับจุดข้อมูลสองจุดหรือมากกว่าx(1),x(2),...เพื่อให้ใกล้ชิดกันมากกว่าความยาวของปัญหา นอกจากนี้การสังเกตอาจมีเสียงดังมาก เพื่อเพิ่มความเร็วในการคำนวณและปรับปรุงความแม่นยำในการวัดดูเหมือนว่าเป็นธรรมชาติที่จะรวม / รวมกลุ่มของจุดที่อยู่ใกล้กันตราบใดที่ฉันสนใจการคาดการณ์ในระดับความยาวที่มากขึ้น

ฉันสงสัยว่าอะไรคือวิธีที่รวดเร็ว แต่มีหลักการครึ่งหนึ่งในการทำสิ่งนี้

ถ้าสองจุดข้อมูลที่ดีที่สุดที่ทับซ้อนกันและเสียงการสังเกต (เช่นความน่าจะเป็น) เป็น Gaussian อาจ heteroskedastic แต่ที่รู้จักกัน , วิธีธรรมชาติของการดำเนินการต่อดูเหมือนจะรวมไว้ในจุดข้อมูลเดียวด้วย:x(1)=x(2)

  • x¯x(k)สำหรับkk=1,2

  • ค่าที่สังเกตซึ่งเป็นค่าเฉลี่ยของค่าที่สังเกตได้ถ่วงน้ำหนักด้วยความแม่นยำสัมพัทธ์:{(2)} y(1),y(2) ˉ y =σ 2 y (x ( 2 ) )Y¯Y(1),Y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • เสียงรบกวนที่เกี่ยวข้องกับการสังเกตเท่ากับ:{(2)})}σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

อย่างไรก็ตามฉันควรผสานสองจุดที่อยู่ใกล้กัน แต่ไม่ทับซ้อนกันได้อย่างไร

  • ฉันคิดว่าควรยังคงเป็นค่าเฉลี่ยถ่วงน้ำหนักของสองตำแหน่งอีกครั้งโดยใช้ความน่าเชื่อถือแบบสัมพัทธ์ เหตุผลเป็นข้อโต้แย้งที่ศูนย์กลางของมวล (เช่นคิดว่าการสังเกตที่แม่นยำมากเป็นสแต็คของการสังเกตที่แม่นยำน้อยกว่า)x¯

  • สำหรับสูตรเดียวกับข้างต้นy¯

  • สำหรับเสียงที่เกี่ยวข้องกับการสังเกตฉันสงสัยว่านอกเหนือจากสูตรข้างต้นฉันควรเพิ่มคำแก้ไขลงในเสียงเพราะฉันกำลังย้ายจุดข้อมูลไปรอบ ๆ โดยพื้นฐานแล้วฉันจะได้รับความไม่แน่นอนเพิ่มขึ้นที่เกี่ยวข้องกับและ (ตามลำดับความแปรปรวนของสัญญาณและระดับความยาวของฟังก์ชันความแปรปรวนร่วม) ฉันไม่แน่ใจเกี่ยวกับรูปแบบของคำนี้ แต่ฉันมีความคิดเบื้องต้นเกี่ยวกับวิธีการคำนวณให้ฟังก์ชั่นความแปรปรวนร่วมσf22

ก่อนดำเนินการต่อฉันสงสัยว่ามีบางสิ่งบางอย่างอยู่ที่นั่นแล้วหรือไม่ และหากสิ่งนี้ดูเหมือนจะเป็นวิธีที่เหมาะสมในการดำเนินการหรือมีวิธีการที่รวดเร็วกว่า

สิ่งที่ใกล้เคียงที่สุดที่ฉันสามารถพบได้ในวรรณกรรมคือกระดาษนี้: E. Snelson และ Z. Ghahramani, กระบวนการแบบเกาส์กระจัดกระจายโดยใช้ Pseudo-inputs , NIPS '05; แต่วิธีการของพวกเขาคือ (ค่อนข้าง) มีส่วนเกี่ยวข้องต้องมีการปรับให้เหมาะสมเพื่อค้นหาอินพุทหลอก


1
โดยวิธีพวกเขาฉันขอขอบคุณที่ฉันสามารถใช้การอนุมานโดยประมาณหรือวิธีการขนาดใหญ่บางอย่าง แต่นี่คือจุดอื่น
lacerbi

คำตอบ:


4

เป็นคำถามที่ยอดเยี่ยมและสิ่งที่คุณเสนอแนะนั้นสมเหตุสมผล อย่างไรก็ตามโดยส่วนตัวฉันจะดำเนินการแตกต่างกันเพื่อให้มีประสิทธิภาพ ดังที่คุณกล่าวว่าจุดสองจุดที่อยู่ใกล้ให้ข้อมูลเพิ่มเติมเพียงเล็กน้อยและด้วยเหตุนี้องศาอิสระที่มีประสิทธิภาพของตัวแบบจึงน้อยกว่าจำนวนจุดข้อมูลที่สังเกตได้ ในกรณีเช่นนี้มันอาจจะคุ้มค่าที่จะใช้วิธี Nystroms ซึ่งอธิบายได้ดีใน GPML (บทที่เกี่ยวกับการกระจัดกระจายสามารถดูได้ที่http://www.gaussianprocess.org/gpml/ ) วิธีนี้ใช้งานง่ายมากและเพิ่งได้รับการพิสูจน์แล้วว่ามีความแม่นยำสูงโดย Rudi และคณะ ( http://arxiv.org/abs/1507.04717 )


ขอบคุณวิธีของ Nystrom ดูเหมือนจะเป็นวิธีที่น่าสนใจฉันจะลองดู อย่างไรก็ตามในโพสต์แรกของฉันฉันลืมที่จะพูดถึงว่าเสียงในการสังเกตอาจสูงมาก (อาจใหญ่กว่าสัญญาณ) เพื่อให้คะแนนเฉลี่ยในบริเวณใกล้เคียงจะให้ข้อมูลเพิ่มเติม
lacerbi

1
นั่นเป็นเหตุผลที่ต้องใช้วิธี Nystroms เสียงรบกวนสูงจะลดองศาอิสระที่มีประสิทธิภาพดังนั้นหากเฉพาะค่า e m ค่าแรกเท่านั้นที่เก็บสัญญาณและส่วนที่เหลือเป็นเพียงสัญญาณรบกวนวิธีการของ Nystroms จะลดลงทั้งหมดที่น้อยกว่า m แรก ฉันคิดว่ามันจะพอดีกับใบเรียกเก็บเงินสำหรับสิ่งที่คุณกำลังมองหา ขอให้โชคดี!
j__

วิธี Nystrom เป็นสิ่งที่ฉันอยากจะแนะนำ (+1) การรวมจุดเข้าด้วยกันอาจทำให้เกิดปัญหากับการประเมินความเป็นไปได้ที่ขอบของโมเดลเนื่องจากดาต้าพอยน์ของแท้สองตัวไม่น่าจะมีผลเหมือนกับจุดเดียว คำแนะนำของฉันคือแยกสองประเด็นออกจากกัน แต่หาวิธีทำให้การคำนวณราคาถูกลงซึ่ง Nystrom ควรจะได้รับ
Dikran Marsupial

ปัญหาประเภทใด หากคุณพิจารณาถึงกรณีของจุดซ้อนทับสองจุดด้วยเสียงเกาส์เซียนวิธีการหาค่าเฉลี่ยจะถูกต้อง (ตราบใดที่คุณติดตามการลดลงของเสียงรบกวนจากการสังเกต) ฉันไม่เห็นว่าทำไมอาร์กิวเมนต์เดียวกันไม่ควรใช้กับคะแนนที่ใกล้เคียงกับระดับความยาวของปัญหา (เมื่อการประมาณยิ่งแย่ลงเมื่อระยะทางเพิ่มขึ้น) บางทีนี่อาจเป็นสิ่งที่วิธีของ Nystrom ทำในแนวทางที่ดีกว่า - ฉันยังต้องเข้าใจรายละเอียด ฉันอยากรู้อยากเห็นเปรียบเทียบกับวิธีการเฉลี่ยทั้งในแง่ของความถูกต้องและความเร็ว ขอบคุณ
lacerbi

1
@Seeda เราไม่ได้ใช้ nystrom เป็นเงื่อนไขล่วงหน้าได้อย่างมีประสิทธิภาพมากกว่า conpkexity ลดเวลาตามปกติดังนั้นใช่
j__

1

ฉันยังได้ตรวจสอบการรวมการสังเกตเมื่อทำการถดถอยแบบเกาส์กระบวนการ ในปัญหาของฉันฉันมี covariate เพียงคนเดียว

ฉันไม่แน่ใจว่าฉันจำเป็นต้องยอมรับว่าการประมาณ Nystrom นั้นดีกว่า โดยเฉพาะอย่างยิ่งหากการประมาณที่เพียงพอสามารถพบได้บนพื้นฐานของชุดข้อมูลที่ผสานการคำนวณอาจเร็วกว่าเมื่อมีใครใช้การประมาณแบบ Nystrom

ด้านล่างนี้คือกราฟบางส่วนที่แสดงจุดข้อมูล 1,000 จุดและค่าเฉลี่ย GP หลัง, ค่าเฉลี่ยหลังที่มีการรวมระเบียนและค่าเฉลี่ย GP หลังการใช้การประมาณ Nystrom บันทึกถูกจัดกลุ่มตามขนาดถังที่เท่ากันของค่า covariate ลำดับการประมาณเกี่ยวข้องกับจำนวนของกลุ่มเมื่อรวมเร็กคอร์ดและลำดับของการประมาณ Nystrom วิธีการรวมและการประมาณค่า Nystrom จะให้ผลลัพธ์ที่เหมือนกันกับการถดถอย GP มาตรฐานเมื่อเมื่อลำดับการประมาณเท่ากับจำนวนคะแนน

ในกรณีนี้เมื่อลำดับของการประมาณเป็น 10 วิธีการรวมที่ดูเหมือนจะดีกว่า เมื่อลำดับคือ 20 ค่าเฉลี่ยจากการประมาณ Nystrom นั้นไม่สามารถแยกออกจากสายตาของค่า GP หลังส่วนที่มองเห็นได้แม้ว่าค่าเฉลี่ยจากการรวมการสังเกตอาจจะดีพอ เมื่อคำสั่งซื้อคือ 5 ทั้งคู่ค่อนข้างยากจน

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.