แบบจำลองกระบวนการแบบเกาส์นั้นใช้ได้ดีกับชุดข้อมูลที่มีมิติสูง (ฉันใช้มันกับข้อมูลไมโครเรย์ ฯลฯ ) คีย์เหล่านี้คือการเลือกค่าที่ดีสำหรับพารามิเตอร์ไฮเปอร์ (ซึ่งควบคุมความซับซ้อนของโมเดลได้อย่างมีประสิทธิภาพในลักษณะที่คล้ายคลึงกับการทำให้เป็นมาตรฐาน)
วิธีการกระจัดกระจายและวิธีการป้อนข้อมูลแบบหลอกมีมากขึ้นสำหรับชุดข้อมูลที่มีตัวอย่างจำนวนมาก (> ประมาณ 4000 สำหรับคอมพิวเตอร์ของฉัน) แทนที่จะใช้ฟีเจอร์จำนวนมาก หากคุณมีคอมพิวเตอร์ที่ทรงพลังพอที่จะทำการสลายตัว Cholesky ของเมทริกซ์ความแปรปรวนร่วม (n คูณ n โดยที่ n คือจำนวนตัวอย่าง) คุณอาจไม่ต้องการวิธีการเหล่านี้
หากคุณเป็นผู้ใช้ MATLAB ฉันขอแนะนำกล่องเครื่องมือGPMLและหนังสือโดยRasmussen และ Williamsเป็นจุดเริ่มต้นที่ดี
อย่างไรก็ตามหากคุณสนใจเลือกคุณสมบัติฉันจะหลีกเลี่ยง GPs วิธีมาตรฐานในการเลือกคุณสมบัติด้วย GPs คือการใช้เคอร์เนลการกำหนดความเกี่ยวข้องอัตโนมัติ (เช่น covSEard ใน GPML) จากนั้นบรรลุการเลือกคุณลักษณะโดยการปรับพารามิเตอร์ของเคอร์เนลเพื่อเพิ่มความเป็นไปได้สูงสุด น่าเสียดายที่มีแนวโน้มที่จะจบลงที่ความเป็นไปได้ที่จะเกิดขึ้นและจบลงด้วยแบบจำลองที่มีประสิทธิภาพแย่กว่ารุ่นที่มีฟังก์ชั่นพื้นฐานทรงกลมแบบวงกลม (covSEiso ใน GPML) ความแปรปรวนร่วม
งานวิจัยปัจจุบันของฉันมุ่งเน้นไปที่การปรับให้เหมาะสมมากเกินไปในการเลือกแบบจำลองในขณะนี้และฉันพบว่านี่เป็นปัญหาสำหรับการเพิ่มหลักฐานใน GP ให้มากที่สุดเท่าที่เป็นไปได้สำหรับการหาค่าเหมาะที่สุด ดูบทความนี้และหนึ่งในนี้
การเลือกคุณสมบัติสำหรับรุ่นที่ไม่ใช่เชิงเส้นนั้นยุ่งยากมาก บ่อยครั้งที่คุณได้รับประสิทธิภาพที่ดีขึ้นโดยติดกับตัวแบบเชิงเส้นและใช้วิธีการทำให้เป็นมาตรฐานแบบ L1 (Lasso / LARS / Elastic net เป็นต้น) เพื่อให้ได้ sparsity หรือวิธีการป่าสุ่ม