ข้อได้เปรียบของการเพิ่มประสิทธิภาพจับกลุ่มอนุภาคเหนือการปรับแต่งแบบเบย์สำหรับการปรับจูนพารามิเตอร์?


18

มีการวิจัยร่วมสมัยจำนวนมากเกี่ยวกับการเพิ่มประสิทธิภาพแบบเบส์ (1) สำหรับการปรับแต่งพารามิเตอร์ไฮเปอร์พารามิเตอร์ ML แรงจูงใจในการขับขี่ที่นี่คือจำเป็นต้องมีจุดข้อมูลจำนวนน้อยที่สุดเพื่อทำการเลือกอย่างชาญฉลาดเกี่ยวกับจุดที่คุ้มค่าที่จะลอง (การเรียกใช้ฟังก์ชันตามวัตถุประสงค์มีราคาแพง - ปัญหา SVM ขนาดใหญ่ที่ฉันทำงานอยู่อาจใช้เวลาระหว่างนาทีและชั่วโมงให้เสร็จสมบูรณ์

ในอีกทางหนึ่งOptunityคือการนำอนุภาคไปจับที่ที่อยู่สำหรับงานเดียวกัน ฉันไม่คุ้นเคยกับ PSO อย่างท่วมท้น แต่ดูเหมือนว่ามันจะต้องมีประสิทธิภาพน้อยกว่าในแง่ของการต้องใช้จำนวนจุดทดลองมากขึ้นดังนั้นการประเมินฟังก์ชันวัตถุประสงค์เพื่อประเมินพื้นผิวพารามิเตอร์

ฉันไม่มีรายละเอียดสำคัญที่ทำให้ PSO เป็นที่ต้องการของ BO ในบริบทการเรียนรู้ของเครื่องหรือไม่ หรือเป็นตัวเลือกระหว่างทั้งสองบริบทโดยเนื้อแท้เสมอสำหรับงานการปรับจูนพารามิเตอร์?


(1) Shahriari et al, "นำมนุษย์ออกจากวง: การทบทวน Bayesian Optimizaiton"


ไม่ต้องการการไล่ระดับสี ทำงานร่วมกับความไม่ต่อเนื่อง มีประสิทธิภาพปานกลาง จัดการหลายมิติ จับเสียงได้ดี มีความทนทานในตัวประมาณค่า
EngrStudent - Reinstate Monica

@EngrStudent คุณสามารถพูดทุกอย่างเกี่ยวกับ BO ได้ยกเว้น BO ดูเหมือนจะมีประสิทธิภาพมากกว่าเพราะต้องใช้การประเมินฟังก์ชั่นจำนวนน้อยอย่างน้อยในการคำนวณของฉัน ฉันไม่ได้ถามเกี่ยวกับ PSO โดยทั่วไปฉันถามถึงข้อดีที่เกี่ยวข้องกับ BO
Sycorax พูดว่า Reinstate Monica

1
การศึกษาในหัวข้อไม่ดีพอที่จะทำให้เป็นคำตอบที่ชัดเจน แต่ฉันคิดว่า Bayesian Optimization ควรได้รับชะตากรรมเช่นเดียวกับเครื่องมือเพิ่มประสิทธิภาพที่มีประสิทธิภาพมากที่สุดพร้อมกับปัญหาที่มีหลายโหมดสูง (ดู: 95% ของปัญหาการเรียนรู้ของเครื่อง): ต่ำสุดในพื้นที่ใกล้เคียงที่สุดโดยไม่ต้อง "สำรวจ" พื้นที่โลก ฉันคิดว่า Particle Swarm น่าจะมีโชคที่ดีกว่าในการหาสิ่งต่ำสุดในท้องถิ่น
Cliff AB

2
ขอโทษสำหรับการมาถึงช้าของฉันไปงานปาร์ตี้ไม่แน่ใจว่าฉันจะมองข้ามคำถามเกี่ยวกับ Optunity มานานแล้ว! :-)
Marc Claesen

1
@ MarcClaesen ฉันต้องยอมรับฉันหวังว่าคุณจะหาเวลาตอบได้ในบางจุด ช้าหรือไม่ฉันคิดว่าเราทุกคนดีใจที่คุณมาถึง
Sycorax พูดว่า Reinstate Monica

คำตอบ:


25

ในฐานะผู้พัฒนานำของ Optunity ฉันจะเพิ่มสองเซ็นต์ของฉัน

เราได้ทำการเปรียบเทียบอย่างกว้างขวางเมื่อเปรียบเทียบกับ Optunity กับนักแก้ปัญหาแบบเบย์ที่ได้รับความนิยมมากที่สุด (เช่น hyperopt, SMAC, Bayesopt) เกี่ยวกับปัญหาในโลกแห่งความเป็นจริงและผลลัพธ์ที่บ่งชี้ว่า PSO นั้นมีประสิทธิภาพไม่น้อย ในมาตรฐานของเราซึ่งประกอบด้วยการปรับจูนเนอร์ SVM บนชุดข้อมูลต่างๆ Optunity นั้นมีประสิทธิภาพมากกว่า hyperopt และ SMAC แต่มีประสิทธิภาพน้อยกว่า BayesOpt เล็กน้อย ฉันชอบที่จะแบ่งปันผลที่นี่ แต่ผมจะรอจนกว่า Optunity ถูกที่สุดที่ตีพิมพ์ใน JMLR (ภายใต้การตรวจสอบนานกว่าหนึ่งปีตอนนี้จึงไม่ถือลมหายใจของคุณ ... )

ตามที่คุณระบุประสิทธิภาพที่เพิ่มขึ้นเป็นจุดขายที่ใช้กันทั่วไปสำหรับการปรับให้เหมาะสมแบบเบย์ แต่ในทางปฏิบัติแล้วมันจะกักเก็บน้ำไว้เฉพาะในกรณีที่สมมติฐานของแบบจำลองตัวแทนตั้งต้นอยู่ในตำแหน่งซึ่งอยู่ไกลจากเรื่องเล็กน้อย ในการทดลองของเราตัวแก้ PSO ที่ง่ายมากของ Optunity มักแข่งขันกับวิธี Bayesian ที่ซับซ้อนในแง่ของจำนวนการประเมินฟังก์ชัน นักแก้ปัญหาแบบเบย์ทำงานได้ดีมากเมื่อให้กับนักบวชที่ดี แต่ด้วยความรู้ที่ไม่เคยมีมาก่อนก็แทบจะไม่ได้รับประโยชน์เชิงโครงสร้างใด ๆ จากวิธีการเชิงอภิปรัชญาเช่น PSO ในแง่ของประสิทธิภาพ

จุดขายที่ยิ่งใหญ่สำหรับ PSO คือข้อเท็จจริงที่ว่ามันขนานกันอย่างน่าอาย การปรับให้เหมาะสมแบบเบย์นั้นมักจะยากที่จะทำให้ขนานกันเนื่องจากลักษณะตามลำดับโดยเนื้อแท้ (การดำเนินการของไฮเปอร์พอยต์เป็นเพียงข้อยกเว้นจริงเท่านั้น) เมื่อได้รับโอกาสในการเผยแพร่ซึ่งกลายเป็นบรรทัดฐาน Optunity จะเป็นผู้นำในเวลานาฬิกาแขวนเพื่อรับการแก้ปัญหาที่ดี

ความแตกต่างที่สำคัญอีกอย่างระหว่าง Optunity และไลบรารีการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์อื่น ๆ ส่วนใหญ่คือกลุ่มเป้าหมาย: Optunity มีอินเทอร์เฟซที่ง่ายที่สุดและได้รับการกำหนดเป้าหมายไปยังผู้เชี่ยวชาญด้านการเรียนรู้ที่ไม่ใช้เครื่องจักร กำหนดเป้าหมายไปยังผู้เชี่ยวชาญ)

เหตุผลที่เราสร้างห้องสมุดคือแม้ว่าจะมีวิธีการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์โดยเฉพาะ แต่ก็ยังขาดการใช้งานจริง คนส่วนใหญ่ยังคงไม่ปรับจูนทำเองหรือผ่านวิธีไร้เดียงสาเช่นกริดหรือค้นหาแบบสุ่ม ในความเห็นของเราเหตุผลสำคัญสำหรับเรื่องนี้คือความจริงที่ว่าห้องสมุดที่มีอยู่ก่อนที่จะพัฒนา Optunity นั้นยากที่จะใช้ในแง่ของการติดตั้งเอกสาร API และมักจะ จำกัด อยู่ในสภาพแวดล้อมเดียว


4
แจ้งคำตอบเท่าที่เราจะได้รับ! ฉันอยากรู้: คุณบอกว่าตัวแก้ PSO นั้นแข่งขันกับวิธีการเพิ่มประสิทธิภาพแบบเบย์ คือการที่จะบอกว่า PSO ที่ทำงานแบบขนานพบว่าจะเร็วกว่า Bayseian เพิ่มประสิทธิภาพทำงานตามลำดับ ? ไม่พยายามที่จะใจร้าย แต่เป็นความแตกต่างที่สำคัญสำหรับฉันที่จะเข้าใจ
หน้าผา AB

2
ไม่ทั้งสองทำงานต่อเนื่องกัน ในการทดลองของเรา (จูน SVM) ประสิทธิภาพของการเพิ่มประสิทธิภาพ PSO และ Bayesian นั้นสามารถแข่งขันได้ในแง่ของจำนวนการประเมินฟังก์ชั่น เราไม่ได้เปรียบเทียบประสิทธิภาพในแง่ของเวลานาฬิกาแขวนในการตั้งค่าแบบกระจายเนื่องจากอาจเป็นช็อตราคาถูกเพราะวิธีการปรับให้เหมาะสมแบบเบย์หลายวิธีไม่สามารถทำได้
Marc Claesen

นั่นดูน่าสนใจ. ความคิดใด ๆ ว่าเป็นเพราะเหตุใด พื้นผิวพารามิเตอร์ไฮเปอร์ไม่เสถียร?
Cliff AB

3
ฉันคิดว่ามีหลายสาเหตุ สำหรับหนึ่งพื้นผิว hyperparameter มี optima ท้องถิ่นจำนวนมาก (เช่นเนื่องจากผลตัวอย่างที่แน่นอนการพับการตรวจสอบความถูกต้องข้ามการสุ่มแบบโดยธรรมชาติในวิธีการเรียนรู้บางอย่าง) ประการที่สองการปรับให้เหมาะสมแบบเบย์อาศัยการสร้างฟังก์ชั่นวัตถุประสงค์ตัวแทนที่แม่นยำซึ่งไม่ใช่เรื่องง่ายจนกระทั่งฟังก์ชั่นวัตถุประสงค์ได้รับการสุ่มตัวอย่างมากมายครั้ง การปรับให้เหมาะสมแบบเบส์ใช้เวลาสักพักหนึ่งก่อนที่ความเร็วการบรรจบกันจะเพิ่มขึ้น เมื่อถึงเวลานั้นวิธีการเกี่ยวกับการเปลี่ยนแปลงทางกายภาพอย่าง PSO ก็มาถึงขั้นตอนการค้นหาในท้องถิ่นแล้วเช่นกัน PSO นั้นดีมากในการค้นหาในท้องถิ่น
Marc Claesen

4
+1 สำหรับคำตอบที่ยอดเยี่ยม ฉันได้สร้างซอฟต์แวร์ BO ของตัวเองซึ่งฉันต้องยอมรับว่าส่วนใหญ่เป็นโครงการโต๊ะเครื่องแป้งในตอนนี้ดังนั้นฉันจึงเข้าใจว่ากระบวนการ BO ทำงานในรายละเอียดอย่างไร ฉันดีใจที่ฉันสามารถเริ่มต้นเกาพื้นผิวของสิ่งที่เกิดขึ้นในโลกการปรับจูนพารามิเตอร์ ข้อสังเกตของคุณเกี่ยวกับวิธีการที่ไร้เดียงสากระทบบ้านกับฉันจริงๆเพราะหนึ่งในโปรแกรมจูนไร้เดียงสาที่เก่ากว่าของฉันได้ทำการปรับแต่งแบบจำลองเป็นเวลาหนึ่งสัปดาห์โดยไม่มีการสิ้นสุด ... ขอขอบคุณสำหรับการสนับสนุนของคุณและฉันแน่ใจว่าฉันจะ คำถามเพิ่มเติมเมื่อฉันย่อยนี้
Sycorax พูดว่า Reinstate Monica

0

คำตอบนั้นขึ้นอยู่กับปัญหาและไม่สามารถให้ได้หากไม่มีบริบทเพิ่มเติม โดยทั่วไปแล้วคำตอบจะเป็นดังนี้ การปรับให้เหมาะสมแบบเบส์เหมาะสำหรับปัญหาที่มีมิติต่ำด้วยงบประมาณการคำนวณมากถึง 10 เท่าของตัวแปร 100 เท่า PSO นั้นค่อนข้างมีประสิทธิภาพสำหรับงบประมาณที่มีขนาดใหญ่กว่า แต่ไม่ได้ทันสมัยในซอกของมัน


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.