เมื่อใดที่จะใช้หลายรุ่นสำหรับการทำนาย?


13

นี่เป็นคำถามที่ค่อนข้างทั่วไป:

ฉันมักจะพบว่าการใช้แบบจำลองที่แตกต่างกันหลายแบบมีประสิทธิภาพสูงกว่าแบบจำลองเดียวเมื่อพยายามทำนายอนุกรมเวลาจากตัวอย่าง มีเอกสารที่ดีที่แสดงให้เห็นว่าการรวมกันของแบบจำลองจะดีกว่าแบบจำลองเดียวหรือไม่? มีวิธีปฏิบัติที่ดีที่สุดในการรวมหลายรุ่นหรือไม่

อ้างอิงบางส่วน:


ฉันเพิ่มสิ่งที่ฉันคิดว่าเป็นแหล่งข้อมูลที่ดีงาม (น่าเสียดายที่ตำราเรียน) w / คำอธิบายประกอบในแง่ของความเห็น / คำถามของคุณด้านล่างคำตอบของฉัน ฉันแก้ไขคำตอบดั้งเดิมของฉันแล้วดังนั้นจึงปรากฏในตอนท้าย
doug

คำตอบ:


8

บางครั้งแบบนี้เรียกว่าชุด ตัวอย่างเช่นหน้านี้ให้ภาพรวมที่ดีว่ามันทำงานอย่างไร นอกจากนี้การอ้างอิงดังกล่าวมีประโยชน์มาก


3
การผสมเป็นหนึ่งในเทคนิคของวงดนตรีที่เป็นไปได้ โดยเฉพาะอย่างยิ่งมีสองเมื่อคุณรวมลักษณนามประเภทเดียวกันการเพิ่ม (เช่น Adaboost) และการบรรจุถุง (เช่น Random Forest) และการผสมซึ่งคุณรวมตัวแยกประเภทที่แตกต่างกัน (สิ่งที่เป็นคำถามเกี่ยวกับเชน)

3
สำหรับการผสมกระดาษนี้จากการแข่งขัน Netflix ที่มีมูลค่าการอ่าน: the-ensemble.com/content/feature-weighted-linear-stacking
เชน

2
มันสนุกที่นักอุตุนิยมวิทยาใช้คำว่า "ensemble" แต่ไม่ใช่เพื่อการรวมกัน: พวกมันใช้สำหรับการคาดการณ์ทั้งหมด (เช่นสถานการณ์) ที่ได้จากการก่อกวนของเงื่อนไขเริ่มต้นของแบบจำลองเชิงตัวเลข
robin girard

1
@mbq ในความเป็นจริงพวกเขาเรียกตัวเองว่าผู้พยากรณ์และพวกเขาใช้สถิติค่อนข้างมาก ...
robin girard

1
@robin ฉันรู้ว่านี่เป็นเหตุผลว่าทำไมมันถึงเรียกว่า "ensemble" ไม่ใช่ชุดหรืออะไรทำนองนี้

10

ปีสุดท้ายของการแข่งขัน NetFlix Prize (2009) ดูเหมือนจะทำให้ฉันเปลี่ยนข้อสันนิษฐานทั่วไปของชุมชนอย่างมากต่อการรวมอัลกอริทึมการเรียนรู้หลายอย่างเข้าด้วยกัน

ตัวอย่างเช่นการฝึกอบรมอย่างเป็นทางการของฉัน (หลักสูตรมหาวิทยาลัย) และการกำกับดูแล / ให้คำปรึกษาภายหลังการสอนให้เราหลีกเลี่ยงการรวมกันของอัลกอริทึมเว้นแต่เรามีเหตุผลที่ชัดเจนในการทำเช่นนั้น - และ "เพื่อปรับปรุงความละเอียดของอัลกอริทึมปัจจุบันของฉัน" ถือว่าเป็นเหตุผลที่ดีจริงๆ (คนอื่น ๆ อาจมีประสบการณ์ที่แตกต่าง - แน่นอนว่าฉันมองโลกในมุมกว้างโดยอาศัยประสบการณ์ของฉันเองแม้ว่าประสบการณ์ของฉันในการเขียนโค้ดอัลกอริทึม ML ที่มีประสิทธิภาพต่ำนั้นเป็นสิ่งสำคัญมาก)

ถึงกระนั้นก็ยังมี "รูปแบบ" สองสามอย่างที่ยอมรับอัลกอริธึมในวิธีหนึ่งหรืออย่างอื่นและปรับปรุงประสิทธิภาพ สำหรับฉันตัวอย่างที่พบบ่อยที่สุดเกี่ยวข้องกับอัลกอริธึม ML บางอย่างที่กำหนดค่าในโหมดเครื่อง (การกำหนดเลเบลคลาสให้กับแต่ละจุดข้อมูล) และมีคลาสมากกว่าสองคลาส (โดยปกติจะมีจำนวนมาก) ตัวอย่างเช่นเมื่อใช้อัลกอริทึมการเรียนรู้แบบมีผู้ดูแลเพื่อแก้ไขสี่คลาสและเราจะเห็นการแยกที่ยอดเยี่ยมยกเว้นสมมติว่า Class III กับ Class IV ดังนั้นจากขอบเขตการตัดสินใจทั้งหกนี้มีเพียงหนึ่งข้อที่ได้รับการแก้ไขต่ำกว่าเกณฑ์ที่กำหนด โดยเฉพาะอย่างยิ่งเมื่อคลาส III และ IV รวมกันเป็นสัดส่วนเพียงเล็กน้อยของข้อมูลการเพิ่มอัลกอริธึมเพิ่มเติมที่ปรับให้เหมาะสมกับความละเอียดของคลาสทั้งสองนั้นเป็นวิธีการแก้ปัญหาที่ใช้กันทั่วไปในการวิเคราะห์ปัญหาประเภทนี้ (โดยปกติแล้ว 'จุดบอด' เป็นข้อ จำกัด โดยธรรมชาติของอัลกอริธึมหลัก - เช่นมันเป็นลักษณนามเชิงเส้นและขอบเขตการตัดสินใจ III / IV เป็นแบบไม่เชิงเส้น

กล่าวอีกนัยหนึ่งเมื่อเรามีอัลกอริธึมที่เชื่อถือได้ซึ่งเหมาะสมกับสภาพแวดล้อมการประมวลผล (ซึ่งมักจะเป็นสตรีมข้อมูล) และดำเนินการภายในสเป็คยกเว้นจุดบอดเดี่ยวที่ทำให้ไม่สามารถแก้ไขสองคลาส (หรือมากกว่า) ที่ ส่วนเล็ก ๆ ของข้อมูลจากนั้นจะดีกว่าเสมอในการ 'bolt-on' อัลกอริทึมพิเศษอื่นเพื่อจับสิ่งที่อัลกอริทึมหลักหายไปอย่างเป็นระบบ

สุดท้ายในหัวข้อนี้ฉันอยากจะแนะนำอย่างสูงบทที่ 17, การรวมผู้เรียนหลายคนในบทนำสู่การเรียนรู้ของเครื่อง , 2d, โดย Ethem Alpaydin, MIT Press, 2010 โปรดทราบว่านี่เป็นฉบับที่สองที่เผยแพร่เมื่อไม่กี่เดือนที่ผ่านมา ฉบับพิมพ์ครั้งแรกถูกตีพิมพ์ในปี 2004 และฉันสงสัยว่ามันมีความครอบคลุมเดียวกันของหัวข้อนี้ (อันที่จริงฉันแนะนำข้อความทั้งหมด แต่โดยเฉพาะอย่างยิ่งในบทนั้นเนื่องจากเกี่ยวข้องกับคำถามของ Shane)

ใน 25 หน้าผู้เขียนสรุปน่าจะเป็นทุก ๆ ชุดของอัลกอริธึม ML ซึ่งยูทิลิตี้ถูกแสดงให้เห็นในวรรณคดีเชิงวิชาการหรือการปฏิบัติ - เช่นการบรรจุการส่งเสริมการผสมผสานของผู้เชี่ยวชาญการวางแนวทั่วไปการเรียงซ้อนการลงคะแนนข้อผิดพลาด ..


นี่คือข้อมูลที่ดี คุณรู้จักเอกสารที่ครอบคลุมถึงเรื่องนี้ไหม?
เชน

(ไม่ได้รับการแจ้งเตือนจาก SA ของความคิดเห็นของคุณ) ดีฉันไม่ได้อ้างถึงเอกสารใด ๆ เมื่อฉันเขียนที่ค่อนข้างเพียงแค่สรุปข้อสรุปประสบการณ์ของฉันที่เกี่ยวข้องกับคำถามของคุณ ฉันจะตรวจสอบไฟล์ของฉันและดูสิ่งที่ฉันมีที่เกี่ยวข้องแม้ว่า
doug

4

ติดตามการตอบสนองของ Peter เกี่ยวกับวิธีการทั้งหมด:


2

ตัวอย่างที่น่าทึ่งที่สุดคือความท้าทายของ Netflixซึ่งทำให้ความนิยมในการผสมเพิ่มขึ้นอย่างมาก


1

ต่อไปนี้เป็นคำตอบที่ไม่ได้อยู่ทางซ้ายเล็กน้อยซึ่งเป็นเพียงแค่ส่วน"แนวทางปฏิบัติที่ดีที่สุดในการรวมหลายรุ่น" เข้าด้วยกันในคำถามของคุณ นี่เป็นวิทยานิพนธ์ของฉันจริง ๆ แล้วยกเว้นว่าฉันจะจัดการกับแบบจำลองที่ไม่เป็นเชิงเส้นที่ซับซ้อนสูงซึ่งแสดงความโกลาหลและเสียงรบกวน - แบบจำลองสภาพภูมิอากาศ สิ่งนี้ไม่น่าจะนำไปใช้ได้อย่างกว้างขวางกับหลายสาขา แต่อาจมีประโยชน์ในด้านนิเวศวิทยาหรือเศรษฐมิติ

จนกระทั่งเมื่อเร็ว ๆ นี้อย่างเป็นธรรมในชุมชนการสร้างแบบจำลองสภาพภูมิอากาศรุ่นที่ได้รับส่วนใหญ่เพียงแค่ถูกทุบด้วยกันในเฉลี่ยชั่ง (ปกติหลังจากการแก้ไขอคติที่เกี่ยวข้องกับการเอาค่าเฉลี่ยแบบจำลองสำหรับบางส่วนหรือทั้งหมดของรอบระยะเวลาตัวอย่าง) นี่เป็นสิ่งที่ IPCC ทำไว้สำหรับรายงานการประเมินครั้งที่ 4 (4AR) และรายงานก่อนหน้า

นี่เป็นตัวอย่างของ " ความจริงบวกกับข้อผิดพลาด " ของชุดการรวมกันที่มากขึ้นหรือน้อยลงซึ่งสันนิษฐานว่าแบบสังเกต (หรืออุณหภูมิโลกการตกตะกอนในท้องถิ่นและอื่น ๆ ) เป็นจริงและถ้าคุณใช้ตัวอย่างเพียงพอ (เช่นรุ่นที่รัน), เสียงในโมเดลที่ทำงานจะถูกยกเลิก (ดู (1)

เมื่อเร็ว ๆ นี้มีการใช้วิธีการรวมรุ่นตามน้ำหนักที่มีประสิทธิภาพ เนื่องจากแบบจำลองสภาพภูมิอากาศมีเสียงดังมากและมีตัวแปรและพารามิเตอร์มากมายวิธีเดียวในการประเมินประสิทธิภาพ (ที่ฉันรู้) คือโดยการแปรปรวนร่วมหรือโดยใช้ MSE ระหว่างเอาท์พุทแบบจำลองและอนุกรมเวลาที่สังเกตได้ แบบจำลองสามารถรวมกันได้โดยการถ่วงน้ำหนักค่าเฉลี่ยตามการวัดนั้น มีภาพรวมที่ดีของเรื่องนี้ใน (2)

ข้อสันนิษฐานหนึ่งที่อยู่เบื้องหลังวิธีการรวมการจำลองนี้คือการสันนิษฐานว่าแบบจำลองนั้นมีความเป็นอิสระอย่างสมเหตุสมผล - ถ้าบางคนขึ้นอยู่กับระดับสูง ข้อสันนิษฐานนี้มีความยุติธรรมพอสมควรสำหรับชุดข้อมูลที่ใช้สำหรับ 4AR ( CMIP3เนื่องจากชุดข้อมูลนี้ประกอบด้วยสองสามโมเดลที่รันจากกลุ่มการสร้างแบบจำลองจำนวนมาก (ในทางกลับกันรหัสจะถูกใช้ร่วมกันในชุมชนการสร้างแบบจำลองดังนั้นอาจมีการพึ่งพาซึ่งกันและกัน สำหรับการดูที่น่าสนใจนี้ให้ดู (3)) ชุดข้อมูลสำหรับรายงานการประเมินครั้งต่อไปคือCMIP5ไม่ได้มีคุณลักษณะที่ค่อนข้างบังเอิญ - ทีมการสร้างแบบจำลองบางคนจะส่งการเรียกใช้บางส่วนในขณะที่บางคนจะส่งหลายร้อย วงดนตรีที่มาจากทีมที่แตกต่างกันอาจถูกสร้างขึ้นโดยการทำให้อยู่ในสภาพเริ่มต้นหรือโดยการเปลี่ยนแปลงรูปแบบทางฟิสิกส์และการตั้งชื่อแบบจำลอง ยิ่งไปกว่านั้นวงดนตรีชุดพิเศษนี้ไม่ได้ถูกสุ่มอย่างเป็นระบบ แต่เป็นเพียงผู้ที่นำข้อมูลมาเป็นที่ยอมรับ (ด้วยเหตุผล) เรื่องนี้เป็นที่รู้จักในฐานะ " ชุดของโอกาส " มีโอกาสพอสมควรที่การใช้ค่าเฉลี่ยแบบไม่มีน้ำหนักในชุดดังกล่าวจะทำให้คุณมีอคติที่สำคัญต่อโมเดลที่มีการวิ่งมากขึ้น (แม้ว่าจะมีการวิ่งนับร้อย แต่ก็มีความเป็นอิสระน้อยกว่า)

ผู้บังคับบัญชาของฉันมีกระดาษในการตรวจสอบในขณะนี้การอธิบายกระบวนการของการรวมกันเป็นรูปแบบที่เกี่ยวข้องกับประสิทธิภาพการทำงานและความเป็นอิสระน้ำหนัก มีบทคัดย่อการประชุมที่มีอยู่ (4) ฉันจะโพสต์ลิงก์ไปยังกระดาษเมื่อมีการเผยแพร่ (กระบวนการช้าไม่กลั้นลมหายใจ) โดยทั่วไปบทความนี้จะอธิบายกระบวนการที่เกี่ยวข้องกับการแปรปรวนร่วมของข้อผิดพลาดของแบบจำลอง (model-obs) และการถ่วงน้ำหนักแบบจำลองที่มีความแปรปรวนร่วมสูงกับแบบจำลองอื่น ๆ ทั้งหมด (เช่นแบบจำลองที่มีข้อผิดพลาดขึ้นอยู่กับสูง) ความแปรปรวนของข้อผิดพลาดของแบบจำลองนั้นคำนวณได้เช่นกันและใช้เป็นส่วนประกอบของการถ่วงน้ำหนัก

นอกจากนี้ยังเป็นที่น่าสังเกตว่าการสร้างแบบจำลองสภาพภูมิอากาศได้รับผลกระทบอย่างเห็นได้ชัดอย่างมากจากความหลากหลายของการสร้างแบบจำลองเชิงตัวเลขโดยทั่วไป มีสิ่งหนึ่งที่เรียกว่า"การทดสอบการหัวเราะ" - หากคุณจบลงด้วยแบบจำลองที่แสดงว่าอุณหภูมิเฉลี่ยทั่วโลกจะอยู่ที่ + 20 ° C ภายในปี 2593 คุณแค่โยนมันทิ้งเพราะมันไม่เกี่ยวข้องกับร่างกายอย่างชัดเจน เห็นได้ชัดว่าการทดสอบประเภทนี้ค่อนข้างเป็นอัตวิสัย ฉันยังไม่ต้องการมัน แต่คาดว่าในอนาคตอันใกล้

นั่นคือความเข้าใจของฉันเกี่ยวกับการรวมแบบจำลองรัฐในสาขาของฉันในขณะนี้ เห็นได้ชัดว่าฉันยังคงเรียนรู้อยู่ดังนั้นถ้าฉันทำอะไรเป็นพิเศษฉันจะกลับมาปรับปรุงคำตอบ

(1) Tebaldi, C. & Knutti, R. , 2007. การใช้ชุดหลายแบบในการคาดการณ์สภาพภูมิอากาศน่าจะเป็น ปรัชญาการทำธุรกรรมของราชสมาคม A: คณิตศาสตร์วิทยาศาสตร์กายภาพและวิศวกรรมศาสตร์ 365 (1857), pp.2053-2575

(2) Knutti, R. et al., 2010 การประชุมผู้เชี่ยวชาญ IPCC เรื่องการประเมินและการรวมการจำลองภูมิอากาศแบบจำลองหลายแบบ

(3) Masson, D. & Knutti, R. , 2011. ลำดับวงศ์ตระกูลแบบภูมิอากาศ Geophys Res Lett, 38 (8), p.L08703

(4) Abramowitz, G. & Bishop, C. , 2010 การกำหนดและน้ำหนักสำหรับการพึ่งพาแบบจำลองในการทำนายวงดนตรี ใน AGU Fall Meeting บทคัดย่อ พี 07


ย่อหน้าแรกคุณหมายถึง " โมเดลที่ซับซ้อนและไม่ใช่เชิงเส้นสูง " ใช่ไหม สำหรับพื้นที่ทำงานของฉัน (พื้นที่ที่ไม่ใช่สภาพภูมิอากาศ) ฉันมักจะพบว่าการใช้แบบจำลองที่แตกต่างกันไม่ได้นำไปสู่การคาดการณ์ที่แตกต่างกันอย่างมาก อย่างไรก็ตามเพียงแค่การเพิ่มประสิทธิภาพและการทำงานเพื่อรวมโมเดลเข้าด้วยกันแบบไม่ต่อเนื่องเป็นอุปสรรคใหญ่สำหรับเรา ฉันคาดหวังการคาดการณ์ที่แม่นยำยิ่งขึ้น แต่ฉันไม่มีเวลาที่จะรวมโมเดลและประมาณการข้อผิดพลาดในการทำนายเหล่านั้นได้อย่างแม่นยำ
ความน่าจะเป็นทางการ

ขอบคุณคง ฉันสามารถเข้าถึงคลัสเตอร์คอมพิวเตอร์ได้ดังนั้นพลังในการคำนวณจึงไม่ใช่ปัญหาใหญ่ แต่ใช่แล้วแม้กระทั่งการได้รับหนึ่งโมเดลที่ฉันใช้ติดตั้งอย่างเหมาะสมก็เป็นความเจ็บปวดและมันเขียนไว้แล้ว ซึ่งเป็นสาเหตุที่ทำให้ CMIP มีอยู่ดังนั้นผู้คนจึงไม่จำเป็นต้องผ่านปัญหานั้นทุกครั้ง จะสนใจถ้าคุณรู้ว่าคุณอยู่ในสาขาใดหากคุณทำสิ่งที่คล้ายกัน
naught101
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.