ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?
ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?
คำตอบ:
การพิจารณา multicollineariy มีความสำคัญในการวิเคราะห์การถดถอยเพราะใน extremaมันมีผลโดยตรงว่าสัมประสิทธิ์ของคุณถูกระบุในข้อมูลหรือไม่ ในกรณีที่รุนแรงน้อยกว่าก็ยังสามารถยุ่งกับการประมาณค่าสัมประสิทธิ์ของคุณ การเปลี่ยนแปลงเล็กน้อยในข้อมูลที่ใช้ในการประมาณค่าอาจทำให้เกิดการแกว่งของค่าสัมประสิทธิ์โดยประมาณ สิ่งเหล่านี้อาจเป็นปัญหาจากจุดยืนเชิงอนุมาน: หากตัวแปรสองตัวมีความสัมพันธ์กันอย่างมากการเพิ่มขึ้นของตัวแปรหนึ่งอาจถูกชดเชยด้วยการลดลงในอีกตัวแปรหนึ่ง ด้วยตัวแปรมากกว่าสองตัวเอฟเฟกต์อาจมีความละเอียดยิ่งขึ้น แต่หากการคาดการณ์มีความเสถียรนั่นก็มักจะเพียงพอสำหรับการใช้งานการเรียนรู้ของเครื่อง
พิจารณาว่าทำไมเราจึงทำให้เป็นปกติในบริบทการถดถอย: เราจำเป็นต้อง จำกัด รูปแบบจากการยืดหยุ่นเกินไป การใช้การทำให้เป็นปกติในปริมาณที่ถูกต้องจะเพิ่มความเอนเอียงเล็กน้อยเพื่อลดความแปรปรวนที่มากขึ้น ตัวอย่างคลาสสิกของสิ่งนี้คือการเพิ่มคำพหุนามและเอฟเฟกต์การโต้ตอบเข้ากับการถดถอย: ในกรณีที่เลวลงสมการทำนายจะแก้ไขจุดข้อมูล แต่อาจจะแย่มากเมื่อพยายามทำนายค่าของจุดข้อมูลที่มองไม่เห็น การหดตัวของค่าสัมประสิทธิ์เหล่านั้นมีแนวโน้มที่จะลดลงหรือกำจัดค่าสัมประสิทธิ์บางส่วนทั้งหมดและปรับปรุงการวางนัยทั่วไป
อย่างไรก็ตามฟอเรสต์แบบสุ่มสามารถเห็นได้ว่ามีพารามิเตอร์การทำให้เป็นมาตรฐานผ่านจำนวนของตัวอย่างที่แต่ละตัวแยก: คุณจะได้รับการแยกที่ยิ่งใหญ่กว่าmtry
(คุณสมบัติเพิ่มเติมให้เลือก; บางส่วนของพวกเขาดีกว่าคนอื่น ๆ ) แต่นั่นก็ ทำให้ต้นไม้แต่ละต้นมีความสัมพันธ์สูงขึ้นกับต้นไม้แต่ละต้นซึ่งช่วยบรรเทาผลกระทบที่หลากหลายของการประเมินต้นไม้หลายต้นในตอนแรก ภาวะที่กลืนไม่เข้าคายไม่ออกนี้บังคับหนึ่งเพื่อหาสมดุลที่เหมาะสมมักจะประสบความสำเร็จโดยใช้การตรวจสอบข้าม สำคัญและตรงกันข้ามกับการวิเคราะห์การถดถอยไม่มีส่วนใดของโมเดลฟอเรสต์แบบสุ่มที่ได้รับอันตรายจากตัวแปร collinear สูง: แม้ว่าตัวแปรสองตัวจะให้ความบริสุทธิ์ของโหนดลูกเดียวกันคุณก็สามารถเลือกได้โดยไม่ทำให้คุณภาพของผลลัพธ์ลดลง
ในทำนองเดียวกันสำหรับบางอย่างเช่น SVM คุณสามารถรวมตัวทำนายได้มากกว่าฟีเจอร์เนื่องจากเคล็ดลับเคอร์เนลช่วยให้คุณทำงานกับผลิตภัณฑ์ภายในของเวกเตอร์ฟีเจอร์เหล่านั้นได้ การมีคุณสมบัติมากกว่าการสังเกตจะเป็นปัญหาในการถดถอย แต่เคล็ดลับเคอร์เนลหมายความว่าเราประมาณค่าสัมประสิทธิ์สำหรับแต่ละตัวอย่างในขณะที่พารามิเตอร์การทำให้เป็นมาตรฐานลดความยืดหยุ่นของการแก้ปัญหา - ซึ่งเป็นสิ่งที่ดีนับตั้งแต่การประเมินพารามิเตอร์สำหรับการสังเกตด้วยวิธีที่ไม่ จำกัด นั้นจะสร้างแบบจำลองที่สมบูรณ์แบบสำหรับข้อมูลการทดสอบเสมอและเรากลับมาเต็มวงกลับไปที่สถานการณ์สัน / LASSO / ยืดหยุ่นสุทธิถดถอยซึ่งเรามีความยืดหยุ่นของโมเดล จำกัด ซึ่งเป็นการตรวจสอบกับโมเดลที่มองโลกในแง่ดีเกินไป การตรวจสอบเงื่อนไข KKT ของปัญหา SVM พบว่าโซลูชัน SVM นั้นไม่เหมือนใครดังนั้นเราไม่ต้องกังวลเกี่ยวกับปัญหาการระบุที่เกิดขึ้นในกรณีการถดถอย
สุดท้ายให้พิจารณาถึงผลกระทบที่แท้จริงของความหลากสี มันไม่ได้เปลี่ยนพลังการทำนายของตัวแบบ (อย่างน้อยก็กับข้อมูลการฝึกอบรม) แต่มันจะสกรูกับค่าสัมประสิทธิ์การประมาณของเรา ในแอปพลิเคชัน ML ส่วนใหญ่เราไม่สนใจค่าสัมประสิทธิ์เองเพียงแค่สูญเสียการคาดการณ์โมเดลของเราดังนั้นการตรวจสอบ VIF ก็ไม่ได้ตอบคำถามที่ตามมา (แต่หากการเปลี่ยนแปลงเล็กน้อยของข้อมูลทำให้เกิดความผันผวนอย่างมากในค่าสัมประสิทธิ์ [อาการคลาสสิคของความหลากสี] มันอาจเปลี่ยนการทำนายในกรณีที่เราสนใจ - แต่สิ่งนี้ [เราหวัง!] เป็นลักษณะเฉพาะเมื่อเรา ดำเนินการตรวจสอบข้ามซึ่งเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลองต่อไป) การถดถอยจะตีความได้ง่ายกว่า แต่การตีความอาจไม่ใช่เป้าหมายที่สำคัญที่สุดสำหรับงานบางอย่าง
เหตุผลก็เพราะเป้าหมายของ "สถิติดั้งเดิม" นั้นแตกต่างจากเทคนิคการเรียนรู้ของเครื่องหลายอย่าง
โดย "สถิติดั้งเดิม" ฉันถือว่าคุณหมายถึงการถดถอยและตัวแปรต่างๆ ในการถดถอยเราพยายามเข้าใจถึงผลกระทบที่ตัวแปรอิสระมีต่อตัวแปรตาม หากมีความสัมพันธ์หลายอย่างที่แข็งแรงนี่เป็นไปไม่ได้เลย ไม่มีอัลกอริธึมที่จะแก้ไขปัญหานี้ หากความสัมพันธ์มีความสัมพันธ์กับการเข้าชั้นเรียนและผลการเรียนเราไม่สามารถรู้ได้ว่าอะไรเป็นสาเหตุให้คะแนนขึ้นไป - การเข้าเรียนหรือความขยันเรียน
อย่างไรก็ตามในเทคนิคการเรียนรู้ของเครื่องที่มุ่งเน้นไปที่ความแม่นยำในการทำนายสิ่งที่เราใส่ใจคือวิธีที่เราสามารถใช้ชุดของตัวแปรเพื่อทำนายชุดอื่น เราไม่สนใจเกี่ยวกับผลกระทบที่ตัวแปรเหล่านี้มีต่อกัน
โดยพื้นฐานแล้วความจริงที่ว่าเราไม่ได้ตรวจสอบความหลากหลายทางชีวภาพในเทคนิคการเรียนรู้ของเครื่องไม่ได้เป็นผลมาจากอัลกอริทึม แต่เป็นผลมาจากเป้าหมาย คุณสามารถเห็นสิ่งนี้ได้โดยการสังเกตว่าความเข้มของเส้นแบ่งระหว่างตัวแปรไม่ได้ทำให้ความแม่นยำในการทำนายของวิธีการถดถอยลดลง
ดูเหมือนจะมีข้อสมมติฐานพื้นฐานที่นี่ที่ไม่ตรวจสอบ collinearity เป็นแนวปฏิบัติที่เหมาะสมหรือแม้กระทั่งที่ดีที่สุด ดูเหมือนว่ามีข้อบกพร่อง ตัวอย่างเช่นการตรวจสอบ collinearity ที่สมบูรณ์แบบในชุดข้อมูลที่มีตัวทำนายหลายตัวจะเปิดเผยว่าตัวแปรสองตัวนั้นเป็นสิ่งเดียวกันเช่นวันเกิดและอายุหรือไม่ (ตัวอย่างที่นำมาจากDormann et al. (2013), Ecography , 36 , 1, pp 27–46 ) บางครั้งฉันก็เคยเห็นปัญหาของนักทำนายที่มีความสัมพันธ์กันอย่างสมบูรณ์เกิดขึ้นในการแข่งขัน Kaggle ซึ่งคู่แข่งในเวทีสนทนาพยายามกำจัดตัวทำนายที่อาจเกิดขึ้นซึ่งไม่เปิดเผยชื่อ (นั่นคือป้ายกำกับตัวทำนายถูกซ่อนอยู่ปัญหาทั่วไปในการแข่งขัน Kaggle และ Kaggle)
นอกจากนี้ยังมีกิจกรรมในการเรียนรู้ของเครื่องในการเลือกตัวทำนาย - การระบุตัวทำนายที่มีความสัมพันธ์สูงอาจอนุญาตให้ผู้ปฏิบัติงานค้นหาตัวทำนายซึ่งเป็นพร็อกซี่สำหรับตัวแปรพื้นฐาน (ซ่อน) อีกตัวหนึ่งและท้ายที่สุดก็หาตัวแปรหนึ่งที่ทำงานได้ดีที่สุด อีกทางเลือกหนึ่งแนะนำตัวแปรที่อาจจะรวมกัน (เช่นผ่าน PCA)
ดังนั้นฉันขอแนะนำว่าแม้ว่าวิธีการเรียนรู้ด้วยเครื่องจักรมักจะได้รับการออกแบบมาให้มีความแข็งแกร่งเมื่อเผชิญกับตัวทำนายที่สัมพันธ์กัน แต่การทำความเข้าใจกับระดับที่ตัวทำนายสัมพันธ์นั้นมักจะเป็นขั้นตอนที่มีประโยชน์ในการสร้างแบบจำลองที่แข็งแกร่งและแม่นยำ และเป็นตัวช่วยที่มีประโยชน์ในการหาตัวแบบที่เหมาะสมที่สุด
ปัญหาหลักของ multicollinearity คือมันทำให้ค่าสัมประสิทธิ์ (betas) ของตัวแปรอิสระยุ่งเหยิง นั่นเป็นเหตุผลว่าทำไมมันถึงเป็นเรื่องร้ายแรงเมื่อคุณศึกษาความสัมพันธ์ระหว่างตัวแปรการสร้างเวรกรรม ฯลฯ
อย่างไรก็ตามหากคุณไม่สนใจที่จะเข้าใจปรากฏการณ์นี้มากนัก แต่มุ่งเน้นไปที่การคาดการณ์และการคาดการณ์เพียงอย่างเดียว หรืออย่างน้อยนั่นคือสิ่งที่ผู้คนคิดเกี่ยวกับมัน
ฉันไม่ได้พูดถึงพหุนิยมที่สมบูรณ์แบบที่นี่ซึ่งเป็นปัญหาทางเทคนิคหรือปัญหาประจำตัว ในทางเทคนิคแล้วมันก็หมายความว่าเมทริกซ์การออกแบบนำไปสู่ภาวะเอกฐานและการแก้ปัญหาไม่ได้กำหนดไว้
การทำให้เป็นปกติในการเรียนรู้ของเครื่องเหล่านั้นทำให้สัมประสิทธิ์การถดถอยมีความเสถียรดังนั้นอย่างน้อยผลกระทบของ แต่ที่สำคัญกว่านั้นคือหากคุณกำลังคาดการณ์ (ซึ่งผู้เรียนมักจะใช้เครื่อง) ดังนั้น "ปัญหา" ความหลากหลายทางความสัมพันธ์ก็ไม่ได้เป็นปัญหาใหญ่ในตอนแรก มันเป็นปัญหาเมื่อคุณต้องการประมาณค่าสัมประสิทธิ์เฉพาะและคุณไม่มีข้อมูล
นอกจากนี้คำตอบของฉันสำหรับ " เมื่อใดที่ LASSO เลือกตัวทำนายที่สัมพันธ์กัน " อาจเป็นประโยชน์กับคุณ
ฉันคิดว่าควรตรวจสอบความหลากหลายของสีในการเรียนรู้ของเครื่อง นี่คือเหตุผล: สมมติว่าคุณมีคุณสมบัติสองอย่างที่มีความสัมพันธ์สูง X และ Y ในชุดข้อมูลของเรา ซึ่งหมายความว่าระนาบการตอบสนองไม่น่าเชื่อถือ (การเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจมีผลอย่างมากต่อการวางแนวของระนาบการตอบสนอง) ซึ่งบอกเป็นนัยว่าการทำนายของตัวแบบสำหรับจุดข้อมูลอยู่ไกลจากบรรทัดที่ X และ Y มีแนวโน้มที่จะลดลงไม่น่าเชื่อถือ หากคุณใช้แบบจำลองของคุณสำหรับการคาดคะเนสำหรับจุดดังกล่าว ในการกล่าวอีกนัยหนึ่งเมื่อคุณมีคุณสมบัติที่มีความสัมพันธ์สูงสองแบบเป็นแบบจำลองคุณกำลังเรียนรู้ระนาบที่ข้อมูลส่วนใหญ่ตกอยู่ในแถว ดังนั้นจึงเป็นสิ่งสำคัญที่จะลบคุณลักษณะที่มีความสัมพันธ์สูงจากข้อมูลของคุณเพื่อป้องกันโมเดลที่ไม่น่าเชื่อถือและการคาดการณ์ที่ผิดพลาด