เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง


44

ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

คำตอบ:


51

การพิจารณา multicollineariy มีความสำคัญในการวิเคราะห์การถดถอยเพราะใน extremaมันมีผลโดยตรงว่าสัมประสิทธิ์ของคุณถูกระบุในข้อมูลหรือไม่ ในกรณีที่รุนแรงน้อยกว่าก็ยังสามารถยุ่งกับการประมาณค่าสัมประสิทธิ์ของคุณ การเปลี่ยนแปลงเล็กน้อยในข้อมูลที่ใช้ในการประมาณค่าอาจทำให้เกิดการแกว่งของค่าสัมประสิทธิ์โดยประมาณ สิ่งเหล่านี้อาจเป็นปัญหาจากจุดยืนเชิงอนุมาน: หากตัวแปรสองตัวมีความสัมพันธ์กันอย่างมากการเพิ่มขึ้นของตัวแปรหนึ่งอาจถูกชดเชยด้วยการลดลงในอีกตัวแปรหนึ่ง ด้วยตัวแปรมากกว่าสองตัวเอฟเฟกต์อาจมีความละเอียดยิ่งขึ้น แต่หากการคาดการณ์มีความเสถียรนั่นก็มักจะเพียงพอสำหรับการใช้งานการเรียนรู้ของเครื่อง

พิจารณาว่าทำไมเราจึงทำให้เป็นปกติในบริบทการถดถอย: เราจำเป็นต้อง จำกัด รูปแบบจากการยืดหยุ่นเกินไป การใช้การทำให้เป็นปกติในปริมาณที่ถูกต้องจะเพิ่มความเอนเอียงเล็กน้อยเพื่อลดความแปรปรวนที่มากขึ้น ตัวอย่างคลาสสิกของสิ่งนี้คือการเพิ่มคำพหุนามและเอฟเฟกต์การโต้ตอบเข้ากับการถดถอย: ในกรณีที่เลวลงสมการทำนายจะแก้ไขจุดข้อมูล แต่อาจจะแย่มากเมื่อพยายามทำนายค่าของจุดข้อมูลที่มองไม่เห็น การหดตัวของค่าสัมประสิทธิ์เหล่านั้นมีแนวโน้มที่จะลดลงหรือกำจัดค่าสัมประสิทธิ์บางส่วนทั้งหมดและปรับปรุงการวางนัยทั่วไป

อย่างไรก็ตามฟอเรสต์แบบสุ่มสามารถเห็นได้ว่ามีพารามิเตอร์การทำให้เป็นมาตรฐานผ่านจำนวนของตัวอย่างที่แต่ละตัวแยก: คุณจะได้รับการแยกที่ยิ่งใหญ่กว่าmtry(คุณสมบัติเพิ่มเติมให้เลือก; บางส่วนของพวกเขาดีกว่าคนอื่น ๆ ) แต่นั่นก็ ทำให้ต้นไม้แต่ละต้นมีความสัมพันธ์สูงขึ้นกับต้นไม้แต่ละต้นซึ่งช่วยบรรเทาผลกระทบที่หลากหลายของการประเมินต้นไม้หลายต้นในตอนแรก ภาวะที่กลืนไม่เข้าคายไม่ออกนี้บังคับหนึ่งเพื่อหาสมดุลที่เหมาะสมมักจะประสบความสำเร็จโดยใช้การตรวจสอบข้าม สำคัญและตรงกันข้ามกับการวิเคราะห์การถดถอยไม่มีส่วนใดของโมเดลฟอเรสต์แบบสุ่มที่ได้รับอันตรายจากตัวแปร collinear สูง: แม้ว่าตัวแปรสองตัวจะให้ความบริสุทธิ์ของโหนดลูกเดียวกันคุณก็สามารถเลือกได้โดยไม่ทำให้คุณภาพของผลลัพธ์ลดลง

ในทำนองเดียวกันสำหรับบางอย่างเช่น SVM คุณสามารถรวมตัวทำนายได้มากกว่าฟีเจอร์เนื่องจากเคล็ดลับเคอร์เนลช่วยให้คุณทำงานกับผลิตภัณฑ์ภายในของเวกเตอร์ฟีเจอร์เหล่านั้นได้ การมีคุณสมบัติมากกว่าการสังเกตจะเป็นปัญหาในการถดถอย แต่เคล็ดลับเคอร์เนลหมายความว่าเราประมาณค่าสัมประสิทธิ์สำหรับแต่ละตัวอย่างในขณะที่พารามิเตอร์การทำให้เป็นมาตรฐานลดความยืดหยุ่นของการแก้ปัญหา - ซึ่งเป็นสิ่งที่ดีนับตั้งแต่การประเมินพารามิเตอร์สำหรับCNNการสังเกตด้วยวิธีที่ไม่ จำกัด นั้นจะสร้างแบบจำลองที่สมบูรณ์แบบสำหรับข้อมูลการทดสอบเสมอและเรากลับมาเต็มวงกลับไปที่สถานการณ์สัน / LASSO / ยืดหยุ่นสุทธิถดถอยซึ่งเรามีความยืดหยุ่นของโมเดล จำกัด ซึ่งเป็นการตรวจสอบกับโมเดลที่มองโลกในแง่ดีเกินไป การตรวจสอบเงื่อนไข KKT ของปัญหา SVM พบว่าโซลูชัน SVM นั้นไม่เหมือนใครดังนั้นเราไม่ต้องกังวลเกี่ยวกับปัญหาการระบุที่เกิดขึ้นในกรณีการถดถอย

สุดท้ายให้พิจารณาถึงผลกระทบที่แท้จริงของความหลากสี มันไม่ได้เปลี่ยนพลังการทำนายของตัวแบบ (อย่างน้อยก็กับข้อมูลการฝึกอบรม) แต่มันจะสกรูกับค่าสัมประสิทธิ์การประมาณของเรา ในแอปพลิเคชัน ML ส่วนใหญ่เราไม่สนใจค่าสัมประสิทธิ์เองเพียงแค่สูญเสียการคาดการณ์โมเดลของเราดังนั้นการตรวจสอบ VIF ก็ไม่ได้ตอบคำถามที่ตามมา (แต่หากการเปลี่ยนแปลงเล็กน้อยของข้อมูลทำให้เกิดความผันผวนอย่างมากในค่าสัมประสิทธิ์ [อาการคลาสสิคของความหลากสี] มันอาจเปลี่ยนการทำนายในกรณีที่เราสนใจ - แต่สิ่งนี้ [เราหวัง!] เป็นลักษณะเฉพาะเมื่อเรา ดำเนินการตรวจสอบข้ามซึ่งเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลองต่อไป) การถดถอยจะตีความได้ง่ายกว่า แต่การตีความอาจไม่ใช่เป้าหมายที่สำคัญที่สุดสำหรับงานบางอย่าง


1
สำหรับการสร้างแบบจำลองการถดถอยเชิงสาเหตุการใช้เทคนิคเช่นการให้คะแนนแบบเอนเอียงหรือการปรับการถดถอยคอลลิเนียริตี้อาจเป็นปัญหาสำหรับการทำนายเพราะโดยปกติแล้วเป้าหมายคือเพื่อให้พอดีกับโมเดลทั้งในกลุ่มควบคุม / unexposed เท่านั้น กลุ่มหรือรวมกันทั้งสองกลุ่ม แต่ใช้ตัวแปรตัวบ่งชี้เพื่อวัดผลกระทบควบคุมปัจจัยอื่น ๆ ของการอยู่ในกลุ่มทดลอง
ely

1
หากความไม่ลงตัวนั้นสร้างข้อผิดพลาดในสัมประสิทธิ์การถดถอยแบบขยายไปยังกลุ่มทดลองจะไม่ทำงาน ในทำนองเดียวกันการประมาณค่าสัมประสิทธิ์สำหรับตัวแปรตัวบ่งชี้ของการได้รับการรักษาอาจถูกโยนออกไปหากทำการถดถอยแบบเดี่ยวในตัวอย่างย่อยทั้งสอง เทคนิคการเรียนรู้ด้วยเครื่องจักรสมัยใหม่มักจะไม่ใช้ในการวิเคราะห์ปัญหาเกี่ยวกับเวรกรรมประเภทนี้และดังนั้นจึงไม่มีใครต้องเผชิญหน้ากับความต้องการเครื่องมือในการพิจารณา
ely

@ ในตัวอย่างแรกของคุณ colinearity (ในบรรดา covariates ไม่ใช่การรักษา) ไม่ได้ทำให้เกิดปัญหาเพราะเป้าหมายอีกครั้งคือการคาดการณ์ผลลัพธ์ของการต่อต้านและการ colinearity ไม่ใช่ปัญหาของการทำนาย นอกจากนี้ยังมีการใช้วิธีการ ML สมัยใหม่ในการอนุมานเชิงสาเหตุ แบบจำลองที่ได้รับการส่งเสริมแบบทั่วไปและป่าสุ่มถูกนำมาใช้กันอย่างแพร่หลายในการประเมินคะแนนความชอบและ TMLE ใช้วิธีการ ML เพื่อกำหนดผลลัพธ์เชิงต่อต้าน ฉันจะยืนยันความแข็งแรงของวิธีการที่เป็นสาเหตุคือความไม่แน่นอนของ colinearity สำหรับพวกเขา
โนอาห์

@Noah โดยปกติแล้วมันคือการตีความค่าสัมประสิทธิ์การเปิดรับแสงที่มีความสำคัญ (และการตีความผลกระทบอื่น ๆ โดยประมาณ) และไม่เพียง แต่แม่นยำในการทำนายแบบดิบเท่านั้น ฉันรู้ว่าความคิดเห็นของฉันไม่ได้ทำให้ชัดเจน แต่นั่นเป็นเหตุผลว่าทำไมมันถึงเป็นปัญหา หากการทำนายโดยรวมดี แต่ไม่ได้ขับเคลื่อนโดยการเกี่ยวข้องกับค่าสัมประสิทธิ์โดยประมาณสำหรับการเปิดรับจริง ๆ แล้วมันมักจะเป็นแบบจำลองที่ไม่พึงประสงค์สำหรับการอนุมานเชิงสาเหตุ
ely

21

เหตุผลก็เพราะเป้าหมายของ "สถิติดั้งเดิม" นั้นแตกต่างจากเทคนิคการเรียนรู้ของเครื่องหลายอย่าง

โดย "สถิติดั้งเดิม" ฉันถือว่าคุณหมายถึงการถดถอยและตัวแปรต่างๆ ในการถดถอยเราพยายามเข้าใจถึงผลกระทบที่ตัวแปรอิสระมีต่อตัวแปรตาม หากมีความสัมพันธ์หลายอย่างที่แข็งแรงนี่เป็นไปไม่ได้เลย ไม่มีอัลกอริธึมที่จะแก้ไขปัญหานี้ หากความสัมพันธ์มีความสัมพันธ์กับการเข้าชั้นเรียนและผลการเรียนเราไม่สามารถรู้ได้ว่าอะไรเป็นสาเหตุให้คะแนนขึ้นไป - การเข้าเรียนหรือความขยันเรียน

อย่างไรก็ตามในเทคนิคการเรียนรู้ของเครื่องที่มุ่งเน้นไปที่ความแม่นยำในการทำนายสิ่งที่เราใส่ใจคือวิธีที่เราสามารถใช้ชุดของตัวแปรเพื่อทำนายชุดอื่น เราไม่สนใจเกี่ยวกับผลกระทบที่ตัวแปรเหล่านี้มีต่อกัน

โดยพื้นฐานแล้วความจริงที่ว่าเราไม่ได้ตรวจสอบความหลากหลายทางชีวภาพในเทคนิคการเรียนรู้ของเครื่องไม่ได้เป็นผลมาจากอัลกอริทึม แต่เป็นผลมาจากเป้าหมาย คุณสามารถเห็นสิ่งนี้ได้โดยการสังเกตว่าความเข้มของเส้นแบ่งระหว่างตัวแปรไม่ได้ทำให้ความแม่นยำในการทำนายของวิธีการถดถอยลดลง


11

ดูเหมือนจะมีข้อสมมติฐานพื้นฐานที่นี่ที่ไม่ตรวจสอบ collinearity เป็นแนวปฏิบัติที่เหมาะสมหรือแม้กระทั่งที่ดีที่สุด ดูเหมือนว่ามีข้อบกพร่อง ตัวอย่างเช่นการตรวจสอบ collinearity ที่สมบูรณ์แบบในชุดข้อมูลที่มีตัวทำนายหลายตัวจะเปิดเผยว่าตัวแปรสองตัวนั้นเป็นสิ่งเดียวกันเช่นวันเกิดและอายุหรือไม่ (ตัวอย่างที่นำมาจากDormann et al. (2013), Ecography , 36 , 1, pp 27–46 ) บางครั้งฉันก็เคยเห็นปัญหาของนักทำนายที่มีความสัมพันธ์กันอย่างสมบูรณ์เกิดขึ้นในการแข่งขัน Kaggle ซึ่งคู่แข่งในเวทีสนทนาพยายามกำจัดตัวทำนายที่อาจเกิดขึ้นซึ่งไม่เปิดเผยชื่อ (นั่นคือป้ายกำกับตัวทำนายถูกซ่อนอยู่ปัญหาทั่วไปในการแข่งขัน Kaggle และ Kaggle)

นอกจากนี้ยังมีกิจกรรมในการเรียนรู้ของเครื่องในการเลือกตัวทำนาย - การระบุตัวทำนายที่มีความสัมพันธ์สูงอาจอนุญาตให้ผู้ปฏิบัติงานค้นหาตัวทำนายซึ่งเป็นพร็อกซี่สำหรับตัวแปรพื้นฐาน (ซ่อน) อีกตัวหนึ่งและท้ายที่สุดก็หาตัวแปรหนึ่งที่ทำงานได้ดีที่สุด อีกทางเลือกหนึ่งแนะนำตัวแปรที่อาจจะรวมกัน (เช่นผ่าน PCA)

ดังนั้นฉันขอแนะนำว่าแม้ว่าวิธีการเรียนรู้ด้วยเครื่องจักรมักจะได้รับการออกแบบมาให้มีความแข็งแกร่งเมื่อเผชิญกับตัวทำนายที่สัมพันธ์กัน แต่การทำความเข้าใจกับระดับที่ตัวทำนายสัมพันธ์นั้นมักจะเป็นขั้นตอนที่มีประโยชน์ในการสร้างแบบจำลองที่แข็งแกร่งและแม่นยำ และเป็นตัวช่วยที่มีประโยชน์ในการหาตัวแบบที่เหมาะสมที่สุด


9

ปัญหาหลักของ multicollinearity คือมันทำให้ค่าสัมประสิทธิ์ (betas) ของตัวแปรอิสระยุ่งเหยิง นั่นเป็นเหตุผลว่าทำไมมันถึงเป็นเรื่องร้ายแรงเมื่อคุณศึกษาความสัมพันธ์ระหว่างตัวแปรการสร้างเวรกรรม ฯลฯ

อย่างไรก็ตามหากคุณไม่สนใจที่จะเข้าใจปรากฏการณ์นี้มากนัก แต่มุ่งเน้นไปที่การคาดการณ์และการคาดการณ์เพียงอย่างเดียว หรืออย่างน้อยนั่นคือสิ่งที่ผู้คนคิดเกี่ยวกับมัน

ฉันไม่ได้พูดถึงพหุนิยมที่สมบูรณ์แบบที่นี่ซึ่งเป็นปัญหาทางเทคนิคหรือปัญหาประจำตัว ในทางเทคนิคแล้วมันก็หมายความว่าเมทริกซ์การออกแบบนำไปสู่ภาวะเอกฐานและการแก้ปัญหาไม่ได้กำหนดไว้


4
ถึงแม้จะมีความสมบูรณ์แบบ แต่การคาดการณ์ยังคงชัดเจน
whuber

@ โฮเบอร์ถ้าคุณใช้ OLS แพคเกจสถิติน่าจะทำให้เกิดข้อผิดพลาดเพราะมันจะไม่สามารถกลับเมทริกซ์ได้ สมาร์ทอาจปล่อยหนึ่ง vars อิสระและย้ายไปแม้ว่า
Aksakal

2
หากคุณใช้การผกผันทั่วไปแล้วภาวะเอกฐานนี้ไม่ได้เป็นปัญหา
นักวิเคราะห์

1
ฉันไม่ทำตามตรรกะ Aksakal ของคุณ: คุณพยายามที่จะแนะนำเทคนิคการเรียนรู้ของเครื่องที่แตกต่างจากเทคนิคทางสถิติหรือไม่ว่าในอดีตนั้นไม่มีปัญหากับเมทริกซ์ลดอันดับ? มันเป็นความคิดที่น่าสนใจในการสำรวจ
whuber

1
@user ตัวแปรอิสระนั้นสัมพันธ์กันเกือบทุกครั้งและก็โอเคโดยปกติ ความสมบูรณ์แบบหลายระดับความสมบูรณ์แบบทำให้เกิดการขาดอันดับ Multicollinearity หมายถึงสหสัมพันธ์ที่แข็งแกร่งมากและไม่เป็นที่พึงปรารถนาโดยทั่วไป แต่อย่างที่ฉันเขียนไว้ก่อนหน้านี้มันเป็นปัญหาที่อ่อนโยนมากในหลายกรณี
Aksakal

7

การทำให้เป็นปกติในการเรียนรู้ของเครื่องเหล่านั้นทำให้สัมประสิทธิ์การถดถอยมีความเสถียรดังนั้นอย่างน้อยผลกระทบของ แต่ที่สำคัญกว่านั้นคือหากคุณกำลังคาดการณ์ (ซึ่งผู้เรียนมักจะใช้เครื่อง) ดังนั้น "ปัญหา" ความหลากหลายทางความสัมพันธ์ก็ไม่ได้เป็นปัญหาใหญ่ในตอนแรก มันเป็นปัญหาเมื่อคุณต้องการประมาณค่าสัมประสิทธิ์เฉพาะและคุณไม่มีข้อมูล

นอกจากนี้คำตอบของฉันสำหรับ " เมื่อใดที่ LASSO เลือกตัวทำนายที่สัมพันธ์กัน " อาจเป็นประโยชน์กับคุณ


1

ฉันคิดว่าควรตรวจสอบความหลากหลายของสีในการเรียนรู้ของเครื่อง นี่คือเหตุผล: สมมติว่าคุณมีคุณสมบัติสองอย่างที่มีความสัมพันธ์สูง X และ Y ในชุดข้อมูลของเรา ซึ่งหมายความว่าระนาบการตอบสนองไม่น่าเชื่อถือ (การเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจมีผลอย่างมากต่อการวางแนวของระนาบการตอบสนอง) ซึ่งบอกเป็นนัยว่าการทำนายของตัวแบบสำหรับจุดข้อมูลอยู่ไกลจากบรรทัดที่ X และ Y มีแนวโน้มที่จะลดลงไม่น่าเชื่อถือ หากคุณใช้แบบจำลองของคุณสำหรับการคาดคะเนสำหรับจุดดังกล่าว ในการกล่าวอีกนัยหนึ่งเมื่อคุณมีคุณสมบัติที่มีความสัมพันธ์สูงสองแบบเป็นแบบจำลองคุณกำลังเรียนรู้ระนาบที่ข้อมูลส่วนใหญ่ตกอยู่ในแถว ดังนั้นจึงเป็นสิ่งสำคัญที่จะลบคุณลักษณะที่มีความสัมพันธ์สูงจากข้อมูลของคุณเพื่อป้องกันโมเดลที่ไม่น่าเชื่อถือและการคาดการณ์ที่ผิดพลาด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.