ประสิทธิภาพการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลมากกว่าวิธี?


14

ฉันเจอข่าวลือว่าการศึกษาบางส่วนแสดงให้เห็นว่าประสิทธิภาพของแบบจำลองการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลด้วยวิธีที่เลือกมากกว่าวิธีการเลือก
กล่าวอีกนัยหนึ่งข้อกล่าวอ้างว่ามันสำคัญกว่าที่นักวิเคราะห์ข้อมูลจะคุ้นเคยกับวิธีที่เลือกมากกว่าวิธีที่ "เหมาะสม" วิธีที่ดูเหมือนจะเป็นปัญหาจากมุมมองเชิงทฤษฎีมากกว่า

สิ่งนี้ถูกกล่าวถึงในบริบทของเคมีบำบัดซึ่งโดยทั่วไปแล้วจะเกี่ยวข้องกับปัญหาของตัวแปรหลายอย่าง (100s - 1000s), collinearity หลายอันและแน่นอนว่ามีตัวอย่างน้อยเกินไป การทำนายอาจเป็นการจำแนกหรือการถดถอย

ประสบการณ์ส่วนตัวของฉันแสดงให้เห็นว่าสิ่งนี้เป็นไปได้แต่มีการพูดถึงการศึกษา (ฉันถามคนที่พูดถึงเรื่องนั้นทางอีเมลหลังจากการค้นหาที่รวดเร็ว แต่ไม่สำเร็จ แต่ไม่เคยได้รับคำตอบใด ๆ ) อย่างไรก็ตามด้วยการค้นหาที่ละเอียดยิ่งขึ้นฉันก็ไม่สามารถติดตามบทความใด ๆ ได้

มีใครตระหนักถึงการค้นพบดังกล่าวหรือไม่ ถ้าไม่ใช่ประสบการณ์ส่วนตัวของ Big Guys ที่นี่พูดว่าอะไร?


1
ฉันมากกว่าผู้ชายเล็ก ๆ น้อย ๆ รอบ ๆ ที่นี่ แต่สิ่งที่ผมได้เห็นในโครงข่ายประสาทสนับสนุนสมมติฐานนี้ห่างไกลจากการเป็น "ออกจากกล่องเครื่องมือ" ที่ "เรียนรู้เครื่อง" บางสิ่งบางอย่างจำแนกประสบความสำเร็จหรือการทำนายดูเหมือนว่าจะขึ้นอยู่มากเกี่ยวกับความฉลาดของบุคคลที่บอกเครือข่ายวิธีการเรียนรู้จากข้อมูล - ที่สำคัญที่สุดในแง่ของการประมวลผลข้อมูลล่วงหน้า แต่ในแง่ของสถาปัตยกรรมเครือข่าย ฯลฯ
Stephan Kolassa

1
ฉันคิดว่านั่นคือรูปที่ 2.4 จากองค์ประกอบของการเรียนรู้ทางสถิติที่พวกเขาเปรียบเทียบเพื่อนบ้านที่ใกล้ที่สุดกับวิธีการถดถอยประเภท (และแน่นอนว่าพวกเขามีจุดเปรียบเทียบหลายจุดตลอดทั้งเล่มเช่นกัน)
StasK

@StasK: ขอบคุณสำหรับการเตือน (ความอัปยศกับฉันสำหรับการจำไม่ได้) พวกเขายังรายงานว่าในทางปฏิบัติ PCR, PLS และการถดถอยของสันเขานั้นคล้ายกันมากและ LDA และการถดถอยโลจิสติกเช่นกัน อย่างไรก็ตามวิธีการหลังยังคล้ายกันมากจากมุมมองทางทฤษฎี
cbeleites รองรับโมนิก้า

คำตอบ:


1

อันที่จริงฉันเคยได้ยินข่าวลือว่าเครื่องเรียนรู้ที่ดีมักจะดีกว่าผู้เชี่ยวชาญเพราะความโน้มเอียงของมนุษย์คือการลดความแปรปรวนที่ค่าใช้จ่ายของอคติ (oversmooth) ซึ่งนำไปสู่ประสิทธิภาพการทำนายที่ต่ำในชุดข้อมูลใหม่ เครื่องสอบเทียบเพื่อลด MSE และทำให้มีแนวโน้มที่จะทำดีกว่าในแง่ของการทำนายในชุดข้อมูลใหม่


1
จากประสบการณ์ของฉันมันเป็นความจริงอย่างแน่นอนว่ามนุษย์มักจะมีน้ำหนักเกิน อย่างไรก็ตามจากประสบการณ์ของฉันคุณจำเป็นต้องมีผู้เชี่ยวชาญที่เหมาะสมซึ่งเลือกเครื่องเรียนรู้ที่ไม่ล้น ไม่เช่นนั้นใครบางคนก็เลือกเครื่องเรียนรู้ที่เหมาะสม
cbeleites รองรับโมนิก้า

1
โดยทั่วไปแล้ว MSE ไม่ได้ป้องกันการโอเวอร์โหลดถ้าคุณ จำกัด รุ่นมาก - และมีผู้เชี่ยวชาญเข้ามาอีกครั้ง อย่างไรก็ตามคนพยายามที่จะเพิ่มประสิทธิภาพเช่นพารามิเตอร์แบบจำลอง โดยเฉพาะอย่างยิ่งกลยุทธ์การปรับให้เหมาะสมแบบวนซ้ำพอดี (MSE หรือไม่) เว้นแต่คุณจะสามารถจัดหาชุดทดสอบข้อมูลอิสระชุดใหม่ที่สมบูรณ์สำหรับการทำซ้ำแต่ละครั้ง บางทีฉันควรจะบอกว่าฉันมาจากเขตข้อมูลที่กรณีทดสอบหายากมาก และในกรณีใด ๆ คุณอาจโต้แย้งว่านี่ไม่ใช่เครื่องเรียนรู้ที่เหมาะสม
cbeleites รองรับโมนิก้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.