ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด

52

เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล

การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล

(... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้

แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา

— ทิม
แหล่งที่มา

3

ความซ้ำซ้อนที่เป็น

— Matthew Drury

@ MatthewDrury ขอบคุณนี่เป็นคำถามที่น่าสนใจ แต่ IMHO มันมีขอบเขตที่แตกต่าง สิ่งที่ฉันถามคือแนวทางเมื่อเป็นปัญหาจริงๆ การตอบอย่างแท้จริงว่าทำไมคำถามนำไปสู่การตอบคำถามเมื่อแต่ฉันกำลังมองหาคำตอบที่แม่นยำสำหรับคำถามเมื่อ

— ทิม

9

ยุติธรรมพอ! ฉันอยู่กับคุณ "วรรณกรรม" เกี่ยวกับเรื่องนี้ดูเหมือนจะเป็นเรื่องเกี่ยวกับวิธีการแก้ไขปัญหาโดยไม่ต้องโน้มน้าวให้คุณเชื่อว่าในความเป็นจริงมีปัญหาที่จะแก้ไขหรือแม้แต่บอกคุณในสถานการณ์ที่เกิดปัญหาหรือไม่ หนึ่งในเรื่องที่น่าผิดหวังที่สุดสำหรับฉัน

— Matthew Drury

2

@MatthewDrury ที่อยู่ตรงปัญหา!

— ทิม

1

การสำรวจวิธีการทั้งหมดไม่ได้อยู่ในขอบเขตของคำถาม SE คุณต้องการปรับแต่งคำถามหรือไม่

— AdamO

28

ไม่ใช่คำตอบโดยตรง แต่เป็นที่น่าสังเกตว่าในวรรณคดีเชิงสถิติอคติบางอย่างที่มีต่อข้อมูลที่ไม่สมดุลมีรากฐานทางประวัติศาสตร์

แบบจำลองคลาสสิกจำนวนมากลดความซับซ้อนอย่างเรียบร้อยภายใต้สมมติฐานของข้อมูลที่สมดุลโดยเฉพาะอย่างยิ่งสำหรับวิธีการเช่น ANOVA ที่เกี่ยวข้องกับการออกแบบการทดลอง - แรงจูงใจดั้งเดิม / ดั้งเดิมสำหรับการพัฒนาวิธีการทางสถิติ

แต่สถิติ / ความน่าจะเป็นทางคณิตศาสตร์นั้นค่อนข้างน่าเกลียดอย่างรวดเร็วด้วยข้อมูลที่ไม่สมดุล ก่อนที่จะมีการนำคอมพิวเตอร์มาใช้อย่างกว้างขวางการคำนวณด้วยมือนั้นกว้างขวางมากจนการประเมินแบบจำลองของข้อมูลที่ไม่สมดุลนั้นเป็นไปไม่ได้ในทางปฏิบัติ

แน่นอนว่าคอมพิวเตอร์ได้แสดงผลโดยทั่วไปว่าไม่มีปัญหา ในทำนองเดียวกันเราสามารถประเมินแบบจำลองบนชุดข้อมูลขนาดใหญ่แก้ปัญหาการหาค่าเหมาะที่สุดในระดับสูงและดึงตัวอย่างจากการแจกแจงความน่าจะเป็นร่วมที่วิเคราะห์ไม่ได้ซึ่งทั้งหมดนี้เป็นไปไม่ได้ในเชิงปฏิบัติเหมือนเมื่อห้าสิบปีก่อน

มันเป็นปัญหาเก่าและนักวิชาการก็ต้องใช้เวลามากมายในการทำงานกับปัญหา ... ในขณะที่ปัญหาที่นำมาใช้จำนวนมากแซงหน้า / ล้าสมัยการวิจัย แต่นิสัยเก่าตายยาก ...

แก้ไขเพื่อเพิ่ม:

ฉันรู้ว่าฉันไม่ได้ออกมาพูดแค่นั้น: ไม่มีปัญหาระดับต่ำในการใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี

— เฮนรี่
แหล่งที่มา

4

ในขณะที่ฉันดูเหมือนจะได้รับคะแนนของคุณสถานที่ของคุณไม่มีข้อโต้แย้งในการสนับสนุน คุณสามารถให้ข้อโต้แย้งและ / หรือตัวอย่างเกี่ยวกับอคติและวิธีการที่ถ้ามีผลต่อการเรียนรู้ของเครื่อง?

— ทิม

1

ในขณะที่สิ่งที่คุณพูดนั้นส่วนใหญ่เป็นความจริง แต่ก็เป็นกรณีที่วิธีการเช่นโนวานั้นแข็งแกร่งกว่าด้วยข้อมูลที่มีความสมดุล แต่ฉันเชื่อว่าทั้งหมดนี้เป็นมุมฉากต่อเจตนาของคำถามนี้ ...

— kjetil b halvorsen

7

ฉันรู้ว่าฉันไม่ได้ออกมาพูดแค่นั้น: ไม่มีปัญหาระดับต่ำในการใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี

— Henry

1

@ M.HenryL ความคิดเห็นนี้มีค่าเพิ่มในคำตอบของคุณเพื่อความสมบูรณ์

— ทิม

16

WLOG คุณสามารถมุ่งเน้นไปที่ความไม่สมดุลในปัจจัยเดียวมากกว่าแนวคิดที่เหมาะสมยิ่งของ "data sparsity" หรือจำนวนเซลล์ขนาดเล็ก

ในการวิเคราะห์ทางสถิติที่ไม่ได้มุ่งเน้นที่การเรียนรู้เรามักพบว่ามีพลังที่คล้ายกันหรือดีกว่านั้นเมื่อใช้คะแนนความชอบเพื่อจับคู่กลุ่มขนาดเล็กกับกลุ่มใหญ่ ส่วนหนึ่งเป็นเพราะการจับคู่นั้นมีจุดประสงค์ที่คล้ายกันในการปรับเปลี่ยนปัจจัยรบกวนในแง่ของ "การปรับสมดุล" ปัจจัยกำหนดสมาชิกภาพของกลุ่มจึงปิดกั้นผลกระทบที่ทำให้สับสน เหตุผลสำหรับจำนวนของคู่หูที่จะปรับในการวิเคราะห์หลายตัวแปรขึ้นอยู่กับขนาดของกลุ่มตัวอย่าง กฎง่ายๆบางข้อบอกว่าตัวแปรหนึ่งตัวต่อการสังเกตทุก 10 ถึง 20 ครั้ง ในข้อมูลที่ไม่สมดุลคุณเชื่ออย่างไร้เดียงสาว่าข้อมูลของคุณมีขนาดใหญ่พอสมควร แต่ด้วยคนจำนวนน้อยที่มีเงื่อนไขที่หายาก: ความแปรปรวนของเงินเฟ้อจะลดพลังงานลงอย่างมาก ในความเป็นจริงคุณปรับตัวมากกว่า

ดังนั้นอย่างน้อยในการถดถอย ( แต่ฉันสงสัยในทุกสถานการณ์) ปัญหาเฉพาะกับข้อมูลที่ไม่สมดุลคือการที่คุณได้อย่างมีประสิทธิภาพมีขนาดของกลุ่มตัวอย่างขนาดเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล

— Adamo
แหล่งที่มา

13

ข้อมูลที่ไม่สมดุลนั้นเป็นเพียงปัญหาขึ้นอยู่กับแอปพลิเคชันของคุณ หากตัวอย่างเช่นข้อมูลของคุณแสดงว่า A เกิดขึ้น 99.99% ของเวลาและ 0.01% ของเวลา B เกิดขึ้นและคุณพยายามที่จะทำนายผลลัพธ์ที่แน่นอนว่าอัลกอริทึมของคุณอาจจะบอกว่า A. แน่นอนว่าถูกต้องแล้ว! ไม่น่าเป็นไปได้ที่วิธีการของคุณจะได้ความแม่นยำในการทำนายที่ดีกว่า 99.99% อย่างไรก็ตามในแอปพลิเคชันจำนวนมากเราไม่สนใจเพียงแค่ความถูกต้องของการทำนาย แต่ยังรวมถึงสาเหตุที่ B เกิดขึ้นในบางครั้ง นี่คือที่ข้อมูลไม่สมดุลจะกลายเป็นปัญหา เพราะมันยากที่จะโน้มน้าววิธีการของคุณว่ามันสามารถทำนายได้ดีกว่า 99.99% ที่ถูกต้อง วิธีนี้ถูกต้อง แต่ไม่ใช่สำหรับคำถามของคุณ ดังนั้นการแก้ไขข้อมูลที่ไม่สมดุลนั้นโดยทั่วไปแล้วจะทำให้ข้อมูลของคุณมีความน่าสนใจเพื่อให้ได้ผลลัพธ์ที่น่าสนใจแทนผลลัพธ์ที่แม่นยำ

โดยทั่วไปมีสามกรณี:

คุณให้ความสนใจในการคาดการณ์ที่แม่นยำและคุณคิดว่าข้อมูลของคุณนั้นเป็นความคลั่งไคล้ ในกรณีนี้คุณไม่จำเป็นต้องแก้ไขเลยให้ได้รับความสุขในการทำนายที่แม่นยำ 99.99% ของคุณ :)
คุณมีความสนใจในการทำนาย แต่ข้อมูลของคุณมาจากกลุ่มตัวอย่างที่เป็นธรรม แต่อย่างใดคุณก็สูญเสียการสังเกตหลายอย่าง หากคุณสูญเสียการสังเกตด้วยวิธีการสุ่มแบบสมบูรณ์คุณยังคงสบายดี หากคุณสูญเสียมันไปในทางที่ลำเอียง แต่คุณไม่รู้ว่าลำเอียงคุณจะต้องการข้อมูลใหม่ อย่างไรก็ตามหากการสังเกตเหล่านี้หายไปเฉพาะบนพื้นฐานของความเป็นหนึ่งเดียว (ตัวอย่างเช่นคุณเรียงลำดับผลลัพธ์ใน A และ B แต่ไม่ใช่ในทางอื่น แต่เสียครึ่งหนึ่งของ B) Ypu สามารถบู๊ตข้อมูลของคุณได้
คุณไม่สนใจคำทำนายทั่วโลกที่แม่นยำ แต่ในบางกรณีเท่านั้น ในกรณีนี้คุณสามารถขยายข้อมูลของกรณีดังกล่าวได้โดยการบีบอัดข้อมูลหรือถ้าคุณมีข้อมูลเพียงพอที่จะส่งข้อมูลในกรณีอื่น โปรดสังเกตว่าสิ่งนี้ทำให้ข้อมูลและผลลัพธ์ของคุณมีอคติและเป็นไปได้ที่ผลลัพธ์จะผิด

โดยทั่วไปแล้วส่วนใหญ่ขึ้นอยู่กับว่าเป้าหมายคืออะไร เป้าหมายบางอย่างเกิดจากข้อมูลที่ไม่สมดุลซึ่งคนอื่นทำไม่ได้ วิธีการทำนายทั่วไปทั้งหมดต้องทนทุกข์ทรมานเพราะไม่เช่นนั้นพวกเขาจะให้ผลลัพธ์ที่น่ากลัวโดยทั่วไป

— เซน
แหล่งที่มา

7

เรื่องราวนี้เปลี่ยนแปลงอย่างไรเมื่อเราประเมินแบบจำลองของเราน่าจะเป็นอย่างไร

— Matthew Drury

@MatthewDrury ความน่าจะเป็นจากโมเดลดั้งเดิมนั้นส่วนใหญ่จะถูกต้องสำหรับกรณีที่ 1 และ 3 ปัญหาคือมีเฉพาะชุดข้อมูลขนาดใหญ่มาก B เท่านั้นที่สามารถแยกออกจาก A และความน่าจะเป็นของ B ค่อย ๆ แปรเปลี่ยนเป็นมูลค่าที่แท้จริง ข้อยกเว้นคือว่าถ้า B ถูกแยกออกจาก A อย่างชัดเจนหรือแยกออกจากกันโดยสิ้นเชิงอย่างสมบูรณ์ probabalities จะตามลำดับเกือบจะทันทีหรือไม่มาบรรจบกัน

— เซน

@zen ฉันไม่เห็นด้วยที่การถดถอยโลจิสติกส์มีความเสี่ยงน้อยกว่า การถดถอยโลจิสติกค่อนข้างเสี่ยงต่อความไม่สมดุลของข้อมูลมันสร้างอคติตัวอย่างขนาดเล็กและอัตราส่วนอัตราต่อรองของล็อกมีแนวโน้มที่จะเป็นปัจจัยที่ 2 การถดถอยโลจิสติกแบบมีเงื่อนไขเป็นทางเลือกในการประมาณค่า OR เดียวกันโดยไม่มีอคติ

— AdamO

@AdamO ใช่การถดถอยโลจิสติกยังคงมีความเสี่ยง แต่สำหรับต้นไม้กรณีเล็กสามารถเพิกเฉยได้โดยสิ้นเชิง มันไม่ได้เป็นเพียงตัวอย่างขนาดเล็กเท่านั้น แม้สำหรับ n ขนาดใหญ่และตัวอย่างเช่น 80% -20% การกระจายระหว่างตัวเลือกต้นไม้ยังคงสามารถเลือกตัวเลือก 80% แม้ว่าเศษของตัวเลือก 20% จะเพิ่มขึ้นอย่างชัดเจนด้วยตัวแปร x บางตัว หากพบการสังเกตที่รุนแรงมากขึ้นใหม่หรือถ้าจำนวนกิ่งเหลือน้อยสำหรับจุดที่รุนแรงต้นไม้จะทำนายตัวเลือก 80% ในขณะที่การถดถอยโลจิสติกจะมีโอกาสน้อยกว่าที่จะทำเช่นนั้น คุณพูดถูกเกี่ยวกับการถดถอยแบบมีเงื่อนไข

— เซน

2

@MatthewDrury สตีเฟ่น Senn มีการสนทนาที่ดีเกี่ยวกับประเด็นนี้ในกระดาษฉันอ่านมักจะเป็น Heuristically อัตราต่อรองจากตาราง 2x2 ที่มีรายการ abcd ถูกประเมินโดย ad / (bc) และมีความแปรปรวน 1 / a + 1 / b + 1 / c + 1 / d คุณสามารถสุ่มตัวอย่างได้หลายกรณี (a และ c) และอัตราส่วนอัตราต่อรองยังคงไม่เอนเอียง แต่ความแปรปรวนจะแปรผันไปเรื่อย ๆ มันเป็นปัญหาที่มีความแม่นยำ

— AdamO

8

สมมติว่าเรามีสองคลาส:

Aคิดเป็น 99.99% ของประชากร
Bคิดเป็น 0.01% ของประชากร

สมมติว่าเรามีความสนใจในการระบุองค์ประกอบคลาส B ซึ่งอาจเป็นบุคคลที่ได้รับผลกระทบจากโรคที่หายากหรือหลอกลวง

เพียงแค่การคาดเดาผู้เรียนจะให้คะแนนสูงในการสูญเสียการทำงานและน้อยมากองค์ประกอบจัดไม่ถูกต้องของพวกเขาอาจจะไม่ย้ายตัวเลขเข็ม (ในกองหญ้าในกรณีนี้) ตัวอย่างนี้นำปรีชาที่อยู่เบื้องหลังหนึ่งใน "เทคนิค" เพื่อลดปัญหาความไม่สมดุลในชั้นเรียน: ปรับแต่งฟังก์ชั่นค่าใช้จ่าย

ฉันรู้สึกว่าข้อมูลที่ไม่สมดุลนั้นเป็นปัญหาเมื่อแบบจำลองแสดงความไวใกล้ศูนย์และความจำเพาะที่ใกล้เคียงหนึ่ง ดูตัวอย่างในบทความนี้ภายใต้หัวข้อ "ละเลยปัญหา"

ปัญหามักจะมีทางออก ควบคู่ไปกับเคล็ดลับดังกล่าวมีตัวเลือกอื่น ๆ อย่างไรก็ตามพวกเขามาในราคา: การเพิ่มขึ้นของรูปแบบและความซับซ้อนในการคำนวณ

คำถามจะถามว่าแบบจำลองใดมีแนวโน้มที่จะปรับตัวจากความไวใกล้ศูนย์และความจำเพาะใกล้เคียง ฉันรู้สึกว่ามันขึ้นอยู่กับสองสามมิติ:

ความจุลดลงตามปกติ
ฟังก์ชั่นค่าใช้จ่ายบางอย่างอาจต่อสู้ได้มากกว่าฟังก์ชั่นอื่น ๆ : ค่าเฉลี่ยของข้อผิดพลาดกำลังสอง (MSE) น้อยกว่าฮิวเบอร์ - MSE ควรมีเมตตาต่อองค์ประกอบคลาสB ที่ไม่ถูกต้อง

— IcannotFixThis
แหล่งที่มา

1

สิ่งนี้อนุมานโดยนัย (1) ว่า KPI ที่เราพยายามเพิ่มให้มากที่สุดคือความแม่นยำและ (2) ความแม่นยำนั้นเป็น KPI ที่เหมาะสมสำหรับการประเมินรูปแบบการจำแนกประเภท มันไม่ใช่

— S. Kolassa - Reinstate Monica

5

หากคุณคิดเกี่ยวกับมัน: ในชุดข้อมูลที่มีความไม่สมดุลสูงแยกได้อย่างสมบูรณ์เกือบทุกอัลกอริทึมจะทำงานโดยไม่มีข้อผิดพลาด

ดังนั้นจึงเป็นปัญหาเรื่องเสียงรบกวนในข้อมูลและผูกติดกับอัลกอริทึมเฉพาะน้อยกว่า และคุณไม่ทราบล่วงหน้าว่าอัลกอริธึมใดชดเชยเสียงรบกวนประเภทใดประเภทหนึ่งได้ดีที่สุด

ในที่สุดคุณต้องลองใช้วิธีการที่แตกต่างกันและตัดสินใจโดยการตรวจสอบข้าม

— เกรินุก
แหล่งที่มา

ฉันรู้สึกว่าความคิดเห็นนี้เป็นที่ชื่นชมน้อย ฉันแค่ใช้เวลาสักครู่เพื่อโน้มน้าวใจคนที่ความไม่สมดุลในชั้นเรียนไม่ได้เป็นปัญหาเสมอไป

— RDK

นี่ไม่ได้ตอบคำถาม วิธีการเรียนที่ไม่สมดุล "ปัญหาที่เกิดขึ้นของเสียงในข้อมูล"?

— S. Kolassa - Reinstate Monica

2

@StephanKolassa มันเป็นคำตอบเพราะมันบอกว่าข้อมูลที่ไม่สมดุลไม่ใช่ปัญหา (โดยตรง) ดังนั้นคุณไม่สามารถถามว่า "มันเป็นอย่างไร" สำหรับคำถามทั่วไป "วิธีจัดการกับปัญหาเสียงรบกวนในการวิเคราะห์ข้อมูล" คำตอบคือเฉพาะชุดข้อมูลส่วนบุคคลและสิ่งที่คุณทำได้คือตั้งค่าการตรวจสอบความถูกต้องและลองใช้งานอะไรก็ได้ หากคุณต้องการการสนทนาฉันเชื่อว่าele.uri.edu/faculty/he/PDFfiles/Im บาลานซ์Learning.pdfมีความคิด แต่ในที่สุดคุณก็จะทำการสุ่มตัวอย่าง / การปรับน้ำหนัก / การกำหนดค่าซ้ำและไม่คุ้มที่จะรู้ว่าเกิดอะไรขึ้นในชุดข้อมูลนี้

— Gerenuk