สำหรับเช่น ถ้าฉันมีการให้คะแนนเครดิตระดับตัวแปรโดยมีสองคลาสดีและไม่ดีโดยที่ # (ดี) = 700 และ # (ไม่ดี) = 300 ฉันไม่ต้องการย่อข้อมูลของฉันให้สั้นลง ฉันควรใช้เทคนิคใด ฉันใช้ SVM แต่มันให้ผลดีกับการคาดการณ์ทั้งหมด
สำหรับเช่น ถ้าฉันมีการให้คะแนนเครดิตระดับตัวแปรโดยมีสองคลาสดีและไม่ดีโดยที่ # (ดี) = 700 และ # (ไม่ดี) = 300 ฉันไม่ต้องการย่อข้อมูลของฉันให้สั้นลง ฉันควรใช้เทคนิคใด ฉันใช้ SVM แต่มันให้ผลดีกับการคาดการณ์ทั้งหมด
คำตอบ:
ขนาดตัวอย่างชั้นเรียนของคุณดูเหมือนไม่สมดุลกันเนื่องจากคุณมีข้อสังเกต 30% ในชั้นเรียนส่วนน้อยของคุณ การถดถอยโลจิสติกควรทำงานได้ดีในกรณีของคุณ ขึ้นอยู่กับจำนวนผู้ทำนายที่เข้าสู่แบบจำลองของคุณคุณอาจพิจารณาการลงโทษสำหรับการประมาณค่าพารามิเตอร์บางอย่างเช่นสันเขา (L2) หรือลาสโซ (L1) สำหรับภาพรวมของปัญหากับคลาสที่ไม่สมดุลมากดู Cramer (1999), The Statistics, 48: 85-94 ( PDF )
ฉันไม่คุ้นเคยกับเทคนิคการให้คะแนนเครดิต แต่ผมพบว่าเอกสารบางอย่างที่ชี้ให้เห็นว่าคุณสามารถใช้ SVM กับการเรียนถ่วงน้ำหนักเช่นการสนับสนุนเวกเตอร์เครื่องจักรสำหรับการให้คะแนนเครดิตขยายไปกรณีที่ไม่ใช่มาตรฐาน คุณสามารถดูวิธีการเพิ่มด้วย CART หรือสุ่มป่า (ในกรณีหลังเป็นไปได้ที่จะปรับกลยุทธ์การสุ่มตัวอย่างเพื่อให้แต่ละชั้นแสดงเมื่อสร้างโครงสร้างการจำแนก) กระดาษโดยโนวัคและ LADUE หารือเกี่ยวกับข้อดีและข้อเสียของGLM VS แบ่งพาร์ทิชันซ้ำ ฉันยังพบบทความนี้การสร้างดัชนีชี้วัดด้วยขนาดคลาสที่ไม่สมดุลด้วย Hand และ Vinciotti
วิธีที่ได้รับความนิยมในการแก้ปัญหาความไม่สมดุลในชั้นเรียนคือการให้ความลำเอียงต่อลักษณนามเพื่อที่จะให้ความสำคัญกับตัวอย่างเชิงบวก เช่นนี้สามารถทำได้โดยการเพิ่มบทลงโทษที่เกี่ยวข้องกับการจัดคลาสบวกที่สัมพันธ์กับคลาสเชิงลบ อีกวิธีหนึ่งคือการประมวลผลข้อมูลล่วงหน้าโดยการสุ่มตัวอย่างคลาสที่เป็นส่วนใหญ่หรือทำการ Undersampling คลาสของชนกลุ่มน้อยเพื่อสร้างชุดข้อมูลที่สมดุล
อย่างไรก็ตามในกรณีของคุณความไม่สมดุลของคลาสดูเหมือนจะไม่เป็นปัญหา อาจเป็นเรื่องของการปรับพารามิเตอร์เนื่องจากการค้นหาพารามิเตอร์ที่เหมาะสมที่สุดสำหรับตัวจําแนก SVM อาจเป็นกระบวนการที่ค่อนข้างน่าเบื่อ : มีสองพารามิเตอร์สำหรับเช่นในเคอร์เนล RBF เป็นและ\ไม่ทราบล่วงหน้าว่าและดีที่สุดสำหรับปัญหาที่กำหนดหรือไม่ ดังนั้นการเลือกรูปแบบบางอย่าง (การค้นหาพารามิเตอร์) จะต้องทำ
ในขั้นตอนการประมวลผลข้อมูลล่วงหน้าโปรดจำไว้ว่า SVM ต้องการให้แต่ละอินสแตนซ์ข้อมูลแสดงเป็นเวกเตอร์ของจำนวนจริง ดังนั้นหากมีคุณลักษณะที่หมวดหมู่แนะนำให้แปลงเป็นข้อมูลตัวเลขโดยใช้หมายเลข m เพื่อแสดงแอตทริบิวต์ m-category (หรือแทนที่ด้วย m ตัวแปรไบนารีใหม่)
นอกจากนี้การปรับขนาดตัวแปรก่อนใช้ SVM เป็นสิ่งสำคัญเช่นกันเพื่อหลีกเลี่ยงแอตทริบิวต์ในช่วงตัวเลขที่มากกว่าซึ่งมีผลต่อช่วงที่เล็กกว่า
ลองดูบทความนี้
หากคุณกำลังทำงานใน R ให้ตรวจสอบฟังก์ชั่นปรับแต่ง (แพ็คเกจ e1071) เพื่อปรับแต่งพารามิเตอร์หลายมิติโดยใช้การค้นหากริดผ่านช่วงพารามิเตอร์ที่ให้มา จากนั้นใช้ plot.tuneคุณสามารถมองเห็นได้ว่าชุดของค่าใดที่ให้อัตราความผิดพลาดน้อยลง
มีทางลัดรอบ ๆ การค้นหาพารามิเตอร์ที่ใช้เวลานาน มีแพ็กเกจ R ที่เรียกว่า "svmpath" ซึ่งคำนวณพา ธ การทำให้เป็นมาตรฐานทั้งหมดสำหรับตัวจําแนก SVM แบบ 2 คลาสในครั้งเดียว นี่คือลิงค์ไปยังกระดาษที่อธิบายสิ่งที่กำลังทำอยู่
ป.ล. คุณอาจพบว่าบทความนี้น่าสนใจ: ได้รับการประเมินความน่าจะเป็นแบบสอบเทียบ
ฉันจะแนะนำให้ใช้ค่าที่แตกต่างกันของพารามิเตอร์การทำให้เป็นมาตรฐาน C สำหรับตัวอย่างของคลาสบวกและตัวอย่างของคลาสลบ (แพ็คเกจ SVM จำนวนมากสนับสนุนสิ่งนี้และในกรณีใด ๆ ก็สามารถนำไปใช้ได้อย่างง่ายดาย) จากนั้นใช้เช่นการตรวจสอบความถูกต้องข้ามเพื่อค้นหาค่าที่ดีของพารามิเตอร์การทำให้เป็นมาตรฐานสองแบบ
มันสามารถแสดงให้เห็นว่านี่เป็น asypmtotically เทียบเท่าการสุ่มตัวอย่างข้อมูลในอัตราส่วนที่กำหนดโดย C + และ C- (ดังนั้นจึงไม่มีข้อได้เปรียบในการสุ่มตัวอย่างมากกว่าการถ่วงน้ำหนักซ้ำพวกเขามาถึงสิ่งเดียวกันในตอนท้ายและน้ำหนัก สามารถต่อเนื่องมากกว่าแยกดังนั้นจึงให้การควบคุมที่ดีขึ้น)
อย่าเพียงแค่เลือก C + และ C- เพื่อให้น้ำหนัก 50-50 กับรูปแบบที่เป็นบวกและลบแม้ว่า stength ของเอฟเฟกต์ของปัญหา "คลาสที่ไม่สมดุล" จะแตกต่างจากชุดข้อมูลไปยังชุดข้อมูลดังนั้นความแข็งแรงของภาพที่ดีที่สุด น้ำหนักไม่สามารถกำหนดได้
นอกจากนี้โปรดจำไว้ว่าค่าใช้จ่ายที่เป็นบวกและลบที่เป็นเท็จอาจแตกต่างกันและปัญหาอาจแก้ไขได้ด้วยตัวเองหากสิ่งเหล่านี้รวมอยู่ในการพิจารณา C + และ C-
นอกจากนี้ยังควรคำนึงถึงด้วยว่าสำหรับปัญหาบางอย่างกฎการตัดสินใจที่ดีที่สุดของเบย์จะกำหนดรูปแบบทั้งหมดให้กับชั้นเรียนเดียวและไม่สนใจสิ่งอื่นดังนั้นจึงไม่จำเป็นต้องเป็นเรื่องเลวร้าย - มันอาจหมายถึงความหนาแน่นของรูปแบบของ ชั้นหนึ่งอยู่ด้านล่างความหนาแน่นของรูปแบบของคลาสอื่น ๆ