การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง


52

ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน


3
ฉันพบบทความนี้มีประโยชน์มากในเรื่อง: svds.com/learning-im balance
J. O'Brien Antognini

@ J.O'BrienAntognini นั่นเป็นบทความที่ดีจริงๆ!
Jinhua Wang

คำตอบ:


30

ทั้ง hxd1011 และ Frank นั้นถูกต้อง (+1) การ resampling เป็นหลักและ / หรือการเรียนรู้ที่มีความอ่อนไหวด้านค่าใช้จ่ายเป็นสองวิธีหลักในการแก้ไขปัญหาของข้อมูลที่ไม่สมดุล ที่สามคือการใช้วิธีเคอร์เนลที่บางครั้งอาจได้รับผลกระทบน้อยกว่าโดยความไม่สมดุลของคลาส ผมขอเน้นว่าไม่มีวิธีแก้ปัญหากระสุนเงิน ตามคำนิยามคุณมีหนึ่งคลาสที่แสดงไม่เพียงพอในตัวอย่างของคุณ

ต้องบอกว่าข้างต้นผมเชื่อว่าคุณจะพบว่าอัลกอริทึมSMOTEและROSEมีประโยชน์มาก SMOTE ใช้วิธีเพื่อนบ้านที่ใกล้เคียงที่สุดอย่างมีประสิทธิภาพเพื่อแยกสมาชิกของคนส่วนใหญ่ในขณะเดียวกันก็สร้างตัวอย่างสังเคราะห์ของชนกลุ่มน้อย ROSE พยายามสร้างการประมาณค่าของการแจกแจงพื้นฐานของสองคลาสโดยใช้วิธี bootstrap ที่ราบรื่นและตัวอย่างสำหรับตัวอย่างสังเคราะห์ ทั้งสองมีความพร้อมในการวิจัยประหารในแพคเกจDMwRและ ROSE ในแพคเกจที่มีชื่อเดียวกัน ทั้ง SMOTE และ ROSE ส่งผลให้มีชุดข้อมูลการฝึกอบรมที่มีขนาดเล็กกว่าชุดต้นฉบับk

ฉันอาจจะเถียงว่าดี (หรือไม่ดีน้อยกว่า) ตัวชี้วัดสำหรับกรณีของข้อมูลที่ไม่สมดุลจะใช้โคเฮนkและ / หรือผู้รับการดำเนินงานในพื้นที่ลักษณะของใต้เส้นโค้ง คัปปาของโคเฮนควบคุมโดยตรงสำหรับความแม่นยำที่คาดหวัง AUC เนื่องจากเป็นฟังก์ชั่นของความไวและความจำเพาะโค้งไม่ไวต่อความไม่เสมอภาคในสัดส่วนของคลาส โปรดสังเกตอีกครั้งว่าสิ่งเหล่านี้เป็นเพียงตัวชี้วัดที่ควรใช้กับเกลือเม็ดใหญ่ คุณควรปรับพวกเขาให้เข้ากับปัญหาเฉพาะของคุณโดยคำนึงถึงกำไรและต้นทุนที่ถูกต้องและการจำแนกประเภทที่ไม่ถูกต้องถ่ายทอดในกรณีของคุณ ฉันได้พบว่าการดูเส้นโค้งยกตัวค่อนข้างเป็นข้อมูลสำหรับเรื่องนี้ คุณควรลองใช้การทดสอบแยกต่างหากเพื่อประเมินประสิทธิภาพของอัลกอริทึมของคุณโดยไม่คำนึงถึงตัวชี้วัดของคุณ แน่นอนว่าเนื่องจากความไม่สมดุลย์ของคลาสนั้นมีความเป็นไปได้มากกว่าดังนั้นการทดสอบนอกกลุ่มตัวอย่างจึงมีความสำคัญ

อาจเป็นกระดาษล่าสุดที่ได้รับความนิยมสูงสุดในเรื่องนี้คือการเรียนรู้จากข้อมูลที่ไม่สมดุลโดย He และ Garcia มันให้ภาพรวมที่ดีมาก ๆ ของคะแนนที่ยกขึ้นมาด้วยตัวเองและในคำตอบอื่น ๆ นอกจากนี้ฉันเชื่อว่าการเดินผ่านชุดย่อยสำหรับความไม่สมดุลในชั้นเรียนซึ่งนำเสนอโดย Max Kuhn เป็นส่วนหนึ่งของแพ็คเกจcaretเป็นทรัพยากรที่ยอดเยี่ยมในการรับตัวอย่างโครงสร้างของวิธีการสุ่มตัวอย่างภายใต้ / เกินการสร้างข้อมูลสังเคราะห์ ต่อกัน


หนึ่งในสามที่นิยม (และไม่เหมาะสมเกินไป) ตัวชี้วัดที่สามคือ Area-Under-the-Curve ของเส้นโค้ง Precision-Recall Davis & James, 2006 paper ถือว่าเป็นคลาสสิกในเรื่องนี้ CV มีเธรดที่ดีเช่นกัน ฉันเพิ่งเห็นกระดาษที่มีชื่อค่อนข้างเปลี่ยว " พล็อตที่แม่นยำ - เรียกคืนมีข้อมูลมากกว่าพล็อต ROC เมื่อการประเมินตัวแยกประเภทไบนารีบนชุดข้อมูลที่ไม่สมดุล " ดังนั้นเราอาจต้องการตรวจสอบด้วยเช่นกัน
usεr11852พูดว่า Reinstate Monic

1
สำหรับการใช้งานไพ ธ อนของเทคนิคการสุ่มตัวอย่างข้อมูลที่หลากหลายฉันขอแนะนำแพ็คเกจที่ไม่สมดุล: github.com/scikit-learn-contrib/imbal-learn
Vadim Smolyakov

สำหรับการแจกแจงคลาสที่ไม่สมดุลสูง AUPRC มีข้อมูลมากกว่า AUROC รายละเอียดไม่รวมอยู่ในนี้เนื่องจากเป็นความคิดเห็น ในบรรดาหลายแหล่งหนึ่งคือที่นี่
Zhubarb

15

ก่อนการวัดการประเมินสำหรับข้อมูลที่ไม่สมดุลจะไม่ถูกต้อง สมมติว่าคุณทำการตรวจจับการโกงว่า 99.9% ของข้อมูลของคุณไม่ใช่การหลอกลวง เราสามารถสร้างหุ่นจำลองที่มีความแม่นยำ 99.9% (เพียงทำนายข้อมูลทั้งหมดที่ไม่ใช่การหลอกลวง)

คุณต้องการที่จะเปลี่ยนแปลงตัวชี้วัดการประเมินผลของคุณจากความถูกต้องเป็นอย่างอื่นเช่นคะแนน F1หรือความแม่นยำและการเรียกคืน ในลิงค์ที่สองที่ฉันให้ไว้ มีรายละเอียดและสัญชาติญาณว่าทำไมการเรียกคืนที่แม่นยำจึงใช้งานได้

สำหรับข้อมูลที่มีความไม่สมดุลสูงการสร้างแบบจำลองอาจเป็นเรื่องที่ท้าทายมาก คุณสามารถเล่นโดยใช้ฟังก์ชั่นลดน้ำหนักหรือสร้างแบบจำลองชั้นเดียวเท่านั้น เช่นSVM ชั้นเดียวหรือใส่ข้อมูลแบบเกาส์หลายแบบ (เป็นลิงก์ที่ฉันให้ไว้ก่อนหน้านี้)


2
F1

ลิงก์ไปยัง "ความแม่นยำและการเรียกคืน" นั้นตายไปแล้วหรือ
เจสัน

13

ปัญหาความไม่สมดุลของคลาสสามารถแก้ไขได้ด้วยการเรียนรู้ที่คุ้มค่าหรือการสุ่มใหม่ ดูข้อดีและข้อเสียของการเรียนรู้ที่คำนึงถึงต้นทุนและการสุ่มตัวอย่างคัดลอกด้านล่าง:


{1} ให้รายการข้อดีและข้อเสียของการเรียนรู้ที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง:

2.2 การสุ่มตัวอย่าง

สามารถใช้ oversampling และ undersampling เพื่อปรับเปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมและใช้วิธีทั้งสองเพื่อจัดการกับความไม่สมดุลของคลาส [1, 2, 3, 6, 10, 11] เหตุผลที่เปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมช่วยการเรียนรู้ด้วยชุดข้อมูลที่มีความเบ้สูงนั่นคือมันมีผลในการกำหนดค่าการแบ่งประเภทที่ไม่เหมือนกันอย่างมีประสิทธิภาพ ตัวอย่างเช่นหากมีการเปลี่ยนแปลงการกระจายชั้นเรียนของชุดการฝึกอบรมเพื่อให้อัตราส่วนของตัวอย่างบวกกับลบเป็นไปจาก 1: 1 ถึง 2: 1 จากนั้นจะมีการกำหนดอัตราส่วนต้นทุนที่ผิดพลาดได้อย่างมีประสิทธิภาพ 2: 1 ความเท่าเทียมกันระหว่างการเปลี่ยนแปลงการกระจายคลาสของข้อมูลการฝึกอบรมและการเปลี่ยนแปลงอัตราส่วนค่าใช้จ่ายการจำแนกประเภทเป็นที่รู้จักกันดีและได้รับการอธิบายอย่างเป็นทางการโดย Elkan [9]

มีข้อเสียที่รู้จักกันที่เกี่ยวข้องกับการใช้การสุ่มตัวอย่างเพื่อใช้การเรียนรู้ที่มีความอ่อนไหวด้านราคา เสียเปรียบกับ undersampling ก็คือว่ามันทิ้งข้อมูลที่เป็นประโยชน์ที่อาจเกิดขึ้น ข้อเสียเปรียบหลักกับการ oversamplingจากมุมมองของเราคือการทำสำเนาตัวอย่างที่มีอยู่อย่างถูกต้องจะทำให้มีโอกาสมากเกินไป ในความเป็นจริงแล้วการมีการสุ่มตัวอย่างมากเกินไปเป็นเรื่องปกติสำหรับผู้เรียนในการสร้างกฎการจัดหมวดหมู่เพื่อให้ครอบคลุมตัวอย่างเดียวที่ทำซ้ำ ข้อเสียที่สองของ oversampling คือมันจะเพิ่มจำนวนตัวอย่างการฝึกอบรมจึง i ncreasing เวลาการเรียนรู้

2.3 ทำไมต้องใช้การสุ่มตัวอย่าง

เมื่อพิจารณาข้อเสียด้วยการสุ่มตัวอย่างมันก็คุ้มค่าที่จะถามว่าทำไมทุกคนจะใช้มันแทนที่จะเป็นอัลกอริธึมการเรียนรู้ที่คำนึงถึงต้นทุนสำหรับการจัดการกับข้อมูลด้วยการกระจายคลาสที่เบ้และค่าใช้จ่ายที่ไม่สม่ำเสมอ มีหลายสาเหตุนี้. เหตุผลที่ชัดเจนที่สุดคือไม่มีการใช้งานที่มีความอ่อนไหวด้านต้นทุนของอัลกอริทึมการเรียนรู้ทั้งหมดและดังนั้นวิธีการที่ใช้การห่อหุ้มโดยใช้การสุ่มตัวอย่างเป็นเพียงตัวเลือกเดียว แม้ว่าสิ่งนี้จะเป็นจริงในปัจจุบันน้อยกว่าในอดีต แต่อัลกอริทึมการเรียนรู้หลายอย่าง (เช่น C4.5) ยังไม่ได้จัดการค่าใช้จ่ายโดยตรงในกระบวนการเรียนรู้

เหตุผลที่สองสำหรับการใช้การสุ่มตัวอย่างคือชุดข้อมูลที่บิดเบือนสูงจำนวนมากนั้นมีขนาดใหญ่และขนาดของชุดการฝึกอบรมจะต้องลดลงเพื่อให้การเรียนรู้เป็นไปได้ ในกรณีนี้การ Undersampling น่าจะเป็นกลยุทธ์ที่สมเหตุสมผลและถูกต้อง ในบทความนี้เราไม่พิจารณาถึงความจำเป็นในการลดขนาดชุดฝึกอบรม อย่างไรก็ตามเราจะชี้ให้เห็นว่าหากเราต้องการทิ้งข้อมูลการฝึกอบรมบางอย่างมันอาจจะเป็นประโยชน์ในการทิ้งตัวอย่างส่วนใหญ่ของชั้นเรียนบางส่วนเพื่อลดขนาดชุดฝึกอบรมเป็นขนาดที่ต้องการและจากนั้นก็ใช้ต้นทุน - ขั้นตอนวิธีการเรียนรู้ที่ละเอียดอ่อนเพื่อลดปริมาณข้อมูลการฝึกอบรมที่ถูกทิ้งให้น้อยที่สุด

เหตุผลสุดท้ายที่อาจมีส่วนในการใช้การสุ่มตัวอย่างมากกว่าอัลกอริทึมการเรียนรู้ที่มีความอ่อนไหวด้านต้นทุนคือค่าใช้จ่ายในการจำแนกประเภทมักไม่เป็นที่รู้จัก อย่างไรก็ตามนี่ไม่ใช่เหตุผลที่ถูกต้องสำหรับการใช้การสุ่มตัวอย่างผ่านอัลกอริทึมการเรียนรู้ที่มีค่าใช้จ่ายเนื่องจากปัญหาที่คล้ายคลึงกันเกิดขึ้นกับการสุ่มตัวอย่าง - การกระจายคลาสของข้อมูลการฝึกอบรมขั้นสุดท้ายควรเป็นอย่างไร หากไม่ทราบข้อมูลต้นทุนนี้การวัดเช่นพื้นที่ใต้เส้นโค้ง ROC สามารถใช้เพื่อวัดประสิทธิภาพของตัวจําแนกและทั้งสองวิธีจะสามารถกําหนดอัตราส่วนต้นทุน / การกระจายชั้นที่เหมาะสม

พวกเขายังทำการทดลองหลายชุดซึ่งสรุปไม่ได้:

จากผลลัพธ์ของชุดข้อมูลทั้งหมดไม่มีผู้ชนะที่แน่นอนระหว่างการเรียนรู้ที่คำนึงถึงต้นทุนการ oversampling และ undersampling

จากนั้นพวกเขาพยายามที่จะเข้าใจว่าเกณฑ์ใดในชุดข้อมูลอาจบอกใบ้ว่าเทคนิคใดเหมาะสมที่สุด

พวกเขายังตั้งข้อสังเกตว่า SMOTE อาจนำมาปรับปรุงบางอย่าง:

มีการปรับปรุงหลายอย่างที่ผู้คนทำเพื่อปรับปรุงประสิทธิภาพของการสุ่มตัวอย่าง บางส่วนของการปรับปรุงเหล่านี้รวมถึงการแนะนำตัวอย่าง "สังเคราะห์" ใหม่เมื่อ oversampling [5 -> SMOTE] การลบตัวอย่างส่วนใหญ่ที่มีประโยชน์น้อยกว่าเมื่อ Undersampling [11] และใช้ตัวอย่างย่อยหลายตัวอย่างเมื่อใช้การ Undersampling อย่างน้อยหนึ่งตัวอย่าง ตัวอย่างย่อย [3] ในขณะที่เทคนิคเหล่านี้ถูกนำมาเปรียบเทียบกับการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำ นี่จะเป็นสิ่งที่ควรค่าแก่การศึกษาในอนาคต


{1} ไวส์แกรี่เอ็มเคทแม็กคาร์ธีและบิบิซาบาร์ "การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุนเทียบกับการสุ่มตัวอย่าง: วิธีใดดีที่สุดสำหรับการจัดการคลาสที่ไม่สมดุลกับค่าความผิดพลาดที่ไม่เท่ากัน" DMIN 7 (2007): 35-41 https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


1
ดังนั้นเพื่อสรุปลิงก์: มีผลลัพธ์ที่วิธีใดดีกว่าไม่สามารถสรุปได้และง่ายต่อการใช้ตัวอย่าง / under-over-sampling ขวา?
LazyCat

1
@ LazyCat ถูกต้อง
Franck Dernoncourt

ใช่แพลตฟอร์มมีข้อ จำกัด แต่หลายคนยังมีคุณสมบัติ ตัวอย่างเช่นฉันจะสมมติว่าหากคำตอบที่ยาวและละเอียดอย่างนี้สามารถตอบคำถามสองข้อได้อย่างเพียงพอคำถามเหล่านั้นจะต้องซ้ำกัน และหากพวกเขาไม่ซ้ำซ้อนก็ควรเป็นไปได้ที่จะเปลี่ยนแปลงคำตอบของคน ๆ หนึ่งในวิธีที่มีความหมาย การกระทำใดที่ควรทำในกรณีนี้ (cc @gung)
whuber

@whuber คำถามอื่น ๆ ถูกปิดแล้ว :-)
Franck Dernoncourt

1
โอเค - นั่นคือเหตุผลที่โน้มน้าวใจ!
whuber

6

คำตอบหลายข้อสำหรับแบบสอบถามนี้ได้ให้วิธีการที่แตกต่างกันหลายวิธีใช้ได้ทั้งหมด คำแนะนำนี้มาจากเอกสารและซอฟต์แวร์ที่เกี่ยวข้องโดย Gary King นักวิทยาศาสตร์ทางการเมืองที่มีชื่อเสียงของ Harvard เขาได้ร่วมเขียนบทความเรื่องLogistic Regression ในข้อมูลเหตุการณ์ที่หายากซึ่งมีวิธีแก้ปัญหาที่ตรงประเด็น

นี่คือบทคัดย่อ:

เราศึกษาข้อมูลเหตุการณ์ที่หายากตัวแปรตามแบบไบนารีที่มีจำนวนน้อยลงนับสิบถึงหลายพันครั้ง (เหตุการณ์เช่นสงคราม vetoes กรณีของการเคลื่อนไหวทางการเมืองหรือการติดเชื้อทางระบาดวิทยา) กว่าศูนย์ ("nonevents") ในวรรณกรรมหลายเล่มตัวแปรเหล่านี้พิสูจน์ได้ยากที่จะอธิบายและคาดการณ์ปัญหาที่ดูเหมือนจะมีอย่างน้อยสองแหล่ง ขั้นแรกกระบวนการทางสถิติที่ได้รับความนิยมเช่นการถดถอยโลจิสติกสามารถประเมินความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นได้น้อยมาก เราขอแนะนำการแก้ไขที่มีประสิทธิภาพสูงกว่าวิธีการที่มีอยู่และเปลี่ยนการประมาณการความเสี่ยงแบบสัมบูรณ์และแบบสัมพัทธ์โดยให้มากที่สุดเท่าที่จะได้รับผลกระทบโดยประมาณที่รายงานไว้ในเอกสาร ประการที่สองกลยุทธ์การรวบรวมข้อมูลที่ใช้กันทั่วไปนั้นไม่มีประสิทธิภาพอย่างมากสำหรับข้อมูลเหตุการณ์ที่หายาก ความกลัวในการรวบรวมข้อมูลที่มีเหตุการณ์น้อยเกินไปนำไปสู่การรวบรวมข้อมูลที่มีการสังเกตจำนวนมาก แต่มีตัวแปรที่อธิบายได้ค่อนข้างน้อยและวัดได้ไม่ดีเช่นในข้อมูลความขัดแย้งระหว่างประเทศ กำลังทำสงคราม เมื่อมันปรากฏออกมามีการออกแบบการสุ่มตัวอย่างที่มีประสิทธิภาพมากขึ้นสำหรับการอนุมานที่ถูกต้องเช่นการสุ่มตัวอย่างเหตุการณ์ตัวแปรทั้งหมด (เช่นสงคราม) และเศษเสี้ยวเล็ก ๆ ของ nonevents (สันติภาพ) สิ่งนี้ช่วยให้นักวิชาการประหยัดได้มากถึง 99% ของต้นทุนการรวบรวมข้อมูล (ที่ไม่มีการแก้ไข) หรือรวบรวมตัวแปรอธิบายที่มีความหมายมากขึ้น เรามีวิธีการที่เชื่อมโยงผลลัพธ์ทั้งสองนี้ทำให้ทั้งสองประเภทของการแก้ไขสามารถทำงานพร้อมกันได้และซอฟต์แวร์ที่ใช้วิธีการที่พัฒนาขึ้น และตัวแปรอธิบายที่วัดได้ไม่ดีเช่นในข้อมูลความขัดแย้งระหว่างประเทศที่มีสีย้อมมากกว่าหนึ่งในสี่ล้านเล่มมีเพียงไม่กี่แห่งเท่านั้นที่กำลังทำสงคราม เมื่อมันปรากฏออกมามีการออกแบบการสุ่มตัวอย่างที่มีประสิทธิภาพมากขึ้นสำหรับการอนุมานที่ถูกต้องเช่นการสุ่มตัวอย่างเหตุการณ์ตัวแปรทั้งหมด (เช่นสงคราม) และเศษเสี้ยวเล็ก ๆ ของ nonevents (สันติภาพ) สิ่งนี้ช่วยให้นักวิชาการประหยัดได้มากถึง 99% ของต้นทุนการรวบรวมข้อมูล (ที่ไม่มีการแก้ไข) หรือรวบรวมตัวแปรอธิบายที่มีความหมายมากขึ้น เรามีวิธีการที่เชื่อมโยงผลลัพธ์ทั้งสองนี้ทำให้ทั้งสองประเภทของการแก้ไขสามารถทำงานพร้อมกันได้และซอฟต์แวร์ที่ใช้วิธีการที่พัฒนาขึ้น และตัวแปรอธิบายที่วัดได้ไม่ดีเช่นในข้อมูลความขัดแย้งระหว่างประเทศที่มีสีย้อมมากกว่าหนึ่งในสี่ล้านเล่มมีเพียงไม่กี่แห่งเท่านั้นที่กำลังทำสงคราม เมื่อมันปรากฏออกมามีการออกแบบการสุ่มตัวอย่างที่มีประสิทธิภาพมากขึ้นสำหรับการอนุมานที่ถูกต้องเช่นการสุ่มตัวอย่างเหตุการณ์ตัวแปรทั้งหมด (เช่นสงคราม) และเศษเสี้ยวเล็ก ๆ ของ nonevents (สันติภาพ) สิ่งนี้ช่วยให้นักวิชาการประหยัดได้มากถึง 99% ของต้นทุนการรวบรวมข้อมูล (ที่ไม่มีการแก้ไข) หรือรวบรวมตัวแปรอธิบายที่มีความหมายมากขึ้น เรามีวิธีการที่เชื่อมโยงผลลัพธ์ทั้งสองนี้ทำให้ทั้งสองประเภทของการแก้ไขสามารถทำงานพร้อมกันได้และซอฟต์แวร์ที่ใช้วิธีการที่พัฒนาขึ้น มีการออกแบบการสุ่มตัวอย่างที่มีประสิทธิภาพมากขึ้นสำหรับการอนุมานที่ถูกต้องเช่นการสุ่มตัวอย่างเหตุการณ์ตัวแปรทั้งหมด (เช่นสงคราม) และส่วนที่ไม่ได้อยู่ในกลุ่มเล็ก ๆ (ความสงบ) สิ่งนี้ช่วยให้นักวิชาการประหยัดได้มากถึง 99% ของต้นทุนการรวบรวมข้อมูล (ที่ไม่มีการแก้ไข) หรือรวบรวมตัวแปรอธิบายที่มีความหมายมากขึ้น เรามีวิธีการที่เชื่อมโยงผลลัพธ์ทั้งสองนี้ทำให้ทั้งสองประเภทของการแก้ไขสามารถทำงานพร้อมกันได้และซอฟต์แวร์ที่ใช้วิธีการที่พัฒนาขึ้น มีการออกแบบการสุ่มตัวอย่างที่มีประสิทธิภาพมากขึ้นสำหรับการใช้การอนุมานที่ถูกต้องเช่นการสุ่มตัวอย่างเหตุการณ์ตัวแปรทั้งหมด (เช่นสงคราม) และส่วนที่ไม่ใช่เล็กน้อย (สันติภาพ) สิ่งนี้ช่วยให้นักวิชาการประหยัดได้มากถึง 99% ของต้นทุนการรวบรวมข้อมูล (ที่ไม่มีการแก้ไข) หรือรวบรวมตัวแปรอธิบายที่มีความหมายมากขึ้น เรามีวิธีการที่เชื่อมโยงผลลัพธ์ทั้งสองนี้ทำให้ทั้งสองประเภทของการแก้ไขสามารถทำงานพร้อมกันได้และซอฟต์แวร์ที่ใช้วิธีการที่พัฒนาขึ้น

นี่คือลิงค์ไปยังกระดาษ ... http://gking.harvard.edu/files/abs/0s-abs.shtml


ขอบคุณ - ถ้าคุณอ่านบทความพวกเขาแนะนำสิ่งที่สำคัญเกินกว่าการสุ่มตัวอย่างที่แนะนำข้างต้นหรือไม่?
LazyCat

4
นี่เป็นกระดาษที่ดีฉันได้อ่านมันมากกว่าหนึ่งครั้ง! (+1) ฉันคิดว่าคุณควรจะชี้ให้เห็นว่ากระดาษมีความสนใจในการอนุมาน นี่คือเหตุผลที่ GBM จะมีประโยชน์น้อยกว่ากับนักรัฐศาสตร์เมื่อเปรียบเทียบกับ GLM ตัวอย่างเช่นหากมีการใช้วิธีการแบบต้นไม้: " ... อัลกอริทึมแบบเรียกซ้ำแบบสองส่วนสามารถบรรลุความแม่นยำในการทำนายแบบเดียวกัน แต่ในขณะเดียวกันความสัมพันธ์แบบถดถอยเชิงโครงสร้างก็มีความสัมพันธ์ที่แตกต่างกันเช่นแบบจำลองที่แตกต่างกัน ของโควาเรียบางตัวในการตอบสนอง "(Hothorn et al. 2006)
usεr11852กล่าวว่า Reinstate Monic

2

การพัฒนาตัวจําแนกสำหรับชุดข้อมูลที่มีคลาสที่ไม่สมดุลนั้นเป็นปัญหาที่พบบ่อยในการเรียนรู้ของเครื่อง วิธีการที่ยึดตามความหนาแน่นอาจมีข้อดีที่สำคัญเหนือ "classifers แบบดั้งเดิม" ในสถานการณ์เช่นนี้

พี^(x|YC)CC={x:Yผม=0}

x* * * *Y^(x* * * *)CY^(x* * * *)C

คุณสามารถอ้างถึงเอกสารต่อไปนี้:

"ตัวประมาณค่าปลั๊กอินที่คำนวณได้ของชุดระดับเสียงต่ำสุดสำหรับการตรวจจับสิ่งแปลกใหม่" C. Park, J. Huang และ Y. Ding, การวิจัยการปฏิบัติการ, 58 (5), 2013


2

นี่เป็นปัญหาที่การตรวจจับความผิดปกติเป็นแนวทางที่มีประโยชน์ นี่คือสิ่งที่ร็อดริโกอธิบายไว้ในคำตอบของเขาซึ่งคุณกำหนดโปรไฟล์ทางสถิติของคลาสการฝึกอบรมของคุณและกำหนดเกณฑ์ความน่าจะเป็นซึ่งเกินกว่าที่การวัดในอนาคตจะถูกพิจารณาว่าไม่ได้อยู่ในชั้นเรียนนั้น นี่คือวิดีโอสอนซึ่งจะให้คุณเริ่มต้น เมื่อคุณได้ดูดซับแล้วฉันจะแนะนำให้ค้นหาการประมาณความหนาแน่นของเคอร์เนล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.