คำถามติดแท็ก unbalanced-classes

ข้อมูลที่จัดแบ่งเป็นหมวดหมู่หรือ * คลาส * อาจแสดงปัญหาสำหรับการวิเคราะห์บางอย่างหากจำนวนการสังเกต ( ) ที่เป็นของแต่ละคลาสนั้นไม่คงที่ตลอดทั้งคลาส คลาสที่มีไม่เท่ากันคือ * ไม่สมดุลย์ * nn

2
การเพิ่มน้ำหนักให้กับการถดถอยโลจิสติกสำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกด้วยข้อมูลที่ไม่สมดุล (9: 1) ฉันต้องการลองใช้ตัวเลือกตุ้มน้ำหนักในglmฟังก์ชันใน R แต่ฉันไม่แน่ใจ 100% ว่ามันทำอะไร c(0,0,0,0,0,0,0,0,0,1)ช่วยบอกตัวแปรเอาท์พุทของฉันคือ ตอนนี้ฉันต้องการเพิ่มน้ำหนัก "1" 10 เท่า weights=c(1,1,1,1,1,1,1,1,1,1,1,10)ดังนั้นผมจึงให้น้ำหนักการโต้แย้ง เมื่อฉันทำเช่นนั้นมันจะได้รับการพิจารณาในการคำนวณความเป็นไปได้สูงสุด ฉันถูกไหม? การจำแนกประเภทของ "1" นั้นแย่กว่านั้นเพียง 10 เท่าจากนั้นการจัดประเภทผิดพลาดเป็น "0"

2
ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่
ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง? ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง วิธี adenoidectomy a , bวิธีการผ่าตัด โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก) ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?

2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

3
ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล
ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

2
การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?
ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

3
คำแนะนำสำหรับการเรียนรู้ที่คำนึงถึงต้นทุนในการตั้งค่าที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีไม่กี่ล้านแถวและประมาณ 100 คอลัมน์ ฉันต้องการตรวจสอบประมาณ 1% ของตัวอย่างในชุดข้อมูลซึ่งเป็นของชั้นสามัญ ฉันมีข้อ จำกัด ความแม่นยำขั้นต่ำ แต่เนื่องจากค่าใช้จ่ายไม่สมมาตรฉันไม่กระตือรือร้นในการเรียกคืนใด ๆ (ตราบใดที่ฉันไม่เหลือ 10 การแข่งขันที่เป็นบวก!) มีวิธีใดบ้างที่คุณอยากแนะนำในการตั้งค่านี้? (ยินดีต้อนรับสู่ลิงก์ไปยังเอกสารลิงค์ไปยังการนำไปปฏิบัติ)

3
SVM สำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการใช้ Support Vector Machines (SVMs) ในชุดข้อมูลของฉัน ก่อนที่ฉันจะพยายามแก้ปัญหาฉันได้รับคำเตือนว่า SVM ไม่ทำงานได้ดีกับข้อมูลที่ไม่สมดุลอย่างยิ่ง ในกรณีของฉันฉันสามารถมีได้มากถึง 95-98% 0 และ 2-5% 1 ฉันพยายามค้นหาทรัพยากรที่พูดคุยเกี่ยวกับการใช้ SVM ในข้อมูลที่กระจัดกระจาย / ไม่สมดุล แต่สิ่งที่ฉันพบคือ 'sparseSVMs' (ซึ่งใช้เวกเตอร์สนับสนุนจำนวนเล็กน้อย) ฉันหวังว่าบางคนสามารถอธิบายสั้น ๆ : SVM คาดว่าจะทำอย่างไรกับชุดข้อมูลดังกล่าว ซึ่งหากมีการปรับเปลี่ยนจะต้องทำกับอัลกอริทึม SVM แหล่งข้อมูล / เอกสารใดที่กล่าวถึงเรื่องนี้


2
Support Vector Machine รองรับชุดข้อมูลที่ไม่สมดุลหรือไม่?
SVM จัดการชุดข้อมูลที่ไม่สมดุลหรือไม่ นั่นคือพารามิเตอร์ใด ๆ (เช่น C หรือค่าการแบ่งประเภท) การจัดการชุดข้อมูลที่ไม่สมดุล

1
เมื่อเกิน / ต่ำกว่าการสุ่มตัวอย่างคลาสที่ไม่สมดุลการเพิ่มความแม่นยำจะแตกต่างจากการลดค่าใช้จ่ายในการจำแนกประเภทหรือไม่?
ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ: ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น คุณจะตอบอย่างไร

1
การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?

2
ทำไม P> 0.5 cutoff ไม่“ ดีที่สุด” สำหรับการถดถอยโลจิสติก
คำนำ: ฉันไม่สนใจเกี่ยวกับข้อดีของการใช้ cutoff หรือไม่หรือควรเลือก cutoff ด้วยวิธีใด คำถามของฉันเป็นคณิตศาสตร์อย่างหมดจดและเนื่องจากความอยากรู้ การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขหลังของคลาส A กับคลาส B และมันเหมาะกับไฮเปอร์เพลนที่ความน่าจะเป็นแบบเงื่อนไขหลังมีค่าเท่ากัน ดังนั้นในทางทฤษฎีฉันเข้าใจว่า 0.5 การจำแนกจุดจะลดข้อผิดพลาดทั้งหมดโดยไม่คำนึงถึงความสมดุลเนื่องจากมันเป็นแบบจำลองความน่าจะเป็นด้านหลัง (สมมติว่าคุณพบอัตราส่วนระดับเดียวกันอย่างสม่ำเสมอ) ในตัวอย่างชีวิตจริงของฉันฉันได้รับความแม่นยำต่ำมากโดยใช้ P> 0.5 เป็นตัวเลือกการแยกประเภทของฉัน (ความแม่นยำประมาณ 51%) อย่างไรก็ตามเมื่อฉันดูที่ AUC มันสูงกว่า 0.99 ดังนั้นฉันจึงดูค่า cutoff ที่แตกต่างกันและพบว่า P> 0.6 ให้ความแม่นยำ 98% (90% สำหรับคลาสที่เล็กกว่าและ 99% สำหรับคลาสที่ใหญ่กว่า) - มีเพียง 2% ของคดีที่ไม่ได้จัดประเภท ชั้นเรียนมีความไม่สมดุลอย่างมาก (1: 9) และเป็นปัญหาระดับสูง อย่างไรก็ตามฉันจัดสรรคลาสอย่างเท่าเทียมกันในแต่ละชุดการตรวจสอบความถูกต้องไขว้กันเพื่อไม่ให้มีความแตกต่างระหว่างความสมดุลของคลาสระหว่างแบบจำลองพอดีกับการคาดเดา ฉันพยายามใช้ข้อมูลเดียวกันจากตัวแบบและในการทำนายและปัญหาเดียวกันก็เกิดขึ้น ฉันสนใจในเหตุผลที่ 0.5 จะไม่ลดข้อผิดพลาดให้น้อยที่สุดฉันคิดว่านี่น่าจะเป็นเพราะการออกแบบถ้าแบบจำลองนั้นพอดีโดยลดการสูญเสียเอนโทรปี …

1
จะลดจำนวนผลบวกปลอมได้อย่างไร
ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

1
การสร้างชุดข้อมูลที่ไม่สมดุล
ฉันต้องการให้แบบจำลองที่ผ่านการฝึกอบรมของฉันทดสอบบนชุดข้อมูลที่ไม่สมดุล มีอัลกอริทึมใดบ้างที่สามารถสร้างข้อมูลสังเคราะห์จากชุดข้อมูลที่มีข้อความสมดุล (สแปม / ไม่ใช่สแปม)

3
ฟังก์ชั่นการสูญเสียใดควรใช้เพื่อให้ได้ลักษณนามไบนารีที่มีความแม่นยำสูงหรือสูง
ฉันกำลังพยายามสร้างตัวตรวจจับวัตถุที่เกิดขึ้นน้อยมาก (ในภาพ) วางแผนที่จะใช้ตัวแยกประเภทไบนารี CNN ที่ใช้ในหน้าต่างแบบเลื่อน / ปรับขนาด ฉันได้สร้างชุดการฝึกอบรมและการทดสอบเชิงลบ 1: 1 ที่สมดุล (เป็นสิ่งที่ถูกต้องหรือไม่ที่จะทำในกรณีเช่นนี้ btw?) และตัวจําแนกทำดีในชุดทดสอบในแง่ของความถูกต้อง ตอนนี้ฉันต้องการควบคุมการจำ / ความแม่นยำของตัวจําแนกของฉันดังนั้นตัวอย่างเช่นมันจะไม่ติดฉลากผิดที่เกิดขึ้นในชั้นเรียนส่วนใหญ่มากเกินไป วิธีแก้ปัญหาที่ชัดเจน (สำหรับฉัน) คือการใช้การสูญเสียแบบโลจิสติกส์เดียวกันซึ่งตอนนี้ใช้ แต่ข้อผิดพลาดน้ำหนักประเภท I และ Type II แตกต่างกันโดยการคูณการสูญเสียในหนึ่งในสองกรณีในค่าคงที่บางอย่างซึ่งสามารถปรับได้ ถูกต้องหรือไม่ ป.ล. ในความคิดที่สองนี่เทียบเท่ากับการยกน้ำหนักตัวอย่างการฝึกอบรมมากกว่าตัวอย่างอื่น เพียงแค่เพิ่มคลาสที่มากกว่าหนึ่งชั้นจะทำให้ฉันคิดว่าเหมือนกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.