เมื่อไหร่ที่เราจะบอกว่าชุดข้อมูลนั้นไม่สามารถจำแนกได้?


11

ฉันมีการวิเคราะห์ชุดข้อมูลหลายครั้งซึ่งฉันไม่สามารถจำแนกประเภทได้ เพื่อดูว่าฉันจะได้ลักษณนามฉันมักจะใช้ขั้นตอนต่อไปนี้:

  1. สร้างพล็อตกล่องฉลากกับค่าตัวเลข
  2. ลดมิติเป็น 2 หรือ 3 เพื่อดูว่าคลาสแยกออกจากกันได้หรือไม่ลอง LDA ในบางครั้ง
  3. พยายามปรับให้เหมาะสมกับ SVM และป่าสุ่มและดูความสำคัญของฟีเจอร์เพื่อดูว่าคุณสมบัตินั้นเหมาะสมหรือไม่
  4. ลองเปลี่ยนความสมดุลของคลาสและเทคนิคต่าง ๆ เช่นการสุ่มตัวอย่างต่ำเกินไปและการสุ่มตัวอย่างมากเกินไปเพื่อตรวจสอบว่าความไม่สมดุลของคลาสอาจเป็นปัญหาหรือไม่

มีวิธีอื่นอีกมากมายที่ฉันนึกได้ แต่ยังไม่ได้ลอง บางครั้งฉันรู้ว่าคุณสมบัติเหล่านี้ไม่ดีและไม่เกี่ยวข้องกับป้ายกำกับที่เราพยายามคาดการณ์ จากนั้นฉันก็ใช้สัญชาตญาณทางธุรกิจนั้นเพื่อยุติการฝึกโดยสรุปว่าเราต้องการคุณสมบัติที่ดีกว่าหรือป้ายกำกับที่ต่างออกไปโดยสิ้นเชิง

คำถามของฉันคือนักวิทยาศาสตร์ข้อมูลรายงานว่าการจำแนกประเภทไม่สามารถทำได้ด้วยคุณสมบัติเหล่านี้ มีวิธีทางสถิติในการรายงานหรือปรับข้อมูลในอัลกอริทึมที่แตกต่างกันก่อนและการดูการตรวจสอบความถูกต้องเป็นตัวเลือกที่ดีที่สุดหรือไม่?


ฉันรู้สึกว่าถ้าคำถามนี้มีคำตอบที่ชัดเจนและมีวัตถุประสงค์ความพยายามทางวิทยาศาสตร์ทั้งหมดจะไม่มีความหมาย วิทยาศาสตร์เป็นศิลปะ
Mephy

ฮ่าฮ่าใช่จริง ฉันแค่อยากรู้วิธีการเพิ่มเติมเพื่อค้นหาความสามารถในการแยก แสดงให้เห็นถึงวิธีการแสดงให้ลูกค้าเห็นว่าการใช้เวลามากขึ้นในการออกกำลังกายบางอย่างอาจไร้ประโยชน์
vc_dim

1
ฉันขอแนะนำให้ลดย่อหน้าสองย่อหน้าสุดท้ายเนื่องจากพวกเขาทำให้คำถามเปิด / กว้างเกินไป ส่วนแรก - วิธีจัดการและรายงานผลที่ไม่เป็นมืออาชีพ - ควรตอบได้และโดยส่วนตัวฉันคิดว่าเราต้องการคำถามจรรยาบรรณวิชาชีพด้านวิทยาศาสตร์ข้อมูลประเภทนี้เพิ่มเติมในเว็บไซต์
Neil Slater

ทำให้รู้สึกนีล การแก้ไขให้คมชัด
vc_dim

คำตอบ:


4

ขึ้นอยู่กับข้อมูลของคุณ มีบางอย่างที่เรียกว่าข้อผิดพลาดระดับมนุษย์ สมมติว่างานเช่นการอ่านหนังสือที่พิมพ์ออกมามนุษย์ไม่ต้องดิ้นรนอ่านและมันอาจจะไม่เกิดความผิดพลาดเว้นแต่จะมีคุณภาพการพิมพ์ที่ไม่ดี ในกรณีเช่นการอ่านต้นฉบับที่เขียนด้วยมือมันอาจเกิดขึ้นได้มากมายที่จะไม่เข้าใจทุกคำหากตัวอักษรของผู้เขียนนั้นแปลกกับผู้อ่าน ในสถานการณ์แรกข้อผิดพลาดระดับมนุษย์ต่ำเกินไปและอัลกอริธึมการเรียนรู้อาจมีประสิทธิภาพเหมือนกัน แต่ตัวอย่างที่สองแสดงให้เห็นถึงความจริงที่ว่าในบางสถานการณ์ข้อผิดพลาดระดับมนุษย์นั้นสูงมากและเป็นไปตามปกติ (ถ้าคุณใช้เหมือนกัน ฟีเจอร์เหมือนมนุษย์) อัลกอริทึมการเรียนรู้ของคุณจะมีอัตราส่วนข้อผิดพลาดมาก

ในการเรียนรู้ทางสถิติมีสิ่งที่เรียกว่าBayes Errorเมื่อใดก็ตามที่การกระจายตัวของชั้นเรียนซ้ำซ้อนอัตราส่วนของข้อผิดพลาดจะมีขนาดใหญ่ ข้อผิดพลาด Bayes ของการกระจายปัจจุบันคือประสิทธิภาพที่ดีที่สุดและไม่สามารถลดได้เลย

ฉันยังขอแนะนำให้คุณอ่านที่นี่ ปัญหาเกี่ยวกับข้อผิดพลาดของ Bayes จำนวนมากที่มีคุณสมบัติที่ได้รับการแต่งตั้งจะถือว่าไม่สามารถจำแนกได้ในพื้นที่ของคุณลักษณะเหล่านั้น เป็นอีกตัวอย่างหนึ่งที่คุณสามารถสมมติว่าคุณต้องการจัดประเภทรถยนต์ด้วยไฟติด หากคุณพยายามทำเช่นนั้นในตอนเช้าคุณอาจมีข้อผิดพลาดมากมายและถ้าคุณใช้ภาพเดียวกันในการฝึกอบรมอัลกอริทึมการเรียนรู้ก็อาจมีเช่นกัน

นอกจากนี้ฉันขอแนะนำให้คุณไม่เปลี่ยนการกระจายชั้นเรียนของคุณ ในกรณีเช่นนี้ผลของตัวจําแนกใกล้กับขอบเขตจะเป็นแบบสุ่มสมบูรณ์ การกระจายข้อมูลสำหรับการฝึกอบรมอัลกอริทึมการเรียนรู้เครื่องของคุณไม่ควรเปลี่ยนแปลงและควรเป็นตามสภาพจริง


สิ่งนี้มีประโยชน์ฉันไม่ทราบเกี่ยวกับข้อผิดพลาดของเบย์ ฉันพบปัญหาในการปรับปรุงความถูกต้องหลังจากเปลี่ยนการกระจายชั้นเรียน ฉันเห็นด้วยไม่ใช่ความคิดที่ดี ถึงกระนั้นฉันก็พยายามเปลี่ยนลำดับชั้นของชั้นหวังว่าฟีเจอร์อาจเป็นตัวแทนของชั้นย่อยหรือนามธรรมมากขึ้น (เช่นการเปลี่ยนลิงสุนัขและอื่น ๆ เป็น Mammal) ฉันคิดว่าถ้ามีข้อผิดพลาด Bayes การเปลี่ยนลำดับชั้นของชั้นจะไม่ช่วยเช่นกัน
vc_dim

@SumitSinghChauhan ที่จริงแล้วในสถานการณ์ที่ข้อผิดพลาดของ Bayes มีขนาดใหญ่การพยายามทำวิศวกรรมฟีเจอร์เป็นทางออกที่ดีที่สุด เพราะการเรียนรู้อย่างลึกซึ้งซึ่งค้นหาคุณสมบัติตัวเองไม่สามารถใช้ในกรณีที่ชุดข้อมูลไม่ใหญ่
สื่อ

5

ใช้องค์ประกอบตัวอย่างจากชั้นหนึ่งและองค์ประกอบตัวอย่างจากชั้นอื่น ๆ เป็นไปได้ไหมที่องค์ประกอบทั้งสองนี้จะมีเวกเตอร์คุณสมบัติที่เหมือนกันหรือไม่? หากที่สามารถที่เคยเกิดขึ้นแล้วสองชั้นไม่ได้ seperable สมบูรณ์โดยใช้พาหะคุณลักษณะปัจจุบันของคุณ (ตั้งแต่การตัดสินใจการจัดหมวดหมู่จะขึ้นอยู่ทั้งหมดในเวกเตอร์คุณลักษณะสำหรับองค์ประกอบที่กำหนด)

ในทางกลับกันหากองค์ประกอบ * ทุก ๆ ตัวในคลาสหนึ่งมีองค์ประกอบที่ตรงกันในอีกชั้นหนึ่งซึ่งองค์ประกอบทั้งสองนั้นมีคุณสมบัติเวกเตอร์เดียวกันดังนั้นทั้งสองคลาสจะแยกไม่ออกโดยใช้เวกเตอร์คุณลักษณะปัจจุบันของคุณ

นอกจากนี้หากเงื่อนไขนั้นมีไว้สำหรับองค์ประกอบบางส่วนเท่านั้นและไม่ใช่องค์ประกอบอื่น ๆ แสดงว่าคุณอยู่ในระหว่างนั้นและคุณสามารถใช้สิ่งนั้นเป็นพื้นฐานในการวัดความดีที่คุณสามารถหวังว่าตัวแยกประเภทจะทำงานโดยใช้ชุดคุณลักษณะปัจจุบันของคุณ

การประเมินทั้งหมดเหล่านี้สามารถใช้เพื่อยืนยันองศาที่แตกต่างที่คุณต้องการแยกคุณลักษณะเพิ่มเติม


1
ขอบคุณโรเบิร์ต นี่เป็นสิ่งที่คุ้นเคยและดูเหมือนว่าถูก ฉันได้ทำการวิเคราะห์แบบเดียวกันสำหรับบางโครงการ ฉันมีชุดข้อมูลที่มีคุณสมบัติของเวกเตอร์เดียวกันการติดแท็กแตกต่างกันและใช้เป็นพื้นฐานสำหรับความแม่นยำที่ฉันสามารถทำได้ บางครั้งการวางแผนลงจุดกล่องช่วยด้วย จนถึงตอนนี้ฉันได้พบวิธีการที่คุณเพิ่งพูดถึงสิ่งที่ดีที่สุดในการโน้มน้าวใจลูกค้า
vc_dim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.