ลักษณนามสำหรับคลาสเดียวเท่านั้น


10

ในการจำแนกอย่างง่ายเรามีสองคลาส: class-0 และ class-1 ในข้อมูลบางอย่างฉันมีค่าสำหรับ class-1 เท่านั้นดังนั้นไม่มีสำหรับ class-0 ตอนนี้ฉันกำลังคิดที่จะสร้างแบบจำลองเพื่อจำลองข้อมูลสำหรับ class-1 ดังนั้นเมื่อมีข้อมูลใหม่มาโมเดลนี้จะถูกนำไปใช้กับข้อมูลใหม่และพบว่ามีความน่าจะเป็นที่จะบอกว่าข้อมูลใหม่นั้นเหมาะสมกับโมเดลนี้อย่างไร จากนั้นเปรียบเทียบกับเกณฑ์ฉันสามารถกรองข้อมูลที่ไม่เหมาะสม

คำถามของฉันคือ:

  • นี่เป็นวิธีที่ดีในการทำงานกับปัญหาดังกล่าวหรือไม่?
  • ลักษณนาม RandomForest สามารถใช้กับกรณีนี้ได้หรือไม่? ฉันจำเป็นต้องเพิ่มข้อมูลเทียมสำหรับ class-0 ซึ่งฉันหวังว่าตัวจําแนกเป็นเสียงรบกวนหรือไม่?
  • แนวคิดอื่นใดที่อาจช่วยแก้ไขปัญหานี้ได้?

คำตอบ:


9

นี่เป็นไปได้โดยใช้วิธีการบางอย่างและเป็นวิธีที่ถูกต้องแน่นอน ฉันไม่แน่ใจว่าป่าสุ่มสามารถทำสิ่งนี้ได้หรือไม่

การสร้างข้อมูลเทียมหมายถึงการตั้งสมมติฐานเพิ่มเติมอย่าทำเช่นนั้นหากคุณไม่จำเป็นต้องทำ

เทคนิคหนึ่งที่คุณอาจต้องพิจารณาคือ SVM แบบชั้นเดียว มันทำสิ่งที่คุณต้องการอย่างแน่นอน: พยายามสร้างแบบจำลองที่ยอมรับจุดฝึกอบรมและจะปฏิเสธคะแนนจากการแจกแจงแบบอื่น

การอ้างอิงบางส่วนเกี่ยวกับ SVM แบบชั้นเดียว:

  1. Schölkopf, Bernhard และคณะ "การประมาณการสนับสนุนการกระจายแบบมิติสูง" การคำนวณระบบประสาท 13.7 (2001): 1443-1471 บทความนี้แนะนำวิธีการ

  2. ภาษี, David MJ และ Robert PW Duin "รองรับคำอธิบายข้อมูลเวคเตอร์" การเรียนรู้ของเครื่อง 54.1 (2004): 45-66 วิธีที่แตกต่างในการทำสิ่งเดียวกันอาจใช้งานง่ายกว่า

วิธีการทั้งสองนี้แสดงให้เห็นว่าเท่าเทียมกัน ครั้งแรกประมาณไฮเปอร์เพลนที่แยกข้อมูลการฝึกอบรมทั้งหมดจากแหล่งกำเนิดในพื้นที่คุณลักษณะด้วยระยะทางสูงสุด ครั้งที่สองประมาณ hypersphere ด้วยรัศมีน้อยที่สุดในพื้นที่คุณลักษณะที่มีอินสแตนซ์การฝึกอบรม

SVM แบบชั้นเดียวมีให้ในแพ็คเกจ SVM หลายแบบรวมถึงlibsvm , scikit-Learn (Python) และkernlab (R)


3
ภาษีวิทยานิพนธ์ปริญญาเอก "การจำแนกประเภทหนึ่งระดับ - แนวคิดการเรียนรู้ในตัวตนของเคาน์เตอร์ตัวอย่าง" นอกจากนี้ยังมี: homepage.tudelft.nl/n9d04/thesis.pdf
cbeleites ไม่มีความสุขกับ SX

สั้นและแม่นยำ! (+1) "วิธีการทั้งสองนี้แสดงให้เห็นว่าเท่าเทียมกัน" - คุณสามารถระบุการอ้างอิง / การอ้างอิงสำหรับสิ่งนั้นได้หรือไม่? มันคือscholar.google.de/…
Boern

6

ให้ฉันเพิ่มความเป็นไปได้เพิ่มเติม:

แนวคิดทั่วไปคือการตั้งค่าขีด จำกัด ของระยะห่างจากคลาสช่วยให้คุณตัดสินใจได้ว่าตัวอย่างอยู่ในคลาสนั้นหรือไม่และไม่ว่าจะมีคลาสอื่นหรือไม่ก็ตาม

  • Mahalanobis-Distance => QDA
  • SIMCA (การจำลองแบบอิสระอย่างอ่อนของคลาสอะนาล็อก) ใช้ระยะทางในพื้นที่คะแนน PCA
    SIMCA เป็นเรื่องธรรมดาในวรรณคดีเชิงเคมี (แม้ว่าจะไม่ค่อยตั้งขึ้นมาในชั้นเดียว)
  • (SVM ได้รับการปฏิบัติในคำตอบของ @Marc Claesen แล้ว)

Richard G. Brereton: เคมีสำหรับการจดจำรูปแบบ (Wiley, 2009) มีทั้งบทเกี่ยวกับการจำแนกประเภทหนึ่งชั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.