ฉันกำลังพัฒนาตัวแยกประเภทที่มีการกำกับดูแลที่มีอยู่สำหรับการจัดลำดับ {โปรตีน} ว่าเป็นของคลาสเฉพาะ (สารตั้งต้นของฮอร์โมน Neuropeptide) หรือไม่
มี "ผลบวก" ที่รู้จักกันประมาณ 1,150 ตัวโดยมีพื้นหลังของลำดับโปรตีนประมาณ 13 ล้านลำดับ ("พื้นหลังที่ไม่รู้จัก / มีคำอธิบายประกอบไม่ดี") หรือมีการตรวจสอบประมาณ 100,000 รายการที่เกี่ยวข้องกับโปรตีน วิธี "ลบ")
การนำไปใช้ก่อนหน้าของฉันดูที่นี่เป็นปัญหาการจำแนกเลขฐานสอง: Positive set = โปรตีนที่ทำเครื่องหมายเป็น Neuropeptides ชุดเชิงลบ: การสุ่มตัวอย่างตัวอย่าง 1,300 ตัวอย่าง (ทั้งหมด) จากบรรดาโปรตีนที่เหลืออยู่ซึ่งมีการกระจายความยาวที่คล้ายกัน
ใช้งานได้ แต่ฉันต้องการปรับปรุงความสามารถในการแยกแยะอย่างมากของเครื่องจักร (ปัจจุบันมีความแม่นยำ 83-86% ในแง่ของความถูกต้อง AUC, F1 ซึ่งวัดโดย CV บนชุดลบสุ่มตัวอย่างหลายชุด)
ความคิดของฉันคือ: 1) ทำให้นี่เป็นปัญหาแบบหลายคลาสโดยเลือกโปรตีน 2-3 คลาสที่จะเป็นเนกาทีฟโดยคุณสมบัติ / ชั้นเรียนการทำงานของพวกเขาพร้อมด้วย (อาจ) อีกชุดสุ่มตัวอย่าง (ลำดับความสำคัญที่นี่จะเป็นชุดเชิงลบที่มีความคล้ายคลึงในคุณลักษณะ / คุณสมบัติของชุดบวกขณะที่ยังคงมีการกำหนดลักษณะ) 2) การเรียนในชั้นเรียนหนึ่ง - จะดี แต่เมื่อฉันเข้าใจแล้วมันมีความหมายสำหรับการตรวจจับความผิดปกติและมีประสิทธิภาพที่ต่ำกว่าวิธีการเลือกปฏิบัติ
*) ฉันได้ยินการเรียนรู้ของ PU ซึ่งฟังดูเรียบร้อย แต่ฉันเป็นโปรแกรม N00b และฉันไม่รู้การใช้งานที่มีอยู่สำหรับมัน (ใน Python / sci-kit เรียนรู้)
ดังนั้นวิธีที่ 1 เข้าท่าในมุมมองเชิงทฤษฎีหรือไม่? มีวิธีที่ดีที่สุดในการสร้างชุดเชิงลบหลายชุดหรือไม่ (ฉันสามารถใช้โปรตีน "ลบ" จำนวนมาก [50K] ได้ แต่พวกมันต่างกันมาก ๆ ดังนั้นฉันจึงไม่รู้ว่าตัวแยกประเภทจะจัดการกับพวกมันได้ดีเพียงใด ) ขอบคุณ!