บริบท: ฉันกำลังพัฒนาระบบที่วิเคราะห์ข้อมูลทางคลินิกเพื่อกรองข้อมูลที่ไม่น่าเชื่อที่อาจเป็นตัวพิมพ์ผิด
สิ่งที่ฉันทำจนถึง:
ในการหาปริมาณที่เป็นไปได้ความพยายามของฉันคือการทำให้ข้อมูลเป็นปกติแล้วคำนวณค่าความน่าเชื่อถือสำหรับจุด p ตามระยะทางไปยังจุดข้อมูลที่ทราบในชุด D (= ชุดฝึกอบรม):
ด้วยการหาปริมาณนั้นฉันสามารถเลือกเกณฑ์ที่แยกข้อมูลที่เป็นไปได้จากข้อมูลที่ไม่น่าเชื่อ ฉันใช้ python / numpy
ปัญหาของฉัน:
- อัลกอริทึมนี้ไม่สามารถตรวจพบมิติอิสระ เป็นการดีที่ฉันสามารถใส่ทุกสิ่งที่ฉันรู้เกี่ยวกับบันทึกลงในอัลกอริทึมและปล่อยให้มันค้นพบด้วยตัวเองว่ามิติ X ไม่มีผลต่อความน่าเชื่อถือของบันทึก
- อัลกอริทึมไม่ทำงานสำหรับค่าที่ไม่ต่อเนื่องเช่นบูลีนหรืออินพุตที่เลือก พวกเขาสามารถแมปกับค่าต่อเนื่อง แต่มันเป็นเคาน์เตอร์ที่ใช้งานง่ายว่า Select 1 ใกล้กับ Select 2 มากกว่า to Select 3
คำถาม:
ฉันควรมองหาอัลกอริธึมประเภทใดสำหรับงานนี้ ดูเหมือนว่าจะมีตัวเลือกมากมายรวมถึงวิธีที่อยู่ใกล้เคียงที่สุดการจัดกลุ่มตามแนวทางและสถิติ นอกจากนี้ฉันมีปัญหาในการค้นหาเอกสารที่เกี่ยวข้องกับการตรวจจับความผิดปกติของความซับซ้อนนี้
คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก
[แก้ไข] ตัวอย่าง:
สมมติว่าข้อมูลประกอบด้วยความสูงของบุคคลน้ำหนักของบุคคลและการประทับเวลา - ดังนั้นจึงเป็นข้อมูล 3D น้ำหนักและส่วนสูงมีความสัมพันธ์กัน แต่การประทับเวลามีความเป็นอิสระอย่างสมบูรณ์ หากฉันพิจารณาระยะทางแบบยุคลิดฉันจะต้องเลือกขีด จำกัด เล็ก ๆ เพื่อให้พอดีกับข้อมูลการตรวจสอบความถูกต้องไขว้ของฉันเกือบทั้งหมด ตามหลักการแล้วอัลกอริธึมจะไม่สนใจมิติการประทับเวลาเนื่องจากไม่เกี่ยวข้องกับการตรวจสอบว่าบันทึกมีความน่าเชื่อถือหรือไม่เนื่องจากการประทับเวลานั้นไม่มีความสัมพันธ์กับส่วนข้อมูลอื่น ๆ แต่อย่างใด การประทับเวลาใด ๆ ที่เป็นไปได้
ในอีกด้านหนึ่งเราอาจสร้างตัวอย่างที่การประทับเวลามีความสำคัญ ตัวอย่างเช่นอาจเป็นได้ว่าค่า Y สำหรับคุณสมบัติ X เป็นไปได้เมื่อวัดก่อนวันที่แน่นอน แต่ไม่หลังจากวันที่แน่นอน