มันจะทำงานได้อย่างไรในการจำแนกพื้นผิวของภาพโดยใช้คุณสมบัติจากการแปลงโคไซน์แบบแยก? Googling "การจำแนกพื้นผิว dct" จะพบรายงานทางวิชาการเพียงเรื่องเดียวในหัวข้อนี้โดยใช้เครือข่ายประสาท
สำหรับแอปพลิเคชันของฉันฉันมีคลังข้อมูลขนาดใหญ่ของภาพซึ่งในภาพทั้งหมดเป็นพื้นผิวที่สอดคล้องกัน (เช่นภาพโคลสอัพของผ้าห่มเปลือกไม้ต้นไม้ทุ่งหญ้า ฯลฯ )
ได้รับแรงบันดาลใจจากการตอบคำถามก่อนหน้านี้ฉันกำลังพิจารณาแนวทางต่อไปนี้:
- แยกแต่ละภาพออกเป็นบล็อก NxN ของพิกเซล
- ใช้ DCT ของแต่ละบล็อก
- บีบ DCT แต่ละอันให้เป็นอาร์เรย์ 1xM และป้อนเข้ากับอัลกอริทึมการจัดกลุ่ม K-Means และรับฉลากคลัสเตอร์สำหรับ DCT แต่ละตัว
- คำนวณฮิสโตแกรมของการทำคลัสเตอร์ป้ายสำหรับแต่ละภาพโดยการนับแต่ละป้ายต่อภาพจาก # 3
- ฝึกอบรมตัวจําแนก SVM โดยป้อนชุด [(ฮิสโตแกรม, ป้ายรูปภาพ)
มันจะทำงานได้ดีแค่ไหน? ฉันใช้ระบบที่คล้ายกันโดยใช้คุณสมบัติที่แยกผ่านอัลกอริทึม SIFT / SURF แต่ฉันสามารถได้รับความแม่นยำประมาณ 60% เท่านั้น
ฉันสามารถใช้ DCT ในวิธีอื่นในการจำแนกพื้นผิวได้อย่างไร?