อะไรคือสิ่งที่คุณคาดเดาได้ดีว่า Google Image Search ทำงานอย่างไร ฉันสามารถอัปโหลดภาพถ่ายและสามารถค้นหาภาพที่คล้ายกันได้ อัลกอริทึมใดที่ใช้ระบุรูปภาพที่คล้ายกัน
อะไรคือสิ่งที่คุณคาดเดาได้ดีว่า Google Image Search ทำงานอย่างไร ฉันสามารถอัปโหลดภาพถ่ายและสามารถค้นหาภาพที่คล้ายกันได้ อัลกอริทึมใดที่ใช้ระบุรูปภาพที่คล้ายกัน
คำตอบ:
ฉันไม่รู้ว่าอัลกอริทึมใดที่ Google ใช้ แต่เนื่องจากคุณอยากเดาที่ดีที่สุดให้ฉันให้ความคิดบางอย่างเกี่ยวกับวิธีการที่ระบบที่คล้ายกันจะสร้าง
ที่เกี่ยวข้องทั้งสนามด้วยการค้นหาภาพฐานโดยภาพที่เรียกว่าเนื้อหาตามภาพที่ดึง (CBIR) ความคิดคือการอย่างใดสร้างการแสดงภาพ (ไม่จำเป็นต้องเข้าใจโดยมนุษย์) ที่มีข้อมูลเกี่ยวกับเนื้อหาภาพ
มีวิธีพื้นฐานสองประการ:
วิธีการในระดับต่ำในท้องถิ่นมีการวิจัยเป็นอย่างดี วิธีการที่ดีที่สุดในปัจจุบันจะแยกฟีเจอร์ท้องถิ่น (มีตัวเลือกของอัลกอริธึมการดึงฟีเจอร์เกี่ยวข้องที่นี่) และใช้ตัวบอกรายละเอียดโลคัลของพวกเขา
ในงานที่ใหม่กว่าตัวบอกพื้นที่จะถูกจัดกลุ่มก่อนแล้วจึงจัดกลุ่มให้เป็นคำที่มองเห็น - เทคนิคนั้นคล้ายกับการค้นหาเอกสารของ Google แต่ใช้คำที่มองเห็นแทนคำที่เป็นตัวอักษร
คุณสามารถนึกถึงคำที่มองเห็นได้ว่าเทียบเท่ากับรูตคำในภาษา: ตัวอย่างเช่นคำว่างานที่ทำงานและที่ทำงานอยู่ทั้งหมดเป็นของรูตคำเดียวกัน
หนึ่งในข้อเสียของวิธีการเหล่านี้คือพวกเขามักจะมีประสิทธิภาพต่ำกว่าในภาพที่มีพื้นผิวต่ำ
ฉันได้รับคำตอบแล้วและเห็นคำตอบมากมายเกี่ยวกับวิธีการเหล่านี้ดังนั้นฉันจะให้ลิงก์ไปยังคำตอบเหล่านั้น:
โดยทั่วไปแล้ววิธีการทางความหมายจะขึ้นอยู่กับการแสดงลำดับชั้นของภาพทั้งหมด วิธีการเหล่านี้ยังไม่สมบูรณ์แบบโดยเฉพาะอย่างยิ่งสำหรับประเภทภาพทั่วไป มีความสำเร็จในการใช้เทคนิคประเภทนี้กับโดเมนรูปภาพที่เฉพาะเจาะจง
ขณะนี้ฉันกำลังอยู่ระหว่างการค้นคว้าวิธีการเหล่านี้ฉันไม่สามารถหาข้อสรุปใด ๆ ได้ ตอนนี้ที่กล่าวว่าฉันอธิบายความคิดทั่วไปที่อยู่เบื้องหลังเทคนิคเหล่านี้ในคำตอบนี้
อีกไม่นานความคิดทั่วไปคือการแสดงภาพที่มีโครงสร้างรูปต้นไม้ซึ่งใบไม้มีรายละเอียดของภาพและวัตถุสามารถพบได้ในโหนดใกล้กับรากของต้นไม้ดังกล่าว จากนั้นคุณเปรียบเทียบต้นไม้ย่อยเพื่อระบุวัตถุที่อยู่ในภาพต่าง ๆ
นี่คือการอ้างอิงบางส่วนสำหรับการแสดงต้นไม้ที่แตกต่างกัน ฉันไม่ได้อ่านทั้งหมดและบางคนใช้การเป็นตัวแทนประเภทนี้เพื่อแบ่งกลุ่มแทน CBIR แต่ถึงอย่างนั้นพวกเขาก็คือ:
นอกเหนือจากคำตอบของเพเนโลพีแล้วยังมีอีกสองวิธีคือการรับรู้และรูปแบบของคำที่ใช้งานได้ง่ายและเหมาะสำหรับการเล่นหรือเรียนรู้ก่อนที่จะเข้าไปในดินแดนที่สูงขึ้น
การรับรู้การคร่ำครวญ
อัลกอริธึมการรับรู้การรับรู้มีจุดมุ่งหมายเพื่อสร้างแฮชซึ่งไม่เหมือนกับแฮชการเข้ารหัสจะให้ค่าที่คล้ายกันหรือใกล้เคียงกับค่าแฮชที่คล้ายกันสำหรับรูปภาพที่มีการบิดเบือนเล็กน้อยเช่นการบีบอัดหรือ JPEG มันมีจุดประสงค์ที่เป็นประโยชน์ในการตรวจจับใกล้เคียงกันในคอลเล็กชั่นภาพ
ในรูปแบบพื้นฐานที่สุดคุณสามารถใช้สิ่งต่อไปนี้:
แปลงภาพเป็นโทนสีเทา
ทำให้ภาพของคุณเป็นศูนย์หมายความว่า
ผลลัพธ์คือแฮชแบบ 64 บิตที่ยืดหยุ่นเนื่องจากใช้ส่วนประกอบที่มีความถี่ต่ำของภาพ ตัวแปรในชุดรูปแบบนี้จะแบ่งภาพแต่ละภาพออกเป็น 64 บล็อกย่อยและเปรียบเทียบภาพทั่วโลกกับค่าเฉลี่ยบล็อกย่อยท้องถิ่นและเขียน 1 หรือ 0 ตามลำดับ
hashing การรับรู้จะดำเนินการโดยตัวอย่างเช่นphash
รูปแบบของคำถุง
รูปแบบของคำถุงนั้นมีจุดมุ่งหมายเพื่อระบุรูปภาพด้วยความหมายเช่นรูปภาพทั้งหมดที่มีสุนัขอยู่ด้วย มันทำได้โดยการใช้แผ่นแปะภาพในจิตวิญญาณเดียวกันว่าจะจัดประเภทเอกสารข้อความตามการเกิดขึ้นของคำบางคำ เราสามารถจัดหมวดหมู่คำพูดว่า "สุนัข" และ "สุนัข" และเก็บไว้เป็นตัวระบุในไฟล์กลับด้านที่หมวดหมู่ "สุนัข" ชี้ไปที่เอกสารทั้งหมดที่มี "สุนัข" หรือ "สุนัข"
ในรูปแบบที่ง่ายที่สุดส่วนใหญ่สามารถทำได้ด้วยภาพดังต่อไปนี้:
ตอนนี้คุณมีชุดคำอธิบาย SIFT จำนวนมาก ปัญหาคือว่าแม้จากภาพที่เหมือนกันเกือบจะมีความไม่ตรงกันระหว่าง descriptors คุณต้องการจัดกลุ่มคำที่เหมือนกันให้มากขึ้นหรือน้อยลงเช่นปฏิบัติกับคำบางคำเช่น "dog" และ "Dogs" เหมือนกันและคุณต้องชดเชยข้อผิดพลาด นี่คือที่มากลุ่มในการเล่น
แบบสอบถามรูปภาพเช่นหาฉันภาพที่คล้ายกับแบบสอบถามภาพได้รับการแก้ไขแล้วดังนี้
วิธีการที่น่าสนใจอื่น ๆ ซึ่งดูเหมือนว่าจะไม่สนใจคำตอบข้างต้นคือ Deep Convolutional Neural Networks ดูเหมือนว่า Google กำลังใช้งานเครื่องมือค้นหารูปภาพและบริการแปลภาษาอยู่ในขณะนี้ ซีเอ็นเอ็นนั้นมีพลังอย่างมากในงานด้านการเรียนรู้เช่นการค้นหาความคล้ายคลึงกันดูเหมือนว่าซีเอ็นเอ็นจะดำเนินการตามขั้นตอนที่คล้ายคลึงกันของ Bag-of-worlds ซึ่งฝังอยู่ในเลเยอร์เครือข่าย ข้อเสียของเทคนิคนี้คือไม่สามารถเรียนรู้และต้องการชุดข้อมูลขนาดใหญ่สำหรับการฝึกอบรมและค่าใช้จ่ายในการคำนวณที่หนักหน่วงในขั้นตอนการฝึกอบรม
ข้อเสนอแนะเกี่ยวกับเรื่องนี้:
และการใช้งานการดึงภาพการเรียนรู้ลึกโอเพนซอร์ซ (รายงานฉบับหลัง): https://github.com/paucarre/tiefvision