ค้นหาไฟล์ที่ใกล้เคียงกันในโฟลเดอร์


6

ฉันมีโฟลเดอร์ที่เต็มไปด้วยไฟล์ที่มีจำนวนไฟล์ซ้ำกัน น่าเสียดายที่ในหลายกรณีรุ่นหนึ่งเป็นรุ่นที่อัปเดตแล้วอีกรุ่นหนึ่งดังนั้นการจับคู่แบบไบท์โดยตรงจึงไม่พบความซ้ำซ้อน (ฉันเคยดู คำถามนี้ แต่สิ่งที่ฉันได้ดูจากรายการดูเหมือนจะทำการเปรียบเทียบแบบไบต์เท่านั้น ... )

มีแอพพลิเคชั่นที่ใช้งานซ้ำซ้อน (Windows) ที่สามารถจับคู่ความเหมือนกันและชี้ผู้ใช้ไปยังไฟล์ที่เป็นปัญหาเพื่อการตรวจสอบหรือไม่? ฟรีแวร์ดีทดลองใช้ฟรีเป็นที่ยอมรับ แม้กระทั่งรายการความคล้ายคลึงกันเพื่อบอกให้ฉันดูว่าที่ไหนจะได้ผล

แก้ไข: ขออภัยฉันควรจะกล่าวถึง; ไฟล์เหล่านี้เป็นไฟล์แบบข้อความเป็นหลักโดยเฉพาะ DOC, PPT และ PDF สิ่งที่น่าจะมีการเปลี่ยนแปลงมากที่สุดคือเนื้อหา แต่การจัดรูปแบบอาจแตกต่างกันเช่นกัน แม้เพียงแค่หยิบขึ้นมาเกี่ยวกับการเปลี่ยนแปลงข้อความอาจจะเป็นประโยชน์แม้ว่า ...


ฉันกำลังมองหาโปรแกรมค้นหารูปภาพที่ซ้ำกัน - เนื่องจากฉันแก้ไขรูปภาพจำนวนมากที่ฉันคลิกและอัลบั้มของฉันเมื่อ 2 ปีที่แล้วเป็นระเบียบ
KalEl

การรู้ประเภทของไฟล์จะมีประโยชน์จริง ๆ ในกรณีนี้เช่นเดียวกับชนิดของการเปลี่ยนแปลงระหว่างการซ้ำซ้อนใกล้ คุณกำลังพูดถึงเอกสารตามลำดับ (ไฟล์ข้อความหรือการประมวลผลคำ) ที่มีการเปลี่ยนแปลงในจุดเริ่มต้นจุดจบหรือตลอดเวลา? หรือคุณกำลังพูดถึงไฟล์ภาพ (JPG, PNG ฯลฯ ) ที่มีการเปลี่ยนแปลงในตัวเครื่อง (พืช, สี, ภาพซ้อนทับข้อความ ฯลฯ ) หรือการเปลี่ยนแปลงทั่วโลก (การเหลา, การเบลอ, ความคมชัด ฯลฯ ) เพราะคุณกำลังมองหา คล้ายคลึงกัน data ไม่ใช่ข้อมูลที่เหมือนกันวิธีนี้ขึ้นอยู่กับประเภทของข้อมูลและความแตกต่างที่คาดหวังระหว่างการซ้ำซ้อนใกล้
Mike Fitzpatrick

@ ไมค์อัปเดตในการตอบสนอง
Margaret

@ Margaret: ไฟล์ DOC, PPT และ PDF เป็น BINARY จริง ๆ ไม่ใช่ TEXT และประเภทไฟล์ทั้งหมดเหล่านี้จะต้องมีการแสดงผลและจากนั้นเปรียบเทียบสายตาเพื่อดูว่าพวกเขา "ใกล้พอ"
akira

@Margaret: ตามที่ @akira กล่าวถึงสิ่งเหล่านี้ส่วนใหญ่เป็นไฟล์ไบนารี ฉันไม่ทราบถึงแพ็คเกจที่จะทำสิ่งที่คุณต้องการในรูปแบบไฟล์ต่างๆ ฉันจะจัดการสิ่งนี้เป็นการส่วนตัวด้วยการรวมกันของโปรแกรมอรรถประโยชน์บรรทัดคำสั่งเพื่อแยกสตริงจากไฟล์ไบนารีแล้วลองทำการวิเคราะห์ทางสถิติขั้นพื้นฐานบางอย่าง แต่วิธีการจะแตกต่างกันตามประเภทไฟล์ (DOC, PPT, ฯลฯ ) และฉันจะไปเส้นทางนี้เท่านั้นถ้าฉันไม่สามารถทำได้ด้วยตนเองในพื้นที่ไม่กี่ชั่วโมง ฉันหวังว่าคนอื่นสามารถให้ตัวชี้ไปยังโซลูชันนอกชั้นวางได้
Mike Fitzpatrick

คำตอบ:


3

คุณสามารถลอง เครื่องตรวจจับการลอกเลียนแบบ . การลอกเลียนและการอัปเดตไม่ได้นำเสนอความคล้ายคลึงกันประเภทเดียวกันดังนั้นจึงอาจหรืออาจไม่ให้ผลลัพธ์ที่มีประโยชน์ แต่มีให้เลือกมากมายดังนั้นหากไม่มีใครช่วยเหลือ ฉันไม่มีโปรแกรมเฉพาะที่จะแนะนำ; คุณสามารถลองถามอาจารย์หรืออาจารย์คนใดก็ได้ (โดยเฉพาะอย่างยิ่งด้านวิทยาศาสตร์คอมพิวเตอร์เนื่องจากพวกเขามีแนวโน้มที่จะคุ้นเคยกับการลอกเลียนแบบการเขียนโปรแกรมมากกว่าการลอกเลียนภาษาธรรมชาติ)


0

ฉันไม่รู้จักแอปพลิเคชันใด ๆ แต่ถ้าเนื้อหาส่วนใหญ่เหมือนกันระหว่างเวอร์ชันคุณสามารถค้นหา Windows ในไดเรกทอรีด้วยตัวเลือก "คำหรือวลีในไฟล์" ข้อความค้นหาของคุณจะเป็นวลีเฉพาะที่ไม่เปลี่ยนแปลง (หรืออย่างน้อยที่สุดคุณไม่คิดว่าจะมีการเปลี่ยนแปลง) ระหว่างรุ่นต่าง ๆ และมีความเป็นเอกลักษณ์ของเอกสาร / ชุดของเอกสารนั้น การค้นหาประเภทนี้ควรใช้กับ PDF, DOC และ PPT แม้ว่าจะไม่ใช่ไฟล์ข้อความแบบตรงก็ตาม สิ่งนี้จะไม่ทำให้คุณได้ผลลัพธ์ที่แน่นอนที่คุณกำลังมองหา แต่ถ้าคุณเลือกวลีค้นหาของคุณได้ดีและเนื้อหาของคุณระหว่างเวอร์ชันไม่แตกต่างกันอย่างสิ้นเชิงควรทำงานได้ดี


ฉันกำลังทำสิ่งนี้เพียงเล็กน้อย แต่ปัญหาคือมีไฟล์ประมาณ 1,000 ไฟล์ซึ่งอาจซ้ำกัน 100 ไฟล์ - และการตรวจสอบด้วยตนเองสำหรับแต่ละไฟล์นั้นน่าตื่นเต้น ... : S
Margaret

อ๊ะฟังดูแย่มาก ฉันจะตรวจสอบแนวคิดของตัวตรวจจับการลอกเลียนแบบแม้ว่าคุณจะสามารถทำการค้นหาแบบอัตโนมัติคุณยังต้องหาวิธีในการสร้างวลีค้นหาและการสร้างวลีค้นหานั้นเป็นปัญหาการตรวจจับการลอกเลียนแบบเอง
Littleman

0

ค้นหา ssdeep และ sdhash

ฉันไม่เคยลอง sdhash แต่ฉันอ่านดีกว่า ssdeep อย่างไรก็ตามทั้งสองมี CLI ที่ช่วยให้การคำนวณของ huzz เลือนและความคล้ายคลึงกันของพวกเขา

ควรทำงานค่อนข้างดีสำหรับเป้าหมายของคุณ

PS: ขอโทษที่กระชับและขาดการเชื่อมโยง แต่ฉันเป็น ATM มือถือ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.