ฉันพยายามตรวจสอบว่าบทความหรือโพสต์ฟอรัมเป็นรายการซ้ำภายในฐานข้อมูลหรือไม่ ฉันได้รับความคิดนี้มาสรุปว่าคนที่ทำซ้ำเนื้อหาจะใช้หนึ่งในสาม (จากมากไปหายากที่จะตรวจจับ):
- คัดลอกง่ายวางข้อความทั้งหมด
- คัดลอกและวางส่วนของข้อความที่รวมเข้ากับของตนเอง
- คัดลอกบทความจากไซต์ภายนอกและปลอมแปลงเป็นบทความของตนเอง
เตรียมข้อความสำหรับการวิเคราะห์
โดยทั่วไปมีความผิดปกติใด ๆ เป้าหมายคือการทำให้ข้อความเป็น "บริสุทธิ์" ที่สุด เพื่อผลลัพธ์ที่แม่นยำยิ่งขึ้นข้อความจะได้รับการ "มาตรฐาน" โดย:
- การลอกช่องว่างสีขาวที่ซ้ำกันและตัดส่วนนำและต่อท้าย
- บรรทัดใหม่มีมาตรฐานถึง \ n
- แท็ก HTML ถูกลบออก
- การใช้ RegEx เรียกว่า Daring Fireball URL จะถูกปล้น
- ฉันใช้รหัส BB ในแอปพลิเคชันของฉันเพื่อไปที่
- (ä) ccented และต่างประเทศ (นอกเหนือจาก Enlgish) จะถูกแปลงเป็นแบบฟอร์มที่ไม่ใช่ต่างประเทศ
ฉันเก็บข้อมูลเกี่ยวกับแต่ละบทความใน (1) ตารางสถิติและใน (2) ตารางคำหลัก
(1) ตารางสถิติสถิติ ต่อไปนี้จัดเก็บเกี่ยวกับเนื้อหาที่เป็นข้อความ (คล้ายกับโพสต์นี้)
- ความยาวข้อความ
- นับจดหมาย
- การนับจำนวนคำ
- การนับประโยค
- คำเฉลี่ยต่อประโยค
- ดัชนีการอ่านอัตโนมัติ
- คะแนนหมอก
สำหรับภาษายุโรป Coleman-Liau และดัชนีความสามารถในการอ่านอัตโนมัติควรใช้เนื่องจากไม่ใช้การนับพยางค์ดังนั้นควรให้คะแนนที่แม่นยำ
(2) ตารางคำหลัก
คำหลักนั้นสร้างขึ้นโดยไม่รวมรายการคำหยุด (คำทั่วไป) จำนวนมากเช่น 'the', 'a', 'of', 'to', 'ฯลฯ '
ตัวอย่างข้อมูล
- ข้อความ _ ความยาว 3963
- letter_count, 3052
- คำ _ 684
- ประโยค _, 33
- word_per_sentence, 21
- gunning_fog, 11.5
- auto_read_index, 9.9
- คำค้นหา 1 ถูกฆ่า
- คำหลัก 2, เจ้าหน้าที่
- คำหลัก 3, ตำรวจ
ควรสังเกตว่าเมื่อบทความได้รับการอัพเดตสถิติข้างต้นทั้งหมดจะถูกสร้างใหม่และอาจเป็นค่าที่แตกต่างกันโดยสิ้นเชิง
ฉันจะใช้ข้อมูลข้างต้นเพื่อตรวจสอบได้อย่างไรว่าบทความที่เผยแพร่เป็นครั้งแรกมีอยู่ในฐานข้อมูลแล้วหรือไม่
ฉันรู้ว่าสิ่งที่ฉันจะออกแบบจะไม่สมบูรณ์แบบความเสี่ยงที่ใหญ่ที่สุด (1) เนื้อหาที่ไม่ซ้ำกันจะถูกทำเครื่องหมายว่าซ้ำกัน (2) ระบบอนุญาตเนื้อหาที่ซ้ำกันผ่าน
ดังนั้นอัลกอริทึมควรสร้างหมายเลขการประเมินความเสี่ยงจาก 0 ที่ไม่มีความเสี่ยงซ้ำซ้อน 5 เป็นความซ้ำซ้อนที่เป็นไปได้และ 10 ซ้ำกัน สิ่งใดที่สูงกว่า 5 มีความเป็นไปได้ที่เนื้อหาจะถูกทำซ้ำ ในกรณีนี้เนื้อหาอาจถูกตั้งค่าสถานะและเชื่อมโยงกับบทความที่เป็นไปได้ซ้ำและมนุษย์สามารถตัดสินใจว่าจะลบหรืออนุญาต
อย่างที่ฉันพูดก่อนที่ฉันจะเก็บคำหลักสำหรับบทความทั้งหมด แต่ฉันสงสัยว่าฉันสามารถทำเช่นเดียวกันในแต่ละย่อหน้า; นี่จะหมายถึงการแยกข้อมูลของฉันในฐานข้อมูลต่อไป แต่มันจะทำให้ง่ายขึ้นสำหรับการตรวจจับ (2) ในโพสต์เริ่มต้นของฉัน
ฉันกำลังคิดค่าเฉลี่ยถ่วงน้ำหนักระหว่างสถิติ แต่ในลำดับใดและสิ่งที่จะเป็นผลที่ตามมา ...