ใช้ตัวอักษร N-g แทนคำหลายสาเหตุ:
1) รายการคำศัพท์ที่จำเป็นสำหรับภาษาหนึ่ง ๆ นั้นมีขนาดค่อนข้างใหญ่บางทีอาจเป็น 100,000 ถ้าคุณพิจารณาว่าเร็วเร็วเร็วที่สุดเร็วที่สุดเร็วเร็วถือศีลอด ... เป็นคำที่แตกต่างกันทั้งหมด สำหรับ 80 ภาษาคุณต้องใช้คำศัพท์ประมาณ 80 เท่าใช้พื้นที่มาก - 50+ เมกะไบต์
2) จำนวนทริกเกอร์ตัวอักษรสำหรับตัวอักษร 26 ตัวคือ 26 ** 3 หรือประมาณ 17,000 และสำหรับรูปสี่เหลี่ยม (N = 4) ประมาณ 450,000 ครอบคลุมภาษาทั้งหมดที่ใช้ตัวอักษรนั้น ตัวเลขที่คล้ายกัน แต่ค่อนข้างใหญ่สำหรับ N-grams เป็นตัวอักษรใหญ่กว่า 30-100 ตัวอักษร สำหรับภาษา CJK ที่มีตัวอักษรมากกว่า 4,000 ตัวในสคริปต์ฮัน unigrams (N = 1) เพียงพอ สำหรับสคริปต์ Unicode บางภาษามีเพียงหนึ่งภาษาต่อสคริปต์ (กรีก, อาร์เมเนีย) ดังนั้นจึงไม่จำเป็นต้องใช้ตัวอักษรผสมกัน (เรียกว่า nil-grams N = 0)
3) ด้วยคำพูดคุณไม่มีข้อมูลเลยเมื่อให้คำที่ไม่ได้อยู่ในพจนานุกรมในขณะที่ด้วยตัวอักษร N-GG คุณมักจะมีตัวอักษรที่มีประโยชน์อย่างน้อยสองสามตัวรวมกันภายในคำนั้น
CLD2 ใช้ quadgrams สำหรับสคริปต์ Unicode ส่วนใหญ่ (ตัวอักษร) รวมถึงละติน, Cyrillic และอาหรับ, unigrams สำหรับสคริปต์ CJK, nilgrams สำหรับสคริปต์อื่น ๆ และยังมีจำนวน จำกัด ของคำที่สมบูรณ์ที่ค่อนข้างโดดเด่นและค่อนข้างทั่วไปและคู่คำสำหรับแยกความแตกต่าง ภายในกลุ่มที่มีภาษาที่คล้ายคลึงกันทางสถิติเช่นอินโดนีเซียและมาเลย์ที่ยากลำบาก ตัวอักษรขนาดใหญ่และตรีโกณมิติอาจมีประโยชน์สำหรับการแยกความแตกต่างระหว่างภาษาจำนวนเล็กน้อย (ประมาณแปดภาษาดูhttps://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit) แต่ไม่มีประโยชน์สำหรับการแยกแยะหลายภาษา ดังนั้น CLD2 จึงใช้รูปสี่เหลี่ยมเชื่อมโยงกับชุดค่าผสมแต่ละตัวของภาษาที่เป็นไปได้มากที่สุดสามอันดับแรกที่ใช้ชุดค่าผสมนั้น สิ่งนี้ช่วยให้ครอบคลุม 80 ภาษาด้วยตารางประมาณ 1.5 MB และ 160 ภาษาโดยละเอียดยิ่งขึ้นโดยมีตารางประมาณ 5MB