ผมอยากรู้ว่าวิธีหนึ่งอาจมากดานบีบอัดโดเมนของพลIDNชื่อโฮสต์ (ตามที่กำหนดโดยRFC5890 ) และสงสัยว่านี้อาจจะกลายเป็นความท้าทายที่น่าสนใจ โฮสต์ Unicode หรือชื่อโดเมน (U-label) ประกอบด้วยสตริงของอักขระ Unicode โดยทั่วไปจะถูก จำกัด ให้เป็นหนึ่งภาษาขึ้นอยู่กับโดเมนระดับบนสุด (เช่นตัวอักษรกรีกภายใต้.gr
) ซึ่งเข้ารหัสเป็นสตริง ASCII ที่ขึ้นต้นด้วยxn--
(ที่สอดคล้องกัน A-ฉลาก)
หนึ่งสามารถสร้างแบบจำลองข้อมูลไม่เพียง แต่จากข้อกำหนดอย่างเป็นทางการที่
แต่ละป้ายที่ไม่ใช่ Unicode จะจับคู่สตริง
^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$
;แต่ละ A-label เป็นการจับคู่สตริง
^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$
; และความยาวรวมของโดเมนทั้งหมด (ป้ายกำกับ A และป้ายกำกับที่ไม่ใช่ IDN ตัดแบ่งด้วย '.' ตัวคั่น) ไม่เกิน 255 อักขระ
แต่จากการวิเคราะห์พฤติกรรมต่าง ๆ รวมไปถึง:
ลดการสั่งซื้อ U-ฉลากมักจะ lexically, ไวยากรณ์และความหมายวลีที่ถูกต้องในภาษาธรรมชาติบางอย่างรวมทั้งคำนามที่เหมาะสมและตัวเลข (unpunctuated ยกเว้นยัติภังค์ปลดออกจากช่องว่างและพับต่อNameprep ) มีการตั้งค่าสำหรับวลีสั้น; และ
เลเบลที่มีลำดับสูงกว่านั้นถูกดึงมาจากพจนานุกรมของ SLD และ TLD และให้บริบทสำหรับการทำนายว่าภาษาธรรมชาติใดที่ใช้ในเลเบลลำดับที่ต่ำกว่า
ฉันกลัวว่าการบรรลุถึงการบีบอัดของสตริงสั้น ๆ เหล่านี้จะทำได้ยากโดยไม่พิจารณาคุณลักษณะเฉพาะของข้อมูลเหล่านี้และยิ่งไปกว่านั้นไลบรารีที่มีอยู่จะสร้างโอเวอร์เฮดที่ไม่จำเป็นเพื่อรองรับกรณีการใช้งานทั่วไปที่มากขึ้น
การอ่านการบีบอัดข้อมูลหนังสือของแมตต์มาฮอนี่ย์อธิบายว่าเป็นที่ชัดเจนว่ามีการใช้เทคนิคที่มีอยู่จำนวนหนึ่งเพื่อใช้ประโยชน์จากข้อสมมติฐานการสร้างแบบจำลอง (และ / หรืออื่น ๆ ) ข้างต้นซึ่งควรส่งผลให้
โดยวิธีการของบริบทคำถามนี้เป็นหน่อจากก่อนหน้านี้หนึ่งในดังนั้น
ความคิดเริ่มต้น
มันทำให้ฉันเห็นว่าปัญหานี้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับการฝึกอบรมแบบออฟไลน์และฉันมองเห็นรูปแบบข้อมูลที่ถูกบีบอัดตามบรรทัดต่อไปนี้:
การเข้ารหัส Huffman ของ " ส่วนต่อท้ายสาธารณะ " ด้วยความน่าจะเป็นที่มาจากแหล่งเผยแพร่ของการลงทะเบียนโดเมนหรือปริมาณการใช้งานที่เผยแพร่
การเข้ารหัสของ Huffman ซึ่งเป็นแบบจำลอง (ภาษาธรรมชาติ) สำหรับ U-label ที่เหลือโดยมีความน่าจะเป็นที่มาจากแหล่งเผยแพร่ของการลงทะเบียนโดเมนหรือปริมาณการรับส่งข้อมูลที่ได้รับจากบริบทของคำต่อท้ายโดเมน
ใช้การแปลงแบบอิงพจนานุกรมจากโมเดลภาษาธรรมชาติที่ระบุ และ
การเข้ารหัสเลขคณิตของอักขระแต่ละตัวใน U-label ด้วยความน่าจะเป็นที่มาจากแบบจำลองภาษาธรรมชาติที่ปรับตามบริบทที่ได้จากการฝึกอบรมแบบออฟไลน์ (และอาจออนไลน์ได้เช่นกันแม้ว่าฉันสงสัยว่าข้อมูลอาจสั้นเกินไป
.in-addr.arpa
; ยังแบ่งหาก IP เคยเปลี่ยนแปลง