พจนานุกรมสำเร็จรูป
ฉันพบตัวแยกวิเคราะห์วิกิพีเดียที่ทำความสะอาด Codex ที่เอ็กซ์พอร์ต XML จำนวนมากจากนั้นทำการล้างข้อมูลเพิ่มเติมโดยใช้การค้นหา / แทนที่และการแทนที่ TextMate regex และจัดการเพื่อสร้างพจนานุกรมที่เหมาะสม:
จะพบปัญหาเล็กน้อยเนื่องจาก Codex เป็นความพยายามร่วมกันและการจัดรูปแบบอาจแตกต่างกันไปในแต่ละบทความ
ฉันวางไฟล์ต้นฉบับและวาง.dictionary
ไฟล์บน Dropbox:
ขั้นตอนเริ่มต้น
ฉันสามารถสร้างพจนานุกรม Codex คร่าวๆโดยใช้ทรัพยากรนี้:
ทำตามขั้นตอนในการติดตั้งและสร้างพจนานุกรมที่อธิบายไว้ในฉันจะสร้างพจนานุกรมสำหรับ Mac OS X ได้อย่างไร
XML ตัวอย่างไฟล์จาก SQL เครื่องมือในแอปเปิ้ลพจนานุกรม
<?xml version="1.0" encoding="UTF-8"?>
<!--
This is a sample dictionary source file.
It can be built using Dictionary Development Kit.
-->
<d:dictionary xmlns="http://www.w3.org/1999/xhtml" xmlns:d="http://www.apple.com/DTDs/DictionaryService-1.0.rng">
<d:entry id="ldap" d:title="LDAP">
<d:index d:value="LDAP"/>
<h1>LDAP</h1>
<p>Lightweight Directory Access Protocol</p>
</d:entry>
<d:entry id="midi" d:title="MIDI">
<d:index d:value="MIDI"/>
<h1>MIDI</h1>
<p>Musical Instrument Digital Interface</p>
</d:entry>
<d:entry id="xml" d:title="XML">
<d:index d:value="XML"/>
<h1>XML</h1>
<p>Extensible Markup Language</p>
</d:entry>
</d:dictionary>
PHP สคริปต์ในการแปลงไฟล์ XML Codex ส่งออกเพื่อให้สอดคล้องกับไฟล์ตัวอย่าง นี่คือไฟล์ Google Drive ที่มี XML ที่เป็นผลลัพธ์ (70,000 บรรทัด) และGist พร้อมสคริปต์การแปลง
นี่คือผลลัพธ์ที่ได้:
ดังที่เห็นได้ว่าปัญหาที่ใหญ่ที่สุดคือการแปลงภาษามาร์กอัปของ WordPress เป็น HTML