มีเอกสารข้อความจำนวนมาก (ในภาษาธรรมชาติไม่มีโครงสร้าง) อะไรคือวิธีที่เป็นไปได้ในการเพิ่มความน่าเชื่อถือด้วย meta-data แบบ semantic ตัวอย่างเช่นพิจารณาเอกสารสั้น ๆ :
I saw the company's manager last day.
เพื่อให้สามารถดึงข้อมูลจากข้อมูลนั้นจะต้องมีคำอธิบายประกอบพร้อมด้วยข้อมูลเพิ่มเติมเพื่อให้มีความคลุมเครือน้อยลง กระบวนการค้นหาข้อมูลเมตาดังกล่าวไม่ได้เป็นปัญหาดังนั้นให้ถือว่ามีการทำด้วยตนเอง คำถามคือวิธีการจัดเก็บข้อมูลเหล่านี้ในลักษณะที่การวิเคราะห์เพิ่มเติมสามารถทำได้สะดวก / มีประสิทธิภาพมากขึ้น?
แนวทางที่เป็นไปได้คือการใช้แท็ก XML (ดูด้านล่าง) แต่ดูเหมือนว่าละเอียดเกินไปและอาจมีแนวทาง / แนวทางที่ดีกว่าสำหรับการจัดเก็บเมตาดาต้าในเอกสารข้อความ
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.