ความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล?

11

การดึงข้อมูลคือกิจกรรมในการรับทรัพยากรสารสนเทศที่เกี่ยวข้องกับความต้องการข้อมูลจากการรวบรวมทรัพยากรสารสนเทศ การค้นหาอาจขึ้นอยู่กับข้อมูลเมตาหรือการจัดทำดัชนีข้อความแบบเต็ม

จากวิกิพีเดีย

การแยกข้อมูล (IE)เป็นหน้าที่ของการแยกข้อมูลที่มีโครงสร้างโดยอัตโนมัติจากเอกสารที่ไม่มีโครงสร้างและ / หรือเอกสารกึ่งโครงสร้างที่เครื่องอ่านได้ ในกรณีส่วนใหญ่กิจกรรมนี้เกี่ยวข้องกับการประมวลผลข้อความภาษามนุษย์โดยใช้การประมวลผลภาษาธรรมชาติ (NLP) กิจกรรมล่าสุดในการประมวลผลเอกสารมัลติมีเดียเช่นบันทึกย่ออัตโนมัติและการแยกเนื้อหาออกจากภาพ / เสียง / วิดีโออาจถูกมองว่าเป็นการดึงข้อมูล

อะไรคือความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล?

ขอบคุณ!

data-mining natural-language-processing

— ทิม
แหล่งที่มา

9

การดึงข้อมูลจะอยู่บนพื้นฐานของแบบสอบถาม - คุณระบุว่าข้อมูลที่คุณต้องการและมันจะกลับมาในรูปแบบที่เข้าใจมนุษย์

การดึงข้อมูลเป็นเรื่องเกี่ยวกับการจัดโครงสร้างข้อมูลที่ไม่มีโครงสร้าง - เนื่องจากแหล่งข้อมูลที่เกี่ยวข้องทั้งหมดมีโครงสร้างในรูปแบบที่จะง่ายต่อการประมวลผล สิ่งนี้ไม่จำเป็นต้องอยู่ในรูปแบบที่มนุษย์เข้าใจได้ - สามารถใช้สำหรับโปรแกรมคอมพิวเตอร์เท่านั้น

แหล่งที่มาบางส่วน:

— แอนตัน
แหล่งที่มา

7

http://gate.ac.uk/ie/ให้ความแตกต่างที่ดีและกระชับ:

การดึงข้อมูลไม่ใช่การดึงข้อมูล: การดึงข้อมูลแตกต่างจากเทคนิคดั้งเดิมที่ไม่สามารถกู้คืนได้จากคอลเลกชันชุดย่อยของเอกสารซึ่งหวังว่าจะเกี่ยวข้องกับการสืบค้นโดยขึ้นอยู่กับการค้นหาด้วยคำสำคัญ เป้าหมายคือการแยกจากเอกสาร (ซึ่งอาจมีหลายภาษา) ข้อเท็จจริงที่สำคัญเกี่ยวกับประเภทของเหตุการณ์เอนทิตีหรือความสัมพันธ์ที่กำหนดไว้ล่วงหน้า ข้อเท็จจริงเหล่านี้มักจะถูกป้อนเข้าสู่ฐานข้อมูลโดยอัตโนมัติซึ่งอาจถูกนำมาใช้เพื่อวิเคราะห์ข้อมูลสำหรับแนวโน้มเพื่อให้สรุปภาษาธรรมชาติหรือเพียงเพื่อให้บริการสำหรับการเข้าถึงออนไลน์

วิธีใส่ภาพ:

การสืบค้นสารสนเทศได้รับชุดเอกสารที่เกี่ยวข้อง:

การดึงข้อมูลได้รับข้อมูลจากเอกสาร:

— Franck Dernoncourt
แหล่งที่มา

2

จากมุมมองของการสร้างแบบจำลองการค้นคืนข้อมูลเป็นข้อมูลภาคสนามที่อุทิศให้กับสาขาวิชาต่าง ๆ ซึ่งรวมถึงสถิติคณิตศาสตร์ภาษาศาสตร์ปัญญาประดิษฐ์และตอนนี้วิทยาศาสตร์ข้อมูล ในทางปฏิบัติโมเดลเหล่านี้จะใช้กับข้อความภายใน corpora เพื่อค้นหารูปแบบในข้อมูล ไม่เพียง แต่โมเดล IR จะทับซ้อนกันในการใช้งานเท่านั้นพวกเขายังสามารถ "จับคู่" กับรุ่นอื่น ๆ เช่นรุ่น k-หมายความว่าหรือเพื่อนบ้านใกล้เคียง k- แล้วรุ่นอื่น ๆ สามารถนำมาใช้จากจุดได้เปรียบของภาษาศาสตร์คอมพิวเตอร์เช่น LDA / LDI และ การสร้างแบบจำลองหัวข้อจากนั้นเกมสุดท้ายคือการสร้างภาพข้อมูลในการค้นพบนี้ - หลังจากการจัดอันดับการจัดกลุ่มและการรวมงาน การสืบค้นข้อมูลอาจดูเหมือนว่าเป็นเรื่องลึกลับ แต่ก็มีความพยายามอย่างจริงจังซึ่งได้รับการชื่นชมอย่างมาก กำลังจะเปิดพื้นที่สำหรับความเข้าใจที่ลึกซึ้งยิ่งขึ้นของแต่ละรุ่นและปฏิสัมพันธ์ระหว่างโมเดล ฉันอ้างถึง "การบรรยายเรื่องการสังเคราะห์แนวคิดเกี่ยวกับการสืบค้นและการบริการ" เป็นสถานที่ที่ดีที่สุดในการเจาะลึกรากฐานของ IR

ในขณะที่ฉันไม่ได้แยก IR และการแยกข้อมูลออกอย่างสิ้นเชิงบางทีอาจเป็นส่วนหนึ่งของ IE การแยกระดับแนวคิดใช้รูปแบบ IR พร้อมกับกฎการอนุมานจาก AI เพื่อแยกออนโทโลยีที่เกี่ยวข้อง ลักษณะทางกราฟิกของความสัมพันธ์เหล่านี้ได้รับการปรับปรุงด้วยการสร้างแบบจำลองอภิปรัชญาใน OWL และ RDF และด้วยฐานข้อมูลกราฟซึ่งอนุญาตให้มีการสร้างแบบจำลองความสัมพันธ์ที่เข้มงวดน้อยลงหรือเข้มงวดมากขึ้นและอนุญาตให้มีความสัมพันธ์กับพื้นผิวมากขึ้น ความสามารถในการเติบโตของการดึงข้อมูลทำให้ไดนามิก "วินัย" ของมันน่าสนใจอย่างยิ่งสำหรับนักวิจัย

ทั้ง IR และ IE เล่นใน "เอนทิตี้ของช่วงเวลาสำคัญ" ของเราเอง - บางคนเรียกว่า "ไดนามิกออนโทโลจี" - บางอันเป็น Palantir - เราต้องการรูปแบบจำลองการจำลองและการสร้างภาพข้อมูลของเอนทิตี้ที่สำคัญเหล่านั้น เผชิญกับการปรับเปลี่ยนแหล่งข้อมูลใหม่และการเปลี่ยนแปลงข้อมูลที่มีอยู่ การสร้างแบบจำลองเชิงแนวคิดสัมพันธ์เชิงนิยามรูปแบบและ ontological จะต้องมีความยืดหยุ่นและการสร้างภาพของพวกเขาเหมือนกัน การยกเครื่องยนต์ AI อย่างหนักเช่น Watson ในการดึงข้อมูลและการอนุมานทำให้เกิดความสนใจใน IE และฟิลด์ IR อย่างตรงไปตรงมา นอกจากนี้ความแพร่หลายของการประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่องจักรกำลังดึงดูดความสนใจไปยัง IR และ IE โมเดลและเอ็นจิ้น ผลกระทบของโมเดล IR ต่อการค้นหาและ SEO และการสร้างแบบจำลองทางเว็บเชิงความหมายเป็นหนึ่งในนั้น "

— MethodyM
แหล่งที่มา

1

การดึงข้อมูลเป็นเรื่องเกี่ยวกับการคืนข้อมูลที่เกี่ยวข้องกับการสืบค้นหรือสาขาที่สนใจ โปรดทราบว่าข้อมูลนี้อาจอยู่ในรูปแบบของเอกสารทั่วไปเครื่องมือค้นหานั่นเองเป็นตัวอย่างที่โดดเด่นของงานดังกล่าว ฉันจะบอกว่าเอนทิตีที่สำคัญที่สุดที่จำได้สำหรับการดึงข้อมูลคือชุดเอกสาร / ข้อมูลเริ่มต้นและเคียวรีที่ระบุ "สิ่งที่ต้องการค้นหา"

ในทางตรงกันข้ามการดึงข้อมูลนั้นเป็นเรื่องเกี่ยวกับการดึง (หรืออนุมาน) ความรู้ทั่วไป (หรือความสัมพันธ์) จากชุดของเอกสารหรือข้อมูล โปรดทราบว่าเนื้อหาทั้งหมดของเอกสารถือได้ว่าเป็นคลังข้อมูลทั้งหมดที่ดึงความรู้ออกมา แน่นอนสำหรับกรณีนี้คุณสามารถระบุสิ่งที่คุณต้องการแยกได้ แต่มันเป็นเรื่องของคุณสมบัติ / ความสัมพันธ์มากกว่าวิชา / หัวข้อที่เฉพาะเจาะจง คุณสมบัติเป็นโดเมนเฉพาะเจาะจงมากขึ้นในขณะที่ความสัมพันธ์โดยทั่วไปครอบคลุมสถานการณ์ทั่วไปมากขึ้น

อีกครั้งกับเครื่องมือค้นหาที่คุณขอให้เว็บไซต์ที่มีแนวโน้มมากที่สุดที่จะมีข้อมูลเกี่ยวกับเรื่องเฉพาะ นี่คือตัวอย่างของการดึงข้อมูล

สำหรับการดึงข้อมูลคุณสามารถขอให้แยกชื่อเมืองหรือที่อยู่อีเมลทั้งหมดที่ปรากฏในคลังเอกสาร คุณสามารถทำได้ทั่วๆไปอีกหน่อยขอแค่ดึงความรู้ออกมา อย่างที่คุณเห็นนี่เป็นเรื่องธรรมดาจริงๆ แต่ก็สามารถทำได้เช่นโดยได้รับแบบฟอร์มสามเรื่องของแอ็คชั่น - วัตถุ - วัตถุสำหรับแต่ละประโยคที่ถูกต้องของข้อความ (เหมาะที่สุดสำหรับข้อความภาษาธรรมชาติ)

หากคุณสนใจเหล่านี้ (และอื่น ๆ ) หัวข้ออธิบายในรายละเอียดในบทที่ประมวลผลภาษาธรรมชาติของหนังสือเล่มนี้Arti ficial หน่วยสืบราชการลับ: วิธีโมเดิร์น

— 5agado
แหล่งที่มา