แหล่งรายการคำ


11

ฉันกำลังมองหาแหล่งที่มาของคำนามคำวิเศษณ์คำคุณศัพท์และคำกริยาในหลายภาษา

ฉันต้องการรายการไปแล้วจะแยกออกจากกันและไม่ต้องไปผ่านโออี (และที่ไม่ใช่ภาษาอังกฤษเทียบเท่า) ด้วยมือสร้างใหม่อีกครั้งกล่าวว่ารายการ

ฉันไม่สนใจคำจำกัดความและฉันเข้าใจว่าบางคำอาจมีหลายส่วนของคำพูด - ไม่เป็นไร - คำเช่น "หลายคน" อาจเป็นคำนามหรือคำคุณศัพท์และสามารถปรากฏในทั้งสองรายการ

มีใครที่นี่รู้จักแหล่งดังกล่าวบ้างไหม ถ้าไม่ใช่จะมีใครชี้ฉันในทิศทางที่ถูกต้องได้ไหม?

ฉันโอเคกับรูปแบบใด ๆ ต่อไปนี้ (หรือคล้ายกันถ้าคนมีความคิด):

  • CSV: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • ไฟล์ธรรมดา ๆ เช่น "คำนาม", "คำกริยา" ฯลฯ
  • ตาราง mysql
  • ฯลฯ

คำตอบ:


8

ฉันใช้WordNetจากมหาวิทยาลัยพรินซ์ตันในบางโครงการ นี่คือฐานข้อมูลคำศัพท์ภาษาอังกฤษ Global WordNetเป็นส่วนเสริมของโครงการที่พยายามทำแบบเดียวกันกับทุกภาษา

คุณอาจสนใจโครงการที่เกี่ยวข้องที่http://wordnet.princeton.edu/wordnet/related-projects/


1
WordNet เป็นวิธีที่จะไป นักวิจัยชั้นนำทั้งหมดใช้สิ่งนี้
Ritwik Bose

4

สิ่งนี้อาจไม่ช่วยเลยฉันไม่รู้ แต่ MediaWiki มีAPIสำหรับแสดงรายการหน้าทั้งหมดที่อยู่ในหมวดหมู่ที่แน่นอน คุณสามารถลองใช้มันใน Wiktionary.org

หมายเหตุ:

  • แบบสอบถามแต่ละรายการส่งคืนผลลัพธ์ 500 รายการเท่านั้น อย่างไรก็ตามในตอนท้ายมันยังระบุพารามิเตอร์ที่จะใช้ในแบบสอบถามอื่นเพื่อรับผลลัพธ์ 500 รายการถัดไป
  • มันรวมทุกอย่างในหมวดหมู่ที่ระบุแม้แต่หมวดย่อยอื่น ๆ
  • ผลลัพธ์ดูเหมือนจะเรียงตามตัวอักษรแม้ว่าทุกอย่างที่ขึ้นต้นด้วยตัวอักษรพิมพ์ใหญ่จะมาก่อนอะไรก็ได้ในตัวพิมพ์เล็ก

ตัวอย่าง:

หวังว่านี่จะช่วยได้มันคือสิ่งที่ฉันจะได้รับ


1

ฉันจะแนะนำ @teknikqa เรื่องที่สองเกี่ยวกับ wordnet แต่ฉันขอแนะนำให้คุณตรวจสอบ API ของพวกเขา

STORYTIME : ฉันมีหลักสูตร AI ที่มีส่วนวิเคราะห์ภาษา ฉันใช้ perl API ของ wordnet เพื่อค้นหาประเภทคำจำกัดความสามอันดับแรกโดยอัตโนมัติและจำแนกประเภทการใช้ถ้อยคำจากที่อยู่ใกล้แบบเรียลไทม์ สิ้นสุด STORYTIME

มี API อยู่ที่นั่นสำหรับภาษาจำนวนมาก

FYI: โครงการได้รับ A +

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.