คำถามติดแท็ก nltk

Natural Language Toolkit เป็นไลบรารี Python สำหรับภาษาศาสตร์เชิงคำนวณ

7
“ เอนโทรปีและการได้รับสารสนเทศ” คืออะไร?
ฉันกำลังอ่านหนังสือเล่มนี้ ( NLTK ) และมันสับสน เอนโทรปีถูกกำหนดเป็น : เอนโทรปีคือผลรวมของความน่าจะเป็นของแต่ละป้ายคูณความน่าจะเป็นบันทึกของป้ายกำกับนั้น ฉันจะใช้เอนโทรปีและเอนโทรปีสูงสุดในแง่ของการทำเหมืองข้อความได้อย่างไร มีใครให้ฉันเป็นตัวอย่างง่ายๆและเรียบง่าย (ภาพ) ได้ไหม

15
การโหลด english.pickle ล้มเหลวด้วย nltk.data.load
เมื่อพยายามโหลดpunkttokenizer ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorได้รับการเลี้ยงดู: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - 'E:\\Python26\\lib\\nltk_data' > …
144 python  jenkins  nltk 

15
n- กรัมในหลามสี่ห้าหกกรัม?
ฉันกำลังหาวิธีแบ่งข้อความเป็น n-grams โดยปกติฉันจะทำสิ่งที่ชอบ: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams ฉันทราบว่า nltk ให้บริการเฉพาะ bigrams และ trigrams แต่มีวิธีแบ่งข้อความของฉันเป็นสี่กรัมห้ากรัมหรือร้อยกรัมหรือไม่ ขอบคุณ!
142 python  string  nltk  n-gram 


9
วิธีตรวจสอบว่าคำนั้นเป็นคำภาษาอังกฤษด้วย Python หรือไม่?
ฉันต้องการตรวจสอบในโปรแกรม Python หากมีคำอยู่ในพจนานุกรมภาษาอังกฤษ ฉันเชื่อว่าอินเทอร์เฟซ nltk wordnet อาจเป็นวิธีที่จะไป แต่ฉันไม่รู้ว่าจะใช้มันอย่างไรสำหรับงานง่ายๆเช่นนี้ def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) ในอนาคตฉันอาจต้องการตรวจสอบว่ารูปเอกพจน์ของคำอยู่ในพจนานุกรมหรือไม่ (เช่นคุณสมบัติ -> คุณสมบัติ -> คำภาษาอังกฤษ) ฉันจะบรรลุเป้าหมายนั้นได้อย่างไร?
136 python  nltk  wordnet 

9
ความแตกต่างระหว่างการแทรกคำย่อกับการกั้นคืออะไร?
ฉันจะใช้แต่ละอันเมื่อใด นอกจากนี้ ... การย่อขนาดของ NLTK ขึ้นอยู่กับบางส่วนของคำพูดด้วยหรือไม่ มันจะไม่แม่นยำกว่านี้ไหมถ้าใช่

11
วิธีกำจัดเครื่องหมายวรรคตอนโดยใช้โทเค็น NLTK
ฉันเพิ่งเริ่มใช้ NLTK และไม่ค่อยเข้าใจวิธีรับรายการคำจากข้อความ ถ้าฉันใช้nltk.word_tokenize()ฉันจะได้รับรายการคำและเครื่องหมายวรรคตอน ฉันต้องการเพียงคำพูดแทน ฉันจะกำจัดเครื่องหมายวรรคตอนได้อย่างไร ยังใช้word_tokenizeไม่ได้กับหลายประโยค: จุดจะถูกเพิ่มเข้าไปในคำสุดท้าย
125 python  nlp  tokenize  nltk 

12
วิธีลบคำหยุดโดยใช้ nltk หรือ python
ดังนั้นฉันจึงมีชุดข้อมูลที่ฉันต้องการลบคำหยุดไม่ให้ใช้ stopwords.words('english') ฉันกำลังดิ้นรนที่จะใช้สิ่งนี้ภายในรหัสของฉันเพื่อเพียงแค่เอาคำเหล่านี้ ฉันมีรายการคำจากชุดข้อมูลนี้อยู่แล้วส่วนที่ฉันกำลังดิ้นรนคือการเปรียบเทียบกับรายการนี้และลบคำหยุด ขอความช่วยเหลือใด ๆ
110 python  nltk  stop-words 

26
ปัญหา pip ในการติดตั้งเกือบทุกไลบรารี
ฉันมีช่วงเวลาที่ยากลำบากในการใช้ pip เพื่อติดตั้งเกือบทุกอย่าง ฉันยังใหม่กับการเขียนโค้ดดังนั้นฉันจึงคิดว่านี่อาจเป็นสิ่งที่ฉันทำผิดและเลือกที่จะไม่ใช้ easy_install เพื่อทำสิ่งที่ฉันต้องการให้มากที่สุดซึ่งโดยทั่วไปได้ผล อย่างไรก็ตามตอนนี้ฉันกำลังพยายามดาวน์โหลดไลบรารี nltk และงานก็ไม่เสร็จ ฉันพยายามป้อน sudo pip install nltk แต่ได้รับการตอบสนองดังต่อไปนี้: /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] …
106 python  pip  nltk  easy-install 

7
จะตรวจสอบรุ่นของ nltk, scikit learn ที่ติดตั้งได้อย่างไร?
ในเชลล์สคริปต์ฉันกำลังตรวจสอบว่ามีการติดตั้งแพ็กเกจนี้หรือไม่หากไม่ได้ติดตั้งให้ติดตั้ง ดังนั้นด้วยเชลล์สคริปต์: import nltk echo nltk.__version__ แต่จะหยุดเชลล์สคริปต์ที่importบรรทัด ในลินุกซ์เทอร์มินัลพยายามดูในลักษณะนี้: which nltk ซึ่งไม่คิดว่ามีการติดตั้ง มีวิธีอื่นในการตรวจสอบการติดตั้งแพ็กเกจนี้ในเชลล์สคริปต์หรือไม่หากไม่ได้ติดตั้งให้ติดตั้งด้วย

17
ไม่พบทรัพยากร u'tokenizers / punkt / english.pickle '
รหัสของฉัน: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ข้อความผิดพลาด: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in …
100 python  unix  nltk 

6
Python: tf-idf-cosine: เพื่อค้นหาความคล้ายคลึงกันของเอกสาร
ผมต่อไปกวดวิชาซึ่งเป็นใช้ได้ในส่วนที่ 1และส่วนที่ 2 น่าเสียดายที่ผู้เขียนไม่มีเวลาสำหรับส่วนสุดท้ายซึ่งเกี่ยวข้องกับการใช้ความคล้ายคลึงกันของโคไซน์เพื่อหาระยะห่างระหว่างเอกสารสองฉบับ ฉันติดตามตัวอย่างในบทความด้วยความช่วยเหลือของลิงค์ต่อไปนี้จากstackoverflowซึ่งรวมอยู่ในรหัสที่กล่าวถึงในลิงค์ด้านบน (เพื่อให้ชีวิตง่ายขึ้น) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords …


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.