การเขียนโปรแกรม nltk

7

“ เอนโทรปีและการได้รับสารสนเทศ” คืออะไร?

ฉันกำลังอ่านหนังสือเล่มนี้ ( NLTK ) และมันสับสน เอนโทรปีถูกกำหนดเป็น : เอนโทรปีคือผลรวมของความน่าจะเป็นของแต่ละป้ายคูณความน่าจะเป็นบันทึกของป้ายกำกับนั้น ฉันจะใช้เอนโทรปีและเอนโทรปีสูงสุดในแง่ของการทำเหมืองข้อความได้อย่างไร มีใครให้ฉันเป็นตัวอย่างง่ายๆและเรียบง่าย (ภาพ) ได้ไหม

338 math text computer-science nltk text-mining

15

การโหลด english.pickle ล้มเหลวด้วย nltk.data.load

เมื่อพยายามโหลดpunkttokenizer ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorได้รับการเลี้ยงดู: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - 'E:\\Python26\\lib\\nltk_data' > …

144 python jenkins nltk

15

n- กรัมในหลามสี่ห้าหกกรัม?

ฉันกำลังหาวิธีแบ่งข้อความเป็น n-grams โดยปกติฉันจะทำสิ่งที่ชอบ: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams ฉันทราบว่า nltk ให้บริการเฉพาะ bigrams และ trigrams แต่มีวิธีแบ่งข้อความของฉันเป็นสี่กรัมห้ากรัมหรือร้อยกรัมหรือไม่ ขอบคุณ!

142 python string nltk n-gram

8

แท็ก pos ที่เป็นไปได้ทั้งหมดของ NLTK คืออะไร

ฉันจะค้นหารายการที่มีแท็ก pos ที่เป็นไปได้ทั้งหมดที่ใช้โดย Natural Language Toolkit (nltk) ได้อย่างไร

141 python nltk

9

วิธีตรวจสอบว่าคำนั้นเป็นคำภาษาอังกฤษด้วย Python หรือไม่?

ฉันต้องการตรวจสอบในโปรแกรม Python หากมีคำอยู่ในพจนานุกรมภาษาอังกฤษ ฉันเชื่อว่าอินเทอร์เฟซ nltk wordnet อาจเป็นวิธีที่จะไป แต่ฉันไม่รู้ว่าจะใช้มันอย่างไรสำหรับงานง่ายๆเช่นนี้ def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) ในอนาคตฉันอาจต้องการตรวจสอบว่ารูปเอกพจน์ของคำอยู่ในพจนานุกรมหรือไม่ (เช่นคุณสมบัติ -> คุณสมบัติ -> คำภาษาอังกฤษ) ฉันจะบรรลุเป้าหมายนั้นได้อย่างไร?

136 python nltk wordnet

9

ความแตกต่างระหว่างการแทรกคำย่อกับการกั้นคืออะไร?

ฉันจะใช้แต่ละอันเมื่อใด นอกจากนี้ ... การย่อขนาดของ NLTK ขึ้นอยู่กับบางส่วนของคำพูดด้วยหรือไม่ มันจะไม่แม่นยำกว่านี้ไหมถ้าใช่

131 python nlp nltk lemmatization

11

วิธีกำจัดเครื่องหมายวรรคตอนโดยใช้โทเค็น NLTK

ฉันเพิ่งเริ่มใช้ NLTK และไม่ค่อยเข้าใจวิธีรับรายการคำจากข้อความ ถ้าฉันใช้nltk.word_tokenize()ฉันจะได้รับรายการคำและเครื่องหมายวรรคตอน ฉันต้องการเพียงคำพูดแทน ฉันจะกำจัดเครื่องหมายวรรคตอนได้อย่างไร ยังใช้word_tokenizeไม่ได้กับหลายประโยค: จุดจะถูกเพิ่มเข้าไปในคำสุดท้าย

125 python nlp tokenize nltk

12

วิธีลบคำหยุดโดยใช้ nltk หรือ python

ดังนั้นฉันจึงมีชุดข้อมูลที่ฉันต้องการลบคำหยุดไม่ให้ใช้ stopwords.words('english') ฉันกำลังดิ้นรนที่จะใช้สิ่งนี้ภายในรหัสของฉันเพื่อเพียงแค่เอาคำเหล่านี้ ฉันมีรายการคำจากชุดข้อมูลนี้อยู่แล้วส่วนที่ฉันกำลังดิ้นรนคือการเปรียบเทียบกับรายการนี้และลบคำหยุด ขอความช่วยเหลือใด ๆ

110 python nltk stop-words

26

ปัญหา pip ในการติดตั้งเกือบทุกไลบรารี

ฉันมีช่วงเวลาที่ยากลำบากในการใช้ pip เพื่อติดตั้งเกือบทุกอย่าง ฉันยังใหม่กับการเขียนโค้ดดังนั้นฉันจึงคิดว่านี่อาจเป็นสิ่งที่ฉันทำผิดและเลือกที่จะไม่ใช้ easy_install เพื่อทำสิ่งที่ฉันต้องการให้มากที่สุดซึ่งโดยทั่วไปได้ผล อย่างไรก็ตามตอนนี้ฉันกำลังพยายามดาวน์โหลดไลบรารี nltk และงานก็ไม่เสร็จ ฉันพยายามป้อน sudo pip install nltk แต่ได้รับการตอบสนองดังต่อไปนี้: /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] …

106 python pip nltk easy-install

7

จะตรวจสอบรุ่นของ nltk, scikit learn ที่ติดตั้งได้อย่างไร?

ในเชลล์สคริปต์ฉันกำลังตรวจสอบว่ามีการติดตั้งแพ็กเกจนี้หรือไม่หากไม่ได้ติดตั้งให้ติดตั้ง ดังนั้นด้วยเชลล์สคริปต์: import nltk echo nltk.__version__ แต่จะหยุดเชลล์สคริปต์ที่importบรรทัด ในลินุกซ์เทอร์มินัลพยายามดูในลักษณะนี้: which nltk ซึ่งไม่คิดว่ามีการติดตั้ง มีวิธีอื่นในการตรวจสอบการติดตั้งแพ็กเกจนี้ในเชลล์สคริปต์หรือไม่หากไม่ได้ติดตั้งให้ติดตั้งด้วย

105 python linux shell scikit-learn nltk

17

ไม่พบทรัพยากร u'tokenizers / punkt / english.pickle '

รหัสของฉัน: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ข้อความผิดพลาด: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in …

100 python unix nltk

6

Python: tf-idf-cosine: เพื่อค้นหาความคล้ายคลึงกันของเอกสาร

ผมต่อไปกวดวิชาซึ่งเป็นใช้ได้ในส่วนที่ 1และส่วนที่ 2 น่าเสียดายที่ผู้เขียนไม่มีเวลาสำหรับส่วนสุดท้ายซึ่งเกี่ยวข้องกับการใช้ความคล้ายคลึงกันของโคไซน์เพื่อหาระยะห่างระหว่างเอกสารสองฉบับ ฉันติดตามตัวอย่างในบทความด้วยความช่วยเหลือของลิงค์ต่อไปนี้จากstackoverflowซึ่งรวมอยู่ในรหัสที่กล่าวถึงในลิงค์ด้านบน (เพื่อให้ชีวิตง่ายขึ้น) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords …

93 python machine-learning nltk information-retrieval tf-idf

18

Stanford Parser และ NLTK

เป็นไปได้ไหมที่จะใช้ Stanford Parser ใน NLTK (ฉันไม่ได้พูดถึง Stanford POS)

90 python parsing nlp nltk stanford-nlp

7

วิธีกำหนดค่าไดเรกทอรีข้อมูล nltk จากรหัส

88 python path directory nlp nltk

คำถามติดแท็ก nltk