คำถามติดแท็ก nlp

การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์, ปัญญาประดิษฐ์และภาษาศาสตร์ที่เกี่ยวข้องกับการมีปฏิสัมพันธ์ระหว่างคอมพิวเตอร์และภาษามนุษย์ (ธรรมชาติ) ด้วยเหตุนี้ NLP จึงเกี่ยวข้องกับการปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์ ความท้าทายหลายอย่างใน NLP เกี่ยวข้องกับการเข้าใจภาษาธรรมชาตินั่นคือทำให้คอมพิวเตอร์ได้รับความหมายจากการป้อนข้อมูลภาษามนุษย์หรือภาษาธรรมชาติและอื่น ๆ ที่เกี่ยวข้องกับการสร้างภาษาธรรมชาติ

4
ทางเลือกแทน TF-IDF และ Cosine Similarity เมื่อเปรียบเทียบเอกสารที่มีรูปแบบต่างกัน
ฉันทำงานเกี่ยวกับโครงการส่วนตัวขนาดเล็กซึ่งใช้ทักษะการทำงานของผู้ใช้และแนะนำอาชีพที่เหมาะสมที่สุดสำหรับพวกเขาตามทักษะเหล่านั้น ฉันใช้ฐานข้อมูลของรายการงานเพื่อให้ได้สิ่งนี้ ในขณะนี้รหัสทำงานดังนี้: 1) ประมวลผลข้อความของแต่ละรายการงานเพื่อแยกทักษะที่ระบุไว้ในรายการ 2) สำหรับแต่ละอาชีพ (เช่น "นักวิเคราะห์ข้อมูล") ให้รวมข้อความที่ประมวลผลของรายการงานสำหรับอาชีพนั้นไว้ในเอกสารเดียว 3) คำนวณ TF-IDF ของแต่ละทักษะภายในเอกสารประกอบอาชีพ หลังจากนี้ฉันไม่แน่ใจว่าวิธีการใดที่ฉันควรใช้เพื่อจัดอันดับอาชีพตามรายการทักษะของผู้ใช้ วิธีที่ได้รับความนิยมมากที่สุดที่ฉันเคยเห็นก็คือการใช้ทักษะของผู้ใช้เป็นเอกสารเช่นกันจากนั้นคำนวณ TF-IDF สำหรับเอกสารทักษะและใช้สิ่งที่คล้ายโคไซน์เพื่อคำนวณความคล้ายคลึงกันระหว่างเอกสารทักษะและแต่ละ เอกสารประกอบอาชีพ ดูเหมือนจะไม่เป็นทางออกที่ดีสำหรับฉันเนื่องจากความคล้ายคลึงกันทางโคไซน์นั้นถูกใช้งานได้ดีที่สุดเมื่อเปรียบเทียบเอกสารสองฉบับในรูปแบบเดียวกัน สำหรับเรื่องนั้น TF-IDF ดูเหมือนจะไม่ตรงกับตัวชี้วัดที่เหมาะสมที่จะนำไปใช้กับรายการทักษะของผู้ใช้เลย ตัวอย่างเช่นหากผู้ใช้เพิ่มทักษะเพิ่มเติมลงในรายการ TF ของแต่ละทักษะจะลดลง ในความเป็นจริงฉันไม่สนใจสิ่งที่ความถี่ของทักษะอยู่ในรายการทักษะของผู้ใช้ - ฉันแค่ใส่ใจว่าพวกเขามีทักษะเหล่านั้น (และบางทีพวกเขารู้ทักษะเหล่านั้นดีแค่ไหน) ดูเหมือนว่าตัวชี้วัดที่ดีกว่าจะทำสิ่งต่อไปนี้: 1) สำหรับแต่ละทักษะที่ผู้ใช้มีให้คำนวณ TF-IDF ของทักษะนั้นในเอกสารประกอบอาชีพ 2) สำหรับแต่ละอาชีพสรุปผล TF-IDF สำหรับทักษะทั้งหมดของผู้ใช้ 3) อันดับอาชีพตามผลรวมข้างต้น ฉันกำลังคิดตามบรรทัดที่นี่หรือไม่ ถ้าเป็นเช่นนั้นมีอัลกอริทึมใดบ้างที่ใช้งานได้ตามบรรทัดเหล่านี้ แต่มีความซับซ้อนมากกว่าผลรวมแบบง่ายหรือไม่? ขอบคุณสำหรับความช่วยเหลือ!

3
โมเดลฐานข้อมูลที่มีประสิทธิภาพสำหรับการจัดเก็บข้อมูลที่จัดทำดัชนีโดย n-grams
ฉันกำลังทำงานกับแอปพลิเคชันที่ต้องสร้างฐานข้อมูลขนาดใหญ่มากซึ่งมีอยู่ในคลังข้อความขนาดใหญ่ ฉันต้องการประเภทการดำเนินงานที่มีประสิทธิภาพสามประเภท: การค้นหาและการแทรกดัชนีที่จัดทำโดย n-gram เองและทำการค้นหา n-g ทั้งหมดที่มี sub-n-gram สิ่งนี้ฟังดูเหมือนว่าฐานข้อมูลควรเป็นแผนผังเอกสารขนาดใหญ่และฐานข้อมูลเอกสารเช่น Mongo ควรจะสามารถทำงานได้ดี แต่ฉันไม่เคยใช้มันในระดับใด รู้รูปแบบคำถามของ Exchange Exchange ฉันต้องการชี้แจงว่าฉันไม่ได้ขอคำแนะนำเกี่ยวกับเทคโนโลยีเฉพาะ แต่ควรเป็นฐานข้อมูลประเภทหนึ่งที่ฉันควรมองหาเพื่อนำไปใช้ในระดับนี้
12 nlp  databases 

3
ความช่วยเหลือเกี่ยวกับ NER ใน NLTK
ฉันทำงานใน NLTK มาระยะหนึ่งแล้วโดยใช้ Python ปัญหาที่ฉันพบคือพวกเขาไม่มีความช่วยเหลือในการฝึกอบรม NER ใน NLTK ด้วยข้อมูลที่กำหนดเองของฉัน พวกเขาใช้ MaxEnt และฝึกฝนบน ACE corpus ฉันค้นหาบนเว็บเป็นจำนวนมาก แต่ไม่พบวิธีที่สามารถใช้ในการฝึกอบรม NER ของ NLTK ได้ หากทุกคนสามารถให้ลิงก์ / บทความ / บล็อกอื่น ๆ ให้ฉันซึ่งสามารถนำฉันไปยังรูปแบบชุดข้อมูลการฝึกอบรมที่ใช้ในการฝึกอบรม NER ของ NLTK เพื่อให้ฉันสามารถเตรียมชุดข้อมูลของฉันในรูปแบบเฉพาะนั้น และถ้าฉันถูกนำไปยังลิงก์ / บทความ / บล็อก ฯลฯ ซึ่งสามารถช่วยฉันได้ NER ของ TRAIN NLTK สำหรับข้อมูลของฉันเอง นี่คือคำถามที่ค้นหากันอย่างกว้างขวางและตอบน้อยที่สุด อาจเป็นประโยชน์สำหรับใครบางคนในอนาคตที่ทำงานกับ NER

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
ดึงข้อมูลจากประโยค
ฉันกำลังสร้าง chatbot ง่าย ๆ ฉันต้องการรับข้อมูลจากการตอบกลับของผู้ใช้ ตัวอย่างสถานการณ์: Bot : Hi, what is your name? User: My name is Edwin. ฉันต้องการแยกชื่อ Edwin ออกจากประโยค อย่างไรก็ตามผู้ใช้สามารถตอบสนองได้หลายวิธีเช่น User: Edwin is my name. User: I am Edwin. User: Edwin. ฉันพยายามพึ่งพาความสัมพันธ์ระหว่างคำ แต่ผลลัพธ์ไม่ดี ความคิดเกี่ยวกับเทคนิคใดที่ฉันสามารถใช้เพื่อแก้ไขปัญหานี้ [UPDATED] ฉันทดสอบด้วยการจดจำเอนทิตีที่ระบุชื่อพร้อมกับส่วนหนึ่งของเครื่องมือแท็กคำพูดและโปรแกรมแยกวิเคราะห์ ฉันพบว่าโมเดลส่วนใหญ่ได้รับการฝึกฝนในลักษณะที่อักขระตัวแรกของเอนทิตีสำหรับชื่อบุคคลหรือคำนามที่เหมาะสมจะต้องเป็นตัวพิมพ์ใหญ่ สิ่งนี้อาจเป็นจริงสำหรับเอกสารปกติ แต่ไม่เกี่ยวข้องกับ chatbot เช่น User: my name is edwin. NER ส่วนใหญ่ไม่สามารถรับรู้สิ่งนี้
11 python  nlp 

1
วิธีการตรวจสอบว่าลำดับตัวละครเป็นคำภาษาอังกฤษหรือเสียงรบกวน
ฟีเจอร์ประเภทใดที่คุณจะพยายามแยกออกจากรายการคำศัพท์สำหรับการทำนายอนาคตมันเป็นคำที่มีอยู่หรือเป็นแค่ตัวละคร? มีรายละเอียดของงานที่ผมพบคือมี คุณต้องเขียนโปรแกรมที่สามารถตอบได้ว่าคำที่กำหนดเป็นภาษาอังกฤษหรือไม่ นี่จะเป็นเรื่องง่าย - คุณเพียงแค่ต้องค้นหาคำในพจนานุกรม - แต่มีข้อ จำกัด ที่สำคัญ: โปรแกรมของคุณต้องมีขนาดไม่เกิน 64 KiB ดังนั้นฉันคิดว่ามันจะเป็นไปได้ที่จะใช้การถดถอยโลจิสติกในการแก้ปัญหา ฉันไม่มีประสบการณ์ในการขุดข้อมูลมากนัก แต่งานนั้นน่าสนใจสำหรับฉัน ขอบคุณ

2
“ ผู้จดจำเจตนา” ทำงานอย่างไร
Alexaของ Amazon , Mixของ Nuance และWit.aiของ Facebook ทั้งหมดใช้ระบบที่คล้ายกันเพื่อระบุวิธีแปลงคำสั่งข้อความให้เป็นเจตนา - นั่นคือสิ่งที่คอมพิวเตอร์จะเข้าใจ ฉันไม่แน่ใจว่าชื่อ "ทางการ" สำหรับสิ่งนี้คืออะไร แต่ฉันเรียกมันว่า "การจดจำเจตนา" โดยทั่วไปวิธีที่จะไปจาก "กรุณาตั้งค่าไฟของฉันถึง 50% ความสว่าง" lights.setBrightness(0.50)เพื่อ วิธีที่พวกเขาระบุไว้คือการให้นักพัฒนาจัดทำรายการ "คำพูดตัวอย่าง" ซึ่งเกี่ยวข้องกับเจตนาและติดแท็กเลือกที่ตั้งของ "เอนทิตี" (โดยทั่วไปพารามิเตอร์) นี่คือตัวอย่างจาก Wit.ai: คำถามของฉันคือระบบเหล่านี้ทำงานอย่างไร เนื่องจากมันคล้ายกันมากฉันจึงคิดว่ามีงานน้ำเชื้อบางอย่างที่พวกเขาใช้ทั้งหมด ไม่มีใครรู้ว่ามันคืออะไร? ที่น่าสนใจHoundifyใช้ระบบที่แตกต่างกันมากขึ้นเช่น ["please"] . ("activate" | "enable" | "switch on" | "turn on") . [("the" | "my")] . ("lights" | "lighting") …

1
การใช้ word2vec กับไฟล์ข้อความขนาดเล็ก
ฉันใหม่โดยสิ้นเชิงกับ word2vec ดังนั้นโปรดอดทนกับฉัน ฉันมีชุดไฟล์ข้อความแต่ละอันมีชุดทวีตอยู่ระหว่าง 1,000-3,000 ฉันเลือกคำหลักทั่วไป ("kw1") และต้องการค้นหาคำที่มีความหมายเชิงความหมายสำหรับ "kw1" โดยใช้ word2vec ตัวอย่างเช่นหากคำหลักคือ "apple" ฉันคาดว่าจะเห็นคำที่เกี่ยวข้องเช่น "ipad" "os" "mac" ... ตามไฟล์อินพุต ดังนั้นชุดคำศัพท์ที่เกี่ยวข้องสำหรับ "kw1" นี้จะแตกต่างกันสำหรับไฟล์อินพุตแต่ละไฟล์เนื่องจาก word2vec จะได้รับการฝึกอบรมในไฟล์แต่ละไฟล์ (เช่นไฟล์อินพุต 5 ไฟล์เรียกใช้ word2vec 5 ครั้งในแต่ละไฟล์) เป้าหมายของฉันคือค้นหาชุดคำศัพท์ที่เกี่ยวข้องสำหรับไฟล์อินพุตแต่ละไฟล์ที่มีคำหลักทั่วไป ("kw1") ซึ่งจะใช้เพื่อวัตถุประสงค์อื่น คำถาม / ข้อสงสัยของฉันคือ: มันสมเหตุสมผลหรือไม่ที่จะใช้ word2vec สำหรับงานเช่นนี้? จะใช้เทคนิคหรือไม่หากพิจารณาถึงขนาดเล็กของไฟล์อินพุต? ฉันได้ดาวน์โหลดรหัสจาก code.google.com: https://code.google.com/p/word2vec/และเพิ่งให้การเรียกใช้แบบแห้งดังนี้: time ./word2vec -train $file -output vectors.bin -cbow …

4
วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว
ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

3
อะไรคือความแตกต่างระหว่าง vectorizer hashing และ Vectorizer tfidf
ฉันกำลังแปลงคลังข้อความเอกสารเป็นคำเวกเตอร์สำหรับแต่ละเอกสาร ฉันได้ลองแล้วโดยใช้TfidfVectorizerและHashingVectorizer ผมเข้าใจว่าHashingVectorizerไม่คำนึงถึงIDFคะแนนเหมือนTfidfVectorizerไม่ เหตุผลที่ฉันยังคงทำงานร่วมกับผู้HashingVectorizerที่มีความยืดหยุ่นจะช่วยให้ขณะที่การจัดการกับชุดข้อมูลขนาดใหญ่ตามที่อธิบายไว้ที่นี่และที่นี่ (ชุดข้อมูลดั้งเดิมของฉันมีเอกสาร 30 ล้านฉบับ) ขณะนี้ฉันทำงานกับกลุ่มตัวอย่าง 45,339 เอกสารดังนั้นผมมีความสามารถในการทำงานด้วยTfidfVectorizerนอกจากนี้ยังมี เมื่อฉันใช้ vectorizers สองตัวนี้บนเอกสาร 45339 เดียวกันเมทริกซ์ที่ฉันได้รับนั้นแตกต่างกัน hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) hashing เมทริกซ์รูปร่าง (45339, 1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) รูปร่างเมทริกซ์ tfidf (45339, 663307) ฉันต้องการเข้าใจความแตกต่างระหว่าง a HashingVectorizerและ a TfidfVectorizerและเหตุผลที่เมทริกซ์เหล่านี้มีขนาดต่างกันโดยเฉพาะในจำนวนคำ …

3
การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับ NER
ฉันใช้ระบบ NER ด้วยการใช้อัลกอริธึม CRF กับคุณลักษณะแบบ handcrafted ของฉันที่ให้ผลลัพธ์ค่อนข้างดี สิ่งหนึ่งคือฉันใช้คุณสมบัติที่แตกต่างมากมายรวมถึงแท็ก POS และบทแทรก ตอนนี้ฉันต้องการสร้าง NER เดียวกันสำหรับภาษาอื่น ปัญหานี่คือฉันไม่สามารถใช้แท็ก POS และบทแทรก ฉันเริ่มอ่านบทความเกี่ยวกับการเรียนรู้อย่างลึกล้ำและการเรียนรู้คุณสมบัติที่ไม่มีผู้ดูแล คำถามของฉันคือ: เป็นไปได้ไหมที่จะใช้วิธีการสำหรับการเรียนรู้คุณสมบัติที่ไม่ได้รับการจัดการด้วยอัลกอริทึม CRF? ไม่มีใครลองและได้ผลดีบ้างไหม? มีบทความหรือการสอนเกี่ยวกับเรื่องนี้หรือไม่? ฉันยังไม่เข้าใจวิธีการสร้างคุณลักษณะนี้อย่างสมบูรณ์ดังนั้นฉันจึงไม่ต้องการใช้เวลามากสำหรับบางสิ่งที่ไม่ได้ผล ดังนั้นข้อมูลใด ๆ จะเป็นประโยชน์จริงๆ ในการสร้างระบบ NER ทั้งหมดโดยอิงจากการเรียนรู้เชิงลึกนั้นเป็นเรื่องที่ค่อนข้างมากในตอนนี้

3
วิธีการประมวลผลคำค้นหาภาษาธรรมชาติ?
ฉันอยากรู้เกี่ยวกับการสืบค้นภาษาธรรมชาติ Stanford มีสิ่งที่ดูเหมือนจะเป็นชุดที่แข็งแกร่งของซอฟแวร์สำหรับการประมวลผลภาษาธรรมชาติ ผมเคยเห็นยังห้องสมุด Apache OpenNLPและสถาปัตยกรรมทั่วไปสำหรับข้อความวิศวกรรม มีจำนวนการใช้อย่างไม่น่าเชื่อสำหรับการประมวลผลภาษาธรรมชาติและทำให้เอกสารของโครงการเหล่านี้ยากต่อการดูดซับอย่างรวดเร็ว คุณสามารถทำให้สิ่งต่าง ๆ ง่ายขึ้นสำหรับฉันเล็กน้อยและในระดับสูงร่างงานที่จำเป็นสำหรับการแปลคำถามพื้นฐานง่ายๆใน SQL? สี่เหลี่ยมผืนผ้าแรกบนแผนภูมิการไหลของฉันเป็นบิตของความลึกลับ ตัวอย่างเช่นฉันอาจต้องการทราบ: How many books were sold last month? และฉันต้องการแปลเป็น Select count(*) from sales where item_type='book' and sales_date >= '5/1/2014' and sales_date <= '5/31/2014'
11 nlp 

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Word2Vec และ Doc2Vec เป็นทั้งการกระจายแบบเป็นตัวแทนและแบบกระจายหรือไม่?
ฉันได้อ่านว่าการเป็นตัวแทนแบบกระจายขึ้นอยู่กับสมมติฐานการกระจายที่คำที่เกิดขึ้นในบริบทที่คล้ายกันมีแนวโน้มที่จะมีความหมายที่คล้ายกัน Word2Vec และ Doc2Vec ทั้งสองมีรูปแบบตามสมมติฐานนี้ แต่ในกระดาษเดิมแม้พวกเขาจะมีบรรดาศักดิ์เป็นและDistributed representation of words and phrases Distributed representation of sentences and documentsดังนั้นอัลกอริทึมเหล่านี้อยู่บนพื้นฐานของการเป็นตัวแทนแบบกระจายหรือเป็นตัวแทนแบบกระจาย แล้วรุ่นอื่น ๆ เช่น LDA และ LSA

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.