คำถามติดแท็ก information-retrieval

2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่

3
ความถี่ในการคลิกนั้นมีความเกี่ยวข้องกันหรือไม่
ในขณะที่สร้างอันดับพูดสำหรับเครื่องมือค้นหาหรือระบบคำแนะนำมันถูกต้องหรือไม่ที่จะต้องพึ่งพาความถี่การคลิกเพื่อกำหนดความเกี่ยวข้องของรายการ?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
แยกสตริงที่ยอมรับจากรายการของสตริงที่มีเสียงดัง
ฉันมีหลายพันรายการของสตริงและแต่ละรายการมีประมาณ 10 สาย สตริงส่วนใหญ่ในรายการที่กำหนดจะคล้ายกันมากแม้ว่าบางสตริงจะไม่ค่อยเกี่ยวข้องกับสตริงอื่นและบางคำมีคำที่ไม่เกี่ยวข้อง พวกเขาอาจถูกพิจารณาว่าเป็นความแปรปรวนของสตริงที่ยอมรับได้ ฉันกำลังมองหาอัลกอริทึมหรือไลบรารีที่จะแปลงแต่ละรายการเป็นสตริงที่ยอมรับได้ นี่คือหนึ่งในรายการดังกล่าว Star Wars: Episode IV ความหวังใหม่ StarWars.com Star Wars Episode IV - ความหวังใหม่ (1977) Star Wars: Episode IV - ความหวังใหม่ - มะเขือเทศเน่า ดู Star Wars: Episode IV - ความหวังใหม่ออนไลน์ฟรี Star Wars (1977) - ภาพยนตร์ยอดเยี่ยม [REC] โปสเตอร์ 4 ใบรับประกันความตายโดย Outboard Motor - SciFiNow สำหรับรายการนี้สตริงใด ๆ …

5
วิธีสร้างรายการ stopwords ที่ดี
ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการจัดการรายการคำหยุด มีใครรู้ / ใครบ้างที่สามารถแนะนำวิธีการที่ดีในการแยกรายการคำหยุดจากชุดข้อมูลสำหรับการประมวลผลและการกรองล่วงหน้าได้หรือไม่? ข้อมูล: การป้อนข้อความของมนุษย์จำนวนมากที่มีความยาวผันแปร (searchterms และทั้งประโยค (สูงสุด 200 ตัวอักษร)) ในช่วงหลายปีที่ผ่านมา ข้อความประกอบด้วยสแปมจำนวนมาก (เช่นอินพุตจากบอตคำเดียวการค้นหาโง่การค้นหาผลิตภัณฑ์ ... ) และดูเหมือนว่าจะมีประโยชน์เพียงไม่กี่% เท่านั้น ฉันรู้ว่าบางครั้งผู้คนค้นหาด้านของฉันด้วยการถามคำถามเจ๋ง ๆ คำถามเหล่านี้เจ๋งมากฉันคิดว่ามันคุ้มค่าที่จะมองลึกลงไปในพวกเขาเพื่อดูว่าผู้คนค้นหาในช่วงเวลาใดและหัวข้อที่ผู้คนสนใจในการใช้เว็บไซต์ของฉัน ปัญหาของฉัน: คือฉันกำลังดิ้นรนกับการประมวลผลล่วงหน้า (เช่นการทิ้งสแปม) ฉันได้ลองใช้รายการคำหยุดจากเว็บ (NLTK เป็นต้น) แล้ว แต่สิ่งเหล่านี้ไม่ได้ช่วยตอบสนองความต้องการของฉันเกี่ยวกับชุดข้อมูลนี้ ขอบคุณสำหรับความคิดและการสนทนาของคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.