คำถามติดแท็ก search

2
การจัดอันดับแบบคู่ใน xgBoost เป็นอย่างไร
เท่าที่ฉันรู้ในการฝึกอบรมการเรียนรู้เพื่อจัดอันดับแบบจำลองคุณต้องมีสามสิ่งในชุดข้อมูล: ป้ายกำกับหรือความเกี่ยวข้อง รหัสกลุ่มหรือแบบสอบถาม คุณสมบัติเวกเตอร์ ตัวอย่างเช่นชุดข้อมูล Microsoft Learning to Rankใช้รูปแบบนี้ (ป้ายกำกับ, id กลุ่มและคุณสมบัติ) 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... ฉันลอง xgBoost ที่ใช้ GBM เพื่อทำการจัดอันดับแบบคู่ พวกเขามีตัวอย่างสำหรับงานการจัดอันดับที่ใช้โปรแกรม C ++ เพื่อเรียนรู้เกี่ยวกับชุดข้อมูล Microsoft ดังกล่าวข้างต้น อย่างไรก็ตามฉันใช้ตัวห่องูหลามและไม่สามารถหาตำแหน่งที่ฉันสามารถป้อนรหัสกลุ่ม ( qidด้านบน) ฉันสามารถฝึกนางแบบโดยใช้คุณสมบัติและคะแนนความเกี่ยวข้อง แต่ฉันรู้สึกว่าฉันขาดอะไรไป นี่คือสคริปต์ตัวอย่าง gbm = XGBRegressor(objective="rank:pairwise") X = np.random.normal(0, 1, 1000).reshape(100, 10) y = …
14 search  ranking  xgboost  gbm 

3
การสืบค้นในฐานข้อมูลขนาดใหญ่ส่งคืนอย่างไรโดยมีความหน่วงแฝงเล็กน้อย
ตัวอย่างเช่นเมื่อค้นหาบางสิ่งใน Google ผลลัพธ์จะส่งคืนทันที ฉันเข้าใจว่า Google เรียงลำดับและจัดทำดัชนีหน้าเว็บด้วยอัลกอริธึมเป็นต้น แต่ฉันคิดว่ามันเป็นไปไม่ได้ที่ผลลัพธ์ของการสืบค้นที่เป็นไปได้ทุกครั้งที่จะจัดทำดัชนี (และผลลัพธ์เป็นแบบส่วนบุคคล ยิ่งกว่านั้นเวลาแฝงของฮาร์ดแวร์ในฮาร์ดแวร์ของ Google จะไม่ใหญ่โตใช่ไหม แม้ว่าข้อมูลใน Google ทั้งหมดจะถูกเก็บไว้ใน TB / s SSD ฉันคิดว่าเวลาในการตอบสนองของฮาร์ดแวร์มีขนาดใหญ่มากเนื่องจากได้รับข้อมูลจำนวนมากในการประมวลผล MapReduce ช่วยแก้ปัญหานี้หรือไม่? แก้ไข: ตกลงดังนั้นฉันเข้าใจว่าการค้นหายอดนิยมสามารถถูกเก็บไว้ในหน่วยความจำ แต่การค้นหาที่ไม่เป็นที่นิยม แม้แต่การค้นหาที่คลุมเครือที่สุดที่ฉันได้ทำฉันไม่คิดว่าการค้นหานั้นจะมีขนาดใหญ่กว่า 5 วินาที เป็นไปได้อย่างไร?
12 bigdata  google  search 

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.