วิทยาศาสตร์ข้อมูล recommender-system

4

ฉันกำลังเรียนรู้เกี่ยวกับเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันเห็นคำที่latent featuresเกิดขึ้นบ่อยเกินไป แต่ฉันไม่สามารถเข้าใจความหมายของมัน ฉันรู้ว่าฟีเจอร์คืออะไร แต่ฉันไม่เข้าใจความคิดของฟีเจอร์แฝง โปรดอธิบายได้ไหม หรืออย่างน้อยก็ชี้ให้ฉันไปที่กระดาษ / สถานที่ที่ฉันสามารถอ่านเกี่ยวกับมันได้?

24 machine-learning data-mining recommender-system

3

ความถี่ในการคลิกนั้นมีความเกี่ยวข้องกันหรือไม่

ในขณะที่สร้างอันดับพูดสำหรับเครื่องมือค้นหาหรือระบบคำแนะนำมันถูกต้องหรือไม่ที่จะต้องพึ่งพาความถี่การคลิกเพื่อกำหนดความเกี่ยวข้องของรายการ?

17 recommender-system information-retrieval

2

แนะนำภาพยนตร์ที่มีคุณสมบัติเพิ่มเติมโดยใช้การกรองร่วมกัน

ฉันกำลังพยายามสร้างระบบการแนะนำโดยใช้การกรองร่วมกัน ฉันมี[user, movie, rating]ข้อมูลปกติ ฉันต้องการรวมคุณสมบัติเพิ่มเติมเช่น 'ภาษา' หรือ 'ระยะเวลาของภาพยนตร์' ฉันไม่แน่ใจว่าเทคนิคใดที่ฉันสามารถใช้สำหรับปัญหาดังกล่าว กรุณาแนะนำการอ้างอิงหรือแพคเกจในหลาม / R

17 python r recommender-system

2

ข้อแตกต่างของการแนะนำตามรายการและผู้ใช้ใน Mahout

ฉันอยากจะรู้ว่าผู้ใช้ควานช้างตามและคำแนะนำตามรายการแตกต่างกันอย่างไร มันกำหนดว่า ตามผู้ใช้ : แนะนำรายการโดยการค้นหาผู้ใช้ที่คล้ายกัน สิ่งนี้มักจะยากต่อการปรับขนาดเนื่องจากลักษณะของผู้ใช้แบบไดนามิก รายการตาม : คำนวณความคล้ายคลึงกันระหว่างรายการและให้คำแนะนำ รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นสิ่งนี้จึงสามารถคำนวณได้จากบรรทัด แต่ถึงแม้ว่าจะมีข้อเสนอแนะสองแบบให้เลือก แต่สิ่งที่ฉันเข้าใจคือทั้งสองอย่างนี้จะใช้ตัวแบบข้อมูลบางตัว (เช่น 1,2 หรือ 1,2, .5 เป็น item1, item2, value หรือ user1, user2, value โดยที่ value ไม่ได้ บังคับ) และจะทำการคำนวณทั้งหมดตามการวัดความคล้ายคลึงกันและฟังก์ชั่น build-in ของผู้แนะนำที่เราเลือกและเราสามารถเรียกใช้คำแนะนำจากผู้ใช้ / รายการตามข้อมูลเดียวกัน (นี่คือสมมติฐานที่ถูกต้องหรือไม่?) ดังนั้นฉันอยากรู้ว่าอัลกอริทึมทั้งสองแบบนี้แตกต่างกันอย่างไร

15 machine-learning data-mining algorithms recommender-system

2

อัลกอริทึมการจับคู่การตั้งค่า

มีโครงการด้านนี้ที่ฉันกำลังทำงานในที่ที่ฉันต้องการจัดโครงสร้างวิธีแก้ไขปัญหาต่อไปนี้ ฉันมีคนสองกลุ่ม (ลูกค้า) กลุ่มAตั้งใจที่จะซื้อและกลุ่มตั้งใจที่จะขายสินค้าที่มีความมุ่งมั่นB Xผลิตภัณฑ์มีชุดของคุณลักษณะx_iและวัตถุประสงค์ของฉันคือเพื่ออำนวยความสะดวกในการทำธุรกรรมระหว่างAและBโดยการจับคู่การตั้งค่าของพวกเขา แนวคิดหลักคือการชี้ให้สมาชิกแต่ละคนของAผลิตภัณฑ์ที่ตรงBกับความต้องการของเขาและในทางกลับกัน ปัญหาที่ซับซ้อนบางประการของปัญหา: รายการคุณลักษณะไม่ จำกัด ผู้ซื้ออาจสนใจในลักษณะเฉพาะหรือการออกแบบบางอย่างซึ่งหาได้ยากในหมู่ประชากรและฉันไม่สามารถคาดเดาได้ ก่อนหน้านี้ไม่สามารถแสดงรายการคุณลักษณะทั้งหมด แอตทริบิวต์อาจเป็นแบบต่อเนื่องแบบไบนารีหรือไม่สามารถวัดได้ (เช่นราคาฟังก์ชันการทำงานการออกแบบ); ข้อเสนอแนะใด ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้และแก้ปัญหาด้วยวิธีอัตโนมัติ? ฉันจะขอบคุณอ้างอิงบางอย่างเกี่ยวกับปัญหาที่คล้ายกันอื่น ๆ ถ้าเป็นไปได้ คำแนะนำยอดเยี่ยม! ความคล้ายคลึงกันหลายอย่างในวิธีที่ฉันคิดว่าจะเข้าใกล้ปัญหา ประเด็นหลักในการทำแผนที่คุณลักษณะคือระดับของรายละเอียดที่ควรอธิบายผลิตภัณฑ์ขึ้นอยู่กับผู้ซื้อแต่ละราย ลองยกตัวอย่างรถยนต์ ผลิตภัณฑ์“ รถยนต์” มีคุณสมบัติมากมายตั้งแต่ประสิทธิภาพการทำงานโครงสร้างเครื่องจักรกลราคาและอื่น ๆ สมมติว่าฉันต้องการรถราคาถูกหรือรถยนต์ไฟฟ้า ตกลงนั่นเป็นเรื่องง่ายที่จะทำแผนที่เพราะมันเป็นคุณสมบัติหลักของผลิตภัณฑ์นี้ แต่ตัวอย่างเช่นฉันต้องการรถที่มีระบบส่งกำลังแบบ Dual-Clutch หรือไฟหน้าซีนอน อาจมีรถยนต์จำนวนมากในฐานข้อมูลที่มีคุณลักษณะนี้ แต่ฉันจะไม่ขอให้ผู้ขายกรอกรายละเอียดในระดับนี้ลงในผลิตภัณฑ์ของพวกเขาก่อนข้อมูลที่มีคนมองอยู่ ขั้นตอนดังกล่าวจะกำหนดให้ผู้ขายทุกรายกรอกแบบฟอร์มที่มีความซับซ้อนและละเอียดมากเพียงพยายามขายรถของเขาบนแพลตฟอร์ม แค่จะไม่ทำงาน แต่ถึงกระนั้นความท้าทายของฉันคือการพยายามให้รายละเอียดเท่าที่จำเป็นในการค้นหาเพื่อให้ตรงกับที่ดี วิธีที่ฉันคิดคือการทำแผนที่ประเด็นสำคัญของผลิตภัณฑ์ซึ่งอาจเกี่ยวข้องกับทุกคนเพื่อ จำกัด กลุ่มผู้ขายที่มีศักยภาพ ขั้นตอนต่อไปจะเป็น "การค้นหาที่ละเอียดอ่อน" เพื่อหลีกเลี่ยงการสร้างแบบฟอร์มที่มีรายละเอียดมากเกินไปฉันอาจขอให้ผู้ซื้อและผู้ขายเขียนข้อความฟรีของข้อกำหนดของพวกเขา จากนั้นใช้อัลกอริทึมการจับคู่คำเพื่อค้นหาการจับคู่ที่เป็นไปได้ แม้ว่าฉันเข้าใจว่านี่ไม่ใช่วิธีแก้ปัญหาที่เหมาะสมเนื่องจากผู้ขายไม่สามารถ“ เดา” สิ่งที่ผู้ซื้อต้องการได้ แต่อาจทำให้ฉันเข้าใกล้ เกณฑ์การถ่วงน้ำหนักที่แนะนำนั้นยอดเยี่ยม มันช่วยให้ฉันสามารถวัดระดับที่ผู้ขายตรงกับความต้องการของผู้ซื้อ …

12 bigdata text-mining recommender-system

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

3

เครื่องแยกตัวประกอบเขตข้อมูล

ทุกคนสามารถอธิบายได้ว่าเครื่องแยกตัวประกอบแบบตระหนักถึงสนาม (FFM) เปรียบเทียบกับเครื่องแยกตัวประกอบมาตรฐาน (FM) ได้อย่างไร มาตรฐาน: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

11 machine-learning recommender-system

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

Spark ALS: แนะนำสำหรับผู้ใช้ใหม่

คำถาม ฉันจะทำนายอันดับสำหรับผู้ใช้ใหม่ในรุ่น ALS ที่ผ่านการฝึกอบรมใน Spark ได้อย่างไร (ใหม่ = ไม่เห็นในช่วงเวลาการฝึกอบรม) ปัญหา ฉันกำลังติดตามกวดวิชา Spark ALS อย่างเป็นทางการที่นี่: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html ฉันสามารถสร้างผู้แนะนำที่ดีด้วย MSE ที่เหมาะสม แต่ฉันกำลังดิ้นรนกับวิธีการป้อนข้อมูลใหม่ให้กับโมเดล บทช่วยสอนจะเปลี่ยนการให้คะแนนของผู้ใช้คนแรกก่อนการฝึกอบรม แต่นี่เป็นการแฮ็คจริงๆ พวกเขาให้คำแนะนำต่อไปนี้: 9.2 ปัจจัยเมทริกซ์การขยาย: ในบทช่วยสอนนี้เราเพิ่มคะแนนของคุณในชุดการฝึกอบรม วิธีที่ดีกว่าในการรับคำแนะนำสำหรับคุณคือการฝึกอบรมแบบจำลองการแยกตัวประกอบเมทริกซ์ก่อนจากนั้นจึงขยายแบบจำลองโดยใช้การจัดอันดับของคุณ หากสิ่งนี้ฟังดูน่าสนใจสำหรับคุณคุณสามารถดูการใช้งาน MatrixFactorizationModel และดูวิธีการอัพเดตโมเดลสำหรับผู้ใช้ใหม่และภาพยนตร์ใหม่ การใช้งานไม่ได้ช่วยฉันเลย เป็นการดีที่ฉันกำลังมองหาสิ่งที่ชอบ: predictions = model.predictAllNew(newinput) แต่ไม่มีวิธีการดังกล่าวอยู่ ฉันสามารถไปและดัดแปลง RDD ดั้งเดิมได้ แต่ฉันคิดว่านั่นจะทำให้ฉันต้องสั่งสอนแบบจำลองใหม่ แน่นอนว่าต้องมีวิธีที่สวยงามกว่านี้อีกไหม? ตอนนี้ฉันอยู่ไหน: ฉันคิดว่าฉันต้องหาตัวแทนแฝงของเวกเตอร์ใหม่ ตามกระดาษต้นฉบับเราสามารถคำนวณได้ดังนี้: Xยู= ( YTคยูY+ λ ฉัน)- 1YTคยูp ( …

10 apache-spark recommender-system pyspark

1

วิธีการหนึ่งที่ควรจัดการกับข้อมูลโดยนัยในการแนะนำ

ระบบการแนะนำจะเก็บบันทึกการแนะนำที่ทำไว้กับผู้ใช้เฉพาะและผู้ใช้นั้นยอมรับการแนะนำนั้นหรือไม่ มันเหมือนกับ user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 โดยที่ 1 หมายถึงผู้ใช้ยอมรับคำแนะนำในขณะที่ -1 หมายถึงผู้ใช้ไม่ตอบสนองต่อข้อเสนอแนะ คำถาม:หากฉันจะให้คำแนะนำกับกลุ่มผู้ใช้ตามประเภทของบันทึกที่อธิบายไว้ข้างต้นและฉันต้องการเพิ่มคะแนน MAP @ 3 ให้มากที่สุดฉันจะจัดการกับข้อมูลโดยนัยได้อย่างไร (1 หรือ -1) ความคิดของฉันคือปฏิบัติต่อการจัดอันดับ 1 และ -1 และทำนายการจัดอันดับโดยใช้อัลกอริธึมชนิดเครื่องแยกตัวประกอบ แต่สิ่งนี้ดูไม่ถูกต้องเนื่องจากความไม่สมดุลของข้อมูลโดยนัย (-1 ไม่ได้หมายความว่าผู้ใช้ไม่ชอบคำแนะนำ) แก้ไข 1 ให้เราคิดในบริบทของวิธีการแยกตัวประกอบแบบเมทริกซ์ หากเราถือว่าการให้คะแนนเป็น 1 และ 1 จะมีปัญหาบางอย่าง ตัวอย่างเช่นผู้ใช้ 1 คนชอบภาพยนตร์ A …

10 recommender-system

3

กลไกการแนะนำอะไรสำหรับสถานการณ์ที่ผู้ใช้สามารถเห็นเศษส่วนของรายการทั้งหมดเท่านั้น

ฉันต้องการที่จะเพิ่มคุณลักษณะข้อเสนอแนะไปยังระบบการจัดการเอกสาร เป็นเซิร์ฟเวอร์ที่จัดเก็บเอกสารของ บริษัท ส่วนใหญ่ พนักงานเรียกดูเว็บอินเตอร์เฟสและคลิกเพื่อดาวน์โหลด (หรืออ่านออนไลน์) เอกสารที่ต้องการ พนักงานแต่ละคนมีสิทธิ์เข้าถึงชุดย่อยของเอกสารทั้งหมดเท่านั้น: เป้าหมายของฉัน : แนะนำเพื่อนร่วมทีมให้เอกสารที่เพิ่งเปิดโดยเพื่อนร่วมทีมของพวกเขาหรือสเปรดชีตที่ทำหน้าที่เป็นภาคผนวกของเอกสารที่เพิ่งเปิดหรือสิ่งที่พวกเขาอาจต้องการอ่าน มีกลไกการแนะนำจำนวนมากสำหรับข้อมูลที่เปิดเผยต่อสาธารณะ (ผู้ใช้ Netflix ทุกคนสามารถดูภาพยนตร์ทั้งหมด) แต่สถานการณ์ที่นี่เป็นพิเศษ: พนักงานแต่ละคนได้รับอนุญาตให้ใช้เศษส่วนของเอกสารทั้งหมดเท่านั้นในขณะที่ผู้ใช้ Netflix ทุกคนสามารถเข้าถึงภาพยนตร์ทั้งหมดได้ ตัวอย่าง : Employee1 สามารถอ่าน DocumentA แต่ไม่ใช่ DocumentB Employee2 สามารถอ่านได้ทั้งสองและ Employee3 ไม่สามารถอ่านใด ๆ แน่นอนฉันต้องไม่แนะนำเอกสารของพนักงานที่เขา / เธอไม่สามารถเข้าถึงได้ นอกจากนี้ฉันคิดว่าฉันควรพิจารณาความนิยมของเอกสารเฉพาะในบริบทของพนักงานที่สามารถเข้าถึงเอกสารได้ เพื่อทำให้สิ่งที่ซับซ้อนยิ่งขึ้นบางครั้งพนักงานย้ายจากโครงการหนึ่งไปอีกโครงการหนึ่งซึ่งส่งผลกระทบต่อเอกสารที่พวกเขาสามารถเข้าถึงได้ มีชื่อของปัญหาประเภทนี้หรือไม่? สามารถลดลงโดยไม่สูญเสียความแม่นยำ / ประสิทธิภาพไปสู่ปัญหาที่พบบ่อยได้หรือไม่ ถ้าไม่แนวทางใดจะทำงานได้ดีสำหรับปัญหาประเภทนี้ หมายเหตุ: เอ็นจิ้นการแนะนำที่เหมือน Netflix นั้นไม่ดีพอ ควรมีเอกสารที่มีจำนวนการดู 50 ครั้งหากพนักงาน 10 คน …

9 machine-learning recommender-system

2

ชุดข้อมูลมาตรฐานสำหรับการกรองร่วมกัน

ฉันต้องการที่จะทดสอบขั้นตอนวิธีการใหม่สำหรับการกรองการทำงานร่วมกัน กรณีการใช้งานทั่วไปคือการแนะนำภาพยนตร์ตามการตั้งค่าของผู้ใช้ที่คล้ายกับผู้ใช้ที่เฉพาะเจาะจง ชุดข้อมูลเบนช์มาร์กทั่วไปที่นักวิจัยมักใช้เพื่อทดสอบอัลกอริทึมคืออะไร ฉันรู้ว่าใน Computer Vision ผู้คนมักใช้ MNIST หรือ CIFAR แต่ฉันไม่พบชุดข้อมูลที่คล้ายกันสำหรับการกรองร่วมกัน

9 dataset recommender-system

2

วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon

สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

9 machine-learning data-mining dataset recommender-system

คำถามติดแท็ก recommender-system