วิทยาศาสตร์ข้อมูล clustering

2

การจัดกลุ่มผู้เยี่ยมชมที่ไม่ซ้ำกันตาม useragent, ip, session_id

ข้อมูลการเข้าถึงเว็บไซต์ที่ระบุในแบบฟอร์มsession_id, ip, user_agentและเวลาเลือกปฏิบัติตามเงื่อนไขด้านล่างคุณจะจัดกลุ่มเซสชันเป็นผู้เยี่ยมชมที่ไม่ซ้ำได้อย่างไร session_id: เป็นรหัสที่มอบให้แก่ผู้เข้าชมใหม่ทุกคน มันไม่หมดอายุอย่างไรก็ตามหากผู้ใช้ไม่ยอมรับคุกกี้ / ล้างคุกกี้ / เปลี่ยนเบราว์เซอร์ / เปลี่ยนอุปกรณ์เขาจะไม่ถูกจดจำอีกต่อไป IP สามารถใช้ร่วมกันระหว่างผู้ใช้ที่แตกต่างกัน (ลองจินตนาการถึงร้านกาแฟ Wi-Fi ฟรีหรือ ISP ของคุณกำหนด IP) และพวกเขามักจะมีอย่างน้อย 2 บ้านและที่ทำงาน User_agentเป็นเวอร์ชันของเบราว์เซอร์ + OS ที่อนุญาตให้แยกความแตกต่างระหว่างอุปกรณ์ ตัวอย่างเช่นผู้ใช้มีแนวโน้มที่จะใช้ทั้งโทรศัพท์และแล็ปท็อป แต่ไม่น่าจะใช้ windows + apple laptop ไม่น่าเป็นไปได้ที่รหัสเซสชันเดียวกันจะมีผู้ใช้หลายคน ข้อมูลอาจดูเป็นซอที่นี่: http://sqlfiddle.com/#!2/c4de40/1 แน่นอนว่าเรากำลังพูดถึงสมมติฐาน แต่มันเกี่ยวกับการเข้าใกล้ความเป็นจริงให้มากที่สุด ตัวอย่างเช่นหากเราพบ ip และ useragent เดียวกันในกรอบเวลาที่ จำกัด ด้วย session_id ที่แตกต่างกันมันจะเป็นข้อสันนิษฐานที่ยุติธรรมว่าเป็นผู้ใช้เดียวกันโดยมีข้อยกเว้นกรณีขอบบางอย่าง แก้ไข: ภาษาที่แก้ไขปัญหานั้นไม่เกี่ยวข้องกับภาษาส่วนใหญ่เกี่ยวกับตรรกะและไม่ใช้งาน Pseudocode …

15 clustering

2

การใช้แอ็ตทริบิวต์เพื่อจำแนก / โปรไฟล์ผู้ใช้คลัสเตอร์

ฉันมีชุดข้อมูลของผู้ใช้ที่ซื้อผลิตภัณฑ์จากเว็บไซต์ คุณลักษณะที่ฉันมีคือรหัสผู้ใช้ภูมิภาค (รัฐ) ของผู้ใช้รหัสหมวดหมู่ของผลิตภัณฑ์รหัสคำหลักของผลิตภัณฑ์รหัสคำหลักของเว็บไซต์และยอดขายที่ใช้ไปของผลิตภัณฑ์ เป้าหมายคือการใช้ข้อมูลของผลิตภัณฑ์และเว็บไซต์เพื่อระบุตัวตนของผู้ใช้เช่น "gamer หนุ่มสาว" หรือ "อยู่กับแม่ที่บ้าน" ฉันแนบภาพตัวอย่างดังต่อไปนี้: มีการรวมหมวดหมู่ที่ไม่ซ้ำกันปี 1940 และคำหลักที่ไม่ซ้ำกัน 13845 รายการสำหรับผลิตภัณฑ์ สำหรับเว็บไซต์มีคำค้นหาที่ไม่ซ้ำ 13063 รายการ ชุดข้อมูลทั้งหมดมีขนาดใหญ่มากเนื่องจากเป็นข้อมูลการบันทึกประจำวัน ฉันกำลังคิดถึงการจัดกลุ่มเนื่องจากไม่มีการสำรอง แต่ ID เหล่านั้นเป็นหมายเลขการสั่งซื้อที่ไม่มีความหมายเชิงตัวเลข ถ้าอย่างนั้นฉันก็ไม่รู้วิธีการใช้อัลกอริทึม ฉันยังคิดถึงการจำแนกประเภท ถ้าฉันเพิ่มคอลัมน์ของคลาสตามจำนวนยอดขายของผลิตภัณฑ์ที่ซื้อ ฉันคิดว่าการรวมกลุ่มเป็นที่ต้องการมากกว่า ฉันไม่ทราบว่าอัลกอริทึมแบบใดที่ฉันควรใช้ในกรณีนี้เนื่องจากขนาดของรหัสคำหลักอาจมากกว่า 10,000 รายการ (แต่ละผลิตภัณฑ์อาจมีคำหลักจำนวนมากเช่นเว็บไซต์จะ) ฉันจำเป็นต้องใช้ Spark สำหรับโครงการนี้ ใครสามารถช่วยฉันด้วยความคิดหรือข้อเสนอแนะ? ขอบคุณมาก!

14 machine-learning data-mining classification clustering

2

K เร็วหมายถึงอัลกอริทึมสำหรับ 10 ^ 10 คะแนนหรือไม่

ฉันกำลังมองหาการจัดกลุ่ม k หมายถึงชุดของจุด 10 มิติ การจับ: มี 10 ^ 10 คะแนนคะแนน ฉันกำลังมองหาเพียงศูนย์กลางและขนาดของกลุ่มที่ใหญ่ที่สุด (สมมติว่า 10 ถึง 100 กลุ่ม); ฉันไม่สนใจว่าคลัสเตอร์แต่ละจุดจะอยู่ในจุดใดการใช้ k-mean โดยเฉพาะนั้นไม่สำคัญ ฉันแค่กำลังมองหาเอฟเฟกต์ที่คล้ายกันค่าประมาณ k-mean หรืออัลกอริธึมที่เกี่ยวข้องจะดีมาก (minibatch-SGD หมายถึง ... ) เนื่องจาก GMM มีปัญหาเช่นเดียวกับ k-mean การทำ GMM กับข้อมูลขนาดเดียวกันก็น่าสนใจเช่นกัน ในระดับนี้การสุ่มตัวอย่างข้อมูลอาจไม่เปลี่ยนผลลัพธ์อย่างมีนัยสำคัญ: โอกาสในการค้นหา 10 อันดับแรกของกลุ่มเดียวกันโดยใช้ตัวอย่างที่ 1 / 10,000 ของข้อมูลนั้นดีมาก แต่ถึงอย่างนั้นนั่นคือปัญหา 10 ^ 6 จุดซึ่งอยู่บน / เกินขอบของเวไนย

14 clustering k-means

1

รู้จักไวยากรณ์ในลำดับของโทเค็นฟัซซี่

ฉันมีเอกสารข้อความที่มีรายการเป็นส่วนใหญ่ แต่ละรายการเป็นกลุ่มของโทเค็นหลายประเภทที่แตกต่างกัน: FirstName, นามสกุล, วันเกิด, หมายเลขโทรศัพท์, เมือง, อาชีพ, ฯลฯ โทเค็นคือกลุ่มของคำ รายการสามารถวางได้หลายบรรทัด รายการจากเอกสารจะมีรูปแบบโทเค็นเดียวกัน แต่ไม่จำเป็นต้องเหมือนกันทุกประการ อาจเป็นโทเค็นบางรายการมากขึ้น / น้อยลงระหว่างไอเท็มรวมถึงภายในไอเท็ม FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation เป้าหมายคือการระบุไวยากรณ์ที่ใช้เช่น Occupation City และในท้ายที่สุดระบุรายการทั้งหมดแม้คิดว่าพวกเขาไม่ตรงกัน …

13 data-mining clustering text-mining time-series correlation

1

จำแนกลูกค้าตามคุณสมบัติ 2 อย่างและช่วงเวลาของเหตุการณ์

ฉันต้องการความช่วยเหลือในขั้นตอนต่อไปของฉันในขั้นตอนวิธีที่ฉันออกแบบ เนื่องจาก NDA ฉันไม่สามารถเปิดเผยได้มากนัก แต่ฉันจะพยายามเข้าใจและเข้าใจได้ทั่วไป โดยทั่วไปหลังจากหลายขั้นตอนในอัลกอริทึมฉันมีสิ่งนี้: สำหรับลูกค้าแต่ละรายที่ฉันมีและกิจกรรมที่ทำในช่วงเดือนแรกในช่วงแรกฉันได้จัดกลุ่มเหตุการณ์เป็นหลายหมวดหมู่ (ลูกค้าแต่ละรายจะมีเหตุการณ์แยกออกเป็นหมวดหมู่ที่แยกจาก 1 เป็น x เป็น x ระหว่าง 1 ถึง 25 โดยทั่วไปประเภทแรกจะมีความหนาแน่นของกิจกรรมมากกว่าประเภทอื่น) สำหรับแต่ละหมวดหมู่และลูกค้าฉันได้สร้างอนุกรมเวลารวมเหตุการณ์ของเดือนต่อชั่วโมง (รับรูปแบบของเมื่อเหตุการณ์เหล่านี้เสร็จสิ้น) นอกจากนี้ฉันกำลังใช้ตัวแปร normalizing สองสามตัวตามจำนวนวันในหนึ่งเดือน (30 วัน) ที่ผู้ชายทำกิจกรรมอย่างน้อยหนึ่งเหตุการณ์และจำนวนวันที่มีเหตุการณ์อย่างน้อยหนึ่งเหตุการณ์ในจำนวนวันอย่างน้อยหนึ่งเหตุการณ์ เหตุการณ์ (รวมกลุ่มทั้งหมด) คนแรกให้ฉันอัตราส่วนของการใช้งานของลูกค้าในช่วงเดือนและที่สองน้ำหนักหมวดหมู่กับคนอื่น ๆ ตารางสุดท้ายมีลักษณะเช่นนี้ |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | …

12 classification clustering time-series

1

MinHashing vs SimHashing

สมมติว่าฉันมีห้าชุดที่ฉันต้องการจัดกลุ่ม ฉันเข้าใจว่าเทคนิค SimHashing อธิบายไว้ที่นี่: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ได้ผลสามกลุ่ม ( {A}, {B,C,D}และ{E}) ตัวอย่างเช่นถ้าผลของมันคือ: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 ในทำนองเดียวกันเทคนิค MinHashing ที่อธิบายไว้ในบทที่ 3 ของหนังสือ MMDS: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf ยังสามารถให้ผลเหมือนกันสามกลุ่มถ้าผลลัพธ์เป็น: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> …

12 clustering similarity

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

1

โซลูชั่นสำหรับการจำแนกคลัสเตอร์ออนไลน์อย่างต่อเนื่อง?

ให้ฉันแสดงตัวอย่างของแอปพลิเคชันการจัดกลุ่มออนไลน์สมมุติ: ณ เวลาที่มีการจัดสรร n คะแนน 1,2,3,4 ให้กับคลัสเตอร์สีน้ำเงิน A และคะแนน b จะมีการจัดสรร 5,6,7 ไปยังคลัสเตอร์ B สีแดง ในเวลา n + 1 จุดใหม่ a ถูกแนะนำซึ่งถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A แต่ยังทำให้จุด b ถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A เช่นกัน ในท้ายที่สุดคะแนน 1,2,3,4, a, b เป็นของ A และคะแนน 5,6,7 ถึง B สำหรับฉันนี่ดูเหมือนจะสมเหตุสมผล สิ่งที่ดูเหมือนง่ายๆในตอนแรกนั้นเป็นเรื่องยากเล็กน้อย - เพื่อรักษาตัวระบุข้ามขั้นตอนเวลา ให้ฉันพยายามทำให้จุดนี้ชัดเจนขึ้นด้วยตัวอย่างของเส้นขอบที่มากขึ้น: จุดสีเขียวจะทำให้จุดสีฟ้าสองและจุดสีแดงสองจุดถูกรวมเข้าด้วยกันเป็นหนึ่งกลุ่มซึ่งฉันตัดสินใจโดยไม่ตั้งใจว่าจะใช้สีฟ้า - ใจนี่เป็นความคิดแบบมนุษย์ของฉันที่ทำงานอยู่แล้ว! คอมพิวเตอร์ในการตัดสินใจนี้จะต้องใช้กฎ ตัวอย่างเช่นเมื่อมีการรวมคะแนนเข้าในคลัสเตอร์ดังนั้นเอกลักษณ์ของคลัสเตอร์จะถูกกำหนดโดยเสียงส่วนใหญ่ ในกรณีนี้เราจะพบกับการดึง - …

11 machine-learning clustering

4

การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ

สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

11 text-mining clustering

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

การบรรจบกันของวิธีการ Hartigan-Wong k-mean และอัลกอริธึมอื่น ๆ

ฉันพยายามทำความเข้าใจเกี่ยวกับอัลกอริธึมการจัดกลุ่ม k-mean ต่าง ๆ ซึ่งส่วนใหญ่นำไปใช้ในstatsแพ็คเกจRภาษา ฉันเข้าใจอัลกอริทึมของ Lloyd และอัลกอริทึมออนไลน์ของ MacQueen วิธีที่ฉันเข้าใจพวกเขามีดังนี้: อัลกอริทึมของ Lloyd: การสำรวจแบบสุ่ม 'k' ในขั้นต้นจะถูกเลือกซึ่งจะทำหน้าที่เป็น centroids ของกลุ่ม 'k' จากนั้นขั้นตอนต่อไปนี้เกิดขึ้นในการทำซ้ำจนกว่าเซนทรอยด์จะบรรจบกัน ระยะทางแบบยุคลิดระหว่างการสังเกตแต่ละครั้งและเซนทรอยด์ที่เลือกจะถูกคำนวณ การสังเกตที่ใกล้เคียงกับเซนทรอยด์แต่ละตัวจะถูกติดแท็กไว้ภายในที่เก็บข้อมูล 'k' ค่าเฉลี่ยของการสังเกตทั้งหมดในถังแต่ละใบทำหน้าที่เป็นเซนทรอยด์ใหม่ เซนทรอยด์ใหม่จะแทนที่เซนทรอยด์เก่าและการทำซ้ำจะกลับไปที่ขั้นตอนที่ 1 หากเซนทรอยด์เก่าและใหม่ไม่ได้แปรสภาพ เงื่อนไขที่จะมาบรรจบกันมีดังต่อไปนี้: เซนทรอยด์เก่าและใหม่นั้นเหมือนกันทุกประการความแตกต่างระหว่างเซนทรอยด์นั้นเล็ก (จากลำดับที่ 10 ^ -3) หรือถึงจำนวนสูงสุดของการทำซ้ำ (10 หรือ 100) อัลกอริทึมของ MacQueen: นี่เป็นเวอร์ชั่นออนไลน์ที่อินสแตนซ์ 'k' ตัวแรกถูกเลือกเป็น centroids จากนั้นแต่ละอินสแตนซ์จะถูกวางในถังขึ้นอยู่กับเซนทรอยด์ที่ใกล้เคียงกับอินสแตนซ์นั้น เซนทรอยด์ที่เกี่ยวข้องจะถูกคำนวณใหม่ ทำซ้ำขั้นตอนนี้จนกระทั่งแต่ละอินสแตนซ์ถูกวางในที่ฝากข้อมูลที่เหมาะสม อัลกอริทึมนี้มีการวนซ้ำเพียงครั้งเดียวและการวนซ้ำดำเนินต่อไปสำหรับอินสแตนซ์ 'x' อัลกอริทึม Hartigan-Wong: กำหนดคะแนน …

10 r clustering k-means

3

การวิเคราะห์ไฟล์บันทึก: การแยกส่วนข้อมูลจากส่วนค่า

ฉันกำลังพยายามสร้างชุดข้อมูลในไฟล์บันทึกต่างๆของหนึ่งในผลิตภัณฑ์ของเรา ล็อกไฟล์ต่าง ๆ มีเลย์เอาต์และเนื้อหาของตัวเอง ฉันจัดกลุ่มพวกเขาเข้าด้วยกันสำเร็จเหลือเพียงขั้นตอนเดียว ... อันที่จริงบันทึก "ข้อความ" เป็นข้อมูลที่ดีที่สุด ฉันไม่มีรายการที่ครอบคลุมของข้อความเหล่านั้นทั้งหมดและเป็นความคิดที่ดีที่จะใช้รหัสยากเนื่องจากข้อความเหล่านั้นสามารถเปลี่ยนแปลงได้ทุกวัน สิ่งที่ฉันต้องการจะทำคือการแยกข้อความการเยื้องออกจากข้อความค่า (ตัวอย่าง: "ไฟล์ Loaded XXX" กลายเป็น (รหัส: "ไฟล์ Loaded", ค่า: "XXX")) น่าเสียดายที่ตัวอย่างนี้ง่ายและในโลกแห่งความจริงมีเค้าโครงที่แตกต่างกันและบางครั้งมีหลายค่า ฉันคิดว่าจะใช้เมล็ดสตริง แต่มันมีไว้สำหรับการรวมกลุ่ม ... และการรวมกลุ่มไม่สามารถใช้งานได้ที่นี่ (ฉันไม่ทราบจำนวนข้อความและประเภทที่แตกต่างกันแม้ว่ามันจะมากเกินไป) คุณมีความคิดใด ๆ ขอบคุณสำหรับความช่วยเหลือของคุณ. PS: สำหรับผู้ที่โปรแกรมนี้สามารถเข้าใจได้ง่ายขึ้น สมมติว่ารหัสประกอบด้วยไฟล์บันทึก printf ("blabla% s", "xxx") -> ฉันต้องการมี "blabla" และ "xxx" แยกกัน

10 text-mining clustering

1

การจัดกลุ่มข้อมูลลูกค้าที่เก็บไว้ใน ElasticSearch

ฉันมีโปรไฟล์ลูกค้ามากมายเก็บไว้ใน ElasticSearchกลุ่ม ตอนนี้ใช้โปรไฟล์เหล่านี้เพื่อสร้างกลุ่มเป้าหมายสำหรับการสมัครอีเมลของเรา ขณะนี้กลุ่มเป้าหมายได้รับการจัดทำขึ้นด้วยตนเองโดยใช้ความสามารถในการค้นหาแบบเหลี่ยม (เช่นรับลูกค้าผู้ชายอายุ 23 ปีที่มีรถยนต์หนึ่งคันและเด็ก 3 คน) ฉันจะค้นหากลุ่มที่น่าสนใจได้โดยอัตโนมัติโดยใช้วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องการจัดกลุ่มหรืออย่างอื่นได้อย่างไร Rภาษาการเขียนโปรแกรมดูเหมือนจะเป็นเครื่องมือที่ดีสำหรับงานนี้ แต่ฉันไม่สามารถสร้างวิธีการค้นหากลุ่มดังกล่าวได้ ทางออกหนึ่งคือค้นหากลุ่มลูกค้าที่ใหญ่ที่สุดและใช้พวกเขาเป็นกลุ่มเป้าหมายดังนั้นคำถามคือ: ฉันจะเลือกกลุ่มลูกค้ารายใหญ่ที่สุดที่คล้ายกันโดยอัตโนมัติได้อย่างไร (คล้ายกับพารามิเตอร์ที่ฉันไม่ทราบในขณะนี้) ตัวอย่างเช่น: โปรแกรมของฉันจะเชื่อมต่อกับ elasticsearch ลดปริมาณข้อมูลลูกค้าลงใน CSV และการใช้สคริปต์ภาษา R จะพบว่าลูกค้าส่วนใหญ่เป็นเพศชายที่ไม่มีลูกและลูกค้าส่วนใหญ่อีกคนมีรถยนต์และสีตาของพวกเขาเป็นสีน้ำตาล

10 data-mining clustering

2

การจัดกลุ่มเอกสารโดยใช้หัวข้อที่ได้มาจากการจัดสรร Dirichlet แฝง

ฉันต้องการใช้ Latent Dirichlet Allocation สำหรับโครงการและฉันใช้ Python กับไลบรารี gensim หลังจากค้นหาหัวข้อที่ฉันต้องการจัดกลุ่มเอกสารโดยใช้อัลกอริทึมเช่น k-mean (โดยหลักแล้วฉันต้องการใช้ดีสำหรับการซ้อนกลุ่มเพื่อให้คำแนะนำยินดีต้อนรับ) ฉันจัดการเพื่อให้ได้หัวข้อ แต่อยู่ในรูปแบบของ: 0.041 * รัฐมนตรี + 0.041 * สำคัญ + 0.041 * ช่วงเวลา + 0.041 * แย้ง + 0.041 * นายกรัฐมนตรี เพื่อที่จะใช้อัลกอริทึมการจัดกลุ่มและแก้ไขให้ฉันถ้าฉันผิดฉันเชื่อว่าฉันควรหาวิธีที่จะเป็นตัวแทนของแต่ละคำเป็นตัวเลขโดยใช้ tfidf หรือ word2vec คุณมีความคิดว่าฉันจะ "ตัด" ข้อมูลที่เป็นข้อความจากเช่นรายการเพื่อทำเช่นนั้นแล้วนำมันกลับมาอีกครั้งเพื่อทำการคูณที่เหมาะสมหรือไม่ เช่นวิธีที่ฉันเห็นถ้าคำว่ารัฐมนตรีมีน้ำหนัก tfidf 0.042 และอื่น ๆ สำหรับคำอื่น ๆ ในหัวข้อเดียวกันฉันควรจะคำนวณสิ่งที่ชอบ: 0.041 * 0.42 …

9 python clustering lda

4

แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ

ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)

9 machine-learning classification dataset clustering text-mining

คำถามติดแท็ก clustering