คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มหรือการจัดกลุ่มเป็นงานของการจัดกลุ่มชุดของวัตถุในลักษณะที่วัตถุในกลุ่มเดียวกัน (เรียกว่ากลุ่ม) มีความคล้ายคลึงกันมากขึ้น (ในบางแง่มุมหรืออื่น ๆ ) ซึ่งกันและกันมากกว่ากลุ่มอื่น ๆ (กลุ่ม) . มันเป็นภารกิจหลักของการขุดข้อมูลเชิงสำรวจและเทคนิคทั่วไปสำหรับการวิเคราะห์ข้อมูลทางสถิติที่ใช้ในหลายสาขารวมถึงการเรียนรู้ของเครื่องการจดจำรูปแบบการวิเคราะห์ภาพการดึงข้อมูล ฯลฯ

2
การจัดกลุ่มผู้เยี่ยมชมที่ไม่ซ้ำกันตาม useragent, ip, session_id
ข้อมูลการเข้าถึงเว็บไซต์ที่ระบุในแบบฟอร์มsession_id, ip, user_agentและเวลาเลือกปฏิบัติตามเงื่อนไขด้านล่างคุณจะจัดกลุ่มเซสชันเป็นผู้เยี่ยมชมที่ไม่ซ้ำได้อย่างไร session_id: เป็นรหัสที่มอบให้แก่ผู้เข้าชมใหม่ทุกคน มันไม่หมดอายุอย่างไรก็ตามหากผู้ใช้ไม่ยอมรับคุกกี้ / ล้างคุกกี้ / เปลี่ยนเบราว์เซอร์ / เปลี่ยนอุปกรณ์เขาจะไม่ถูกจดจำอีกต่อไป IP สามารถใช้ร่วมกันระหว่างผู้ใช้ที่แตกต่างกัน (ลองจินตนาการถึงร้านกาแฟ Wi-Fi ฟรีหรือ ISP ของคุณกำหนด IP) และพวกเขามักจะมีอย่างน้อย 2 บ้านและที่ทำงาน User_agentเป็นเวอร์ชันของเบราว์เซอร์ + OS ที่อนุญาตให้แยกความแตกต่างระหว่างอุปกรณ์ ตัวอย่างเช่นผู้ใช้มีแนวโน้มที่จะใช้ทั้งโทรศัพท์และแล็ปท็อป แต่ไม่น่าจะใช้ windows + apple laptop ไม่น่าเป็นไปได้ที่รหัสเซสชันเดียวกันจะมีผู้ใช้หลายคน ข้อมูลอาจดูเป็นซอที่นี่: http://sqlfiddle.com/#!2/c4de40/1 แน่นอนว่าเรากำลังพูดถึงสมมติฐาน แต่มันเกี่ยวกับการเข้าใกล้ความเป็นจริงให้มากที่สุด ตัวอย่างเช่นหากเราพบ ip และ useragent เดียวกันในกรอบเวลาที่ จำกัด ด้วย session_id ที่แตกต่างกันมันจะเป็นข้อสันนิษฐานที่ยุติธรรมว่าเป็นผู้ใช้เดียวกันโดยมีข้อยกเว้นกรณีขอบบางอย่าง แก้ไข: ภาษาที่แก้ไขปัญหานั้นไม่เกี่ยวข้องกับภาษาส่วนใหญ่เกี่ยวกับตรรกะและไม่ใช้งาน Pseudocode …
15 clustering 

2
การใช้แอ็ตทริบิวต์เพื่อจำแนก / โปรไฟล์ผู้ใช้คลัสเตอร์
ฉันมีชุดข้อมูลของผู้ใช้ที่ซื้อผลิตภัณฑ์จากเว็บไซต์ คุณลักษณะที่ฉันมีคือรหัสผู้ใช้ภูมิภาค (รัฐ) ของผู้ใช้รหัสหมวดหมู่ของผลิตภัณฑ์รหัสคำหลักของผลิตภัณฑ์รหัสคำหลักของเว็บไซต์และยอดขายที่ใช้ไปของผลิตภัณฑ์ เป้าหมายคือการใช้ข้อมูลของผลิตภัณฑ์และเว็บไซต์เพื่อระบุตัวตนของผู้ใช้เช่น "gamer หนุ่มสาว" หรือ "อยู่กับแม่ที่บ้าน" ฉันแนบภาพตัวอย่างดังต่อไปนี้: มีการรวมหมวดหมู่ที่ไม่ซ้ำกันปี 1940 และคำหลักที่ไม่ซ้ำกัน 13845 รายการสำหรับผลิตภัณฑ์ สำหรับเว็บไซต์มีคำค้นหาที่ไม่ซ้ำ 13063 รายการ ชุดข้อมูลทั้งหมดมีขนาดใหญ่มากเนื่องจากเป็นข้อมูลการบันทึกประจำวัน ฉันกำลังคิดถึงการจัดกลุ่มเนื่องจากไม่มีการสำรอง แต่ ID เหล่านั้นเป็นหมายเลขการสั่งซื้อที่ไม่มีความหมายเชิงตัวเลข ถ้าอย่างนั้นฉันก็ไม่รู้วิธีการใช้อัลกอริทึม ฉันยังคิดถึงการจำแนกประเภท ถ้าฉันเพิ่มคอลัมน์ของคลาสตามจำนวนยอดขายของผลิตภัณฑ์ที่ซื้อ ฉันคิดว่าการรวมกลุ่มเป็นที่ต้องการมากกว่า ฉันไม่ทราบว่าอัลกอริทึมแบบใดที่ฉันควรใช้ในกรณีนี้เนื่องจากขนาดของรหัสคำหลักอาจมากกว่า 10,000 รายการ (แต่ละผลิตภัณฑ์อาจมีคำหลักจำนวนมากเช่นเว็บไซต์จะ) ฉันจำเป็นต้องใช้ Spark สำหรับโครงการนี้ ใครสามารถช่วยฉันด้วยความคิดหรือข้อเสนอแนะ? ขอบคุณมาก!

2
K เร็วหมายถึงอัลกอริทึมสำหรับ 10 ^ 10 คะแนนหรือไม่
ฉันกำลังมองหาการจัดกลุ่ม k หมายถึงชุดของจุด 10 มิติ การจับ: มี 10 ^ 10 คะแนนคะแนน ฉันกำลังมองหาเพียงศูนย์กลางและขนาดของกลุ่มที่ใหญ่ที่สุด (สมมติว่า 10 ถึง 100 กลุ่ม); ฉันไม่สนใจว่าคลัสเตอร์แต่ละจุดจะอยู่ในจุดใดการใช้ k-mean โดยเฉพาะนั้นไม่สำคัญ ฉันแค่กำลังมองหาเอฟเฟกต์ที่คล้ายกันค่าประมาณ k-mean หรืออัลกอริธึมที่เกี่ยวข้องจะดีมาก (minibatch-SGD หมายถึง ... ) เนื่องจาก GMM มีปัญหาเช่นเดียวกับ k-mean การทำ GMM กับข้อมูลขนาดเดียวกันก็น่าสนใจเช่นกัน ในระดับนี้การสุ่มตัวอย่างข้อมูลอาจไม่เปลี่ยนผลลัพธ์อย่างมีนัยสำคัญ: โอกาสในการค้นหา 10 อันดับแรกของกลุ่มเดียวกันโดยใช้ตัวอย่างที่ 1 / 10,000 ของข้อมูลนั้นดีมาก แต่ถึงอย่างนั้นนั่นคือปัญหา 10 ^ 6 จุดซึ่งอยู่บน / เกินขอบของเวไนย

1
รู้จักไวยากรณ์ในลำดับของโทเค็นฟัซซี่
ฉันมีเอกสารข้อความที่มีรายการเป็นส่วนใหญ่ แต่ละรายการเป็นกลุ่มของโทเค็นหลายประเภทที่แตกต่างกัน: FirstName, นามสกุล, วันเกิด, หมายเลขโทรศัพท์, เมือง, อาชีพ, ฯลฯ โทเค็นคือกลุ่มของคำ รายการสามารถวางได้หลายบรรทัด รายการจากเอกสารจะมีรูปแบบโทเค็นเดียวกัน แต่ไม่จำเป็นต้องเหมือนกันทุกประการ อาจเป็นโทเค็นบางรายการมากขึ้น / น้อยลงระหว่างไอเท็มรวมถึงภายในไอเท็ม FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation เป้าหมายคือการระบุไวยากรณ์ที่ใช้เช่น Occupation City และในท้ายที่สุดระบุรายการทั้งหมดแม้คิดว่าพวกเขาไม่ตรงกัน …

1
จำแนกลูกค้าตามคุณสมบัติ 2 อย่างและช่วงเวลาของเหตุการณ์
ฉันต้องการความช่วยเหลือในขั้นตอนต่อไปของฉันในขั้นตอนวิธีที่ฉันออกแบบ เนื่องจาก NDA ฉันไม่สามารถเปิดเผยได้มากนัก แต่ฉันจะพยายามเข้าใจและเข้าใจได้ทั่วไป โดยทั่วไปหลังจากหลายขั้นตอนในอัลกอริทึมฉันมีสิ่งนี้: สำหรับลูกค้าแต่ละรายที่ฉันมีและกิจกรรมที่ทำในช่วงเดือนแรกในช่วงแรกฉันได้จัดกลุ่มเหตุการณ์เป็นหลายหมวดหมู่ (ลูกค้าแต่ละรายจะมีเหตุการณ์แยกออกเป็นหมวดหมู่ที่แยกจาก 1 เป็น x เป็น x ระหว่าง 1 ถึง 25 โดยทั่วไปประเภทแรกจะมีความหนาแน่นของกิจกรรมมากกว่าประเภทอื่น) สำหรับแต่ละหมวดหมู่และลูกค้าฉันได้สร้างอนุกรมเวลารวมเหตุการณ์ของเดือนต่อชั่วโมง (รับรูปแบบของเมื่อเหตุการณ์เหล่านี้เสร็จสิ้น) นอกจากนี้ฉันกำลังใช้ตัวแปร normalizing สองสามตัวตามจำนวนวันในหนึ่งเดือน (30 วัน) ที่ผู้ชายทำกิจกรรมอย่างน้อยหนึ่งเหตุการณ์และจำนวนวันที่มีเหตุการณ์อย่างน้อยหนึ่งเหตุการณ์ในจำนวนวันอย่างน้อยหนึ่งเหตุการณ์ เหตุการณ์ (รวมกลุ่มทั้งหมด) คนแรกให้ฉันอัตราส่วนของการใช้งานของลูกค้าในช่วงเดือนและที่สองน้ำหนักหมวดหมู่กับคนอื่น ๆ ตารางสุดท้ายมีลักษณะเช่นนี้ |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | …

1
MinHashing vs SimHashing
สมมติว่าฉันมีห้าชุดที่ฉันต้องการจัดกลุ่ม ฉันเข้าใจว่าเทคนิค SimHashing อธิบายไว้ที่นี่: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ได้ผลสามกลุ่ม ( {A}, {B,C,D}และ{E}) ตัวอย่างเช่นถ้าผลของมันคือ: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 ในทำนองเดียวกันเทคนิค MinHashing ที่อธิบายไว้ในบทที่ 3 ของหนังสือ MMDS: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf ยังสามารถให้ผลเหมือนกันสามกลุ่มถ้าผลลัพธ์เป็น: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> …

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
โซลูชั่นสำหรับการจำแนกคลัสเตอร์ออนไลน์อย่างต่อเนื่อง?
ให้ฉันแสดงตัวอย่างของแอปพลิเคชันการจัดกลุ่มออนไลน์สมมุติ: ณ เวลาที่มีการจัดสรร n คะแนน 1,2,3,4 ให้กับคลัสเตอร์สีน้ำเงิน A และคะแนน b จะมีการจัดสรร 5,6,7 ไปยังคลัสเตอร์ B สีแดง ในเวลา n + 1 จุดใหม่ a ถูกแนะนำซึ่งถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A แต่ยังทำให้จุด b ถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A เช่นกัน ในท้ายที่สุดคะแนน 1,2,3,4, a, b เป็นของ A และคะแนน 5,6,7 ถึง B สำหรับฉันนี่ดูเหมือนจะสมเหตุสมผล สิ่งที่ดูเหมือนง่ายๆในตอนแรกนั้นเป็นเรื่องยากเล็กน้อย - เพื่อรักษาตัวระบุข้ามขั้นตอนเวลา ให้ฉันพยายามทำให้จุดนี้ชัดเจนขึ้นด้วยตัวอย่างของเส้นขอบที่มากขึ้น: จุดสีเขียวจะทำให้จุดสีฟ้าสองและจุดสีแดงสองจุดถูกรวมเข้าด้วยกันเป็นหนึ่งกลุ่มซึ่งฉันตัดสินใจโดยไม่ตั้งใจว่าจะใช้สีฟ้า - ใจนี่เป็นความคิดแบบมนุษย์ของฉันที่ทำงานอยู่แล้ว! คอมพิวเตอร์ในการตัดสินใจนี้จะต้องใช้กฎ ตัวอย่างเช่นเมื่อมีการรวมคะแนนเข้าในคลัสเตอร์ดังนั้นเอกลักษณ์ของคลัสเตอร์จะถูกกำหนดโดยเสียงส่วนใหญ่ ในกรณีนี้เราจะพบกับการดึง - …

4
การใช้การทำคลัสเตอร์ในการประมวลผลข้อความ
สวัสดีนี่เป็นคำถามแรกของฉันใน Data Science stack ฉันต้องการสร้างอัลกอริทึมสำหรับการจำแนกข้อความ สมมติว่าฉันมีชุดข้อความและบทความจำนวนมาก ให้พูดประมาณ 5,000 ข้อความธรรมดา ฉันแรกใช้ฟังก์ชั่นง่าย ๆ เพื่อกำหนดความถี่ของคำทั้งสี่และข้างบน จากนั้นฉันใช้สิ่งนี้เป็นคุณสมบัติของตัวอย่างการฝึกอบรมแต่ละตัวอย่าง ตอนนี้ฉันต้องการให้อัลกอริทึมของฉันสามารถจัดกลุ่มชุดการฝึกอบรมตามคุณสมบัติของพวกเขาซึ่งนี่คือความถี่ของแต่ละคำในบทความ (โปรดทราบว่าในตัวอย่างนี้แต่ละบทความจะมีคุณลักษณะเฉพาะของตนเองเนื่องจากแต่ละบทความมีคุณสมบัติที่แตกต่างกันเช่นบทความมี 10 "น้ำและ 23" บริสุทธิ์ "และอีกบทความหนึ่งมี 8" การเมือง "และ 14" อำนาจ ") คุณช่วยแนะนำขั้นตอนวิธีการจัดกลุ่มที่ดีที่สุดสำหรับตัวอย่างนี้ได้ไหม

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
การบรรจบกันของวิธีการ Hartigan-Wong k-mean และอัลกอริธึมอื่น ๆ
ฉันพยายามทำความเข้าใจเกี่ยวกับอัลกอริธึมการจัดกลุ่ม k-mean ต่าง ๆ ซึ่งส่วนใหญ่นำไปใช้ในstatsแพ็คเกจRภาษา ฉันเข้าใจอัลกอริทึมของ Lloyd และอัลกอริทึมออนไลน์ของ MacQueen วิธีที่ฉันเข้าใจพวกเขามีดังนี้: อัลกอริทึมของ Lloyd: การสำรวจแบบสุ่ม 'k' ในขั้นต้นจะถูกเลือกซึ่งจะทำหน้าที่เป็น centroids ของกลุ่ม 'k' จากนั้นขั้นตอนต่อไปนี้เกิดขึ้นในการทำซ้ำจนกว่าเซนทรอยด์จะบรรจบกัน ระยะทางแบบยุคลิดระหว่างการสังเกตแต่ละครั้งและเซนทรอยด์ที่เลือกจะถูกคำนวณ การสังเกตที่ใกล้เคียงกับเซนทรอยด์แต่ละตัวจะถูกติดแท็กไว้ภายในที่เก็บข้อมูล 'k' ค่าเฉลี่ยของการสังเกตทั้งหมดในถังแต่ละใบทำหน้าที่เป็นเซนทรอยด์ใหม่ เซนทรอยด์ใหม่จะแทนที่เซนทรอยด์เก่าและการทำซ้ำจะกลับไปที่ขั้นตอนที่ 1 หากเซนทรอยด์เก่าและใหม่ไม่ได้แปรสภาพ เงื่อนไขที่จะมาบรรจบกันมีดังต่อไปนี้: เซนทรอยด์เก่าและใหม่นั้นเหมือนกันทุกประการความแตกต่างระหว่างเซนทรอยด์นั้นเล็ก (จากลำดับที่ 10 ^ -3) หรือถึงจำนวนสูงสุดของการทำซ้ำ (10 หรือ 100) อัลกอริทึมของ MacQueen: นี่เป็นเวอร์ชั่นออนไลน์ที่อินสแตนซ์ 'k' ตัวแรกถูกเลือกเป็น centroids จากนั้นแต่ละอินสแตนซ์จะถูกวางในถังขึ้นอยู่กับเซนทรอยด์ที่ใกล้เคียงกับอินสแตนซ์นั้น เซนทรอยด์ที่เกี่ยวข้องจะถูกคำนวณใหม่ ทำซ้ำขั้นตอนนี้จนกระทั่งแต่ละอินสแตนซ์ถูกวางในที่ฝากข้อมูลที่เหมาะสม อัลกอริทึมนี้มีการวนซ้ำเพียงครั้งเดียวและการวนซ้ำดำเนินต่อไปสำหรับอินสแตนซ์ 'x' อัลกอริทึม Hartigan-Wong: กำหนดคะแนน …
10 r  clustering  k-means 

3
การวิเคราะห์ไฟล์บันทึก: การแยกส่วนข้อมูลจากส่วนค่า
ฉันกำลังพยายามสร้างชุดข้อมูลในไฟล์บันทึกต่างๆของหนึ่งในผลิตภัณฑ์ของเรา ล็อกไฟล์ต่าง ๆ มีเลย์เอาต์และเนื้อหาของตัวเอง ฉันจัดกลุ่มพวกเขาเข้าด้วยกันสำเร็จเหลือเพียงขั้นตอนเดียว ... อันที่จริงบันทึก "ข้อความ" เป็นข้อมูลที่ดีที่สุด ฉันไม่มีรายการที่ครอบคลุมของข้อความเหล่านั้นทั้งหมดและเป็นความคิดที่ดีที่จะใช้รหัสยากเนื่องจากข้อความเหล่านั้นสามารถเปลี่ยนแปลงได้ทุกวัน สิ่งที่ฉันต้องการจะทำคือการแยกข้อความการเยื้องออกจากข้อความค่า (ตัวอย่าง: "ไฟล์ Loaded XXX" กลายเป็น (รหัส: "ไฟล์ Loaded", ค่า: "XXX")) น่าเสียดายที่ตัวอย่างนี้ง่ายและในโลกแห่งความจริงมีเค้าโครงที่แตกต่างกันและบางครั้งมีหลายค่า ฉันคิดว่าจะใช้เมล็ดสตริง แต่มันมีไว้สำหรับการรวมกลุ่ม ... และการรวมกลุ่มไม่สามารถใช้งานได้ที่นี่ (ฉันไม่ทราบจำนวนข้อความและประเภทที่แตกต่างกันแม้ว่ามันจะมากเกินไป) คุณมีความคิดใด ๆ ขอบคุณสำหรับความช่วยเหลือของคุณ. PS: สำหรับผู้ที่โปรแกรมนี้สามารถเข้าใจได้ง่ายขึ้น สมมติว่ารหัสประกอบด้วยไฟล์บันทึก printf ("blabla% s", "xxx") -> ฉันต้องการมี "blabla" และ "xxx" แยกกัน

1
การจัดกลุ่มข้อมูลลูกค้าที่เก็บไว้ใน ElasticSearch
ฉันมีโปรไฟล์ลูกค้ามากมายเก็บไว้ใน ElasticSearchกลุ่ม ตอนนี้ใช้โปรไฟล์เหล่านี้เพื่อสร้างกลุ่มเป้าหมายสำหรับการสมัครอีเมลของเรา ขณะนี้กลุ่มเป้าหมายได้รับการจัดทำขึ้นด้วยตนเองโดยใช้ความสามารถในการค้นหาแบบเหลี่ยม (เช่นรับลูกค้าผู้ชายอายุ 23 ปีที่มีรถยนต์หนึ่งคันและเด็ก 3 คน) ฉันจะค้นหากลุ่มที่น่าสนใจได้โดยอัตโนมัติโดยใช้วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องการจัดกลุ่มหรืออย่างอื่นได้อย่างไร Rภาษาการเขียนโปรแกรมดูเหมือนจะเป็นเครื่องมือที่ดีสำหรับงานนี้ แต่ฉันไม่สามารถสร้างวิธีการค้นหากลุ่มดังกล่าวได้ ทางออกหนึ่งคือค้นหากลุ่มลูกค้าที่ใหญ่ที่สุดและใช้พวกเขาเป็นกลุ่มเป้าหมายดังนั้นคำถามคือ: ฉันจะเลือกกลุ่มลูกค้ารายใหญ่ที่สุดที่คล้ายกันโดยอัตโนมัติได้อย่างไร (คล้ายกับพารามิเตอร์ที่ฉันไม่ทราบในขณะนี้) ตัวอย่างเช่น: โปรแกรมของฉันจะเชื่อมต่อกับ elasticsearch ลดปริมาณข้อมูลลูกค้าลงใน CSV และการใช้สคริปต์ภาษา R จะพบว่าลูกค้าส่วนใหญ่เป็นเพศชายที่ไม่มีลูกและลูกค้าส่วนใหญ่อีกคนมีรถยนต์และสีตาของพวกเขาเป็นสีน้ำตาล

2
การจัดกลุ่มเอกสารโดยใช้หัวข้อที่ได้มาจากการจัดสรร Dirichlet แฝง
ฉันต้องการใช้ Latent Dirichlet Allocation สำหรับโครงการและฉันใช้ Python กับไลบรารี gensim หลังจากค้นหาหัวข้อที่ฉันต้องการจัดกลุ่มเอกสารโดยใช้อัลกอริทึมเช่น k-mean (โดยหลักแล้วฉันต้องการใช้ดีสำหรับการซ้อนกลุ่มเพื่อให้คำแนะนำยินดีต้อนรับ) ฉันจัดการเพื่อให้ได้หัวข้อ แต่อยู่ในรูปแบบของ: 0.041 * รัฐมนตรี + 0.041 * สำคัญ + 0.041 * ช่วงเวลา + 0.041 * แย้ง + 0.041 * นายกรัฐมนตรี เพื่อที่จะใช้อัลกอริทึมการจัดกลุ่มและแก้ไขให้ฉันถ้าฉันผิดฉันเชื่อว่าฉันควรหาวิธีที่จะเป็นตัวแทนของแต่ละคำเป็นตัวเลขโดยใช้ tfidf หรือ word2vec คุณมีความคิดว่าฉันจะ "ตัด" ข้อมูลที่เป็นข้อความจากเช่นรายการเพื่อทำเช่นนั้นแล้วนำมันกลับมาอีกครั้งเพื่อทำการคูณที่เหมาะสมหรือไม่ เช่นวิธีที่ฉันเห็นถ้าคำว่ารัฐมนตรีมีน้ำหนัก tfidf 0.042 และอื่น ๆ สำหรับคำอื่น ๆ ในหัวข้อเดียวกันฉันควรจะคำนวณสิ่งที่ชอบ: 0.041 * 0.42 …

4
แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ
ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.