วิทยาศาสตร์ข้อมูล data-mining

4

ฉันเจอปัญหาต่อไปนี้แล้วซึ่งฉันพบว่าเป็นเรื่องปกติ ฉันมีข้อมูลขนาดใหญ่พูดไม่กี่ล้านแถว ฉันเรียกใช้การวิเคราะห์ที่ไม่สำคัญกับมันเช่นแบบสอบถาม SQL ซึ่งประกอบด้วยแบบสอบถามย่อยหลายรายการ ฉันได้รับผลบางอย่างที่ระบุเช่นคุณสมบัติ X นั้นเพิ่มขึ้นเมื่อเวลาผ่านไป ตอนนี้มีสองสิ่งที่เป็นไปได้ที่อาจนำไปสู่การที่: X เพิ่มขึ้นตามกาลเวลา ฉันมีข้อบกพร่องในการวิเคราะห์ของฉัน ฉันจะทดสอบได้อย่างไรว่าสิ่งที่เกิดขึ้นครั้งแรกไม่ใช่ครั้งที่สอง? ตัวดีบักแบบชาญฉลาดแม้ว่าจะมีอยู่ก็ไม่สามารถช่วยได้เนื่องจากผลลัพธ์ระดับกลางยังคงประกอบด้วยบรรทัดหลายล้านบรรทัด สิ่งเดียวที่ฉันคิดได้ก็คือสร้างชุดข้อมูลสังเคราะห์ขนาดเล็กที่มีคุณสมบัติที่ฉันต้องการทดสอบและเรียกใช้การวิเคราะห์เป็นชุดทดสอบ มีเครื่องมือในการทำเช่นนี้หรือไม่? โดยเฉพาะอย่างยิ่ง แต่ไม่ จำกัด เฉพาะ SQL

10 data-mining sql experiments

1

การจัดกลุ่มข้อมูลลูกค้าที่เก็บไว้ใน ElasticSearch

ฉันมีโปรไฟล์ลูกค้ามากมายเก็บไว้ใน ElasticSearchกลุ่ม ตอนนี้ใช้โปรไฟล์เหล่านี้เพื่อสร้างกลุ่มเป้าหมายสำหรับการสมัครอีเมลของเรา ขณะนี้กลุ่มเป้าหมายได้รับการจัดทำขึ้นด้วยตนเองโดยใช้ความสามารถในการค้นหาแบบเหลี่ยม (เช่นรับลูกค้าผู้ชายอายุ 23 ปีที่มีรถยนต์หนึ่งคันและเด็ก 3 คน) ฉันจะค้นหากลุ่มที่น่าสนใจได้โดยอัตโนมัติโดยใช้วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องการจัดกลุ่มหรืออย่างอื่นได้อย่างไร Rภาษาการเขียนโปรแกรมดูเหมือนจะเป็นเครื่องมือที่ดีสำหรับงานนี้ แต่ฉันไม่สามารถสร้างวิธีการค้นหากลุ่มดังกล่าวได้ ทางออกหนึ่งคือค้นหากลุ่มลูกค้าที่ใหญ่ที่สุดและใช้พวกเขาเป็นกลุ่มเป้าหมายดังนั้นคำถามคือ: ฉันจะเลือกกลุ่มลูกค้ารายใหญ่ที่สุดที่คล้ายกันโดยอัตโนมัติได้อย่างไร (คล้ายกับพารามิเตอร์ที่ฉันไม่ทราบในขณะนี้) ตัวอย่างเช่น: โปรแกรมของฉันจะเชื่อมต่อกับ elasticsearch ลดปริมาณข้อมูลลูกค้าลงใน CSV และการใช้สคริปต์ภาษา R จะพบว่าลูกค้าส่วนใหญ่เป็นเพศชายที่ไม่มีลูกและลูกค้าส่วนใหญ่อีกคนมีรถยนต์และสีตาของพวกเขาเป็นสีน้ำตาล

10 data-mining clustering

5

วิธีสร้างรายการ stopwords ที่ดี

ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการจัดการรายการคำหยุด มีใครรู้ / ใครบ้างที่สามารถแนะนำวิธีการที่ดีในการแยกรายการคำหยุดจากชุดข้อมูลสำหรับการประมวลผลและการกรองล่วงหน้าได้หรือไม่? ข้อมูล: การป้อนข้อความของมนุษย์จำนวนมากที่มีความยาวผันแปร (searchterms และทั้งประโยค (สูงสุด 200 ตัวอักษร)) ในช่วงหลายปีที่ผ่านมา ข้อความประกอบด้วยสแปมจำนวนมาก (เช่นอินพุตจากบอตคำเดียวการค้นหาโง่การค้นหาผลิตภัณฑ์ ... ) และดูเหมือนว่าจะมีประโยชน์เพียงไม่กี่% เท่านั้น ฉันรู้ว่าบางครั้งผู้คนค้นหาด้านของฉันด้วยการถามคำถามเจ๋ง ๆ คำถามเหล่านี้เจ๋งมากฉันคิดว่ามันคุ้มค่าที่จะมองลึกลงไปในพวกเขาเพื่อดูว่าผู้คนค้นหาในช่วงเวลาใดและหัวข้อที่ผู้คนสนใจในการใช้เว็บไซต์ของฉัน ปัญหาของฉัน: คือฉันกำลังดิ้นรนกับการประมวลผลล่วงหน้า (เช่นการทิ้งสแปม) ฉันได้ลองใช้รายการคำหยุดจากเว็บ (NLTK เป็นต้น) แล้ว แต่สิ่งเหล่านี้ไม่ได้ช่วยตอบสนองความต้องการของฉันเกี่ยวกับชุดข้อมูลนี้ ขอบคุณสำหรับความคิดและการสนทนาของคุณ!

9 data-mining nlp information-retrieval language-model

2

วิธีจำลองพฤติกรรมการซื้อของผู้ใช้ใน Amazon

สำหรับโครงการหลักสูตรสุดท้ายของเราในวิทยาศาสตร์ข้อมูลเราเสนอดังต่อไปนี้ - ให้ชุดข้อมูลบทวิจารณ์ของ Amazonเราวางแผนที่จะคิดอัลกอริทึม (นั่นคือคร่าวๆตาม Personalized PageRank) ที่กำหนดตำแหน่งเชิงกลยุทธ์สำหรับการวางโฆษณาใน Amazon ตัวอย่างเช่นมีผลิตภัณฑ์นับล้านรายการใน Amazon และชุดข้อมูลจะให้ข้อมูลเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องผลิตภัณฑ์ที่นำมารวมกันดูด้วยกันเป็นต้น (เราสามารถสร้างกราฟพร้อมข้อมูลที่ดูได้และซื้อด้วย) นอกจากนี้ยังให้บทวิจารณ์ที่เกี่ยวข้องกับผลิตภัณฑ์แต่ละชิ้นผ่าน 14 ปี ใช้ข้อมูลเหล่านี้ทั้งหมดเราจะให้คะแนน / จัดอันดับผลิตภัณฑ์ใน Amazon ตอนนี้คุณเป็นผู้ขายใน Amazon ที่ต้องการปรับปรุงปริมาณการใช้งานไปยังหน้าผลิตภัณฑ์ของพวกเขา อัลกอริทึมของเราช่วยให้คุณระบุตำแหน่งเชิงกลยุทธ์ในกราฟที่คุณสามารถวางโฆษณาของคุณเพื่อให้คุณได้รับอัตราการเข้าชมสูงสุด ตอนนี้คำถามของศาสตราจารย์คือคุณจะตรวจสอบอัลกอริทึมของคุณโดยไม่มีผู้ใช้จริงได้อย่างไร พวกเราพูด- เราสามารถสร้างแบบจำลองชุดผู้ใช้ที่แน่นอน ผู้ใช้บางคนติดตามalso_boughtและalso_viewedเชื่อมโยงไปยังการกระโดดครั้งที่สามบ่อยกว่าการกระโดดครั้งแรกหรือครั้งที่ห้า มีการกระจายพฤติกรรมของผู้ใช้ตามปกติ ผู้ใช้บางคนแทบไม่มีการนำทางใด ๆ เลยหลังจากกระโดดครั้งแรก พฤติกรรมของผู้ใช้ชุดนี้มีการกระจายชี้แจง ศาสตราจารย์ของเรากล่าวว่า - ไม่ว่าผู้ใช้จะปฏิบัติตามสิ่งใดก็ตามผู้ใช้นำทางโดยใช้ลิงก์สำหรับผลิตภัณฑ์ที่คล้ายกัน อัลกอริทึมการจัดอันดับของคุณพิจารณาผลิตภัณฑ์ b / w 2 ที่คล้ายคลึงกันเพื่อจัดอันดับผลิตภัณฑ์ ดังนั้นการใช้อัลกอริทึมการตรวจสอบนี้จึงเป็นเรื่องcheatingจริง มาพร้อมกับพฤติกรรมของผู้ใช้อื่น ๆ ซึ่งมีความสมจริงและตั้งฉากกับอัลกอริทึมมากขึ้น มีความคิดเห็นเกี่ยวกับวิธีจำลองพฤติกรรมของผู้ใช้อย่างไร ฉันยินดีที่จะให้รายละเอียดเพิ่มเติมเกี่ยวกับอัลโก

9 machine-learning data-mining dataset recommender-system

1

การเรียนรู้การเข้ารหัสสัญญาณ

ฉันมีตัวอย่างจำนวนมากซึ่งเป็นตัวแทนของกระแสบิตเข้ารหัสแมนเชสเตอร์เป็นสัญญาณเสียง ความถี่ที่พวกเขาถูกเข้ารหัสเป็นส่วนประกอบความถี่หลักเมื่อมันสูงและมีจำนวนเสียงสีขาวในพื้นหลังที่สอดคล้องกัน ฉันถอดรหัสสตรีมเหล่านี้ด้วยตนเอง แต่ฉันสงสัยว่าฉันสามารถใช้เทคนิคการเรียนรู้ของเครื่องบางอย่างเพื่อเรียนรู้โครงร่างการเข้ารหัส สิ่งนี้จะช่วยประหยัดเวลาได้มากในการจดจำโครงร่างเหล่านี้ด้วยตนเอง ความยากลำบากคือสัญญาณที่แตกต่างกันจะถูกเข้ารหัสแตกต่างกัน เป็นไปได้ไหมที่จะสร้างรูปแบบที่สามารถเรียนรู้การถอดรหัสมากกว่าหนึ่งโครงร่างการเข้ารหัส? แบบจำลองดังกล่าวมีความแข็งแกร่งเพียงใดและฉันต้องการใช้เทคนิคแบบใด การวิเคราะห์องค์ประกอบอิสระ (ICA) ดูเหมือนว่าจะมีประโยชน์สำหรับการแยกความถี่ที่ฉันสนใจ แต่ฉันจะเรียนรู้รูปแบบการเข้ารหัสได้อย่างไร

9 machine-learning data-mining scalability algorithms feature-selection

1

การทำเหมืองข้อมูลเชิงสัมพันธ์แบบไม่มี ILP

ฉันมีชุดข้อมูลขนาดใหญ่จากฐานข้อมูลเชิงสัมพันธ์ซึ่งฉันจำเป็นต้องสร้างรูปแบบการจำแนกสำหรับ ปกติสำหรับสถานการณ์นี้ฉันจะใช้Inductive Logic Programming (ILP) แต่เนื่องจากสถานการณ์พิเศษฉันไม่สามารถทำเช่นนั้นได้ อีกวิธีหนึ่งในการแก้ไขปัญหานี้ก็คือพยายามรวบรวมค่าเมื่อฉันมีความสัมพันธ์ต่างประเทศ อย่างไรก็ตามฉันมีแถวที่สำคัญและแตกต่างกันหลายพันแถวสำหรับคุณลักษณะบางอย่างที่ระบุ (เช่น: ผู้ป่วยที่เกี่ยวข้องกับใบสั่งยาที่แตกต่างกันหลายรายการ) ดังนั้นฉันไม่สามารถทำได้โดยไม่ต้องสร้างแอตทริบิวต์ใหม่สำหรับแต่ละแถวที่แตกต่างกันของแอตทริบิวต์เล็กน้อยและยิ่งไปกว่านั้นคอลัมน์ใหม่ส่วนใหญ่จะมีค่า NULL หากฉันทำเช่นนั้น มีอัลกอริทึมที่ไม่ใช่ ILP หรือไม่ที่อนุญาตให้ฉันสร้างฐานข้อมูลเชิงสัมพันธ์กับทุ่นระเบิดโดยไม่ต้องหันไปใช้เทคนิคต่าง ๆ เช่นการหมุนซึ่งจะสร้างคอลัมน์ใหม่หลายพันคอลัมน์?

9 data-mining classification relational-dbms

2

การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน

ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 …

9 bigdata machine-learning databases clustering data-mining

คำถามติดแท็ก data-mining