วิธีการวิเคราะห์ความสัมพันธ์ 'เบียร์และผ้าอ้อม'


8

ฉันมีข้อมูลที่เทียบเท่ากับ:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

ฉันต้องการทำการวิเคราะห์บางอย่างกับชุดข้อมูลนี้เพื่อรับเมทริกซ์สหสัมพันธ์ที่จะมีความหมายคล้ายกับ: หากคุณซื้อ x คุณมีแนวโน้มที่จะซื้อ y

ใช้ไพ ธ อน (หรือบางทีอาจเป็นอะไรก็ได้ยกเว้น MATLAB) ฉันจะทำยังไงต่อไป แนวทางพื้นฐานบางอย่างหรือตัวชี้ไปยังที่ที่ฉันควรดูจะช่วย

ขอบคุณ,

แก้ไข - สิ่งที่ฉันได้เรียนรู้:

  1. ปัญหาเหล่านี้เรียกว่าการค้นพบกฎการเชื่อมโยง Wikipedia มีบทความที่ดีที่ครอบคลุมอัลกอริทึมทั่วไปบางประการที่ควรทำ อัลกอริทึมแบบดั้งเดิมที่ทำเช่นนั้นน่าจะเป็น Apriori เนื่องจาก Agrawal และ อัล

  2. นั่นทำให้ฉันเป็นสีส้มแพคเกจหลาม data interconnect สำหรับ Linux วิธีที่ดีที่สุดในการติดตั้งนั้นมาจากแหล่งที่มาโดยใช้ setup.py ที่ให้มา

  3. ออเรนจ์โดยค่าเริ่มต้นจะอ่านอินพุตจากไฟล์ซึ่งจัดรูปแบบด้วยวิธีใดวิธีหนึ่งที่รองรับ

  4. ในที่สุดการเรียนรู้กฎของ Apriori อย่างง่าย ๆก็เป็นสีส้ม


3
หากคุณกำลังมองหาแพ็คเกจ R arulesจะคุ้มค่ากับการดู อาจเป็น "กฏการเชื่อมโยง" เป็นข้อความค้นหาที่ดี
Karsten W.

2
ดูอัลกอริทึม Aprioriสำหรับแนวทาง "มาตรฐาน" สำหรับปัญหานี้
พระคาร์ดินัล

คำตอบ:


7

นอกเหนือจากลิงก์ที่ให้ไว้ในความคิดเห็นต่อไปนี้เป็นคำแนะนำเพิ่มเติม:

เกี่ยวกับ Python ฉันเดาว่าตอนนี้คุณมีความคิดว่าคุณควรมองหาอะไร แต่แพ็คเกจการขุดข้อมูลสีส้มมีแพ็คเกจเกี่ยวกับกฎของสมาคมและชุดรายการ

แก้ไข:

ฉันเพิ่งเจอpysuggestซึ่งก็คือ

เอ็นจิ้นการแนะนำ Top-N ที่ใช้อัลกอริทึมการแนะนำที่หลากหลาย ระบบผู้แนะนำ Top-N ซึ่งเป็นเทคโนโลยีการกรองข้อมูลส่วนบุคคลใช้เพื่อระบุชุดของรายการ N ที่จะเป็นที่สนใจของผู้ใช้บางราย ในช่วงไม่กี่ปีที่ผ่านมามีการใช้ระบบผู้แนะนำบนสุดในแอพพลิเคชั่นที่หลากหลายเช่นเพื่อแนะนำผลิตภัณฑ์ที่ลูกค้ามักจะซื้อ แนะนำภาพยนตร์รายการทีวีหรือเพลงที่ผู้ใช้จะได้เพลิดเพลิน ระบุหน้าเว็บที่น่าสนใจ หรือแนะนำวิธีการอื่นในการค้นหาข้อมูล


ฉันสงสัยว่าต้องมีผลิตภัณฑ์กี่ผลิตภัณฑ์ก่อนที่เมทริกซ์สหสัมพันธ์แบบง่ายจะไม่เพียงพอ
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.