แพ็คเกจ "การขุดตามลำดับบ่อย" ดีใน Python


14

มีใครเคยใช้ (และชอบ) แพ็คเกจ "การขุดหาลำดับบ่อย ๆ " ที่ดีใน Python นอกเหนือจาก FPM ใน MLLib บ้างไหม? ฉันกำลังมองหาแพคเกจที่มีความเสถียรดีกว่านิ่งได้รับการดูแลโดยคน ขอบคุณ!

คำตอบ:


6

สิ่งเดียวที่ฉันค้นพบคือ: https://github.com/bartdag/pymining

พวกเขามีการใช้งานที่BIDEนั่น แต่มันไม่ได้รักษารหัส

ป.ล. ฉันกำลังเข้าร่วมคำถามของคุณ: - |


เพียงเพื่อชี้แจงก็ไม่ได้ใช้ BIDE ซึ่งเหมืองลำดับปิดบ่อย มันใช้งานจริงกับ PrefixSpan ซึ่งจะทำการขุดลำดับที่พบบ่อยทั้งหมด PrefixSpan และ BIDE ใช้กรอบการแจงนับรูปแบบเดียวกันและนั่นคือเหตุผลที่ผู้เขียนอ้างถึงกระดาษ BIDE
Chuancong Gao

สิ่งที่ฉันทำในท้ายที่สุดคือการใช้: philippe-fournier-viger.com/spmf - มันเป็น JAVA lib แต่ฉันได้หุ้มมันด้วยไพ ธ อนเพื่อให้ตรงกับความต้องการของฉัน
yossico

6

ฉันยังคงใช้งานได้อย่างมีประสิทธิภาพทั้ง PrefixSpan และ BIDE ใน Python 3 สนับสนุนการขุดทั้งรูปแบบตามลำดับและบ่อยครั้งที่ -k (ปิด)

https://github.com/chuanconggao/PrefixSpan-py


ฉันต้องการติดตั้งใน javascript แต่ฉันไม่เข้าใจวิธีการทำงานของอัลกอริธึมเหล่านี้ คุณอธิบายเป็นภาษาอังกฤษธรรมดาได้ไหม
inf3rno

ฉันขอแนะนำให้คุณตรวจสอบการใช้งาน PrefixSpan ขั้นต่ำดั้งเดิมของฉัน ส่วนแกนของมันใช้เวลาเพียง 15 บรรทัด gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Chuancong Gao

ขอบคุณ! ฉันจะพยายามแปลมันเป็น js แต่จะไม่ง่าย :-) Afaik PrefixSpan กำลังสร้างฐานข้อมูลที่คาดการณ์ไว้ตามที่ส่วนนำหน้าตรงกัน ฉันกำลังอ่านเกี่ยวกับ BIDE ซึ่งเป็นทฤษฎีเป็นอัลกอริทึมที่ดียิ่งขึ้น
inf3rno

มีความแตกต่างมากเกินไประหว่างคอลเลกชัน js และ python ฉันไม่ได้จัดการทำซ้ำรหัสใน js ฉันจะลองอีกครั้งในภายหลัง
inf3rno

ไม่แน่ใจว่าช่วยได้หรือไม่ แต่ฉันมี PrefixSpan รุ่น Scala อีกรุ่นหนึ่ง github.com/chuanconggao/PrefixSpan-scalaอย่างไรก็ตามฉันขอแนะนำให้คุณเข้าใจอัลกอริทึมก่อนใช้งาน
Chuancong Gao

1

ผมเคยใช้FIMของฟังก์ชั่น fpgrowth ในอดีตที่ผ่านมาและมันก็ทำงานได้ดี อย่างไรก็ตามการติดตั้งบนเครื่อง Windows เป็นเรื่องที่เจ็บปวด ดูเหมือนว่าจะเป็นเว็บไซต์ทางวิชาการดังนั้นฉันไม่แน่ใจว่าพวกเขากำลังทำการอัปเดตรหัสจำนวนมากเมื่อเวลาผ่านไป ...


1

คุณคิดว่าจะเขียนด้วยตัวเอง? เนื่องจากอาจไม่มีห้องสมุดที่ปรับปรุงล่าสุดในขณะนี้

ลองดูสินี่คือพื้นฐาน - รูปแบบ PrefixSpan และ Closed / Maximal ไม่ยากที่จะนำไปใช้จริง:

http://sequenceanalysis.github.io/



โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.