การสำรวจเครื่องมือซอฟต์แวร์ขุดข้อมูล


15

แม้ว่าฉันจะได้รับการฝึกฝนให้เป็นวิศวกร แต่ฉันก็พบว่าฉันสนใจการทำดาต้ามากขึ้น ตอนนี้ฉันกำลังพยายามตรวจสอบข้อมูลเพิ่มเติม โดยเฉพาะอย่างยิ่งฉันต้องการที่จะเข้าใจเครื่องมือซอฟต์แวร์ประเภทต่าง ๆ ที่มีอยู่และเครื่องมือใดที่มีความโดดเด่นในแต่ละหมวดหมู่และทำไม (โปรดทราบว่าฉันไม่ได้พูดถึงเครื่องมือที่ "ดีที่สุด" แต่สิ่งที่น่าสังเกตก็คือว่าเราเริ่มทำสงครามกับเปลวไฟ) โดยเฉพาะอย่างยิ่งจดบันทึกเครื่องมือที่เป็นโอเพ่นซอร์สและให้ใช้งานได้อย่างอิสระ - แม้ว่าจะไม่ใช้สิ่งนี้ ฉันสนใจโอเพ่นซอร์สและฟรีเท่านั้น


1
ฉันแนะนำสิ่งนี้ให้เป็นวิกิชุมชน
Tal Galili

ฟังดูเหมือนคำถามการบ้าน
Neil McGuigan

@ Tal แน่นอนแปลงตอนนี้

@el chief - มันเป็นคำถามทั่วไปที่กว้างมาก ... แต่ฉันกลัวว่ามันไม่ใช่คำถามทำการบ้าน
John Berryman

คำตอบ:


7

นี่อาจเป็นรายการที่ครอบคลุมมากที่สุดที่คุณจะพบ: mloss.org


มันมุ่งเน้นไปที่การเรียนรู้ของเครื่องจักรซึ่งสามารถมองได้ว่าเป็นสาขาที่เกี่ยวข้องกับการขุดข้อมูลเช่นเดียวกับ AI แม้ว่าโดยทั่วไปจะใช้คำพ้องความหมายเป็น "การทำนาย" เป็นหนึ่งในความท้าทายที่สำคัญในการทำเหมืองข้อมูล แต่มีมากกว่า "การเรียนรู้" ในการขุดข้อมูล
จบแล้ว - Anony-Mousse

7

มองไปที่

  • Weka (java แข็งแกร่งในการจำแนก)
  • ออเรนจ์ (สคริปต์หลามส่วนใหญ่การจัดหมวดหมู่)
  • GNU R (ภาษา R, ค่อนข้างเป็นตารางเวกเตอร์, ดูมุมมองการเรียนรู้ของ Machine Machine , และRattle UI)
  • ELKI (java, strong on การตรวจจับกลุ่มและค่าผิดปกติสนับสนุนโครงสร้างดัชนีสำหรับ speedups, รายการอัลกอริทึม )
  • Mahout (Java เป็นของ Hadoop ถ้าคุณมีคลัสเตอร์และชุดข้อมูลขนาดใหญ่)

และUCI Machine Learning Repositoryสำหรับชุดข้อมูล


1
คุณสามารถเพิ่ม Red-R ลงในรายการ (โคลนสีส้มใน R): red-r.org
Amro

ฉันดาวน์โหลด R และฉันกำลังเล่นอยู่ตอนนี้
John Berryman

@ Amro ขอบคุณ! อย่างไรก็ตามมันไม่สามารถใช้ได้บนแพลตฟอร์ม Mac เว้นแต่ว่าฉันเข้าใจผิด
chl

ฉันไม่ใช่ผู้ใช้ Mac แต่ฉันคิดว่าการสร้าง Linux สามารถใช้งานได้สำหรับคุณ (คุณต้องติดตั้งการพึ่งพา python ทั้งหมดด้วยตนเอง): red-r.org/forum/topic.php?id=22#post-76
Amro

@ Amro ฉันจะลองดู ในอดีตฉันเคยทำการทดสอบ RAnalyticFlow ( j.mp/bYF8xs ) แต่ไม่ได้รับความเชื่อมั่น: โดยทั่วไปฉันเป็นผู้ใช้ CLI :-)
chl


3

มีลักษณะที่KNIME

เรียนรู้ได้ง่ายมาก ด้วยขอบเขตมากมายสำหรับความคืบหน้าต่อไป ผสานรวมอย่างลงตัวกับ Weka และ R


2

จากมุมมองของความนิยมบทความนี้ (2008) การสำรวจชั้น 10 ขั้นตอนวิธีการในการทำเหมืองข้อมูล


กระดาษที่ยอดเยี่ยมสำหรับผู้เริ่มต้นในการขุดข้อมูล
OutputLogic


2

มีELKIเป็นโครงการมหาวิทยาลัยโอเพนซอร์ซที่ค่อนข้างเทียบเคียงได้กับ WEKA แต่มีความแข็งแกร่งกว่ามากเมื่อพูดถึงการจัดกลุ่มและการตรวจหาค่าผิดปกติ จริงๆแล้ว WEKA ไม่ใช่การขุดข้อมูล


1

มีRed-Rซึ่งมี GUI ที่ดีและอินเตอร์เฟสการเขียนโปรแกรมแบบเห็นภาพ มันใช้ประโยชน์จาก R เพื่อประมวลผลการวิเคราะห์ข้อมูลต่างๆ



0

การทำเหมืองข้อมูล SQL Server (SSDM)ยังไม่ได้รับการอัปเดตเป็นเวลานาน แต่ก็ยังค่อนข้างมีการแข่งขันหากคุณกำลังขุดฐานข้อมูลและคิวบ์ขนาดใหญ่ ฉันช้า แต่เป็นระบบหวดวิธีของฉันผ่านการทดสอบของเครื่องมือการขุดจำนวนมากเท่าที่ฉันสามารถและอินเทอร์เฟซ Windows ของ SQL Server นั้นมีประสิทธิภาพและเสถียรที่สุดที่ฉันเคยพบมา (โดยเฉพาะอย่างยิ่งเมื่อมันมาถึงฐานข้อมูลองค์กร อินเตอร์เฟสที่เลอะเทอะ) แม้อายุของมัน ฉันต้องการอินเทอร์เฟซ Windows Presentation Foundation (WPF) ที่ทันสมัย ​​แต่นี่เป็นสิ่งที่ดีที่สุด

ฉันได้เขียนแบบฝึกหัดมือสมัครเล่นโดยละเอียดเกี่ยวกับเรื่องA Rickety Stairway ไปยัง SQL Server Data Miningย้อนกลับไปเมื่อฉันพยายามหาทักษะการขุดขั้นพื้นฐานบางอย่าง แม้ฉันจะไม่มีประสบการณ์พวกเขายังคงมีประโยชน์ในการช่วยระบุ "gotchas" ล่วงหน้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.