อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI?


208

อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI?

จะถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็น 4 สาขาที่พยายามแก้ไขปัญหาที่คล้ายกันมาก แต่ด้วยวิธีการที่แตกต่างกัน? พวกเขามีอะไรกันแน่และพวกเขาต่างกันอย่างไร หากมีลำดับชั้นบางอย่างระหว่างพวกเขามันจะเป็นอะไร?

มีการถามคำถามที่คล้ายกันก่อนหน้านี้ แต่ฉันยังไม่เข้าใจ:

คำตอบ:


109

มีการทับซ้อนกันมากในกลุ่มนี้ แต่สามารถสร้างความแตกต่างบางอย่างได้ ความจำเป็นฉันจะต้องทำให้บางสิ่งบางอย่างง่ายเกินไปหรือให้สั้นลงแก่ผู้อื่น

ประการแรกปัญญาประดิษฐ์นั้นแตกต่างจากส่วนที่เหลือ AI คือการศึกษาวิธีสร้างตัวแทนอัจฉริยะ ในทางปฏิบัติมันเป็นวิธีการตั้งโปรแกรมให้คอมพิวเตอร์ทำงานและทำงานเป็นตัวแทนอัจฉริยะ (พูดบุคคล) สิ่งนี้ไม่จำเป็นต้องเกี่ยวข้องกับการเรียนรู้หรือการเหนี่ยวนำเลยมันอาจเป็นวิธีการ 'สร้างดักหนูที่ดีกว่า' ตัวอย่างเช่นแอปพลิเคชัน AI ได้รวมโปรแกรมเพื่อตรวจสอบและควบคุมกระบวนการที่กำลังดำเนินอยู่ (เช่นเพิ่มแง่มุม A หากดูเหมือนว่าต่ำเกินไป) ขอให้สังเกตว่า AI สามารถรวมสิ่งที่สาปแช่งใกล้กับสิ่งที่เครื่องทำตราบใดที่มันไม่ได้ทำอย่าง 'โง่'

อย่างไรก็ตามในทางปฏิบัติงานส่วนใหญ่ที่ต้องการความฉลาดต้องการความสามารถในการชักนำความรู้ใหม่จากประสบการณ์ ดังนั้นพื้นที่ขนาดใหญ่ภายใน AI คือการเรียนรู้เครื่อง มีการกล่าวโปรแกรมคอมพิวเตอร์เพื่อเรียนรู้งานบางอย่างจากประสบการณ์หากประสิทธิภาพในการทำงานดีขึ้นด้วยประสบการณ์ตามการวัดประสิทธิภาพ การเรียนรู้ของเครื่องเกี่ยวข้องกับการศึกษาอัลกอริธึมที่สามารถดึงข้อมูลโดยอัตโนมัติ (กล่าวคือโดยไม่ต้องมีคนแนะนำออนไลน์) แน่นอนมันเป็นกรณีที่บางส่วนของขั้นตอนเหล่านี้รวมถึงความคิดที่ได้รับโดยตรงจากหรือแรงบันดาลใจจากสถิติคลาสสิก แต่พวกเขาไม่ได้มีเป็น. ในทำนองเดียวกันกับ AI การเรียนรู้ของเครื่องนั้นกว้างมากและสามารถรวมเกือบทุกอย่างตราบใดที่มีส่วนประกอบที่เหนี่ยวนำ ตัวอย่างของอัลกอริทึมการเรียนรู้ของเครื่องอาจเป็นตัวกรองคาลมาน

การทำเหมืองข้อมูลเป็นพื้นที่ที่ได้ดำเนินการมากของแรงบันดาลใจและเทคนิคการเรียนรู้จากเครื่อง (และบางส่วนยังจากสถิติ) แต่จะนำไปแตกต่างกันปลาย การขุดข้อมูลจะดำเนินการโดยบุคคลในสถานการณ์เฉพาะในชุดข้อมูลเฉพาะโดยมีเป้าหมายในใจ โดยทั่วไปบุคคลนี้ต้องการใช้ประโยชน์จากเทคนิคการจดจำรูปแบบต่างๆที่ได้รับการพัฒนาในการเรียนรู้ของเครื่อง ค่อนข้างบ่อยชุดข้อมูลที่มีขนาดใหญ่ , มีความซับซ้อนและ / หรืออาจจะมีปัญหาพิเศษ(เช่นมีตัวแปรมากกว่าการสังเกต) โดยปกติแล้วเป้าหมายคือการค้นหา / สร้างข้อมูลเชิงลึกเบื้องต้นในพื้นที่ที่มีความรู้น้อยมากมาก่อนหรือเพื่อให้สามารถทำนายการสังเกตการณ์ในอนาคตได้อย่างแม่นยำ ยิ่งไปกว่านั้นขั้นตอนการขุดข้อมูลอาจเป็น 'ไม่ได้รับการดูแล' (เราไม่รู้คำตอบ - ค้นพบ) หรือ 'ดูแล' (เรารู้คำตอบ - คำทำนาย) โปรดทราบว่าโดยทั่วไปแล้วเป้าหมายจะไม่พัฒนาความเข้าใจที่ซับซ้อนยิ่งขึ้นของกระบวนการสร้างข้อมูลพื้นฐาน เทคนิคการขุดข้อมูลทั่วไปจะรวมถึงการวิเคราะห์กลุ่มการจำแนกและต้นไม้การถดถอยและเครือข่ายประสาท

ฉันคิดว่าฉันไม่จำเป็นต้องพูดอะไรมากนักเพื่ออธิบายสถิติที่อยู่บนเว็บไซต์นี้ แต่บางทีฉันอาจพูดบางอย่าง สถิติแบบคลาสสิก (นี่ฉันหมายถึงทั้งนักถี่และเบย์) เป็นหัวข้อย่อยในวิชาคณิตศาสตร์ ฉันคิดว่ามันเป็นจุดตัดของสิ่งที่เรารู้เกี่ยวกับความน่าจะเป็นและสิ่งที่เรารู้เกี่ยวกับการปรับให้เหมาะสม แม้ว่าสถิติทางคณิตศาสตร์จะสามารถศึกษาได้อย่างง่ายดายเพียงแค่เป็นวัตถุสงบของการสอบสวน แต่ส่วนใหญ่เป็นที่เข้าใจกันว่ามีประโยชน์และนำไปประยุกต์ใช้ในลักษณะที่ดีกว่าพื้นที่ทางคณิตศาสตร์ที่หายากมากขึ้น เช่น (และโดดเด่นในทางตรงกันข้ามกับการขุดข้อมูลข้างต้น) ส่วนใหญ่จะใช้เพื่อทำความเข้าใจกระบวนการสร้างข้อมูลบางอย่างโดยเฉพาะ ดังนั้นมันมักจะเริ่มต้นด้วยรูปแบบที่ระบุไว้อย่างเป็นทางการและจากขั้นตอนนี้เป็นขั้นตอนที่ได้รับมาอย่างถูกต้องเพื่อแยกโมเดลนั้นออกจากอินสแตนซ์ที่มีเสียงดัง (เช่นการประมาณ - โดยการปรับฟังก์ชั่นการสูญเสียบางอย่าง) และเพื่อให้สามารถแยกแยะมันออกจากความเป็นไปได้อื่น ๆ เทคนิคทางสถิติต้นแบบคือการถดถอย


1
ฉันเห็นด้วยกับการโพสต์ส่วนใหญ่ แต่ฉันจะบอกว่า AI ส่วนใหญ่ไม่ได้พยายามที่จะสร้างตัวแทนอัจฉริยะ (ปัญญาคืออะไร?) แต่ตัวแทนที่มีเหตุผล โดยเหตุผลมันหมายถึง "ที่ดีที่สุดให้ความรู้ที่มีอยู่เกี่ยวกับโลก" ถึงแม้ว่าเป้าหมายสูงสุดคือการยอมรับว่าเป็นวิธีแก้ปัญหาทั่วไป
kutschkem

3
ขออภัยฉันยังไม่ได้รับความแตกต่างระหว่างการขุดข้อมูลและการเรียนรู้ของเครื่อง จากสิ่งที่ฉันเห็น data mining = การเรียนรู้แบบไม่มีการเรียนรู้ของเครื่อง การเรียนรู้ของเครื่องไม่ได้รับการสนับสนุนเกี่ยวกับการค้นหาข้อมูลเชิงลึกใหม่ ๆ หรือไม่
dtc

ผู้ใช้ที่ไม่ระบุชื่อแนะนำบล็อกนี้สำหรับตารางที่ระบุความแตกต่างระหว่างการทำเหมืองข้อมูลและการเรียนรู้ของเครื่องโดยใช้พารามิเตอร์
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.มันปลอดภัยที่จะบอกว่าเครือข่ายประสาทเป็นตัวอย่างของเครื่องมือการเรียนรู้เครื่องที่ใช้ในการทำเหมืองข้อมูลเมื่อเทียบกับการวิเคราะห์กลุ่มซึ่งเป็นวิธีที่ไม่ได้ออกแบบมาสำหรับการเรียนรู้ของเครื่องที่ใช้สำหรับการทำเหมืองข้อมูล?
t0mgs

ในความเป็นจริงมันค่อนข้างคลุมเครือ @ TomGranot-Scalosub ฉันจะบอกว่าเครือข่ายประสาทเทียมเป็น ML แน่นอนและแน่นอนการวิเคราะห์กลุ่มและ CART ได้รับการศึกษาโดยนักวิจัย ML ฉันพยายามทำให้ความคิดค่อนข้างชัดเจนและชัดเจน แต่ไม่มีเส้นแบ่งที่ชัดเจนระหว่างหมวดหมู่เหล่านี้
gung

41

คำตอบอื่น ๆ อีกมากมายได้ครอบคลุมประเด็นหลัก แต่คุณขอลำดับชั้นหากมีอยู่และวิธีที่ฉันเห็นแม้ว่าพวกเขาจะเป็นสาขาวิชาแต่ละคนในสิทธิของตนเองมีลำดับชั้นที่ไม่มีใครดูเหมือนจะได้กล่าวถึงตั้งแต่แต่ละสร้าง อันก่อนหน้า

สถิติเป็นเพียงตัวเลขและการหาปริมาณข้อมูล มีเครื่องมือมากมายสำหรับการค้นหาคุณสมบัติที่เกี่ยวข้องของข้อมูล แต่มันค่อนข้างใกล้เคียงกับคณิตศาสตร์ที่บริสุทธิ์

การขุดข้อมูลเป็นเรื่องเกี่ยวกับการใช้สถิติเช่นเดียวกับวิธีการเขียนโปรแกรมอื่นเพื่อค้นหารูปแบบที่ซ่อนอยู่ในข้อมูลเพื่อให้คุณสามารถอธิบายปรากฏการณ์บางอย่าง Data Mining สร้างสัญชาตญาณเกี่ยวกับสิ่งที่เกิดขึ้นจริงในข้อมูลบางอย่างและยังมีต่อคณิตศาสตร์มากกว่าการเขียนโปรแกรม แต่ใช้ทั้งสองอย่าง

การเรียนรู้ของเครื่องใช้เทคนิคการทำเหมืองข้อมูลและอัลกอริทึมการเรียนรู้อื่น ๆ เพื่อสร้างแบบจำลองของสิ่งที่เกิดขึ้นเบื้องหลังข้อมูลบางส่วนเพื่อให้สามารถคาดการณ์ผลลัพธ์ในอนาคต คณิตศาสตร์เป็นพื้นฐานของอัลกอริธึมหลายอย่าง

ปัญญาประดิษฐ์ใช้โมเดลที่สร้างโดยMachine Learningและวิธีการอื่น ๆ เพื่อให้เหตุผลเกี่ยวกับโลกและก่อให้เกิดพฤติกรรมที่ชาญฉลาดไม่ว่าจะเป็นการเล่นเกมหรือขับรถหุ่นยนต์ / รถยนต์ ปัญญาประดิษฐ์มีเป้าหมายที่จะทำให้บรรลุผลโดยทำนายว่าการกระทำจะส่งผลกระทบต่อรูปแบบของโลกและเลือกการกระทำที่จะบรรลุเป้าหมายนั้นได้ดีที่สุด การเขียนโปรแกรมตามมาก

ในระยะสั้น

  • สถิติ การประเมินตัวเลข
  • การทำเหมืองข้อมูล อธิบายรูปแบบ
  • การเรียนรู้ของเครื่อง ทำนายด้วยโมเดล
  • ปัญญาประดิษฐ์ มีพฤติกรรมและเหตุผล

ตอนนี้ถูกกล่าวว่าจะมีปัญหา AI บางอย่างที่ตกอยู่ใน AI และในทำนองเดียวกันสำหรับสาขาอื่น ๆ แต่ปัญหาที่น่าสนใจที่สุดในวันนี้ (ตัวอย่างเช่นรถยนต์ที่ขับด้วยตนเอง) สามารถเรียกสิ่งเหล่านี้ได้อย่างง่ายดายและถูกต้อง หวังว่าสิ่งนี้จะเป็นการขจัดความสัมพันธ์ระหว่างพวกคุณที่คุณถามถึง


คุณเคยใช้ WEKA หรือ RapidMiner หรือไม่? ตัวอย่างเช่น EM อยู่ในการทำเหมืองข้อมูลและใช้โมเดล นอกจากนั้นตรวจสอบคำจำกัดความที่กำหนดโดย mariana ที่นุ่มกว่าและเปรียบเทียบกับคำตอบของคุณ สองสามปีที่แล้วที่ฉันอ่าน Bishop และ Russell / Norvig แต่เท่าที่ฉันจำ def ได้ โดยมาเรียนาซอฟต์เฟอร์เหมาะกว่า การทำเหมืองข้อมูล btw เป็นขั้นตอนสำคัญก่อนการค้นพบความรู้ การขุดข้อมูลเป็นเพียงการคว้าข้อมูล - และภายหลังสำหรับข้อมูล - เมื่อใช้อัลกอริทึมที่มีพารามิเตอร์เพียงพอ การขุดข้อมูลไม่สามารถอธิบายรูปแบบได้
ช่วยในการจำ

ไม่, @mnemonic, คำจำกัดความของ AI นี้สอดคล้องกับ Russell และ Norvig มากกว่า mariana's, ซึ่งค่อนข้าง
เก่า

2
ฉันคิดว่าคำอธิบายสถิติไม่ดี ตัวเลข quantifyinf เป็นสถิติที่แผนกสถิติแห่งชาติรายงาน แต่สิ่งนี้ไม่เหมือนกับวิทยาศาสตร์ทางสถิติที่สร้างแบบจำลองสำหรับข้อมูลประเมินพารามิเตอร์และทำการอนุมาน นอกจากนี้ความสัมพันธ์ระหว่างการทำเหมืองข้อมูลกับการเรียนรู้ของเครื่องนั้นกลับด้าน วิทยาศาสตร์ข้อมูลใช้เทคนิคการเรียนรู้ของเครื่องไม่ใช่วิธีอื่น ดูคำตอบของ Ken van Haren เช่นกัน
Richard Hardy

25
  • สถิติเกี่ยวข้องกับแบบจำลองความน่าจะเป็นโดยการอนุมานเฉพาะโมเดลเหล่านี้โดยใช้ข้อมูล
  • การเรียนรู้ของเครื่องเกี่ยวข้องกับการทำนายผลลัพธ์เฉพาะที่ได้รับข้อมูลบางอย่าง เกือบทุกวิธีการเรียนรู้ด้วยเครื่องที่เหมาะสมสามารถกำหนดเป็นแบบจำลองความน่าจะเป็นทางการดังนั้นในกรณีนี้การเรียนรู้ของเครื่องก็เหมือนกับสถิติ แต่มันต่างกันตรงที่โดยทั่วไปแล้วมันไม่สนใจการประมาณค่าพารามิเตอร์ ประสิทธิภาพการคำนวณและชุดข้อมูลขนาดใหญ่
  • การขุดข้อมูลคือ (อย่างที่ฉันเข้าใจ) การเรียนรู้ด้วยเครื่องประยุกต์ โดยมุ่งเน้นที่การใช้งานอัลกอริทึมการเรียนรู้ของเครื่องบนชุดข้อมูลขนาดใหญ่ มันคล้ายกันมากกับการเรียนรู้ของเครื่อง
  • ปัญญาประดิษฐ์คือสิ่งที่เกี่ยวข้องกับความฉลาด (บางคำนิยามโดยพลการของ) ในคอมพิวเตอร์ ดังนั้นมันมีหลายสิ่งหลายอย่าง

โดยทั่วไปโมเดลความน่าจะเป็น (และสถิติ) ได้พิสูจน์แล้วว่าเป็นวิธีที่มีประสิทธิภาพมากที่สุดในการจัดโครงสร้างความรู้และความเข้าใจในเครื่องจักรอย่างเป็นทางการจนถึงขอบเขตที่คนอื่น ๆ ทั้งสาม (AI, ML และ DM) เป็นสาขาย่อยของ สถิติ. ไม่ใช่วินัยแรกที่กลายเป็นแขนเงาของสถิติ ... (เศรษฐศาสตร์, จิตวิทยา, ชีวสารสนเทศ, ฯลฯ )


5
@Ken - มันจะไม่ถูกต้องในการอธิบายจิตวิทยาเศรษฐศาสตร์หรือ AI เป็นเงาแขนของสถิติ - แม้ว่าสถิติจะถูกใช้อย่างหนักในแต่ละเพื่อวิเคราะห์ปัญหาต่าง ๆ ที่ฟิลด์เหล่านี้สนใจคุณไม่อยากจะแนะนำยาเป็นแขนเงา ของสถิติแม้ว่าข้อสรุปทางการแพทย์ส่วนใหญ่อาศัยการวิเคราะห์ข้อมูลอย่างหนัก
mpacer

@Ken - นี่เป็นคำตอบที่ยอดเยี่ยม แต่คุณสามารถอธิบายได้อย่างเต็มที่ว่าอะไรคือสิ่งที่ AI ประกอบด้วย ตัวอย่างเช่นในอดีต AI ได้รวมการวิเคราะห์แบบจำลองที่ไม่น่าจะเป็นไปได้จำนวนมาก (เช่นระบบการผลิตเซลลูลาร์ออโตมาตา ฯลฯ เช่นดู Newell & Simon 1972) แน่นอนว่ารูปแบบดังกล่าวทั้งหมดมีการ จำกัด กรณีของแบบจำลองความน่าจะเป็นบางอย่าง แต่พวกเขาไม่ได้วิเคราะห์ในหลอดเลือดดำดังกล่าวจนกระทั่งในภายหลัง
mpacer

4
การทำเหมืองข้อมูลเป็นมากกว่าการเรียนรู้ของเครื่องเนื่องจากมันเกี่ยวข้องกับวิธีการจัดเก็บและทำดัชนีข้อมูลเพื่อให้อัลกอริทึมเร็วขึ้นมาก มันสามารถมีลักษณะเป็นวิธีการส่วนใหญ่มาจาก AI, ​​ML และสถิติและการรวมเข้ากับเทคนิคการจัดการข้อมูลที่มีประสิทธิภาพและฉลาดและรูปแบบข้อมูล เมื่อมันไม่เกี่ยวข้องกับการจัดการข้อมูลคุณมักจะเรียกมันว่า "การเรียนรู้ของเครื่อง" มีงานบางอย่างโดยเฉพาะอย่างยิ่ง "unsupervised" ที่ไม่มี "การเรียนรู้" ที่เกี่ยวข้อง แต่ยังไม่มีการจัดการข้อมูลสิ่งเหล่านี้ยังคงถูกเรียกว่า "data mining" (การทำคลัสเตอร์
Anony-Mousse

21

เราสามารถพูดได้ว่าพวกเขาเกี่ยวข้องกันหมด แต่พวกเขาต่างกัน แม้ว่าคุณสามารถมีสิ่งที่เหมือนกันในหมู่พวกเขาเช่นในสถิติและการทำเหมืองข้อมูลคุณใช้วิธีการจัดกลุ่ม
ให้ฉันพยายามกำหนดแต่ละสั้น ๆ :

  • สถิติเป็นระเบียบวินัยที่เก่าแก่มากส่วนใหญ่ขึ้นอยู่กับวิธีการทางคณิตศาสตร์แบบคลาสสิกซึ่งสามารถนำมาใช้เพื่อจุดประสงค์เดียวกับที่การทำเหมืองข้อมูลบางครั้งเป็นการจำแนกและจัดกลุ่มสิ่งต่างๆ

  • การทำเหมืองข้อมูลประกอบด้วยแบบจำลองอาคารเพื่อตรวจสอบรูปแบบที่ทำให้เราสามารถจำแนกหรือทำนายสถานการณ์ที่ให้ข้อเท็จจริงหรือปัจจัยจำนวนหนึ่ง

  • ปัญญาประดิษฐ์ (ตรวจสอบ Marvin Minsky *) เป็นระเบียบวินัยที่พยายามเลียนแบบวิธีการทำงานของสมองด้วยวิธีการเขียนโปรแกรมเช่นสร้างโปรแกรมที่เล่นหมากรุก

  • การเรียนรู้ของเครื่องเป็นหน้าที่ของการสร้างความรู้และเก็บไว้ในบางรูปแบบในคอมพิวเตอร์ รูปแบบนั้นอาจเป็นแบบจำลองทางคณิตศาสตร์อัลกอริทึม ฯลฯ ... สิ่งใดก็ตามที่สามารถตรวจจับรูปแบบได้


2
ไม่ AI สมัยใหม่ส่วนใหญ่ไม่ปฏิบัติตามแนวทาง "เลียนแบบสมอง" ในช่วงต้น มันมุ่งเน้นไปที่การสร้าง "ตัวแทนที่มีเหตุผล" ซึ่งทำหน้าที่ในสภาพแวดล้อมเพื่อให้เกิดประโยชน์สูงสุดและเกี่ยวข้องอย่างใกล้ชิดกับการเรียนรู้ของเครื่อง ดูหนังสือของ Russell and Norvig
nealmcb

1
ฉันไม่เห็นความแตกต่างระหว่าง ML และ data mining ในคำจำกัดความของคุณ
Martin Thoma

16

ฉันคุ้นเคยมากที่สุดกับการเรียนรู้ของเครื่อง - แกนการขุดข้อมูล - ดังนั้นฉันจะมุ่งเน้นที่:

การเรียนรู้ของเครื่องมีแนวโน้มที่จะสนใจในการอนุมานในสถานการณ์ที่ไม่ได้มาตรฐานเช่นข้อมูลที่ไม่ใช่ iid, การเรียนรู้ที่คล่องแคล่ว, การเรียนรู้แบบกึ่งกำกับดูแล, การเรียนรู้ด้วยข้อมูลที่มีโครงสร้าง (เช่นสตริงหรือกราฟ) ML มีแนวโน้มที่จะสนใจในขอบเขตทางทฤษฎีเกี่ยวกับสิ่งที่เรียนรู้ได้ซึ่งมักจะเป็นพื้นฐานสำหรับอัลกอริธึมที่ใช้ (เช่นเครื่องสนับสนุนเวกเตอร์) ML มีแนวโน้มที่จะเป็นของธรรมชาติแบบเบย์

การขุดข้อมูลมีความสนใจในการค้นหารูปแบบของข้อมูลที่คุณยังไม่รู้ ฉันไม่แน่ใจว่าแตกต่างจากการวิเคราะห์ข้อมูลเชิงสำรวจในสถิติอย่างมีนัยสำคัญในขณะที่การเรียนรู้ของเครื่องมีปัญหาที่ชัดเจนในการแก้ปัญหา

ML มีแนวโน้มที่จะให้ความสนใจกับชุดข้อมูลขนาดเล็กที่มีปัญหามากเกินไปและการขุดข้อมูลมีแนวโน้มที่จะสนใจชุดข้อมูลขนาดใหญ่ที่ปัญหากำลังจัดการกับปริมาณของข้อมูล

สถิติและการเรียนรู้ของเครื่องมีเครื่องมือพื้นฐานหลายอย่างที่ใช้โดยเครื่องมือขุดข้อมูล


ฉันไม่เห็นด้วยกับ "ML มีแนวโน้มที่จะสนใจชุดข้อมูลขนาดเล็ก"
Martin Thoma

การขุดข้อมูลกลายเป็นเรื่องยากยิ่งขึ้นด้วยชุดข้อมูลขนาดเล็กเนื่องจากจะเป็นการเพิ่มโอกาสในการค้นหาการเชื่อมโยงปลอม (และเพิ่มความยากในการตรวจจับ) ด้วยการอนุมานชุดข้อมูลขนาดเล็กที่ทำให้ตัวเลือกน้อยที่สุดมีแนวโน้มที่จะปลอดภัยกว่ามาก
Dikran Marsupial

13

นี่คือสิ่งที่ฉันทำ มาเริ่มกันที่หมวดกว้าง ๆ สองแบบกัน:

  • อะไรก็ตามที่แสร้งทำเป็นฉลาดก็คือปัญญาประดิษฐ์ (รวมถึง ML และ DM)
  • สิ่งใดก็ตามที่สรุปข้อมูลคือสถิติแม้ว่าคุณมักจะใช้สิ่งนี้กับวิธีการที่ให้ความสนใจกับความถูกต้องของผลลัพธ์ (มักใช้ใน ML และ DM)

ทั้ง ML และ DM มักเป็นทั้ง AI และสถิติเนื่องจากมักจะเกี่ยวข้องกับวิธีการพื้นฐานจากทั้งสองอย่าง นี่คือความแตกต่าง:

  • ในการเรียนรู้ของเครื่องคุณมีวัตถุประสงค์ที่กำหนดไว้อย่างดี (โดยปกติคือการทำนาย )
  • ในการทำเหมืองข้อมูลคุณเป็นหลักมีวัตถุประสงค์ " สิ่งที่ฉันไม่ได้รู้ก่อน "

นอกจากนี้การทำเหมืองข้อมูลมักจะเกี่ยวข้องกับการจัดการข้อมูลมากขึ้นเช่นวิธีการจัดระเบียบข้อมูลในโครงสร้างดัชนีและฐานข้อมูลที่มีประสิทธิภาพ

น่าเสียดายที่มันไม่ง่ายที่จะแยกจากกัน ตัวอย่างเช่นมี "การเรียนรู้ที่ไม่สำรอง" ซึ่งมักจะเกี่ยวข้องกับ DM มากกว่า ML เนื่องจากไม่สามารถปรับให้เหมาะสมกับเป้าหมายได้ ในทางกลับกันวิธีการของ DM นั้นยากที่จะประเมิน (คุณจะให้คะแนนบางสิ่งที่คุณไม่รู้อย่างไร) และมักจะประเมินในงานเดียวกันกับการเรียนรู้ของเครื่องโดยการปล่อยข้อมูลบางอย่างออกมา อย่างไรก็ตามสิ่งนี้มักจะทำให้พวกเขาดูเหมือนว่าจะทำงานแย่กว่าวิธีการเรียนรู้ของเครื่องที่สามารถปรับให้เหมาะสมกับเป้าหมายการประเมินจริง

นอกจากนี้มักใช้ร่วมกัน ตัวอย่างเช่นวิธีการขุดข้อมูล (พูด, การจัดกลุ่มหรือการตรวจจับค่าผิดพลาดที่ไม่ได้รับอนุญาต) ใช้ในการประมวลผลข้อมูลล่วงหน้าจากนั้นวิธีการเรียนรู้ของเครื่องจะถูกนำไปใช้กับข้อมูลที่ประมวลผลล่วงหน้า

การเรียนรู้ของเครื่องมักจะง่ายกว่าในการประเมิน: มีเป้าหมายเช่นการทำนายคะแนนหรือชั้นเรียน คุณสามารถคำนวณความแม่นยำและเรียกคืนได้ ในการขุดข้อมูลการประเมินผลส่วนใหญ่ทำได้โดยการทิ้งข้อมูลบางส่วน (เช่นป้ายชื่อคลาส) แล้วทดสอบว่าวิธีการของคุณค้นพบโครงสร้างเดียวกันหรือไม่ นี่คือความไร้เดียงสาในแง่ที่คุณคิดว่าคลาสป้ายเข้ารหัสโครงสร้างของข้อมูลอย่างสมบูรณ์; คุณลงโทษอัลกอริทึมการขุดข้อมูลที่ค้นพบสิ่งใหม่ในข้อมูลของคุณ อีกวิธีหนึ่งในการประเมินผลทางอ้อมคือโครงสร้างที่ค้นพบช่วยเพิ่มประสิทธิภาพของอัลกอริทึม ML จริง (เช่นเมื่อแบ่งพาร์ติชันข้อมูลหรือลบค่าผิดปกติ) ถึงกระนั้นการประเมินผลนี้ก็ขึ้นอยู่กับการทำซ้ำผลลัพธ์ที่มีอยู่ซึ่งไม่ได้เป็นวัตถุประสงค์การขุดข้อมูล ...


1
คำตอบของคุณลึกซึ้งมาก ฉันขอขอบคุณย่อหน้าสุดท้ายโดยเฉพาะเกี่ยวกับความแตกต่างในการประเมินประสิทธิภาพของ ML และการประเมินประสิทธิภาพของ DM
justis

8

ฉันจะเพิ่มข้อสังเกตในสิ่งที่พูด ...

AI เป็นคำศัพท์ที่กว้างมากสำหรับทุกสิ่งที่เกี่ยวข้องกับเครื่องจักรที่ทำกิจกรรมที่มีลักษณะเหมือนมีเหตุผลหรือมีลักษณะปรากฏขึ้นตั้งแต่การวางแผนงานหรือร่วมมือกับหน่วยงานอื่น ๆ จนถึงการเรียนรู้การใช้งานแขนขาเพื่อเดิน คำจำกัดความที่มีสาระสำคัญคือ AI เป็นสิ่งที่เกี่ยวข้องกับคอมพิวเตอร์ซึ่งเรายังไม่รู้วิธีการทำได้ดี (เมื่อเรารู้วิธีการทำมันให้ดีโดยทั่วไปแล้วจะได้รับชื่อของตัวเองและจะไม่ "AI" อีกต่อไป)

เป็นความประทับใจของฉันตรงกันข้ามกับ Wikipedia ที่การจดจำรูปแบบและการเรียนรู้ของเครื่องนั้นเป็นสาขาเดียวกัน แต่คนก่อนหน้านี้ได้รับการฝึกฝนโดยวิทยาการคอมพิวเตอร์ในขณะที่คนหลังถูกฝึกโดยนักสถิติและวิศวกร (เขตข้อมูลทางเทคนิคจำนวนมากถูกค้นพบซ้ำแล้วซ้ำอีกโดยกลุ่มย่อยที่แตกต่างกันซึ่งมักจะนำศัพท์แสงและความคิดของตัวเองไปที่โต๊ะ)

ในใจของฉันการทำเหมืองข้อมูลใช้การเรียนรู้ของเครื่อง / การจดจำรูปแบบ (เทคนิคที่ทำงานกับข้อมูล) และห่อไว้ในฐานข้อมูลโครงสร้างพื้นฐานและเทคนิคการตรวจสอบ / ทำความสะอาดข้อมูล


6
การเรียนรู้ของเครื่องและการจดจำรูปแบบไม่เหมือนกันการเรียนรู้ของเครื่องยังสนใจในสิ่งต่าง ๆ เช่นการถดถอยและการอนุมานสาเหตุ ฯลฯ การจดจำรูปแบบเป็นเพียงหนึ่งในปัญหาที่น่าสนใจในการเรียนรู้ของเครื่อง เครื่องเรียนรู้คนส่วนใหญ่ที่ฉันรู้จักอยู่ในแผนกวิทยาศาสตร์คอมพิวเตอร์
Dikran Marsupial

2
@Dikran เห็นด้วย แต่ ML และ PR มักจะเป็นนามแฝงและนำเสนอภายใต้หัวข้อที่คล้ายกันของการวิเคราะห์ข้อมูล หนังสือที่ฉันชอบคือการจดจำรูปแบบและการเรียนรู้ของเครื่องจาก Christophe M Bishop นี่เป็นความคิดเห็นโดยจอห์น MainDonald ใน JSS, j.mp/etg3w1
chl

ฉันยังรู้สึกว่าคำว่า "การเรียนรู้ของเครื่อง" นั้นเป็นเรื่องธรรมดามากกว่า "การจดจำรูปแบบ" ในโลก CS
bayerj

นอกจากนี้รู้สึกว่า ML เป็นเทอม CS มากกว่า
Karl Morrison

3

น่าเศร้าที่ความแตกต่างระหว่างพื้นที่เหล่านี้ส่วนใหญ่เป็นที่ที่พวกเขาสอน: สถิติตั้งอยู่ในภาควิชาคณิตศาสตร์, ai, การเรียนรู้เครื่องในแผนกวิทยาการคอมพิวเตอร์และการทำเหมืองข้อมูลถูกนำไปใช้มากขึ้น (ใช้โดยแผนกธุรกิจหรือการตลาดพัฒนาโดย บริษัท ซอฟต์แวร์) .

ประการแรก AI (แม้ว่ามันอาจหมายถึงระบบอัจฉริยะใด ๆ ) มีความหมายแบบดั้งเดิมตามวิธีตรรกะ (เช่นระบบผู้เชี่ยวชาญ) มากกว่าการประมาณทางสถิติ สถิติที่อยู่ในแผนกคณิตศาสตร์มีความเข้าใจทางทฤษฎีที่ดีมากพร้อมกับประสบการณ์การใช้งานที่แข็งแกร่งในด้านวิทยาศาสตร์การทดลองที่มีรูปแบบทางวิทยาศาสตร์ที่ชัดเจนและสถิติจำเป็นต้องจัดการกับข้อมูลการทดลองที่มีอยู่อย่าง จำกัด การโฟกัสมักเป็นการบีบข้อมูลสูงสุดจากชุดข้อมูลขนาดเล็กมาก นอกจากนี้ยังมีอคติต่อการพิสูจน์ทางคณิตศาสตร์: คุณจะไม่ได้รับการเผยแพร่จนกว่าคุณจะสามารถพิสูจน์สิ่งต่าง ๆ เกี่ยวกับวิธีการของคุณ สิ่งนี้มีแนวโน้มที่จะหมายความว่าสถิติมีความล่าช้าในการใช้คอมพิวเตอร์เพื่อทำการวิเคราะห์อัตโนมัติ อีกครั้ง การขาดความรู้ด้านการเขียนโปรแกรมทำให้นักสถิติสามารถทำงานกับปัญหาที่มีขนาดใหญ่ซึ่งปัญหาการคำนวณกลายเป็นเรื่องสำคัญ ฉันเชื่อว่าพื้นที่เช่นชีวสารสนเทศศาสตร์ได้ย้ายสถิติมากขึ้นในทิศทางนี้ ในที่สุดฉันก็จะบอกว่านักสถิติเป็นกลุ่มที่มีข้อกังขามากกว่า: พวกเขาไม่อ้างว่าคุณค้นพบความรู้ทางสถิติ - นักวิทยาศาสตร์มาพร้อมกับสมมติฐานและหน้าที่ของนักสถิติคือการตรวจสอบว่าสมมติฐานได้รับการสนับสนุนจากข้อมูล การเรียนรู้ของเครื่องนั้นถูกสอนในแผนก cs ซึ่งน่าเสียดายที่ไม่ได้สอนคณิตศาสตร์ที่เหมาะสม: แคลคูลัสหลายตัวแปร, ความน่าจะเป็น, สถิติและการหาค่าเหมาะที่สุดไม่ใช่เรื่องธรรมดา ... เรามีแนวคิด 'เสน่ห์' ที่คลุมเครือเช่นการเรียนรู้จากตัวอย่าง ...องค์ประกอบของการเรียนรู้เชิงสถิติหน้า 30. นี่หมายความว่ามีความเข้าใจทางทฤษฎีน้อยมากและการระเบิดของอัลกอริธึมเนื่องจากนักวิจัยสามารถค้นหาชุดข้อมูลที่อัลกอริทึมของพวกเขาพิสูจน์ได้ดีกว่าเสมอ ดังนั้นจึงมีเฟสใหญ่ของ hype ในฐานะนักวิจัย ML ไล่ล่าสิ่งที่ใหญ่ต่อไป: เครือข่ายประสาทการเรียนรู้ลึก ฯลฯ น่าเสียดายที่มีเงินจำนวนมากในแผนก CS (คิดว่า google, Microsoft, พร้อมกับตลาดการเรียนรู้เพิ่มเติม ') นักสถิติสงสัยมากขึ้นจะถูกละเว้น ในที่สุดก็มีนักทดลองเกี่ยวกับการงอ: โดยทั่วไปมีความเชื่อพื้นฐานว่าถ้าคุณโยนข้อมูลมากพอที่อัลกอริทึมมันจะ 'เรียนรู้' การทำนายที่ถูกต้อง ในขณะที่ฉันลำเอียงกับ ML มีความเข้าใจพื้นฐานใน ML ที่นักสถิติได้ละเลย: คอมพิวเตอร์สามารถปฏิวัติการประยุกต์ใช้สถิติ

มีสองวิธีคือ a) การประยุกต์ใช้การทดสอบมาตรฐานและแบบจำลองโดยอัตโนมัติ เช่นใช้แบตเตอรี่ของรุ่น (การถดถอยเชิงเส้นฟอเรสต์แบบสุ่ม ฯลฯ พยายามรวมอินพุตการตั้งค่าพารามิเตอร์ ฯลฯ ) สิ่งนี้ไม่ได้เกิดขึ้นจริง - แม้ว่าฉันสงสัยว่าคู่แข่งใน kaggle จะพัฒนาเทคนิคอัตโนมัติของพวกเขาเอง b) การนำแบบจำลองทางสถิติมาตรฐานไปใช้กับข้อมูลขนาดใหญ่: ลองนึกถึงเช่น Google แปลภาษาระบบผู้แนะนำ ฯลฯ (ไม่มีใครอ้างว่าเช่นผู้คนแปลหรือแนะนำเช่นนั้น แต่เป็นเครื่องมือที่มีประโยชน์) แบบจำลองทางสถิติพื้นฐานนั้นตรงไปตรงมา แต่มีปัญหาการคำนวณขนาดใหญ่ในการนำวิธีการเหล่านี้ไปใช้กับจุดข้อมูลหลายพันล้านจุด

การขุดข้อมูลเป็นสุดยอดของปรัชญานี้ ... การพัฒนาวิธีการแยกความรู้จากข้อมูลโดยอัตโนมัติ อย่างไรก็ตามมันมีวิธีการที่ใช้งานได้จริง: โดยพื้นฐานแล้วมันถูกนำไปใช้กับข้อมูลพฤติกรรมซึ่งไม่มีทฤษฎีทางวิทยาศาสตร์ที่ครอบคลุม (การตลาด, การตรวจจับการฉ้อโกง, สแปม ฯลฯ ) และเป้าหมายคือการวิเคราะห์ปริมาณข้อมูลขนาดใหญ่โดยอัตโนมัติ ทีมนักสถิติสามารถทำการวิเคราะห์ได้ดีกว่าในเวลาที่กำหนด แต่มันคุ้มค่ากว่าที่จะใช้คอมพิวเตอร์ นอกจากนี้ในขณะที่ D. Hand อธิบายว่าเป็นการวิเคราะห์ข้อมูลทุติยภูมิ - ข้อมูลที่ถูกบันทึกไว้แทนที่จะเป็นข้อมูลที่ได้รับการรวบรวมอย่างชัดเจนเพื่อตอบคำถามทางวิทยาศาสตร์ในการออกแบบการทดลองที่มั่นคง สถิติการขุดข้อมูลและอีกมากมาย D Hand

ดังนั้นฉันจะสรุปว่า AI แบบดั้งเดิมเป็นตรรกะมากกว่าสถิติการเรียนรู้ของเครื่องคือสถิติที่ไม่มีทฤษฎีและสถิติคือ 'สถิติที่ไม่มีคอมพิวเตอร์' และการขุดข้อมูลคือการพัฒนาเครื่องมืออัตโนมัติสำหรับการวิเคราะห์ทางสถิติโดยมีการแทรกแซงผู้ใช้น้อยที่สุด


คำตอบนี้เบลอมากดังนั้นจึงเป็นเรื่องยากที่จะติดตามและยาวโดยไม่จำเป็น แต่จริงๆแล้วมันเป็นสัญลักษณ์ที่บ่งบอกว่าความแตกต่างนั้นเกี่ยวข้องกับประเพณีและการลงโทษทางวินัยมากกว่าสิ่งอื่นใด
Tripartio

1

การขุดข้อมูลเป็นเรื่องเกี่ยวกับการค้นพบรูปแบบที่ซ่อนอยู่หรือความรู้ที่ไม่รู้จักซึ่งสามารถนำมาใช้ในการตัดสินใจโดยผู้คน

การเรียนรู้ของเครื่องเป็นเรื่องเกี่ยวกับการเรียนรู้รูปแบบการจำแนกวัตถุใหม่


เป็นเครื่องการเรียนรู้เฉพาะเกี่ยวกับการจัดหมวดหมู่? การเรียนรู้ด้วยเครื่องไม่สามารถใช้เพื่อให้บริการเป้าหมายอื่นได้หรือไม่
gung

@gung ไม่แน่นอน การเรียนรู้การเสริมแรงคือ IMHO ซึ่งเป็นสาขาย่อยที่มีลักษณะเด่นที่สุดของ ML และฉันจะไม่พูดว่ามันขึ้นอยู่กับการจำแนกประเภท แต่เพื่อให้บรรลุเป้าหมาย
nbro

@nbro ความคิดเห็นนั้นควรจะเป็นคำใบ้ของ OP เพื่อพิจารณาว่าพวกเขา จำกัด ML อย่างไร
gung

0

ในความคิดของฉันปัญญาประดิษฐ์อาจถือได้ว่าเป็น "superset" ของสาขาต่าง ๆ เช่นการเรียนรู้ของเครื่องการทำเหมืองข้อมูลการจดจำรูปแบบ ฯลฯ

  • สถิติเป็นสาขาวิชาคณิตศาสตร์ที่รวมถึงแบบจำลองทางคณิตศาสตร์เทคนิคและทฤษฎีบททั้งหมดที่ใช้ใน AI

  • การเรียนรู้ของเครื่องเป็นฟิลด์ของ AI ที่มีอัลกอริธึมทั้งหมดที่ใช้โมเดลเชิงสถิติที่กล่าวถึงข้างต้นและทำให้เข้าใจถึงข้อมูลนั่นคือการวิเคราะห์เชิงทำนายเช่นการจัดกลุ่มและการจำแนกประเภท

  • Data Mining เป็นศาสตร์ที่ใช้เทคนิคทั้งหมดข้างต้น (การเรียนรู้ของเครื่องจักรเป็นหลัก) เพื่อดึงรูปแบบที่มีประโยชน์และสำคัญออกจากข้อมูล Data Mining มักจะเกี่ยวข้องกับการดึงข้อมูลที่เป็นประโยชน์จากชุดข้อมูลขนาดใหญ่นั่นคือ Big Data


-1

วิธีการเกี่ยวกับ: เครื่องสอนการเรียนรู้

จดจำรูปแบบที่มีความหมายในข้อมูล: data mining

ทำนายผลลัพธ์จากรูปแบบที่เป็นที่รู้จัก: ML

ค้นหาฟีเจอร์ใหม่เพื่อทำการแมปข้อมูลดิบ: AI

สมองของนกตัวนี้ต้องการคำจำกัดความง่ายๆ


-1

บ่อยครั้งที่ data mining พยายามที่จะ "ทำนาย" ข้อมูลในอนาคตบางอย่างหรือ "อธิบาย" ว่าทำไมบางสิ่งถึงเกิดขึ้น

สถิติใช้สำหรับตรวจสอบสมมติฐานในสายตาของฉัน แต่นี่เป็นการสนทนาเชิงอัตวิสัย

ความแตกต่างที่ชัดเจนระหว่างนักสถิติและนักขุดข้อมูลสามารถพบได้ในประเภทของสถิติสรุปที่พวกเขาดู

สถิติมักจะ จำกัด ตัวเองไว้ที่R²และความแม่นยำในขณะที่นักขุดข้อมูลจะมองไปที่ AUC, ROC curves, ยกโค้งและอื่น ๆ และอาจมีความกังวลด้วยการใช้เส้นโค้งความแม่นยำที่เกี่ยวข้องกับต้นทุน

แพ็คเกจการขุดข้อมูล (เช่น Open source Weka) ได้สร้างเทคนิคในการเลือกอินพุตการสนับสนุนการจัดหมวดหมู่ของเครื่องเวกเตอร์ ฯลฯ ขณะที่ส่วนใหญ่ขาดในแพ็คเกจทางสถิติเช่น JMP ฉันเมื่อเร็ว ๆ นี้เมื่อถึงหลักสูตรเกี่ยวกับ "data mining in jmp" จากคน jmp และถึงแม้ว่ามันจะเป็นแพ็คเกจที่แข็งแกร่งทางสายตา แต่บางเทคนิคการทำ data pre / post / mid data ที่สำคัญขาดหายไป การเลือกอินพุตถูกทำด้วยตนเองเพื่อรับข้อมูลเชิงลึกยังอยู่ในการขุดข้อมูลมันเป็นเพียงความตั้งใจของคุณที่จะปล่อยอัลกอริทึมอย่างชาญฉลาดบนข้อมูลขนาดใหญ่และดูสิ่งที่ออกมาโดยอัตโนมัติ หลักสูตรนี้สอนโดยคนสถิติอย่างชัดเจนซึ่งเน้นความคิดที่แตกต่างระหว่างสองคนนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.