อะไรคือ“ อัลกอริธึมร้อนแรง” สำหรับการเรียนรู้ของเครื่อง?


14

นี่เป็นคำถามที่ไร้เดียงสาจากคนที่เริ่มเรียนรู้การเรียนรู้ของเครื่อง ฉันกำลังอ่านหนังสือ "การเรียนรู้ของเครื่อง: มุมมองอัลกอริทึม" จากหนังสือเมื่อวานนี้ ฉันพบว่ามันมีประโยชน์ในฐานะหนังสือเกริ่นนำ แต่ตอนนี้ฉันอยากจะไปสู่อัลกอริธึมขั้นสูงผู้ที่ให้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ฉันส่วนใหญ่สนใจในชีวสารสนเทศศาสตร์: การรวมกลุ่มของเครือข่ายทางชีวภาพและการค้นหารูปแบบในลำดับทางชีวภาพโดยเฉพาะอย่างยิ่งนำไปใช้กับการวิเคราะห์นิวคลีโอไทด์ polymorphism (SNP) เดียว คุณช่วยแนะนำให้ฉันอ่านรีวิวหรือหนังสือได้ไหม?

คำตอบ:


15

การเรียนรู้อย่างลึกซึ้งได้รับความสนใจเป็นอย่างมากตั้งแต่ปี 2549 โดยทั่วไปเป็นวิธีการฝึกอบรมเครือข่ายประสาทและนำไปสู่ผลลัพธ์ที่น่าประทับใจในชุดข้อมูลที่ยากมาก (เช่นการจัดกลุ่มเอกสารหรือการจดจำวัตถุ) บางคนกำลังพูดถึงยุคฟื้นฟูศิลปวิทยาเครือข่ายที่สอง (เช่นในGoogle Talkโดย Schmidhuber)

หากคุณต้องการที่จะสร้างความประทับใจคุณควรดูบทความวิทยาศาสตร์นี้ลดขนาดของข้อมูลด้วย Neural Networks, Hinton & Salakhutdinov

(มีงานมากมายเกิดขึ้นในขณะนี้ในพื้นที่นั้นมีหนังสือสองเล่มที่ฉันรู้ว่าจะปฏิบัติต่อมัน: การเรียนรู้ของเครื่องขนาดใหญ่ , Langford et al และการเรียนรู้ของเครื่อง: มุมมองน่าจะเป็นโดย Kevin Murphy)

หากคุณต้องการทราบข้อมูลเพิ่มเติมตรวจสอบสิ่งที่หลักในกลุ่มการเรียนรู้ลึกกำลังทำ: Stanford , มอนทรีออและที่สำคัญที่สุดโตรอนโต # 1และโตรอนโต # 2


8

คำตอบส่วนใหญ่ที่ให้ไว้อ้างอิง "การเรียนรู้ภายใต้การดูแล" (เช่นที่คุณมีป้ายกำกับสำหรับส่วนหนึ่งของชุดข้อมูลของคุณที่คุณสามารถใช้ในการฝึกอบรมอัลกอริทึม) คำถามที่กล่าวถึงการจัดกลุ่มโดยเฉพาะซึ่งเป็นวิธีการ "ไม่ได้รับการสำรอง" (เช่นไม่มีการระบุป้ายกำกับไว้ล่วงหน้า) ในสถานการณ์นี้ฉันขอแนะนำให้ดู:

  • k-mean และเคอร์เนล k-mean
  • การจัดกลุ่มแบบ Agglomerative
  • ตัวประกอบเมทริกซ์ที่ไม่เป็นลบ
  • การจัดสรร Dirichlet แฝง
  • กระบวนการ Dirichlet และกระบวนการ Dirichlet ตามลำดับชั้น

แต่จริงๆแล้วคุณอาจพบว่าการวัดความเหมือน / ระยะทางของคุณสำคัญกว่าอัลกอริทึมเฉพาะที่คุณใช้

หากคุณมีข้อมูลที่มีป้ายกำกับแนวทางการเรียนรู้แบบกึ่งกำกับจะได้รับความนิยมและมีประสิทธิภาพมาก จุดเริ่มต้นที่ดีสำหรับ SSL คือ LapSVM (เครื่องเวกเตอร์สนับสนุน Laplacian)


7

หนังสือเหล่านี้อาจเป็นประโยชน์:

  • การทำเหมืองข้อมูลเบื้องต้นโดย Pang-Ning Tan, Michael Steinbach, Vipin Kumar นี่เป็นหนังสือที่แนะนำระหว่างชั้นเรียน Data Mining ที่มหาวิทยาลัย ฉันชอบการจัดวางและวิธีการทางทฤษฎี
  • การขุดข้อมูล: เครื่องมือและเทคนิคการเรียนรู้ที่ใช้งานได้จริงโดย Ian H. Witten, Eibe Frank, Mark A. Hall หนังสือที่น่าสนใจมาก หนังสือเล่มนี้ครอบคลุมเทคนิคการใช้งานหลายอย่างกับ Data Mining Framework WEKA ;
  • การเรียนรู้ของเครื่องโดย Thomas Mitchell มันเป็นหนังสือเล่มเก่า แต่ก็มีประโยชน์

แล้วจำไว้ว่าคุณสามารถเข้าร่วมการเรียนฟรีของเครื่องการเรียนรู้ที่ Stanford ได้เริ่มต้นเพียง: www.ml-class.com

และสำหรับปัญหาเฉพาะของคุณนั่นคือการวิเคราะห์ SNP ฉันขอแนะนำให้ดูกลุ่มDi Camilloที่ University of Padova


5

นี่คือบทความและหนังสือยอดเยี่ยมที่อธิบายถึงเหตุผลทฤษฎีและการประยุกต์ใช้วิธีการที่ได้รับความนิยมสูงสุด:

อัลกอริทึม 10 อันดับแรกในการขุดข้อมูล

มีความประณีตเป็นพิเศษเพราะเป็น "10 อันดับแรก" ที่ได้รับการคัดเลือกโดยผู้เชี่ยวชาญในการสำรวจ

สำหรับข้อมูลยีนโดยทั่วไปการเลือกคุณสมบัติมีความสำคัญอย่างมากเนื่องจากมีคุณสมบัติมากมาย ตัวอย่างเช่น SVM-recursive Feature กำจัด (SVM-RFE) และวิธีการที่เกี่ยวข้องเป็นที่นิยมมากและได้รับการพัฒนาและนำไปใช้อย่างแข็งขันในบริบทของข้อมูลยีน


4

ต้นไม้ที่ได้รับการส่งเสริมและรูปแบบ svm ชนะการแข่งขันจำนวนมาก การปรับมาตรฐานของ Manifold อยู่บนขอบตัดเช่นกัน


4

ฉันแนะนำ "องค์ประกอบของการเรียนรู้เชิงสถิติ" โดย Hastie, Tibshirani และ Friedman อย่าเพิ่งอ่านเล่นกับอัลกอริธึมที่อธิบายโดยพวกเขา (ส่วนใหญ่นำมาใช้ใน R หรือคุณอาจนำบางส่วนมาใช้) และเรียนรู้จุดอ่อนและจุดแข็งของพวกเขา


3

3

กระบวนการแบบเกาส์สำหรับการเรียนรู้ของเครื่องโดย Rasmussen และ Williams (MIT Press) เป็นสิ่งจำเป็น กระบวนการแบบเกาส์เซียนเป็นหนึ่งในอัลกอริธึมร้อนแรงสำหรับการเรียนรู้ของเครื่องจักรในขณะนี้ซึ่งมีการแพร่กระจายความคาดหวังและอัลกอริทึมการอนุมานแบบแปรผัน หนังสือเล่มนี้เขียนได้ดีมากมีกล่องเครื่องมือ MATLAB ฟรี (ชุดเครื่องมือที่ดี) และสามารถดาวน์โหลดหนังสือได้ฟรี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.