เมื่อใดจะใช้อะไร - การเรียนรู้ของเครื่อง [ปิด]


39

เมื่อเร็ว ๆ นี้ในคลาสการเรียนรู้ของเครื่องจากศาสตราจารย์ Oriol Pujol ที่ UPC / Barcelona เขาได้อธิบายถึงอัลกอริทึมหลักการและแนวคิดที่ใช้กันทั่วไปสำหรับงานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องจักร ที่นี่ฉันแบ่งปันให้กับคุณและถามคุณ:

  • มีกรอบงานที่ครอบคลุมที่จับคู่กับแนวทางหรือวิธีการที่เกี่ยวข้องกับปัญหาการเรียนรู้ของเครื่องที่แตกต่างกันหรือไม่?

ฉันจะเรียนรู้แบบเกาส์ง่ายๆได้อย่างไร ความน่าจะเป็นตัวแปรสุ่มการแจกแจง การประมาณค่าการลู่เข้าหาและเส้นกำกับช่วงเวลาความมั่นใจ

ฉันจะเรียนรู้ส่วนผสมของ Gaussians (MoG) ได้อย่างไร โอกาสความคาดหวัง - สูงสุด (EM); การวางนัยทั่วไปการเลือกแบบจำลองการตรวจสอบข้าม k-หมายถึงรุ่นมาร์คอฟที่ซ่อนอยู่ (HMM)

ฉันจะเรียนรู้ความหนาแน่นได้อย่างไร การประมาณค่าพารามิเตอร์เทียบกับที่ไม่ใช่พารามิเตอร์ Sobolev และพื้นที่การทำงานอื่น ๆ l ́ 2 ข้อผิดพลาด; การประมาณความหนาแน่นของเคอร์เนล (KDE), เคอร์เนลที่ดีที่สุด, ทฤษฎีของ KDE

ฉันจะทำนายตัวแปรต่อเนื่อง (การถดถอย) ได้อย่างไร การถดถอยเชิงเส้น, การทำให้เป็นมาตรฐาน, การถดถอยแบบสันและ LASSO; การถดถอยเชิงเส้นท้องถิ่น การประมาณความหนาแน่นตามเงื่อนไข

ฉันจะทำนายตัวแปรแยก (หมวดหมู่) ได้อย่างไร ลักษณนามเบย์ไร้เดียงสาเบส์กำเนิดและพินิจพิเคราะห์; perceptron, การลดน้ำหนัก, เครื่องเวกเตอร์สนับสนุนเชิงเส้น; ลักษณนามและทฤษฎีเพื่อนบ้านที่ใกล้ที่สุด

ฉันควรใช้ฟังก์ชันการสูญเสียใด ทฤษฎีการประมาณค่าความน่าจะเป็นสูงสุด การประมาณ l -2 การประมาณแบบเบย์ minimax และทฤษฎีการตัดสินใจ, Bayesianism vs บ่อยครั้ง

ฉันควรใช้รุ่นใด AIC และ BIC; ทฤษฎี Vapnik-Chervonenskis; ทฤษฎีการตรวจสอบข้าม ร่วมมือ; อาจถูกต้องทฤษฎี (PAC) ประมาณ; ขอบเขตที่ได้จาก Hoeffding

ฉันจะเรียนรู้แบบจำลองนักเล่น (รวม) ได้อย่างไร ทฤษฎีการเรียนรู้ทั้งมวล ส่งเสริม; ห่อ; การสุม

ฉันจะเรียนรู้แบบจำลองนักเล่น (ไม่เชิงเส้น) ได้อย่างไร ตัวแบบเชิงเส้นทั่วไปการถดถอยแบบลอจิสติก ทฤษฎีบท Kolmogorov โมเดลเสริมทั่วไป การสร้างเคอร์เนล, การสร้างพื้นที่ของเคอร์เนล Hilbert, SVM แบบไม่เป็นเส้นตรง, การถดถอยของกระบวนการแบบเกาส์

ฉันจะเรียนรู้แบบจำลองนักเล่น (เรียงความ) ได้อย่างไร โมเดลแบบเรียกซ้ำต้นไม้การตัดสินใจการจัดกลุ่มแบบลำดับชั้น โครงข่ายประสาทเทียมการขยายพันธุ์กลับเครือข่ายความเชื่อลึก โมเดลกราฟิกผสมของ HMMs ฟิลด์สุ่มแบบมีเงื่อนไขเครือข่ายมาร์คอฟสูงสุด ตัวแบบลอการิทึมเชิงเส้น ไวยากรณ์

ฉันจะลดหรือเชื่อมโยงคุณสมบัติต่างๆได้อย่างไร การเลือกคุณสมบัติเทียบกับการลดขนาด, วิธีการห่อหุ้มสำหรับการเลือกคุณสมบัติ; ความสัมพันธ์เชิงสาเหตุกับความสัมพันธ์ความสัมพันธ์บางส่วนการเรียนรู้โครงสร้างเบย์

ฉันจะสร้างคุณสมบัติใหม่ได้อย่างไร การวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์องค์ประกอบอิสระ (ICA), การปรับสเกลหลายมิติ, การเรียนรู้ที่หลากหลาย, การลดมิติที่อยู่ภายใต้การดูแล, การเรียนรู้การวัด

ฉันจะลดหรือเชื่อมโยงข้อมูลได้อย่างไร การทำคลัสเตอร์, การทำคลัสเตอร์สองกลุ่ม, การจัดกลุ่มแบบ จำกัด ; กฎความสัมพันธ์และการวิเคราะห์ตะกร้าตลาด ถดถอยอันดับ / ลำดับ; การวิเคราะห์ลิงค์ ข้อมูลเชิงสัมพันธ์

ฉันจะรักษาอนุกรมเวลาได้อย่างไร ARMA; ตัวกรองคาลมานและแบบจำลองพื้นที่ - ตัวกรองอนุภาค การวิเคราะห์ข้อมูลเชิงหน้าที่ การตรวจจับจุดเปลี่ยน; การตรวจสอบความถูกต้องข้ามสำหรับอนุกรมเวลา

ฉันจะจัดการข้อมูลที่ไม่เหมาะได้อย่างไร กะแปรสภาพ ความไม่สมดุลของคลาส ข้อมูลที่ขาดหายไปข้อมูลที่สุ่มตัวอย่างผิดพลาดการวัด การตรวจจับความผิดปกติ, ความทนทาน

ฉันจะปรับพารามิเตอร์ให้เหมาะสมได้อย่างไร Unconstrained vs constrained / Convex optimization, วิธีที่ปราศจากอนุพันธ์, วิธีที่หนึ่งและสองอันดับ, backfitting; การไล่ระดับสีตามธรรมชาติ การเพิ่มประสิทธิภาพที่ถูกผูกไว้และ EM

ฉันจะเพิ่มประสิทธิภาพฟังก์ชั่นเชิงเส้นได้อย่างไร พีชคณิตเชิงเส้นเชิงคำนวณการผกผันของเมทริกซ์สำหรับการถดถอยการสลายตัวของค่าเอกฐาน (SVD) สำหรับการลดขนาด

ฉันจะปรับให้เหมาะสมกับข้อ จำกัด ได้อย่างไร นูน, ตัวคูณลากรองจ์, เงื่อนไข Karush-Kuhn-Tucker, วิธีการจุดภายใน, อัลกอริธึม SMO สำหรับ SVM

ฉันจะประเมินผลรวมที่ซ้อนกันอย่างล้ำลึกได้อย่างไร การอนุมานแบบกราฟิกที่แน่นอนขอบเขตความแปรปรวนในผลรวมการอนุมานแบบกราฟิกโดยประมาณการแพร่กระจายความคาดหวัง

ฉันจะประเมินผลรวมและการค้นหาจำนวนมากได้อย่างไร ปัญหา N-body ทั่วไป (GNP) โครงสร้างข้อมูลแบบลำดับชั้นการค้นหาเพื่อนบ้านที่ใกล้ที่สุดวิธีรวดเร็วหลายวิธี การรวมกันของ Monte Carlo, Markov Chain Monte Carlo, Monte Carlo SVD

ฉันจะจัดการปัญหาที่ใหญ่ขึ้นได้อย่างไร EM แบบขนาน / กระจาย, ขนาน / กระจาย GNP; วิธีการ subgradient สุ่มการเรียนรู้ออนไลน์

ฉันจะใช้ทั้งหมดนี้ในโลกแห่งความจริงได้อย่างไร ภาพรวมของส่วนต่าง ๆ ของ ML การเลือกระหว่างวิธีการที่จะใช้สำหรับงานแต่ละงานความรู้ก่อนหน้าและสมมติฐาน การวิเคราะห์ข้อมูลเชิงสำรวจและการสร้างภาพข้อมูล การประเมินและการตีความโดยใช้ช่วงความมั่นใจและการทดสอบสมมติฐาน ROC curves ที่ปัญหาการวิจัยใน ML คือ


กว้างมากจริงๆ ฉันคิดว่าคำถามย่อยแต่ละคำถามจะต้องเป็นคำถามแยกต่างหากเพื่อให้ได้คำตอบที่มีความหมาย
Amir Ali Akbari

2
คำถามนี้อาจมีคุณสมบัติเป็นแบบกว้างเกินไปหรือไม่กว้างเกินไปขึ้นอยู่กับว่าคุณมองอย่างไร หากคำถามนั้นบ่งบอกถึงคำอธิบายโดยละเอียดเกี่ยวกับงานและวิธีการนั้นจะไม่ครอบคลุมเฉพาะคำถามเท่านั้น แต่สำหรับหนังสือเล่มเดียว อย่างไรก็ตามฉันไม่คิดว่าคำถามนี้แสดงถึงการตีความนั้น ฉันเชื่อว่าคำถามนี้มองหากรอบงานหรืออนุกรมวิธานการจับคู่งานกับวิธีการหรือวิธีการ ( อัลกอริทึมและแนวคิดควรถูกละเว้นเนื่องจากปัญหาเกี่ยวกับความละเอียด) จากมุมมองดังกล่าวคำตอบนี้ไม่กว้างเกินไปดังนั้น IMHO จึงใช้ได้
Aleksandr Blekh

@AleksandrBlekh กรอบการทำงานของประเภทที่คุณกล่าวถึงเป็นความตั้งใจของคำถาม ฉันกำลังแก้ไขเพื่อให้ชัดเจน ขอบคุณ
Javierfdr

@Javierfdr: ไม่เป็นไร
Aleksandr Blekh

@SeanOwen ฉันแก้ไขคำถามหลัก โปรดบอกฉันถ้ายังกว้างและฉันจะต้องทำให้คมชัดขึ้น ขอบคุณ!
Javierfdr

คำตอบ:


6

ฉันเห็นด้วยกับ @geogaffer นี่คือรายการที่ดีมากแน่นอน อย่างไรก็ตามฉันเห็นปัญหาบางอย่างกับรายการนี้เนื่องจากมีการกำหนดในปัจจุบัน ตัวอย่างเช่นปัญหาหนึ่งคือโซลูชันที่แนะนำมีระดับความละเอียดแตกต่างกัน- บางอันแสดงถึงวิธีการบางอย่าง - วิธีการบางอย่าง - อัลกอริธึมและอื่น ๆ - เพียงแค่แนวคิด (กล่าวอีกนัยหนึ่งคือคำศัพท์ภายในโดเมน นอกจากนี้ - และฉันเชื่อว่าสิ่งนี้มีความสำคัญมากกว่าข้างต้น - ฉันคิดว่ามันจะมีค่ามากหากคำตอบเหล่านั้นทั้งหมดในรายการได้รับการจัดเรียงภายในกรอบสถิติเชิงใจแบบครบวงจร. แนวคิดนี้ได้รับแรงบันดาลใจจากการอ่านหนังสือที่ยอดเยี่ยมของ Lisa Harlow "สาระสำคัญของการคิดหลายตัวแปร" ดังนั้นเมื่อเร็ว ๆ นี้ฉันได้เริ่มต้นที่เกี่ยวข้องแม้ว่าในขณะนี้ค่อนข้าง จำกัดการอภิปรายในเว็บไซต์ที่ผ่านการตรวจสอบของ StackExchange อย่าให้ชื่อสับสนกับคุณ - ความตั้งใจและความหวังโดยนัยของฉันคือการสร้างกรอบการทำงานแบบครบวงจรตามที่กล่าวไว้ข้างต้น


กรอบที่คุณกล่าวถึงจะเป็นสิ่งที่ดีที่จะมี! มีอะไรที่คล้ายกันที่เขียน?
Javierfdr

@Javierfdr: ไม่มีอะไรที่ฉันรู้ อย่างไรก็ตามฉันดูต่อไป
Aleksandr Blekh

@AleksandrBlekh ยิ่งฉันคิดถึงมันมากเท่าไหร่ฉันก็ยิ่งคิดว่าการค้นหากรอบทางสถิตินั้นเข้าใจผิด ดูคำตอบของ Frank Harrell ในคำถามของคุณและคำตอบของฉันกับสิ่งนี้ แต่หนังสือของ Harlow ฟังดูน่าสนใจและฉันจะหยิบมันขึ้นมาจากห้องสมุดในสัปดาห์นี้
shadowtalker

1
@ssdecontrol: ฉันไม่เห็นด้วยอย่างเคารพ สมมติว่ากรอบดังกล่าวไม่มีอยู่จริง (ซึ่งเป็นไปได้มากที่สุดในปัจจุบัน) และตระหนักว่าไม่ใช่เรื่องง่ายที่จะสร้างมันขึ้นมาฉันเชื่อว่ามันเป็นไปได้มากอย่างไรก็ตาม สำหรับคำตอบที่คุณพูดถึง (ฉันมักจะอ่านพวกเขาทั้งหมด) ฉันอ่านทั้งสองอย่าง แต่พวกเขาไม่ได้พิสูจน์ว่าการสร้างกรอบดังกล่าวเป็นไปไม่ได้ - แค่ยากอย่างที่ฉันได้พูดไป นั่นไม่ใช่สิ่งที่ควรหยุดยั้งผู้คนไม่ให้คิดถึงมันและแม้แต่พยายามทำสิ่งนั้น เพลิดเพลินไปกับหนังสือของ Harlow
Aleksandr Blekh

3

นั่นเป็นรายการที่ดีที่ครอบคลุมมาก ฉันใช้วิธีการเหล่านี้มาตั้งแต่ก่อนที่ทุกสิ่งจะถูกเรียกว่าการเรียนรู้ของเครื่องและฉันคิดว่าคุณจะเห็นวิธีการบางอย่างที่คุณใช้ในการเข้าและออกเมื่อเวลาผ่านไป หากวิธีการใดที่ไม่ได้รับความนิยมมาเป็นเวลานานเกินไปอาจถึงเวลาที่ต้องกลับมาทบทวนอีกครั้ง วิธีการบางอย่างอาจทำให้สับสนหลังชื่อต่าง ๆ ที่เกิดจากการศึกษาที่แตกต่างกัน

หนึ่งในพื้นที่หลักที่ฉันใช้วิธีการเหล่านี้คือในการสร้างแบบจำลองที่มีศักยภาพแร่ซึ่งเป็นเชิงพื้นที่และเพื่อสนับสนุนที่คุณสามารถเพิ่มหมวดหมู่เพิ่มเติมบางอย่างที่เกี่ยวข้องกับวิธีการเชิงพื้นที่และเชิงข้อมูล

การตั้งคำถามทั่วไปของคุณไปยังฟิลด์เฉพาะอาจเป็นที่ที่คุณจะพบตัวอย่างเพิ่มเติมของวิธีการที่ไม่อยู่ในรายการที่ครอบคลุมของคุณ ตัวอย่างเช่นสองวิธีที่ฉันเห็นในศักยภาพของแร่คือการถดถอยแบบขั้นตอนย้อนหลังและน้ำหนักของแบบจำลองหลักฐาน ฉันไม่ใช่นักสถิติ บางทีสิ่งเหล่านี้อาจถูกพิจารณาในรายการภายใต้วิธีการถดถอยเชิงเส้นและวิธีเบย์


1

ฉันคิดว่าแนวทางของคุณค่อนข้างล้าหลัง

"การกระจายแบบเกาส์มีความหมายกับข้อมูลนี้อย่างไร" ไม่ใช่คำแถลงปัญหาเลยดังนั้น "ฉันจะทำแบบเกาส์เซียนได้อย่างไร" ไม่ใช่ปัญหาที่คุณต้องการแก้ไข

ความแตกต่างเป็นมากกว่าความหมาย ลองพิจารณาคำถาม "ฉันจะสร้างคุณลักษณะใหม่ได้อย่างไร" หากเป้าหมายของคุณคือการพัฒนาดัชนีคุณอาจใช้การวิเคราะห์ปัจจัยบางประเภท หากเป้าหมายของคุณคือลดพื้นที่ฟีเจอร์ก่อนที่จะทำการปรับโมเดลเชิงเส้นคุณอาจข้ามขั้นตอนนี้ไปทั้งหมดและใช้การถดถอยสุทธิแบบยืดหยุ่นแทน

วิธีการที่ดีกว่าจะรวบรวมรายชื่อของงานวิเคราะห์ข้อมูลจริงที่คุณต้องการเพื่อให้สามารถที่จะแก้ไขปัญหา คำถามที่ชอบ:

ฉันจะคาดการณ์ได้อย่างไรว่าลูกค้าจะกลับมาที่เว็บไซต์ช็อปปิ้งของฉัน

ฉันจะเรียนรู้ว่ามีรูปแบบการช้อปปิ้งของผู้บริโภคที่สำคัญอย่างไรและพวกเขามีอะไรบ้าง

ฉันจะสร้างดัชนี "ความผันผวน" สำหรับรายการต่าง ๆ ในร้านค้าออนไลน์ของฉันได้อย่างไร

นอกจากนี้รายการของคุณในตอนนี้มีเนื้อหามากมาย มากเกินไปที่จะ "ตรวจสอบ" และได้รับมากกว่าความเข้าใจระดับพื้นผิว การมีวัตถุประสงค์ในใจที่แท้จริงสามารถช่วยคุณจัดลำดับความสำคัญได้


ฉันเข้าใจสิ่งที่คุณพูด @ssdecontrol จริง ๆ แล้วการมีรายการที่ครอบคลุมของการแก้ไขปัญหาทั่วไปตามที่คุณพูดถึงอาจมีประโยชน์มาก ตอนนี้ความแตกต่างที่สำคัญระหว่างสองแนวทางคือสิ่งที่ฉันเสนอมีการเชื่อมโยงโดยตรงกับคำถามทางเทคนิคที่คุณอาจถามตัวเองเมื่อคุณลองใช้ทางเลือกอื่นและในจุดนั้นคุณได้ตั้งสมมติฐานบางอย่างแล้วดังนั้นหากคุณคิดว่า คุณลักษณะของคุณไม่ใช่แบบเกาส์เซียนฉันควรใช้ PCA เพื่อลดขนาดข้อมูลหรือไม่ ไม่ได้วิธีการของคุณกว้างขึ้น: สิ่งที่ต้องใช้สำหรับสลัว การลด -> PCA แต่ให้ถือว่าคุณสมบัติแบบเกาส์เซียน ขอบคุณ
Javierfdr

@ Javierfdr จุดของฉันคือคำถามทางเทคนิคเป็นสิ่งที่ทำให้ไขว้เขวถ้าคุณไม่มีคำถามที่สำคัญในใจ
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.