วิธีการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อเลือกอัลกอริทึมการเรียนรู้ของเครื่องที่เหมาะสม


16

เรากำลังศึกษาการเรียนรู้ของเครื่องผ่านการเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น (เควินเมอร์ฟี่) ในขณะที่ข้อความอธิบายรากฐานทางทฤษฎีของอัลกอริทึมแต่ละอันมันไม่ค่อยบอกว่าในกรณีใดอัลกอริทึมที่ดีกว่าและเมื่อมันเป็นเช่นนั้นก็ไม่ได้บอกว่าจะบอกได้อย่างไรว่าฉันอยู่ที่ไหน

ตัวอย่างเช่นสำหรับตัวเลือกของเคอร์เนลฉันถูกบอกให้ทำการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อวัดความซับซ้อนของข้อมูลของฉัน ในข้อมูลสองมิติอย่างง่ายฉันสามารถวางแผนและดูว่าเคอร์เนลเชิงเส้นหรือเรเดียนเหมาะสมหรือไม่ แต่จะทำอย่างไรในมิติที่สูงขึ้น?

โดยทั่วไปผู้คนหมายถึงอะไรเมื่อพวกเขาพูดว่า "ทำความรู้จักข้อมูลของคุณ" ก่อนที่จะเลือกอัลกอริทึม ตอนนี้ฉันสามารถแยกแยะความแตกต่างระหว่างอัลกอริธึมการจำแนกและอัลกอริธึมเชิงเส้น VS และไม่เชิงเส้น (ซึ่งฉันไม่สามารถตรวจสอบได้)

แก้ไข: แม้ว่าคำถามเดิมของฉันเกี่ยวกับกฎทั่วไป แต่ฉันได้รับแจ้งให้ให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาเฉพาะของฉัน

ข้อมูล: แผงที่มีแต่ละแถวเป็นเดือนในประเทศ (รวมแถวทั้งหมด 30,000 แถวครอบคลุม ~ 165 ประเทศในช่วง ~ 15 ปี)

การตอบสนอง: 5 ตัวแปรไบนารีที่น่าสนใจ (เช่นการประท้วง / รัฐประหาร / วิกฤต ฯลฯ เกิดขึ้นในเดือนนั้น)

คุณสมบัติ: ~ 400 ตัวแปร (การผสมผสานอย่างต่อเนื่อง, การจัดหมวดหมู่, ไบนารี) โดยมีรายละเอียดมากมายของลักษณะของ 2 ประเทศก่อนหน้าเดือน เราใช้ตัวแปรล้าหลังเนื่องจากเป้าหมายคือการคาดการณ์

ตัวอย่าง ได้แก่ อัตราแลกเปลี่ยนการเติบโตของ GDP (ต่อเนื่อง) ระดับการกดฟรี (หมวดหมู่) ประชาธิปไตยไม่ว่าเพื่อนบ้านจะมีความขัดแย้งหรือไม่ (ไบนารี) โปรดทราบว่าคุณสมบัติ 400 อย่างมากมายเหล่านี้เป็นตัวแปรที่ล้าหลัง

คำตอบ:


15

นี่เป็นคำถามกว้าง ๆ โดยไม่มีคำตอบง่ายๆ ที่มหาวิทยาลัยเชียงใหม่ผมสอน 3 เดือนแน่นอนในหัวข้อนี้ ครอบคลุมประเด็นต่าง ๆ เช่น:

  1. ใช้ประมาณการเพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรและโครงสร้างการกระจายโดยรวม
  2. วิธีการสร้างแบบจำลองการถดถอยโดยการสร้างแบบจำลองส่วนที่เหลืออย่างต่อเนื่อง
  3. การกำหนดเวลาที่จะเพิ่มคำปฏิสัมพันธ์เชิงรูปแบบเชิงเส้น
  4. วิธีการตัดสินใจระหว่าง knn กับต้นไม้ตัดสินใจกับลักษณนามลอจิสติก ฉันผ่านชุดข้อมูล UCI จำนวนหนึ่งและแสดงวิธีที่คุณสามารถบอกได้ว่าตัวแยกประเภทแบบใดที่จะชนะก่อนที่จะเรียกใช้

น่าเศร้าที่ไม่มีวิดีโอหรือหนังสือเรียน แต่ฉันได้พูดคุยที่สรุปประเด็นสำคัญจากชั้นเรียน ฉันไม่ได้ตระหนักถึงตำราเรียนใด ๆ ที่มีเนื้อหาสาระเดียวกัน


ฉันจะใช้เวลาหนึ่งหรือสองวันในการย่อยเอกสารที่เป็นประโยชน์เหล่านี้ แต่ในขณะที่ฉันสนใจ: ทำไมเราไม่มีตำรา / แหล่งเรียนรู้เกี่ยวกับหัวข้อนี้ มันสำคัญหรือไม่ที่ทุกครั้งที่มีคนเข้าร่วมโครงการพวกเขาต้องคิดถึงคำถามนี้
ไฮเซนเบิร์ก

1
คำถามที่ดี (+1) และคำตอบ (+1) @ ไฮเซนเบิร์ก: ฉันเห็นด้วยกับทอมที่ไม่ได้เห็นหนังสือเรียนเฉพาะเรื่อง อย่างไรก็ตามนอกเหนือจากทรัพยากรของเขาฉันขอแนะนำแหล่งข้อมูลออนไลน์สองแหล่ง (แม้ว่าพวกเขาจะไม่ได้เน้นที่แอปพลิเคชัน ML): 1) ส่วน EDAของ NIST Engineering Statistics Handbook; 2) บทความที่น่าสนใจโดยศาสตราจารย์ Andrew Gelman บน EDA สำหรับรุ่นที่ซับซ้อน
Aleksandr Blekh

0

มีบางสิ่งที่คุณสามารถตรวจสอบข้อมูลของคุณได้

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

ตามจุดเหล่านี้และชนิดของข้อมูลที่คุณต้องการแยกจากข้อมูลของคุณคุณสามารถตัดสินใจว่าจะใช้อัลกอริทึมใด


คุณช่วยอธิบายรายละเอียดเกี่ยวกับข้อมูลทั้ง 4 นี้ที่มีอิทธิพลต่อการเลือกอัลกอริทึมของฉันได้อย่างไร ฉันรู้แค่ว่า 2 จะเป็นตัวตัดสินการจำแนกและการถดถอย สิ่งที่เกี่ยวกับ 3 อื่น ๆ ? (โดยเฉพาะอย่างยิ่ง # 4 - ฉันมีข้อมูลแผงจาก 165 ประเทศในช่วง 10 ปี)
Heisenberg

ใน 2- ฉันคิดเกี่ยวกับตัวแปรเด็ดขาดเป็นอินพุต การตัดสินใจขั้นสุดท้ายของอัลกอริทึมขึ้นอยู่กับปัญหาที่คุณพยายามแก้ไข ตอนนี้มีวิธีที่จะรู้ว่าก่อนหน้านี้ ใน 2- ต้นไม้ตัดสินใจอาจช่วยคุณได้ ใน 3 คุณจะต้องระมัดระวังเกี่ยวกับการมีน้ำหนักเกิน ใน 4- คุณต้องตัดสินใจว่าจะประเมินประสิทธิภาพของคุณอย่างไร เฉพาะในกรณีที่คุณอธิบายปัญหาเฉพาะเราสามารถช่วยคุณตัดสินใจว่าจะใช้อัลกอริทึมใด
Donbeo

ฉันได้แก้ไขคำถามเพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับปัญหาเฉพาะของฉัน
ไฮเซนเบิร์ก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.