ทักษะยากที่จะหาในผู้เรียนรู้เครื่องจักร?


71

ดูเหมือนว่าการขุดข้อมูลและการเรียนรู้ของเครื่องจักรกลายเป็นที่นิยมจนตอนนี้นักเรียน CS เกือบทุกคนรู้เรื่องตัวแยกประเภทการจัดกลุ่มการ NLP เชิงสถิติ ฯลฯ ดังนั้นดูเหมือนว่าการค้นหาตัวขุดข้อมูลไม่ใช่เรื่องยากในปัจจุบัน

คำถามของฉันคืออะไรทักษะที่นักขุดข้อมูลสามารถเรียนรู้ที่จะทำให้เขาแตกต่างจากคนอื่น ๆ คืออะไร? ที่จะทำให้เขาเป็นคนที่ไม่เหมือนใครง่ายๆ


6
แม้ว่ามันจะเป็นการตอบสนองต่อคำถามที่แตกต่างกัน แต่จุดต่าง ๆในคำตอบเก่า ๆ ของฉันก็สามารถนำไปใช้ได้ที่นี่ อัสซาดพูดออกมาคล้าย ๆ กันในคำตอบที่ดีของเขาด้านล่าง
พระคาร์ดินัล

คำตอบ:


62

ฉันเคยเห็นนักพัฒนาหลายครั้งใช้เทคนิค ML นี่เป็นรูปแบบปกติ:

  1. ดาวน์โหลดไลบรารี่ที่มีชื่อแฟนซี;
  2. ใช้เวลา 10 นาทีเพื่ออ่านวิธีการใช้งาน (ข้ามสถิติ, คณิตศาสตร์, ฯลฯ );
  3. ป้อนข้อมูลด้วย (ไม่มีการประมวลผลล่วงหน้า);
  4. ประสิทธิภาพของการวัด (เช่นความแม่นยำแม้ว่าคลาสจะไม่สมดุลทั้งหมด) และบอกทุกคนว่ามันยอดเยี่ยมแค่ไหนกับความแม่นยำ 99%
  5. ปรับใช้ในการผลิตด้วยผลลัพธ์ความล้มเหลวที่ยิ่งใหญ่;
  6. ค้นหาคนที่เข้าใจว่าเกิดอะไรขึ้นเพื่อช่วยพวกเขาออกมาเพราะคู่มือการใช้งานไม่มีความหมาย

คำตอบง่ายๆคือวิศวกรซอฟต์แวร์ส่วนใหญ่มีความอ่อนแอในด้านสถิติและคณิตศาสตร์ นี่คือข้อดีของทุกคนที่ต้องการแข่งขันกับพวกเขา แน่นอนว่าผู้คนไม่อยู่ในโซนสบาย ๆ หากพวกเขาจำเป็นต้องเขียนรหัสการผลิต ประเภทของบทบาทที่กลายเป็นของหายากจริงๆคือของ Data Scientist เป็นคนที่สามารถเขียนโค้ดเพื่อเข้าถึงและเล่นกับข้อมูลจำนวนมหาศาลและค้นหาคุณค่าในพวกเขา


14
LOL ที่ "บอกทุกคนว่ามันยอดเยี่ยมแค่ไหนกับความแม่นยำ 99% ของมัน"
Jack Twain

2
+1 ฉันเห็นด้วยกับทุกอย่าง "[... ] Data Scientist. เป็นคนที่สามารถเขียนโค้ดเพื่อเข้าถึงและเล่นกับข้อมูลจำนวนมหาศาลและค้นหาคุณค่าในตัวพวกเขา" ซึ่งสำหรับฉันแนะนำว่ามันควรจะหายากตามธรรมชาติเพราะมันดูเหมือนว่าเป็นไปไม่ได้ที่มนุษย์ส่วนใหญ่จะจัดการกับปัญหาทางสถิติและพื้นฐานที่ซับซ้อนเช่นเดียวกับการเปลี่ยนบางสิ่งให้เป็นรหัสการผลิต มันยังอธิบายว่าทำไมเรามีศัลยแพทย์หัวใจและหลอดเลือด, วิสัญญีแพทย์, นักประสาทวิทยา, พยาบาล, ผู้บริหารโรงพยาบาล ฯลฯ หรือพลเรือน, การบิน, การทำเหมืองแร่, เคมี, วิศวกรเครื่องกล ฯลฯ
Thomas Speidel

2
สำหรับฉันนี่ไม่ใช่คำอธิบายเกี่ยวกับสิ่งที่ใครบางคนจำเป็นต้องเป็นผู้สมัครที่โดดเด่น ML - มากกว่าการทุบตี ML ดูเหมือนว่าคุณกำลังอธิบายคนที่มุ่งเน้นไปที่การได้ "คำตอบ" ก่อนที่พวกเขาจะแน่ใจในสิ่งที่เป็นคำถาม โดยทั่วไปคน "ML ทั่วไป" ของคุณคือคนที่มีทักษะการวางแผนไม่ดีและคนที่ไม่ได้พูดคุยเกี่ยวกับสิ่งที่พวกเขาตั้งใจจะทำกับ "ลูกค้า" ก่อนที่จะไถไปข้างหน้าและกลับมาพร้อมกับ "คำตอบ" นี่ไม่ใช่สิ่งที่ได้รับความช่วยเหลือจากการมีคณิตศาสตร์ / สถิติที่ดี - เป็นสิ่งที่ต้องใช้ทักษะการสื่อสารที่ดี
ความน่าจะเป็นทางการ

61

มันเกี่ยวกับอะไร

เพียงแค่รู้เกี่ยวกับเทคนิคก็เหมือนกับการรู้จักสัตว์ในสวนสัตว์ - คุณสามารถบอกชื่อพวกเขาอธิบายคุณสมบัติของพวกเขา

การทำความเข้าใจว่าเมื่อใดที่จะใช้พวกเขากำหนดสร้างทดสอบและปรับใช้แบบจำลองทางคณิตศาสตร์ที่ใช้งานได้ในพื้นที่แอปพลิเคชันขณะที่หลีกเลี่ยงข้อผิดพลาดซึ่งเป็นทักษะที่แยกแยะได้ในความคิดของฉัน

ควรเน้นวิทยาศาสตร์การประยุกต์ใช้วิธีการทางวิทยาศาสตร์เพื่อธุรกิจปัญหาอุตสาหกรรมและเชิงพาณิชย์ แต่ตอนนี้ต้องใช้ทักษะกว้างกว่าการทำเหมืองข้อมูลและการเรียนรู้เครื่องขณะที่โรบินบลอร์ระบุเชิญชวนใน"วิทยาศาสตร์ข้อมูลพูดจาโผงผาง"

ดังนั้นเราจะทำอะไรได้บ้าง

พื้นที่การใช้งาน : เรียนรู้เกี่ยวกับพื้นที่การใช้งานต่างๆที่ใกล้เคียงกับความสนใจของคุณหรือที่นายจ้างของคุณ พื้นที่มักมีความสำคัญน้อยกว่าการทำความเข้าใจวิธีสร้างแบบจำลองและวิธีการใช้เพื่อเพิ่มมูลค่าให้กับพื้นที่นั้น แบบจำลองที่ประสบความสำเร็จในพื้นที่หนึ่งมักจะสามารถปลูกถ่ายและนำไปใช้กับพื้นที่ต่าง ๆ ที่ทำงานในลักษณะที่คล้ายกัน

การแข่งขัน : ลองใช้ไซต์การแข่งขันขุดข้อมูลKaggleโดยควรเข้าร่วมทีมของผู้อื่น (Kaggle: แพลตฟอร์มสำหรับการแข่งขันการสร้างแบบจำลองการทำนาย บริษัท รัฐบาลและนักวิจัยนำเสนอชุดข้อมูลและปัญหาและนักวิทยาศาสตร์ข้อมูลที่ดีที่สุดในโลกแข่งขันกันเพื่อผลิตโซลูชั่นที่ดีที่สุด)

พื้นฐาน : มีสี่: (1) ดินแข็งในสถิติ (2) ทักษะการเขียนโปรแกรมที่ดีพอสมควร (3) ทำความเข้าใจวิธีโครงสร้างแบบสอบถามข้อมูลที่ซับซ้อน (4) การสร้างแบบจำลองข้อมูล หากมีผู้อ่อนแอแสดงว่าเป็นจุดเริ่มต้นที่สำคัญ


คำพูดเล็กน้อยในส่วนนี้:

`` ฉันเรียนรู้ความแตกต่างระหว่างการรู้ชื่อของบางสิ่งและรู้อะไรบางอย่างตั้งแต่ต้น คุณสามารถรู้ชื่อของนกในทุกภาษาของโลก แต่เมื่อคุณทำเสร็จแล้วคุณจะไม่รู้อะไรเลยเกี่ยวกับนก ... ดังนั้นลองมาดูนกและดูว่ามันกำลังทำอะไรอยู่ - นั่นคือ สิ่งที่สำคัญ '' - ริชาร์ดไฟน์แมน "การสร้างนักวิทยาศาสตร์" หน้า 14 ในสิ่งที่คุณสนใจสิ่งที่คนอื่นคิด 2531

โปรดทราบ:

`` การรวมกันของทักษะที่จำเป็นในการดำเนินโครงการวิทยาศาสตร์ทางธุรกิจเหล่านี้ ( วิทยาศาสตร์ข้อมูล) ไม่ค่อยมีคนอาศัยอยู่ในคนคนเดียว บางคนอาจมีความรู้อย่างกว้างขวางในสามด้านของ (i) สิ่งที่ธุรกิจทำ (ii) วิธีใช้สถิติและ (iii) วิธีจัดการข้อมูลและการไหลของข้อมูล ถ้าเป็นเช่นนั้นเขาหรือเธออาจอ้างได้ว่าเป็นนักวิทยาศาสตร์ธุรกิจ (หรือที่รู้จักว่า“ นักวิทยาศาสตร์ข้อมูล”) ในภาคที่กำหนด แต่บุคคลดังกล่าวเกือบจะหายากเหมือนฟันของไก่ '' - Robin Bloor นักวิทยาศาสตร์ด้านข้อมูล , ส.ค. 2013, การวิเคราะห์ภายใน

และในที่สุดก็:

`` แผนที่ไม่ใช่ดินแดน '' - Alfred Korzybski, 1933, วิทยาศาสตร์และความมีสติ

ปัญหาที่แท้จริงและนำไปใช้จริงส่วนใหญ่ไม่สามารถเข้าถึงได้จาก `` แผนที่ 'เท่านั้น ในการทำสิ่งต่าง ๆ ด้วยการสร้างแบบจำลองทางคณิตศาสตร์เราต้องยอมให้มีรายละเอียดย่อย ๆ และข้อยกเว้น ไม่มีสิ่งใดสามารถทดแทนการรู้อาณาเขตด้วยตนเอง



6
+1 โซลูชันแบบนอกกรอบไม่ค่อยเหมาะกับปัญหาธุรกิจเฉพาะขององค์กรของคุณ คุณต้องปรับแต่งและปรับปรุงและเพื่อให้คุณต้องเข้าใจสิ่งที่อยู่ภายใต้ประทุน
Zhubarb

4
@Zhubarb - ฉันคิดว่านี่เป็นจริงเพียงบางส่วนเท่านั้น โซลูชัน "ออกจากกล่อง" สามารถใช้เพื่อผลที่ยอดเยี่ยมไม่เพียง แต่ตลอดเวลาและโดยปกติจะไม่ใช้สำหรับการทำงานตั้งแต่ต้นจนจบ เคล็ดลับคือการรู้ว่าเมื่อใดที่คุณสามารถหลีกเลี่ยงได้ด้วยการใช้ "ออกจากกล่องแก้ปัญหา" และเมื่อจำเป็นต้องใช้วิธีการที่ปรับให้เหมาะสมยิ่งขึ้น
ความน่าจะเป็นทาง

41

ฉันเห็นด้วยกับทุกสิ่งที่กล่าวมา สิ่งที่โดดเด่นสำหรับฉันคือ:

  1. "ผู้เชี่ยวชาญ" การเรียนรู้ด้วยเครื่องมีความสนใจเพียงเล็กน้อยในเรื่องที่พวกเขาต้องการสมัคร ML
  2. มีเพียงกี่คนเท่านั้นที่เข้าใจความแม่นยำในการทำนายและกฎการให้คะแนนที่เหมาะสม
  3. เข้าใจหลักการตรวจสอบความถูกต้องเพียงไม่กี่วิธี
  4. มีน้อยคนที่รู้ว่าจะใช้กล่องดำเทียบกับแบบจำลองการถดถอยแบบดั้งเดิมอย่างไร
  5. ดูเหมือนว่าไม่มี "ผู้เชี่ยวชาญ" ที่เคยศึกษา Bayes การตัดสินใจที่เหมาะสมหรือการสูญเสีย / อรรถประโยชน์ / ต้นทุน / ฟังก์ชั่น [การขาดความเข้าใจนี้จะปรากฏขึ้นเกือบทุกครั้งที่มีคนใช้การจำแนกประเภทแทนความเสี่ยงที่คาดการณ์ไว้]

3
คุณจะอธิบายรายละเอียดเกี่ยวกับ 4 หรือไม่? ฉันไม่เข้าใจสิ่งที่คุณหมายถึง

17
ฉันคิดว่ารายการนั้นง่ายที่สุดที่จะเข้าใจ นี่คือตัวอย่าง: ในบางสาขาของการศึกษาสมมติว่าเรามีประสบการณ์มาก่อนว่าตัวแปรส่วนใหญ่ทำงานแบบเสริม การติดตั้งแบบจำลองการถดถอยแบบเพิ่มเติมที่ไม่ได้คาดการณ์ว่าตัวทำนายจะทำงานแบบเชิงเส้น (เช่นการใช้เส้นโค้งการถดถอย) จะให้แบบจำลองทางสถิติที่สามารถตีความได้และมีประโยชน์ การใช้ svm หรือฟอเรสต์แบบสุ่มในทางกลับกันนั้นจะตีความได้ยากมากไม่มีผลกระทบที่แยกกันไม่ออกและจะไม่ทำนายได้ดีกว่าตัวแบบเสริมแบบไม่เชิงเส้น
Frank Harrell

7
แท้จริงแล้วย่อมเป็นสิ่งที่ตื้นเขิน ไม่ใช่แม้แต่ในโลก ML ฉันเห็นว่าแนวโน้มนี้บ่อยครั้งที่จะต้องการขุดข้อมูลดิบลงในกล่องวิเศษและมีข้อมูลเชิงลึกที่ยอดเยี่ยมออกมา สิ่งที่คนเหล่านี้กำลังมองหาคือสมองเทียม
DarenW

3
+1 สำหรับรายการ 1 โดยเฉพาะ หลักฐานของการขาดความสนใจในโดเมนคือการใช้ความรู้โดเมนจะต้องรู้วิธี 'เปิด' กล่องดำและปรับเปลี่ยน โดยกล่องดำฉันหมายถึงสำหรับรายการระดับ ML มากแม้แต่เทคนิคการสร้างแบบจำลองทางสถิติขั้นพื้นฐานอยู่ในกล่องดำนั้น หากความสนใจ / ความสามารถไม่ได้อยู่ที่นั่นมันยากที่จะใช้ความรู้ในโดเมน
Meadowlark Bradsher

7
@DarenW: แนวโน้มยังปรากฏในชื่อ: "การเรียนรู้ของเครื่องจักร" ด้วยความหมายที่เครื่องเรียนรู้ ... ด้วยตัวเอง ... เพียงแค่ดึงข้อมูลดิบ เปรียบเทียบชื่อที่มีเสน่ห์น้อย (แต่มีความแม่นยำมากกว่า IMO) ที่เลือกโดย Hastie, Tibshirani, et.al: "การเรียนรู้เชิงสถิติ" ความหมายแฝงที่แตกต่างกันคำอธิบายที่แตกต่างกันล้วน แต่อ้างถึงหลักการทางสถิติ
อัสซาด Ebrahim

11

นี่คือสองสิ่งที่จะทำให้คุณโดดเด่นจากฝูงชน:

  • ทำความเข้าใจเกี่ยวกับโดเมนแอปพลิเคชันหรือโดเมน นั่นคือสภาพแวดล้อมทางธุรกิจหรือบริบทอื่น ๆ
  • เข้าใจภาพรวม สิ่งนี้สำคัญมาก! ผู้ที่เรียนการเรียนรู้ด้วยเครื่องมักจะหลงทางในรายละเอียด คิดเกี่ยวกับภาพรวมว่ารุ่น ML ของคุณจะพอดี บ่อยครั้งที่ส่วน ML เป็นเพียงส่วนเล็ก ๆ ของระบบที่ใหญ่กว่ามาก ทำความเข้าใจระบบทั้งหมด
  • ศึกษาทฤษฎียูทิลิตี้และการตัดสินใจและการอนุมานแบบเบย์ การอนุมานแบบเบย์เป็นเพียงวิธีหนึ่งในการทำให้ความคิดของการนำข้อมูลเชิงบริบททั้งหมดเป็นปัญหา ทฤษฎียูทิลิตี้และการตัดสินใจเกี่ยวกับการนำคุณค่าเข้ามาในภาพ

ข้อความโดยรวมที่ใช้กับทั้งสามจุด: ดูภาพใหญ่อย่าทำรายละเอียดหาย


4

ทักษะที่กำหนด data miner แยกจากตัวอื่นคือความสามารถในการตีความโมเดลการเรียนรู้ของเครื่อง ส่วนใหญ่สร้างเครื่องรายงานข้อผิดพลาดแล้วหยุด ความสัมพันธ์ทางคณิตศาสตร์ระหว่างคุณสมบัติคืออะไร มีผลกระทบสารเติมแต่งหรือไม่ใช่สารเติมแต่งหรือทั้งสองอย่าง? มีคุณสมบัติใดที่ไม่เกี่ยวข้องหรือไม่? เครื่องคาดหวังภายใต้สมมติฐานว่างว่ามีเพียงรูปแบบโอกาสในข้อมูลหรือไม่ รูปแบบทั่วไปของข้อมูลที่เป็นอิสระหรือไม่? รูปแบบเหล่านี้มีความหมายอย่างไรต่อปัญหาที่กำลังศึกษาอยู่ การอนุมานคืออะไร ข้อมูลเชิงลึกคืออะไร? เหตุใดผู้เชี่ยวชาญด้านโดเมนจึงรู้สึกตื่นเต้น เครื่องจะนำไปสู่ผู้เชี่ยวชาญด้านโดเมนเพื่อถามคำถามใหม่และออกแบบการทดสอบใหม่หรือไม่ Data miner สามารถสื่อสารรูปแบบและผลกระทบของมันกับโลกได้อย่างมีประสิทธิภาพหรือไม่?


8
+1 เห็นด้วย - แม้ว่าสิ่งที่คุณอธิบายจะเรียกว่าสถิติ
Thomas Speidel

4

ฉันจะเอาความคิดของ "ทักษะอ่อน" ออกไปที่นั่น

  • รับรู้ว่าใคร "ผู้เชี่ยวชาญ" สำหรับวิธีการ X และสามารถที่จะเจาะลึกความรู้ของพวกเขา (คุณไม่สามารถหรือคาดหวังที่จะรู้ทุกอย่างเกี่ยวกับสิ่งมีชีวิต) ความสามารถและความตั้งใจที่จะร่วมมือกับผู้อื่น

  • ความสามารถในการแปลหรือเป็นตัวแทน "โลกแห่งความจริง" กับคณิตศาสตร์ที่ใช้ใน ML

  • ความสามารถในการอธิบายวิธีการของคุณในรูปแบบที่แตกต่างกันสำหรับผู้ชมที่แตกต่างกัน - รู้ว่าเมื่อใดที่ต้องให้ความสำคัญกับรายละเอียดและเมื่อต้องถอยกลับและดูบริบทที่กว้างขึ้น

  • การคิดแบบระบบสามารถเห็นได้ว่าบทบาทของคุณป้อนเข้าสู่ส่วนอื่น ๆ ของธุรกิจอย่างไรและพื้นที่เหล่านี้ดึงข้อมูลกลับเข้ามาทำงานของคุณอย่างไร

  • ความซาบซึ้งและความเข้าใจในความไม่แน่นอนและมีวิธีการที่มีโครงสร้างเพื่อจัดการ ความสามารถในการระบุอย่างชัดเจนว่าสมมติฐานของคุณคืออะไร


4

ความสามารถในการพูดคุยทั่วไปได้ดี

นี่คือสาระสำคัญของแบบจำลองที่ดี และมันเป็นสาระสำคัญของสิ่งที่ทำให้ผู้ปฏิบัติงานศิลปะที่ดีที่สุดในการเรียนรู้ของเครื่องจักรโดดเด่นจากฝูงชน

เข้าใจว่าเป้าหมายคือการเพิ่มประสิทธิภาพการทำงานของข้อมูลที่มองไม่เห็นเพื่อลดการสูญเสียการฝึกอบรม รู้วิธีที่จะหลีกเลี่ยงทั้งข้อต่อที่มากเกินไปและที่ไม่เหมาะสม การหาโมเดลที่ไม่ซับซ้อนเกินไป แต่ไม่ง่ายเกินไปในการอธิบายปัญหา แยกส่วนสำคัญของชุดฝึกอบรมแทนที่จะเป็นค่าสูงสุดที่เป็นไปได้

เป็นเรื่องน่าประหลาดใจที่ผู้ฝึกเรียนรู้ด้วยเครื่องจักรที่มีประสบการณ์บ่อยครั้งล้มเหลวในการทำตามหลักการนี้ เหตุผลหนึ่งก็คือมนุษย์ไม่สามารถชื่นชมความแตกต่างของขนาดระหว่างทฤษฎีและการปฏิบัติที่ กว้างใหญ่สองประการ:

  • พื้นที่ของตัวอย่างที่เป็นไปได้ทั้งหมดมีขนาดใหญ่กว่าเท่าใดเมื่อเปรียบเทียบกับข้อมูลการฝึกอบรมถึงแม้ว่าข้อมูลการฝึกอบรมจะมีขนาดใหญ่มาก
  • ขนาดพื้นที่สมมติเต็มรูปแบบมีขนาดใหญ่กว่าเท่าใด: จำนวนโมเดลที่เป็นไปได้สำหรับปัญหาเปรียบเทียบกับ "พื้นที่โซลูชัน" ที่ใช้งานได้จริง: ทุกสิ่งที่คุณนึกออกและซอฟต์แวร์ / เครื่องมือของคุณมีความสามารถในการแสดง

N2N2N

นอกจากนี้ยังเป็นสิ่งที่คำตอบข้างต้นส่วนใหญ่พูดด้วยวิธีที่เฉพาะเจาะจงและเป็นรูปธรรมมากขึ้น การพูดคุยกันโดยทั่วไปเป็นเพียงวิธีที่สั้นที่สุดที่ฉันสามารถนึกได้


2

ฉันเห็นว่ามีสองส่วนขณะจัดการการเรียนรู้ของเครื่องในทางปฏิบัติ

  1. วิศวกรรม (ซึ่งครอบคลุมอัลกอริธึมทั้งหมดเรียนรู้แพ็คเกจต่าง ๆ เขียนโปรแกรม)

  2. ความอยากรู้อยากเห็น / การใช้เหตุผล (ความสามารถในการถามคำถามที่ดีกว่ากับข้อมูล)

ฉันคิดว่า 'ความอยากรู้อยากเห็น / การใช้เหตุผล' เป็นทักษะที่แตกต่างจากที่อื่น ตัวอย่างเช่นหากคุณเห็นกระดานผู้นำของการเติมเต็ม kaggle หลายคนอาจใช้อัลกอริทึม (คล้ายกัน) ทั่วไปสิ่งที่ทำให้เกิดความแตกต่างคือวิธีการตั้งคำถามแบบตรรกะและข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.