มันสำคัญหรือไม่ที่นักสถิติต้องเรียนรู้การเรียนรู้ของเครื่อง?


22

การเรียนรู้ของเครื่องเป็นเรื่องสำคัญสำหรับนักสถิติคนใดที่จะทำความคุ้นเคยหรือไม่? ดูเหมือนว่าการเรียนรู้ของเครื่องเป็นสถิติ ทำไมโปรแกรมวิชาสถิติ (ระดับปริญญาตรีและบัณฑิต) จึงไม่จำเป็นต้องเรียนรู้ด้วยเครื่อง?



2
ไม่ทราบ แต่ฉันค่อนข้างแน่ใจว่าทุกคนที่เรียนรู้ด้วยเครื่องควรเรียนรู้สถิติ
เดฟ

คำตอบ:


18

การเรียนรู้ของเครื่องเป็นสาขาเฉพาะของสถิติที่ใช้ในมิติสูง นอกจากนี้ยังต้องมีพื้นหลังการเขียนโปรแกรมจำนวนมากซึ่งไม่จำเป็นสำหรับโปรแกรมเชิงปริมาณที่ดีโดยเฉพาะอย่างยิ่งในระดับปริญญาตรี แต่ยังมีขอบเขตในระดับบัณฑิตศึกษา มันมีการประยุกต์ใช้เฉพาะกับการทำนายด้านสถิติในขณะที่สถิติทางคณิตศาสตร์เช่นเดียวกับสถิติเชิงอนุมานและเชิงพรรณนาที่ต้องการความสนใจ หลายโปรแกรมเปิดโอกาสให้นักเรียนได้สัมผัสกับการเรียนรู้ของเครื่องจักร (CMU เป็นต้น) แต่นักสถิติอุตสาหกรรมโดยรวมไม่ค่อยได้รับโอกาสในการใช้เครื่องมือเหล่านี้ยกเว้นงานเทคโนโลยีชั้นสูงบางอย่าง

ในขณะที่ฉันได้เห็นเมื่อเร็ว ๆ นี้นักวิทยาศาสตร์ข้อมูลจำนวนมากและการเรียนรู้เครื่องตำแหน่งในตลาดงานผมคิดว่ารายละเอียดงานทั่วไปของ "สถิติ" ไม่จำเป็นต้องมีการเรียนรู้เครื่องพื้นหลัง แต่ไม่จำเป็นต้องมีความเข้าใจที่ไร้ที่ติของสถิติพื้นฐานการอนุมานและการสื่อสาร: สิ่งเหล่านี้ควรเป็นแกนหลักของโปรแกรมสถิติระดับบัณฑิตศึกษา การเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูลนั้นค่อนข้างใหม่สำหรับตำแหน่งงานและสาขาวิชา มันจะเป็นการก่อความเสียหายแก่ผู้ที่มองหาการจ้างงานในฐานะนักสถิติที่จะส่งผลต่อกลยุทธ์การแก้ปัญหาของพวกเขาที่มีต่อการเรียนรู้ของเครื่องจักรหากองค์กรส่วนใหญ่ถูกทอดทิ้งในองค์กรธุรกิจ / เภสัชศาสตร์ / วิทยาศาสตร์ชีวภาพ

ท้ายสุดฉันไม่รู้สึกว่าการเรียนรู้ของเครื่องช่วยเพิ่มความเข้าใจในสถิติอย่างมาก สถิติเป็นพื้นฐานข้ามสาขาวิชาและเป็นสิ่งสำคัญในการสื่อสารและโน้มน้าวให้ผู้เชี่ยวชาญที่ไม่ใช่ด้านเทคนิคในสาขาของคุณ (เช่นแพทย์, CFOs หรือผู้ดูแลระบบ) ว่าทำไมคุณเลือกวิธีการที่คุณเลือก การเรียนรู้ของเครื่องเป็นสิ่งที่มีความสำคัญอย่างยิ่งในด้านเทคนิคซึ่งในการปฏิบัติที่ประยุกต์ใช้หลายอย่างนั้นสัญญาว่าจะให้ประสิทธิภาพที่ดีกว่าการเพิ่มขึ้นของเครื่องมือและเทคนิคมาตรฐาน วิธีการหลายอย่างในการเรียนรู้แบบมีผู้สอนและไม่ได้รับการดูแลนั้นถูกมองว่าไม่ใช่ผู้เชี่ยวชาญ (และแม้แต่ผู้เชี่ยวชาญที่ผ่านการฝึกอบรมน้อยกว่า) ในฐานะ "กล่องดำ" เมื่อถูกขอให้ปกป้องการเลือกวิธีการเรียนรู้ที่เฉพาะเจาะจงของพวกเขามีคำอธิบายที่ไม่สอดคล้องกับสถานการณ์ที่กระตุ้นให้เกิดปัญหา


1
คุณช่วยอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าคุณหมายถึงอะไรกับคำอธิบายที่แบนราบ (อาจเป็นตัวอย่าง)
cbeleites รองรับโมนิก้า

10
ฉันไม่สามารถอธิบายความแตกต่างระหว่างการวิเคราะห์จำแนกเชิงเส้นสนับสนุนเครื่องเวกเตอร์และ GLM LASSO ในลักษณะที่เหมาะสมกับแพทย์ ดังนั้นฉันจึงสร้างแบบจำลองการถดถอยโลจิสติกส์สำหรับการทำนายความเสี่ยงมะเร็งเต้านมโดยใช้โควาเรียจำนวนหนึ่งที่ได้รับการปรับอย่างระมัดระวัง เมื่อนำเสนอแพทย์จะเปิดตัวทันทีในการสนทนาเกี่ยวกับ enlightening เกี่ยวกับขนาดผลของพวกเขา การเลือกปฏิบัติของโมเดล "วิทยาศาสตร์" ของฉันนั้นเทียบได้กับเทคนิค ML ที่ซับซ้อนกว่า (ซ้อน 90% CIs สำหรับ AUC โดยใช้ bootstrap ในตัวอย่างการตรวจสอบความถูกต้อง) และฉันไม่ใช่คนเดียวที่มีรายงานผู้ป่วยรายนี้!
AdamO

4
@cbeleites คุณเคยสื่อสารกับบุคคลสำคัญด้วยความรู้ทางคณิตศาสตร์ในพีชคณิตหรือไม่? SVM ไม่ได้ผลิตขนาดผลในแง่ที่แพทย์จะเข้าใจ; ความกว้างของระยะขอบไม่สมเหตุสมผลสำหรับพวกเขาซึ่งแตกต่างจากอัตราส่วนแปลก ๆ ที่พวกเขาคุ้นเคยมาก หากคุณไม่สามารถพูดภาษาของลูกค้าพวกเขาจะไม่เสียเวลาและเงินกับคุณ
StasK

2
@ GraemeWalsh จุดที่ยอดเยี่ยม ฉันต่อสู้อย่างหนักกับแนวคิดของการใช้แบบจำลองการทำนายขั้นสูงสำหรับการอนุมานเชิงคาดการณ์ซึ่งมักจะเป็นกรณีของการสร้างแบบจำลองสมการเชิงโครงสร้างหรือสาเหตุเชิงบวกของ Granger ฉันคิดว่ายังมีงานอีกมากที่ต้องทำในพื้นที่นี้ ยกตัวอย่างเช่นโดยสัญชาตญาณฉันตระหนักถึงความคล้ายคลึงกันอย่างมากระหว่างการสร้างแบบกึ่งพารามิเตอร์และแบบจำลองโครงสร้างชายขอบ แต่ไม่แน่ใจว่าความแตกต่างอยู่ตรงไหน
AdamO

2
@Jase คุณควรดูเอกสารเชิญจากผู้ชนะการประกวด Netflix รายงานของพวกเขาคล้ายกันมากถึงแม้จะมีโมเดลเฉลี่ยแบบเบย์ที่ใช้น้ำหนักหลังส่วนใหญ่ในพื้นที่ขนาดใหญ่ของแบบจำลองพวกเขาสังเกตเห็นว่า Pca ดูเหมือนจะมีน้ำหนักหลังที่เหนือกว่าภายใต้เงื่อนไขทั้งหมด ไม่ได้หมายความว่ามันเทียบเท่า แต่มีการแลกเปลี่ยนระหว่างความเรียบง่ายและความถูกต้องที่ทำให้ฉันชอบแบบจำลองที่ง่ายกว่าแบบที่ ml ml arena มอบให้ ใคร ๆ ก็สามารถคิดได้ว่าแบบจำลองพารามิเตอร์ที่ซับซ้อนนั้นทำงานคล้ายกับแบบไม่มีพารามิเตอร์อย่างไร
AdamO

14

โอเคเรามาพูดถึงเรื่องของสถิติกับสิ่งที่เราได้เรียนรู้จากสิ่งที่เราเรียนรู้จากคนหนึ่งหรือสองคนที่เราได้ทำงานอย่างใกล้ชิดในโครงการปริญญาโทของเรา ...

โปรแกรมสถิติต้องการสิ่งที่พวกเขาเห็นว่าเหมาะสมสิ่งที่สำคัญที่สุดคือสิ่งที่พวกเขาต้องการให้นักเรียนเรียนรู้ในระยะเวลา จำกัด ที่นักเรียนจะมีในโปรแกรม การกำหนดพื้นที่แคบ ๆ หมายถึงการจูบลาไปยังพื้นที่อื่นที่สามารถแย้งว่ามีความสำคัญเท่าเทียมกัน บางโปรแกรมต้องการการวัดความน่าจะเป็นเชิงทฤษฎี แต่บางโปรแกรมไม่ บางโปรแกรมต้องการภาษาต่างประเทศ แต่โปรแกรมส่วนใหญ่ไม่ต้องการ บางโปรแกรมใช้กระบวนทัศน์แบบเบย์เป็นสิ่งเดียวที่ควรค่าแก่การศึกษา บางโปรแกรมรู้ว่าความต้องการที่ยิ่งใหญ่ที่สุดสำหรับนักสถิตินั้นอยู่ในสถิติการสำรวจ (อย่างน้อยก็คือในสหรัฐอเมริกา) แต่ส่วนใหญ่ไม่ได้ โปรแกรม Biostat ติดตามเงินและสอนวิธีการขาย SAS + ให้กับแพทย์และเภสัชศาสตร์อย่างง่ายดาย

สำหรับผู้ที่ออกแบบการทดลองทางการเกษตรหรือรวบรวมข้อมูลการสำรวจผ่านการสำรวจทางโทรศัพท์หรือตรวจสอบสเกลไซโครเมทหรือสร้างแผนที่อุบัติการณ์ของโรคใน GIS การเรียนรู้ด้วยเครื่องเป็นศิลปะนามธรรมของวิทยาการคอมพิวเตอร์ รากฐาน บุคคลเหล่านี้จะไม่เห็นประโยชน์ทันทีจากการเรียนรู้เครื่องสนับสนุนเวกเตอร์หรือป่าสุ่ม

สรุปแล้วการเรียนรู้ของเครื่องเป็นส่วนเสริมที่ดีในด้านอื่น ๆ ของสถิติ แต่ฉันจะยืนยันว่าสิ่งที่สำคัญเช่นการแจกแจงปกติหลายตัวแปรและโมเดลเชิงเส้นทั่วไปต้องมาก่อน


5

การเรียนรู้ของเครื่องนั้นเกี่ยวกับการรับความรู้ / การเรียนรู้จากข้อมูล ตัวอย่างเช่นฉันทำงานกับอัลกอริธึมการเรียนรู้ด้วยเครื่องจักรที่สามารถเลือกยีนบางตัวที่อาจเกี่ยวข้องกับโรคบางประเภทจากข้อมูล DNA Microarray (เช่นมะเร็งหรือเบาหวาน) นักวิทยาศาสตร์สามารถใช้ยีนเหล่านี้ (โมเดลที่เรียนรู้) สำหรับการวินิจฉัยในอนาคต (การจำแนกประเภทตัวอย่างที่มองไม่เห็น)

มีสถิติจำนวนมากที่เกี่ยวข้องกับการเรียนรู้ของเครื่อง แต่มีสาขาของการเรียนรู้ของเครื่องที่ไม่ต้องใช้สถิติ (เช่นการเขียนโปรแกรมทางพันธุกรรม) ครั้งเดียวที่คุณจะต้องใช้สถิติในกรณีเหล่านี้คือดูว่าแบบจำลองที่คุณสร้างขึ้นโดยใช้การเรียนรู้ของเครื่องนั้นแตกต่างจากรุ่นอื่นอย่างมีนัยสำคัญหรือไม่

ในความคิดของการแนะนำเพื่อการเรียนรู้เครื่องสถิติจะเป็นประโยชน์ สิ่งนี้จะช่วยให้นักสถิติเห็นสถานการณ์จริงของการประยุกต์ใช้สถิติ แต่ก็ไม่ควรจะเป็นภาคบังคับ คุณอาจกลายเป็นนักสถิติที่ประสบความสำเร็จและใช้เวลาทั้งชีวิตโดยไม่ต้องเข้าใกล้การเรียนรู้ของเครื่อง!


2
ฉันว่าคุณต้องการสถิติทุกครั้งที่คุณรายงานประสิทธิภาพของแบบจำลองของคุณ Mabe นั่นเป็นเพราะอาชีพของฉันคือเคมีวิเคราะห์ซึ่งหนึ่งในกฎที่สำคัญคือ "ตัวเลขที่ไม่มีช่วงความมั่นใจไม่มีผล"
cbeleites รองรับโมนิก้า

1
@cbeleites ฉันเห็นด้วยกับคุณ สิ่งที่ฉันหมายถึงคือนักสถิติไม่จำเป็นต้องเป็นผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง! พวกเขาสามารถเรียนรู้ได้โดยไม่ต้องเรียนรู้ด้วยเครื่อง :)
ปฏิวัติ

1
@cbeleites หรือช่วงความมั่นใจหลายครั้งในกรณีของตัวต่อเนื่องหลายรูปแบบ (เช่นการวิเคราะห์ข้อมูล Sivia & Skilling )
alancalvitti
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.