ทำไมไม่ลองทิ้งโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง? [ปิด]


25

ปัญหาพื้นฐานกับการเรียนรู้ลึกและเครือข่ายประสาทโดยทั่วไป

  1. โซลูชั่นที่เหมาะสมกับข้อมูลการฝึกอบรมไม่มีที่สิ้นสุด เราไม่มีสมการทางคณิตศาสตร์ที่แม่นยำซึ่งเป็นที่น่าพอใจเพียงอันเดียวและเราสามารถพูดได้ว่าดีที่สุด เพียงแค่พูดเราไม่รู้ว่า generalizes ใดดีที่สุด

  2. การปรับน้ำหนักให้เหมาะสมไม่ใช่ปัญหานูนดังนั้นเราไม่มีทางรู้เลยว่าเราจะจบลงด้วยการใช้งานทั่วโลกหรือในระดับท้องถิ่น

ดังนั้นทำไมไม่เพียงแค่ถ่ายโอนข้อมูลโครงข่ายประสาทเทียมและค้นหารุ่น ML ที่ดีกว่าแทน สิ่งที่เราเข้าใจและสิ่งที่สอดคล้องกับชุดของสมการทางคณิตศาสตร์หรือไม่ Linear และ SVM ไม่มีข้อบกพร่องทางคณิตศาสตร์นี้และสอดคล้องอย่างสมบูรณ์กับชุดของสมการทางคณิตศาสตร์ ทำไมไม่เพียงแค่คิดในบรรทัดเดียวกัน (ไม่จำเป็นต้องเป็นแบบเชิงเส้น) และมาพร้อมกับ ML โมเดลใหม่ที่ดีกว่า Linear และ SVM และโครงข่ายประสาทและการเรียนรู้เชิงลึก


37
หากคุณพบว่าคนจะ
แมทธิวดรูรี่

23
"ทำไมไม่มากับ ... ?" คุณจะไม่เชื่อว่านักวิจัยจำนวนมากกำลังยุ่งอยู่กับการพยายามทำอย่างนั้น! พวกเขาไม่ประสบความสำเร็จเท่านี้
Kilian Foth

31
"ทุกรุ่นผิด แต่มีประโยชน์" และ nns นั้นมีประโยชน์อย่างแน่นอน
josh

15
@RajeshDachiraju - มันเป็นสำนวนเก่า แต่ฉันอาจจะคลุมเครือเล็กน้อย คุณถามว่าทำไมไม่ทิ้ง NNs เพราะมันไม่สมบูรณ์แบบ ตอบโต้ของฉันคือพวกเขาไม่สมบูรณ์แบบ แต่พวกเขามีประโยชน์ ผู้คนใช้พวกเขาในการขับรถยนต์ขับรถแปลภาษาต่างประเทศติดแท็กวิดีโอเพื่อการอนุรักษ์ปลาวาฬและแม้แต่การใช้ฟิลเตอร์ snapchat ขยะเหล่านั้นพร้อมกับหูสุนัขในภาพถ่ายของคุณ! เช่นที่พวกเขาทำงานเพื่อให้เรายังคงใช้พวกเขา :)
Josh

13
คุณก็รู้ว่ามีอะไรผิดปกติเช่นกัน: กลศาสตร์ของนิวตัน กลศาสตร์ควอนตัม ความสัมพันธ์ ฟิสิกส์ทั้งหมดเป็นสิ่งที่ผิด (ไม่มีแบบจำลองเดียวที่อธิบายทุกอย่างมีข้อบกพร่อง) เคมีนั้นมีหลายสิ่งหลายอย่างผิดปกติ (การอธิบายอะตอมนั้นเป็นเพียงการประมาณที่ดี แต่ไม่แน่นอน) สิ่งเดียวที่แท้จริงในโลกคือคณิตศาสตร์ คณิตศาสตร์บริสุทธิ์ ทุกอย่างเข้ามาใกล้กับคำตอบที่ถูกต้อง เราควรจะละทิ้งส่วนที่เหลือไปหรือไม่? (เริ่มจากคอมพิวเตอร์ที่มีกฎหมายที่ผิดกฎหมายหรือไม่) ไม่ได้อีก: ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์
Mayou36

คำตอบ:


48
  1. การไม่สามารถรู้ได้ว่าโซลูชันทั่วไปที่ดีที่สุดคือปัญหา แต่ไม่ควรขัดขวางเรามิฉะนั้นแล้วจะใช้วิธีแก้ปัญหาที่ดี มนุษย์เองมักไม่รู้ว่าสิ่งใดเป็นสิ่งที่ดีที่สุด (พิจารณาตัวอย่างเช่นการแข่งขันทฤษฎีการรวมสาขาของฟิสิกส์) แต่นั่นก็ไม่ได้ทำให้เรามีปัญหามากเกินไป

  2. มันแสดงให้เห็นว่ามันเป็นเรื่องยากมากสำหรับการฝึกอบรมที่จะล้มเหลวเพราะขั้นต่ำในท้องถิ่น ค่าต่ำสุดในท้องถิ่นส่วนใหญ่ในเครือข่ายนิวรัลลึกนั้นมีค่าใกล้เคียงกับค่าต่ำสุดทั่วโลกดังนั้นจึงไม่มีปัญหา แหล่ง

แต่คำตอบที่กว้างกว่าคือคุณสามารถพูดคุยกันตลอดทั้งวันเกี่ยวกับการไม่เลือกและการเลือกรูปแบบและผู้คนจะยังคงใช้เครือข่ายประสาทเพียงเพราะพวกเขาทำงานได้ดีกว่าสิ่งอื่นใด (อย่างน้อยในสิ่งต่าง ๆ เช่นการจำแนกภาพ)

แน่นอนว่ายังมีคนเถียงว่าเราไม่ควรให้ความสนใจกับ CNNs มากนักเช่นชุมชนที่ให้ความสำคัญกับ SVM เมื่อไม่กี่สิบปีก่อนและแทนที่จะมองหาสิ่งที่ยิ่งใหญ่ต่อไป โดยเฉพาะอย่างยิ่งฉันคิดว่าฉันจำได้ว่าฮินตันรู้สึกเสียใจกับประสิทธิภาพของ CNNs เป็นสิ่งที่อาจขัดขวางการวิจัย โพสต์ที่เกี่ยวข้อง


1
ฉันชอบย่อหน้าสุดท้ายโดยเฉพาะ
Rajesh Dachiraju

10
คุณมีการอ้างอิงสำหรับจุด # 2 หรือไม่?
DrMcCleod

@DrMcCleod: สำหรับฉันประเด็นที่ 2 ดูเหมือน jingoism ในความรู้สึกที่เบากว่า
Rajesh Dachiraju

6
@DrMcCleod มีงานจำนวนมากที่แสดงให้เห็นว่า minima ท้องถิ่นนั้นอยู่ใกล้กับ minima ทั่วโลกและจุดอานม้าที่เป็นปัญหา ดูกระดาษนี้สำหรับการอภิปรายของจุดอานและกระดาษนี้สำหรับเหตุใด minima ท้องถิ่นไม่จำเป็นต้องไม่ดี
jld

1
ฉันต้องการโรงละครเพียงแห่งเดียวที่ฉันคาดหวัง แต่สมมติว่าฉันรู้ว่าฉันจะสนุกกับภาพยนตร์เกือบทุกเรื่องเท่าที่ฉันต้องการดู จากนั้นฉันจะไม่ผิดหวังเมื่อมีโรงภาพยนตร์ 10 แห่งและฉันต้องเลือกโรงละครเพราะฉันรู้ว่าโรงละครและภาพยนตร์จะทำให้ฉันพอใจ
shimao

14

เมื่อความคิดเห็นเกี่ยวกับคำถามของคุณชี้ให้เห็นว่ามีคนจำนวนมากที่ทำงานค้นหาสิ่งที่ดีกว่า ฉันอยากจะตอบคำถามนี้ด้วยการขยายความคิดเห็นที่เหลือโดย @josh


ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์ (Wiki)

ข้อความข้างต้นเป็นความจริงทั่วไปที่ใช้เพื่ออธิบายลักษณะของแบบจำลองทางสถิติ การใช้ข้อมูลที่เรามีอยู่เราสามารถสร้างแบบจำลองที่ให้เราทำสิ่งที่มีประโยชน์เช่นประมาณค่าที่ทำนาย

ใช้ตัวอย่างการถดถอยเชิงเส้น

ด้วยการสังเกตจำนวนหนึ่งเราสามารถใส่แบบจำลองเพื่อให้เรามีค่าประมาณสำหรับตัวแปรที่ขึ้นต่อกันซึ่งให้ค่าใด ๆ สำหรับตัวแปรอิสระ

อัม, KP; แอนเดอร์สัน, DR (2002), การเลือกรูปแบบและหลายโมเดล> การอนุมาน: แนวทางปฏิบัติเชิงทฤษฎีข้อมูล (2nd ed.):

"แบบจำลองเป็นการทำให้ง่ายขึ้นหรือประมาณความเป็นจริงและด้วยเหตุนี้จะไม่สะท้อนความเป็นจริงทั้งหมด ... กล่องตั้งข้อสังเกตว่า" แบบจำลองทั้งหมดผิด แต่บางส่วนมีประโยชน์ "ในขณะที่แบบจำลองไม่สามารถเป็น" ความจริง "แบบจำลองอาจ ได้รับการจัดอันดับจากที่มีประโยชน์มากไปถึงมีประโยชน์ไปจนถึงค่อนข้างมีประโยชน์

การเบี่ยงเบนจากแบบจำลองของเรา (ดังที่เห็นในภาพด้านบน) ปรากฏแบบสุ่มการสังเกตบางอย่างอยู่ด้านล่างบรรทัดและบางส่วนอยู่ด้านบน แต่เส้นการถดถอยของเราแสดงความสัมพันธ์ทั่วไป ในขณะที่การเบี่ยงเบนในแบบจำลองของเราปรากฏแบบสุ่มในสถานการณ์จริงจะมีปัจจัยอื่น ๆ ที่ทำให้เกิดการเบี่ยงเบนนี้ ตัวอย่างเช่นลองจินตนาการว่ากำลังดูรถในขณะที่พวกเขาขับรถผ่านทางแยกที่พวกเขาจะต้องเลี้ยวซ้ายหรือขวาเพื่อดำเนินการต่อ ในขณะที่เราสามารถพูดได้ว่าทิศทางที่รถเลี้ยวเป็นแบบสุ่มสมบูรณ์ผู้ขับขี่ทุกคนจะมาถึงทางแยกและ ณ จุดนั้นจะมีการตัดสินใจแบบสุ่มว่าจะเลี้ยวอย่างไร ในความเป็นจริงพวกเขาอาจจะมุ่งไปที่อื่นด้วยเหตุผลเฉพาะและโดยไม่พยายามหยุดรถแต่ละคันเพื่อถามพวกเขาเกี่ยวกับเหตุผลของพวกเขาเราสามารถอธิบายการกระทำของพวกเขาเป็นการสุ่มเท่านั้น

ในกรณีที่เราสามารถพอดีกับโมเดลที่มีการเบี่ยงเบนน้อยที่สุดเราจะแน่ใจได้อย่างไรว่าตัวแปรที่ไม่รู้จักไม่มีใครสังเกตเห็นหรือไม่สามารถวัดได้จะไม่เกิดขึ้นในบางครั้งที่จะโยนโมเดลของเรา ปีกของผีเสื้อในบราซิลปิดทอร์นาโดในเท็กซัสไหม

ปัญหาของการใช้แบบจำลองเชิงเส้นและแบบ SVN ที่คุณพูดถึงเพียงอย่างเดียวคือเราจำเป็นต้องสังเกตตัวแปรของเราด้วยตนเอง จากนั้นเราต้องตัดสินใจว่าตัวแปรใดที่มีความสำคัญและเขียนอัลกอริทึมเฉพาะงาน สิ่งนี้สามารถตรงไปตรงมาถ้าเรามีตัวแปรเพียงเล็กน้อย แต่ถ้าเรามีหลายพัน ถ้าเราต้องการสร้างแบบจำลองการจดจำภาพทั่วไปสิ่งนี้สามารถทำได้จริงด้วยวิธีการนี้หรือไม่?

การเรียนรู้อย่างลึกซึ้งและโครงข่ายประสาทเทียม (ANNs) สามารถช่วยเราสร้างแบบจำลองที่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่ที่มีตัวแปรจำนวนมาก (เช่นไลบรารีรูปภาพ) ดังที่คุณพูดถึงมีวิธีแก้ปัญหาจำนวนมากที่ไม่สามารถเข้าใจข้อมูลได้โดยใช้ ANNs แต่ตัวเลขนี้แตกต่างจากจำนวนโซลูชั่นที่เราจะต้องพัฒนาตัวเองผ่านการลองผิดลองถูกหรือไม่?

แอปพลิเคชันของ ANNs ทำงานให้เรามากเราสามารถระบุอินพุตและเอาต์พุตที่ต้องการ (และปรับแต่งภายหลังเพื่อทำการปรับปรุง) และปล่อยให้ ANN หาวิธีแก้ปัญหา นี่คือเหตุผลที่ ANNs มักจะอธิบายว่า"กล่องดำ" จากอินพุตที่กำหนดพวกมันให้ผลลัพธ์ประมาณ (โดยทั่วไป) การประมาณเหล่านี้จะไม่รวมรายละเอียดเกี่ยวกับวิธีการประมาณ

และมันก็จะลงเอยกับปัญหาที่คุณพยายามแก้ไขเนื่องจากปัญหาจะกำหนดวิธีการแบบจำลองที่มีประโยชน์มากกว่า แบบจำลองไม่แม่นยำอย่างแน่นอนและมีองค์ประกอบของการ 'ผิด' อยู่เสมออย่างไรก็ตามยิ่งผลลัพธ์ของคุณมีความแม่นยำมากเท่าใดก็ยิ่งมีประโยชน์มากขึ้นเท่านั้น การมีรายละเอียดเพิ่มเติมในผลลัพธ์เกี่ยวกับวิธีการประมาณอาจมีประโยชน์ขึ้นอยู่กับปัญหาที่อาจมีประโยชน์มากกว่าความแม่นยำที่เพิ่มขึ้น

ตัวอย่างเช่นหากคุณกำลังคำนวณคะแนนเครดิตบุคคลการใช้การถดถอยและ SVM จะให้การคำนวณที่สามารถสำรวจได้ดีขึ้น ความสามารถในการปรับแต่งทั้งสองแบบโดยตรงและอธิบายให้ลูกค้าฟังว่าตัวแปรอิสระที่แยกจากกันมีผลต่อคะแนนโดยรวมของพวกเขานั้นมีประโยชน์มาก ANN อาจช่วยในการประมวลผลตัวแปรจำนวนมากขึ้นเพื่อให้ได้คะแนนที่แม่นยำยิ่งขึ้น แต่ความแม่นยำนี้มีประโยชน์มากกว่าหรือไม่


6
คุณทำคะแนนได้ดี แต่ความจริงที่ว่า "ในหลาย ๆ กรณีการสังเกตและการคาดการณ์ของเราจะไม่ได้อยู่บนสายที่พอดี" ไม่ใช่การสาธิตที่เหมาะสมสำหรับสโลแกน "ทุกรุ่นผิด" ในการถดถอยเชิงเส้นเรากำลังสร้างแบบจำลอง E (Y | X) และดังนั้นจุดที่ไม่ได้วางอยู่บนเส้นตรงไม่ได้แสดงให้เห็นถึงความบกพร่องในแบบจำลองของเรา มีการคาดการณ์ล่วงหน้าแบบสุ่มและคาดหวัง แบบจำลองนั้นไม่ "ผิด" เมื่อเราสังเกตการเบี่ยงเบนจากแนวที่ติดตั้ง
klumbard

@ klumbard ขอบคุณสำหรับความคิดเห็น ฉันได้อัปเดตคำตอบพร้อมรายละเอียดเพิ่มเติมซึ่งอธิบายเหตุผลของฉันในการใช้สิ่งนี้เป็นตัวอย่าง ฉันใช้วิธีการทางปรัชญามากขึ้นในการตอบของฉันและพูดในแง่ทั่วไปมากกว่าเฉพาะเจาะจงนี่คือการโพสต์ครั้งแรกของฉันในชุมชนนี้ดังนั้นขอโทษถ้านี่ไม่ใช่สถานที่ที่จะทำ ดูเหมือนว่าคุณจะมีความรู้เกี่ยวกับสิ่งที่เฉพาะเจาะจงคุณช่วยอธิบายความคิดเห็นของคุณให้ละเอียดมากขึ้นได้ไหม? คำถามที่ฉันมีก็คือที่ส่วนเบี่ยงเบนไม่แสดงให้เห็นถึงความบกพร่องเป็นรูปแบบการถดถอยที่มี R-squared จาก 0.01 ยังไม่ "ผิด"?
กัดกร่อน

2
ปัญหาเดียวของฉันกับการโพสต์ของคุณเป็นวิธีที่คุณวลี"... ในหลายกรณีการสังเกตและการคาดการณ์ของเราจะไม่นั่งตรงกับสายที่ติดตั้ง. นี้เป็นวิธีหนึ่งในการที่รูปแบบของเรามักจะเป็น 'ผิด' ..." ฉันแค่บอกว่าสเปคของแบบจำลองนั้นรวมถึงคำที่ผิดพลาดและดังนั้นความจริง (คนเดียว) ที่ข้อมูลที่สังเกตได้ไม่ตกอยู่ในสายติดตั้งไม่ได้บ่งบอกถึงรูปแบบ "ความผิดพลาด" นี่อาจดูเหมือนความแตกต่างทางความหมายเล็กน้อย แต่ฉันคิดว่ามันสำคัญ
klumbard

1
จุดสำคัญที่คุณระบุไว้คือโมเดลทุกตัวมีความผิดเนื่องจากความเอนเอียงของตัวแปรที่ละเว้นและการผิดพลาดของรูปแบบการทำงาน ทุกครั้งที่คุณเขียนแบบจำลองการถดถอยและทำการอนุมานค่าโดยประมาณคุณถือว่าคุณได้ระบุรูปแบบที่ถูกต้องซึ่งไม่เป็นเช่นนั้น
klumbard

1
@ klumbard โอ้ฉันเห็นได้ว่าเจ้ามาจากไหน ดังนั้นแม้ว่าตัวแบบจะสร้างค่าประมาณที่ไม่น่าจะถูกต้องสมบูรณ์ แต่เราสามารถวัดค่าความผิดพลาดเพื่อระบุว่าค่าจริงอาจเบี่ยงเบนไปจากค่าประมาณเท่าใดและดังนั้นจึงไม่ถูกต้องที่จะบอกว่าตัวแบบผิด ฉันจะเอาส่วนนั้นออกจากคำตอบของฉันฉันคิดว่าจุดของฉันจะอธิบายได้ดีขึ้นในส่วนที่ฉันเพิ่มหลังจากนั้น ขอบคุณสำหรับการอธิบาย :)
Carrosive

8

ค่าต่ำสุดทั่วโลกอาจไร้ประโยชน์ดังนั้นเราจึงไม่แคร์ถ้าเราพบมันหรือไม่ เหตุผลก็คือสำหรับเครือข่ายที่ลึกไม่เพียง แต่เวลาที่จะพบว่ามันยาวขึ้นอย่างทวีคูณเมื่อขนาดเครือข่ายเพิ่มขึ้น แต่ค่าต่ำสุดทั่วโลกมักสอดคล้องกับชุดฝึกอบรมมากเกินไป ดังนั้นความสามารถในการวางนัยทั่วไปของ DNN (ซึ่งเป็นสิ่งที่เราสนใจจริงๆ) จะได้รับผลกระทบ นอกจากนี้บ่อยครั้งที่เราชอบเลียตต่ำสุดที่สอดคล้องกับค่าที่สูงขึ้นของฟังก์ชั่นการสูญเสียมากกว่าที่คมชัดน้อยที่สุดสอดคล้องกับมูลค่าที่ลดลงของฟังก์ชั่นการสูญเสียเพราะอันที่สองจะจัดการกับความไม่แน่นอน สิ่งนี้กำลังชัดเจนมากขึ้นด้วยการพัฒนาการเรียนรู้แบบเบย์ การเพิ่มประสิทธิภาพที่แข็งแกร่งชนะการกำหนดค่าสูงสุดบ่อยครั้งเมื่อนำไปใช้กับปัญหาในโลกแห่งความจริงที่ความไม่แน่นอนเป็นสิ่งสำคัญ

ในที่สุดมันเป็นความจริงที่ว่า DNN เพิ่งเตะตูดของวิธีการเช่น XGBoost ที่การจำแนกภาพและ NLP บริษัท ที่ต้องทำกำไรจากการจัดหมวดหมู่ภาพจะเลือกพวกเขาเป็นโมเดลที่จะนำไปใช้ในการผลิตอย่างถูกต้อง ( และลงทุนเงินจำนวนมากในงานวิศวกรรมฟีเจอร์ท่อส่งข้อมูลและอื่น ๆ แต่ฉันพูดนอกเรื่อง) นี่ไม่ได้หมายความว่าพวกเขาควบคุมสภาพแวดล้อม ML ทั้งหมด: ตัวอย่างเช่นพวกเขาแย่กว่า XGBoost กับข้อมูลที่มีโครงสร้าง (ดูผู้ชนะคนสุดท้ายของการแข่งขัน Kaggle) และดูเหมือนว่าพวกเขาจะยังไม่ทำเช่นนั้น อย่างไรก็ตามนวัตกรรมล่าสุดบางอย่างใน RNN อาจแก้ไขสถานการณ์นี้


2
จริงๆ? โหวตหรือไม่ นั่นเป็นบิตที่ไม่มีเหตุผลสำหรับ มันเป็นคำตอบที่สมเหตุสมผล (+1)
usεr11852พูดว่า Reinstate Monic

5
@RajeshDachiraju เนื่องจากเห็นได้ชัดว่าคุณพยายามอนุมานสิ่งที่ฉันต้องการหรือไม่ทราบคุณอาจจะสนใจที่จะเรียนรู้ว่าคนที่มีความเข้าใจมากขึ้นเกี่ยวกับเครือข่ายประสาทเทียมและการเพิ่มประสิทธิภาพแบบไม่นูนที่คุณดูเหมือนจะพูดคุยเป็นประจำ ขั้นต่ำทั่วโลกเดียวสำหรับเครือข่ายประสาท ในกองกระดาษขนาดใหญ่ที่ใช้คำศัพท์นี้คุณสามารถลองอ่านบทความนี้และดูว่าคุณเข้าใจว่าคุณผิดหรือเปล่า
DeltaIV

2
@RajeshDachiraju: ขอบคุณที่อธิบายเหตุผลของคุณหลาย ๆ คนคงไม่รำคาญ ที่ถูกกล่าวว่าฉันคิดว่าเหตุผลของคุณสำหรับข้อบกพร่องนี้และเกิดจากการตีความวลีที่เฉพาะเจาะจงผิดพลาด ฉันเห็นด้วยกับ DeltaIV ว่าคำศัพท์มาตรฐานนี้
usεr11852พูดว่า Reinstate Monic

1
@DeltaIV: จุดของฉันคืออาจมีหลายเวกเตอร์น้ำหนักที่มี 0 สูญเสียข้อมูลการฝึกอบรม (ofcourse รักษาค่าคงที่สถาปัตยกรรม) จุดทั้งหมดของการฝึกอบรมคือการรับเวกเตอร์น้ำหนัก inst ดังนั้นฉันไม่เห็นด้วยกับคุณ หนึ่งในเวกเตอร์น้ำหนักเหล่านี้มีประโยชน์มาก แต่ฉันขออนุญาตให้ยอมรับที่จะไม่เห็นด้วยและจบการสนทนานี้ที่นี่ ขอแสดงความนับถือ Rajesh
Rajesh Dachiraju

1

7

ฉันคิดว่าวิธีที่ดีที่สุดที่จะคิดเกี่ยวกับคำถามนี้คือผ่านตลาดการแข่งขัน หากคุณทิ้งการเรียนรู้อย่างลึกล้ำและคู่แข่งของคุณใช้มันและมันทำงานได้ดีกว่าสิ่งที่คุณใช้คุณจะถูกโจมตีในตลาด

ฉันคิดว่านั่นคือสิ่งที่เกิดขึ้นในวันนี้คือการเรียนรู้อย่างลึกซึ้งดูเหมือนว่าจะทำงานได้ดีกว่าทุกอย่างสำหรับปัญหามากมายในตลาด ตัวอย่างเช่นนักแปลภาษาออนไลน์ที่ใช้การเรียนรู้ลึกดีกว่าวิธีการทางภาษาล้วนๆที่เคยใช้มาก่อน เมื่อไม่กี่ปีที่ผ่านมานี่ไม่ใช่กรณีนี้ แต่ความก้าวหน้าในการเรียนรู้อย่างลึกซึ้งทำให้ผู้ที่คุ้นเคยกับตำแหน่งผู้นำในตลาด

ฉันทำซ้ำ "ตลาด" เพราะนั่นคือสิ่งที่ผลักดันกระแสในการเรียนรู้ลึก ช่วงเวลาที่ธุรกิจค้นพบสิ่งที่มีประโยชน์สิ่งนั้นจะกลายเป็นวงกว้าง ไม่ใช่ว่าเราคณะกรรมการที่ตัดสินใจว่าการเรียนรู้อย่างลึกซึ้งควรเป็นที่นิยม เป็นธุรกิจและการแข่งขัน

ส่วนที่สองคือนอกจากความสำเร็จที่แท้จริงของ ML แล้วยังมีความกลัวที่จะพลาดเรือ ธุรกิจจำนวนมากมีความหวาดระแวงว่าถ้าพวกเขาพลาด AI พวกเขาจะล้มเหลวในฐานะธุรกิจ ความกลัวนี้กำลังได้รับการเลี้ยงดูจากบ้านที่ปรึกษาเหล่านี้Gartnersและอื่น ๆ กระซิบกับซีอีโอว่าพวกเขาจะต้องทำ AI หรือตายในวันพรุ่งนี้

ไม่มีใครบังคับให้ธุรกิจใช้การเรียนรู้อย่างลึกซึ้ง ไอทีและการวิจัยและพัฒนาตื่นเต้นกับของเล่นใหม่ Academia กำลังเชียร์ดังนั้นปาร์ตี้นี้จะคงอยู่จนกระทั่งเพลงหยุดลงนั่นคือจนกระทั่งการเรียนรู้ลึกหยุดส่ง ในระหว่างนี้คุณสามารถทิ้งและสร้างโซลูชันที่ดีขึ้น


ทุนการวิจัยเชิงวิชาการเป็นอย่างไร คุณช่วยส่องแสงบางส่วนให้หน่อยได้ไหม?
Rajesh Dachiraju

2
เงินทุนจำนวนมากมาจากอุตสาหกรรม อาจารย์ที่ได้รับเงินมากที่สุดจากอุตสาหกรรมเป็นคนที่มีอิทธิพลมากที่สุดในสถาบันการศึกษา มหาวิทยาลัยเอาเงินก้อนโตก้อนโตที่พวกเขาได้รับมาจาก บริษัท ดังนั้นพวกเขาจึงรักอาจารย์เหล่านี้ ถ้าคุณอ่านนี้บทความ NYT คุณจะได้รับความคิดของความบ้าคลั่งทั้งในการศึกษาและอุตสาหกรรมที่
Aksakal

การอ้างอิงที่ดีมากกับตลาด (+1): ฉันพูดเหมือนกัน ("บริษัท ที่ต้องทำกำไรจากการจัดหมวดหมู่ภาพจะเลือกพวกเขาเป็นโมเดลที่จะนำไปใช้ในการผลิตอย่างถูกต้อง") อย่างไรก็ตามฉันจะไม่เห็นด้วยกับความหวาดระแวงอย่างอ่อนโยน เป็นความจริง (ไม่ใช่ความหวาดระแวง) ที่ Waymo พร้อมที่จะเอาชนะ Tesla, Audi และผู้ผลิตรถยนต์รายอื่นที่ชื่อฉันจำไม่ได้ตอนนี้และส่วนใหญ่มาจากการลงทุนขนาดใหญ่ของ Google ในการเรียนรู้ลึก ออดี้อาจใช้ SIFT และ SURF (เทคโนโลยีการมองเห็นคอมพิวเตอร์ที่ผ่านการทดสอบอย่างดีซึ่งไม่เกี่ยวข้องกับการเรียนรู้ลึก) หากพวกเขา ...
DeltaIV

...ต้องการ. ความเหนือกว่าของ DL ในแง่ของ SIFT, SURF และวิธีการทางเรขาคณิตอื่น ๆ เมื่อพูดถึงการจำแนกภาพเป็นข้อเท็จจริงที่พิสูจน์ได้จากการวิจัยทางวิชาการและอุตสาหกรรมห้าปี แน่นอนว่าไม่ใช่ยาครอบจักรวาล (ดูความล้มเหลวของ IBM Watson) และมีบางโฆษณา แต่ก็มีข้อเท็จจริงที่ยากและเย็นชา
DeltaIV

2
@DeltaIV ML ทำงานได้แน่นอนในบางแอพพลิเคชั่น แต่ฉันคิดว่าการยอมรับในวงกว้างในทุกวันนี้นั้นเกิดจากความหวาดระแวงและ hype ในระดับมาก ไม่ว่าจะใช้งานได้หรือไม่ CTO ก็เป็นไปได้ ฉันมีเพื่อนที่ไม่รู้ว่าฉันกำลังพูดถึงอะไรเมื่อปีที่แล้วตอนนี้พวกเขาบอกว่า AI เป็นอนาคตพวกเขากำลังจะเริ่มใช้งาน ฯลฯ
Aksakal

4

มีคำตอบที่ยอดเยี่ยมส่วนใหญ่ชั่งน้ำหนักด้วยประโยชน์ของ DL และ ANNs แต่ฉันต้องการคัดค้าน OP ในลักษณะพื้นฐานมากกว่าเนื่องจากคำถามได้รับการยอมรับความไม่สอดคล้องกันทางคณิตศาสตร์ของโครงข่ายประสาท

ครั้งแรกของทั้งหมดมีเป็นทฤษฎีทางคณิตศาสตร์ที่อยู่เบื้องหลัง (รุ่นส่วนใหญ่) โครงข่ายประสาทเทียม คุณอาจโต้แย้งว่าการถดถอยเชิงเส้นไม่ได้พูดถึงเว้นแต่ว่าโมเดลพื้นฐานคือ ... ดีเป็นเส้นตรง ในอัลกอริทึมของระบบประสาทโมเดลจะถือว่า (แม้ว่าจะไม่ชัดเจน) และข้อผิดพลาดในการคำนวณจะถูกคำนวณ ความจริงที่ว่าอัลกอริทึมได้รับการแก้ไขด้วยฮิวริสติกแบบต่าง ๆ จะไม่ทำให้การสนับสนุนทางคณิตศาสตร์ดั้งเดิมเป็นโมฆะ BTW การปรับให้เหมาะสมที่สุดในท้องถิ่นนั้นมีความสอดคล้องกันทางคณิตศาสตร์

ในบรรทัดนี้ถ้า Neural Networks เป็นเพียงวิธีการหนึ่งในกล่องเครื่องมือทั้งหมดของนักวิทยาศาสตร์ซึ่งเป็นเส้นที่แยก Neural Networks ออกจากส่วนที่เหลือของเทคนิค? ในความเป็นจริง SVM เคยถูกจัดให้อยู่ในประเภท NN และยังคงปรากฏในหนังสือเล่มเดียวกัน ในทางตรงกันข้าม NNs อาจถือได้ว่าเป็นเทคนิคการถดถอย (แบบไม่เชิงเส้น) ซึ่งอาจจะทำให้เข้าใจได้ง่าย ฉันเห็นด้วยกับ OP ว่าเราต้องค้นหาอัลกอริทึมที่ดีขึ้นก่อตั้งขึ้นดีและมีประสิทธิภาพไม่ว่าคุณจะระบุว่าเป็น NN หรือไม่ก็ตาม


ปัญหาที่เกิดขึ้นกับความไม่สอดคล้องกันคือเราไม่สามารถถามคำถามง่าย ๆ ได้เช่นเมื่อไหร่ควรหยุดฝึกและเลิก? มีข่าวลือมากมายเช่น 'Dropot', 'Weight Decay', 'ReLu' และการเปิดใช้งานที่หลากหลาย, การทำให้เป็นมาตรฐานชุด, การรวมสูงสุด, softmax, การหยุดก่อนกำหนด, อัตราการเรียนรู้ที่หลากหลายและการเปลี่ยนแปลงทั้งหมดและการรวมกัน ไม่ว่าจะให้ขึ้นหรือไม่ในบางจุด
Rajesh Dachiraju

1
@RajeshDachiraju สามารถพูดเช่นเดียวกันกับค่าสัมประสิทธิ์การลงโทษในขั้นตอนวิธีการเพิ่มประสิทธิภาพจุดภายนอกหรือขนาดขั้นตอนในวิธี Runge-Kutta คำว่า "ไม่สอดคล้อง" มีความหมายที่แม่นยำในวิทยาศาสตร์ที่ไม่ได้ใช้ที่นี่
มิเกล

0

ฉันคิดว่าปัญหาบางอย่างที่เราใส่ใจน้อยกว่าในเรื่องความแม่นยำทางคณิตศาสตร์และความเรียบง่าย แต่ยิ่งกว่าสำหรับประโยชน์ของมันสถานะปัจจุบันคือโครงข่ายประสาทเทียมจะดีกว่าในการทำงานบางอย่างเช่นการจดจำรูปแบบในการประมวลผลภาพ


0

มีคำถามมากมายในคำถามนี้ ให้ข้ามสิ่งที่คุณเขียนไปทีละตัว

โซลูชั่นที่เหมาะสมกับข้อมูลการฝึกอบรมไม่มีที่สิ้นสุด เราไม่มีสมการทางคณิตศาสตร์ที่แม่นยำซึ่งเป็นที่น่าพอใจเพียงอันเดียวและเราสามารถพูดได้ว่าดีที่สุด

ความจริงที่ว่ามีวิธีแก้ปัญหามากมายที่ไม่สิ้นสุดมาจากปัญหาการเรียนรู้ซึ่งเป็นปัญหาที่ไม่ดีดังนั้นจึงไม่มีวิธีแก้ปัญหาเดียวที่ดีที่สุด นอกจากนี้โดยไม่มีทฤษฎีอาหารกลางวันฟรีวิธีใดที่เราใช้ไม่สามารถรับประกันได้ว่ามันเป็นสิ่งที่ดีที่สุดในทุกปัญหาการเรียนรู้

เพียงแค่พูดเราไม่รู้ว่า generalizes ใดดีที่สุด

คำสั่งนี้ไม่เป็นความจริง มีทฤษฎีเกี่ยวกับการลดความเสี่ยงเชิงประจักษ์โดย Vapnik & Chervonenkis ที่เชื่อมโยงกับจำนวนตัวอย่างมิติ VC ของวิธีการเรียนรู้และข้อผิดพลาดทั่วไป โปรดทราบว่าสิ่งนี้ใช้สำหรับชุดข้อมูลที่กำหนดเท่านั้น เมื่อได้รับชุดข้อมูลและกระบวนการเรียนรู้เรารู้ขอบเขตในการวางนัยทั่วไป โปรดทราบว่าสำหรับชุดข้อมูลที่แตกต่างกันไม่มีและไม่สามารถเป็นขั้นตอนการเรียนรู้ที่ดีที่สุดเพียงอย่างเดียวเนื่องจากไม่มีทฤษฎีอาหารกลางวันฟรี

การปรับน้ำหนักให้เหมาะสมไม่ใช่ปัญหานูนดังนั้นเราไม่มีทางรู้เลยว่าเราจะจบลงด้วยการใช้งานทั่วโลกหรือในระดับท้องถิ่น ดังนั้นทำไมไม่เพียงแค่ถ่ายโอนข้อมูลโครงข่ายประสาทเทียมและค้นหารุ่น ML ที่ดีกว่าแทน

ที่นี่มีบางสิ่งที่คุณต้องจำไว้ การปรับแก้ปัญหาแบบไม่นูนนั้นไม่ใช่เรื่องง่ายเหมือนการใช้นูน นั่นเป็นความจริง. อย่างไรก็ตามคลาสของวิธีการเรียนรู้ที่ถูก จำกัด (การถดถอยเชิงเส้น, SVMs) และในทางปฏิบัติพวกเขาทำงานได้แย่กว่าการเรียนแบบไม่นูน (การส่งเสริม CNNs) ในปัญหาที่หลากหลาย ดังนั้นส่วนที่สำคัญคือในการฝึกอวนของระบบประสาททำงานได้ดีที่สุด แม้ว่าจะมีองค์ประกอบที่สำคัญมากที่ทำให้มุ้งทำงานได้ดี:

  1. พวกเขาสามารถนำไปใช้กับชุดข้อมูลที่มีขนาดใหญ่มากเนื่องจากการไล่ระดับสีสุ่ม
  2. ซึ่งแตกต่างจาก SVMs การอนุมานด้วยอวนลึกไม่ได้ขึ้นอยู่กับชุดข้อมูล สิ่งนี้ทำให้อวนประสาทมีประสิทธิภาพในเวลาทดสอบ
  3. ด้วยอวนประสาทมันเป็นไปได้ที่จะควบคุมความสามารถในการเรียนรู้โดยตรง (คิดจากจำนวนพารามิเตอร์) เพียงแค่เพิ่มเลเยอร์มากขึ้นหรือทำให้ใหญ่ขึ้น นี่เป็นสิ่งสำคัญเนื่องจากชุดข้อมูลที่แตกต่างกันคุณอาจต้องการรุ่นที่ใหญ่กว่าหรือเล็กกว่า

สิ่งที่เราเข้าใจและสิ่งที่สอดคล้องกับชุดของสมการทางคณิตศาสตร์หรือไม่ Linear และ SVM ไม่มีข้อบกพร่องทางคณิตศาสตร์นี้และสอดคล้องอย่างสมบูรณ์กับชุดของสมการทางคณิตศาสตร์ ทำไมไม่เพียงแค่คิดในบรรทัดเดียวกัน (ไม่จำเป็นต้องเป็นแบบเชิงเส้น) และมาพร้อมกับ ML โมเดลใหม่ที่ดีกว่า Linear และ SVM และโครงข่ายประสาทและการเรียนรู้เชิงลึก

การทุ่มตลาดสิ่งที่ทำงานเพราะไม่เข้าใจพวกเขาไม่ได้เป็นทิศทางการวิจัยที่ดี การพยายามทำความเข้าใจพวกเขานั้นเป็นอีกทางหนึ่งที่เป็นทิศทางการวิจัยที่ยอดเยี่ยม นอกจากนี้ฉันไม่เห็นด้วยที่เครือข่ายประสาทไม่สอดคล้องกับสมการทางคณิตศาสตร์ พวกเขาค่อนข้างสอดคล้อง เรารู้วิธีเพิ่มประสิทธิภาพและทำการอนุมาน


-2

วิธีการเกี่ยวกับการดูเครือข่ายประสาทจากมุมมองการทดลอง? เพียงเพราะเราสร้างพวกเขาไม่ได้หมายความว่าเราจำเป็นต้องเข้าใจพวกเขาอย่างสังหรณ์ใจ หรือว่าเราไม่ได้รับอนุญาตให้เล่นกับพวกเขาเพื่อให้เข้าใจได้ดีขึ้นว่าพวกเขากำลังทำอะไร

นี่คือความคิดสองสามข้อที่ฉันมีต่อพวกเขา:

  • โครงสร้าง: เป็นลำดับชั้น พวกเขาเป็นเหมือนต้นไม้ที่แบ่งปันปัจจัย รากเป็นอินพุตและใบไม้เป็นเลเยอร์เอาต์พุต ยิ่งเลเยอร์ใกล้กับเอาท์พุตมากเท่าไหร่ก็ยิ่งมีความเกี่ยวข้องมากขึ้นเท่านั้นและยิ่งมีสิ่งที่เป็นนามธรรมอยู่ในระดับมาก (มันเกี่ยวกับภาพมากกว่าพิกเซล)
  • ฟังก์ชั่น: พวกเขา "เล่น" กับข้อมูลตัวถูกดำเนินการ modus คือการทดสอบความสัมพันธ์ในเซลล์ประสาท (น้ำหนัก) จนกระทั่งสิ่งที่ "คลิก" (ขอบเขตของข้อผิดพลาดเป็นที่ยอมรับ)

นี่สอดคล้องกับวิธีที่เราคิด มันสอดคล้องกับวิธีการทางวิทยาศาสตร์ ดังนั้นโดยการถอดรหัสเครือข่ายประสาทเราอาจแก้คำถามทั่วไปเกี่ยวกับความรู้


-3

อย่าลืมว่ามีงานวิจัยมากมายที่ใช้ LMs, GLM, การสร้างแบบจำลองหลายระดับ เทคนิค Bayesian เมื่อเร็ว ๆ นี้และ Hamiltonian Monte Carlo (ชุมชน STAN อยู่ในระดับแนวหน้าของเรื่องนี้) มีปัญหาและจำนวนของปัญหาที่แก้ไขโดยSTANได้อย่างง่ายดายและไม่ต้องการ NNs หรืออวนลึก การวิจัยทางสังคมศาสตร์เศรษฐศาสตร์จุลภาคเป็นสองตัวอย่าง (ขนาดใหญ่) ของสาขาดังกล่าวที่ใช้สแตนอย่างรวดเร็ว

แบบจำลองของสแตนนั้น "อ่านง่าย" มาก สัมประสิทธิ์มีการตีความการกระจายหลังและการทำนายเช่นนั้น นักบวชเป็นส่วนหนึ่งของกระบวนการสร้างข้อมูลและไม่จำเป็นต้องผันให้เป็นนักแสดง (เช่นกิ๊บส์) การติดตั้งโมเดลในสแตนนั้นเป็นเรื่องที่น่ายินดีจริงๆแล้วมันเป็นเพลงของ MCMC ที่น่ารำคาญโดยอัตโนมัติและจะเตือนคุณเมื่อการสำรวจติดอยู่กับการสร้างภาพที่ดีจริงๆ

หากคุณไม่ได้พยายามมันแล้วดูการสาธิตสแตนน่ากลัวที่นี่ )

ในตอนท้ายของวันฉันคิดว่าผู้คนไม่ได้พูดถึงเรื่องนี้มากนักเนื่องจากการวิจัยในสาขานี้และปัญหาไม่ได้ "เซ็กซี่" / "เจ๋ง" เช่นเดียวกับ NNs


-5

สิ่งที่มักจะเกิดขึ้นเมื่อไม่มีความสอดคล้องทางคณิตศาสตร์ (อย่างน้อยในกรณีของเครือข่ายประสาทเทียม) ... เมื่อมันไม่ให้ผลลัพธ์ตามที่ต้องการในชุดทดสอบหัวหน้าของคุณจะกลับมาและพูดว่า ... เฮ้ทำไมคุณไม่ ลองดรอป (ซึ่งน้ำหนัก, เลเยอร์ไหน, ปวดหัวเท่าไหร่เพราะไม่มีวิธีการคำนวณทางคณิตศาสตร์) ดังนั้นหลังจากที่คุณลองและหวังว่าจะมีการปรับปรุงเล็กน้อย แต่ไม่ต้องการหัวหน้าของคุณจะกลับมาพูดว่าทำไม ไม่ลองลดน้ำหนัก (ปัจจัยอะไร)? และต่อมาทำไมคุณไม่ลอง ReLU หรือการเปิดใช้งานอื่น ๆ ในเลเยอร์บางส่วนและยังไม่ลองทำไมไม่ลอง 'max pooling'? ยังไม่ทำไมไม่ลองชุดมาตรฐานยังคงไม่หรืออย่างน้อยบรรจบกัน แต่ไม่ต้องการผลลัพธ์โอ้คุณอยู่ในท้องถิ่นขั้นต่ำลองตารางอัตราการเรียนรู้ที่แตกต่างกัน เพียงแค่เปลี่ยนสถาปัตยกรรมเครือข่าย และทำซ้ำทั้งหมดข้างต้นในชุดค่าผสมที่แตกต่างกัน! เก็บไว้ในวงจนกว่าคุณจะประสบความสำเร็จ!

ในทางกลับกันเมื่อคุณลอง SVM ที่สอดคล้องกันหลังจากการบรรจบกันถ้าผลลัพธ์ไม่ดีแล้วก็โอเคเคอร์เนลเชิงเส้นที่เราใช้นั้นไม่ดีพอเนื่องจากข้อมูลอาจไม่เชิงเส้นให้ใช้เคอร์เนลที่มีรูปร่างต่างกันลอง เคอร์เนลที่มีรูปร่างแตกต่างกันหากคุณมีลางสังหรณ์ใด ๆ หากยังไม่ได้แค่ปล่อยไว้มันเป็นข้อ จำกัด ของ SVM

สิ่งที่ฉันกำลังพูดคือเครือข่ายประสาทเทียมนั้นไม่สอดคล้องกันจนไม่ผิดเลย! มันไม่เคยยอมรับความพ่ายแพ้! วิศวกร / นักออกแบบรับภาระในกรณีที่มันไม่ทำงานตามที่ต้องการ


3
ดูเหมือนว่าฉันจะไม่ได้มีคำตอบสำหรับคำถามของคุณ คุณคิดว่าคุณสามารถแก้ไขเพื่อให้เสียงน้อยลงเหมือนพูดจาโผงผางและทำให้ชัดเจนในสิ่งที่วิธีนี้อธิบายว่าทำไมเครือข่ายประสาทและการเรียนรู้ลึกอาจมีประโยชน์มากกว่าแบบจำลอง ML (ซึ่งดูเหมือนจะเป็นคำถามเดิมของคุณ)?
Silverfish

1
ประเด็นของเขาคือเมื่อใช้ SVM เรารู้ว่าเราทำได้ดีเท่าที่จะทำได้ แต่ด้วย NNS เราไม่สามารถรู้ได้ เนื้อหาได้รับความสะดวกซึ่ง DL ถูกหลอกแม้ตัวชี้วัดเช่นข้อผิดพลาดไม่ได้บอกเราว่าแบบจำลองนั้นทำได้ดีเพียงใด
yters

1
@yters ใช่ แต่ความเห็นของ silverfish คือว่านี่ไม่ใช่คำตอบว่าทำไมไม่ถ่ายโอนข้อมูล DL มันใกล้เคียงกับการปรับปรุงคำถาม ฉันขอแนะนำให้ผสานกับคำถาม
P.Windridge
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.