คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

2
Batch Normalization ใช้ค่าเฉลี่ยเคลื่อนที่อย่างไรและทำไมในการติดตามความแม่นยำของโมเดลในขณะที่รถไฟ?
ฉันกำลังอ่านกระดาษการทำแบตช์ให้เป็นมาตรฐาน (BN) (1) และไม่เข้าใจความจำเป็นในการใช้ค่าเฉลี่ยเคลื่อนที่เพื่อติดตามความแม่นยำของแบบจำลองและแม้ว่าฉันยอมรับว่ามันเป็นสิ่งที่ถูกต้องที่จะทำฉันไม่เข้าใจ พวกเขากำลังทำอะไรกันแน่ เพื่อความเข้าใจของฉัน (ซึ่งฉันผิด) กระดาษกล่าวว่าจะใช้สถิติประชากรมากกว่ามินิแบทช์สถิติเมื่อแบบจำลองเสร็จสิ้นการฝึกอบรม หลังจากการอภิปรายของการประมาณการที่ไม่เอนเอียง (ซึ่งดูเหมือนว่าจะเป็นวงสัมผัสกับฉันและไม่เข้าใจว่าทำไมมันถึงพูดถึงเรื่องนี้) พวกเขาไปและพูดว่า: ใช้ค่าเฉลี่ยเคลื่อนที่แทนเราติดตามความแม่นยำของแบบจำลองในขณะที่รถไฟ นั่นคือส่วนที่ทำให้ฉันสับสน เหตุใดพวกเขาจึงทำการย้ายค่าเฉลี่ยเพื่อประเมินความแม่นยำของโมเดลและชุดข้อมูลใด โดยทั่วไปแล้วสิ่งที่ผู้คนทำเพื่อประเมินลักษณะทั่วไปของแบบจำลองของพวกเขาพวกเขาเพียงแค่ติดตามข้อผิดพลาดในการตรวจสอบความถูกต้องของแบบจำลองของพวกเขา อย่างไรก็ตามดูเหมือนว่าการทำแบทช์ให้เป็นมาตรฐานนั้นกำลังทำสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ใครบางคนสามารถชี้แจงสิ่งที่และทำไมมันทำอะไรที่แตกต่างกันอย่างไร 1 : Ioffe S. และ Szegedy C. (2015), "Batch Normalization: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift" การดำเนินการประชุมนานาชาติครั้งที่ 32 เกี่ยวกับการเรียนรู้ของเครื่องจักร Lille, France, 2015 วารสารการวิจัยการเรียนรู้ของเครื่องจักร W&CP เล่ม 37

2
ความแตกต่างระหว่าง initializer scaling initializer และ xavier initializer คืออะไร
ในการใช้งานResNetของ Tensorflow ฉันพบว่าพวกเขาใช้ initializer scaling initializer ฉันยังพบว่า xavier initializer นั้นเป็นที่นิยม ฉันไม่มีประสบการณ์มากเกินไปเกี่ยวกับเรื่องนี้

2
การเรียนรู้อย่างล้ำลึกอยู่ที่ไหนและเพราะเหตุใด
ด้วยการที่สื่อพูดคุยและโฆษณาเกี่ยวกับการเรียนรู้อย่างลึกซึ้งในทุกวันนี้ฉันได้อ่านสิ่งเบื้องต้นเกี่ยวกับมัน ฉันเพิ่งพบว่ามันเป็นเพียงวิธีการเรียนรู้ของเครื่องอีกวิธีหนึ่งในการเรียนรู้รูปแบบจากข้อมูล แต่คำถามของฉันคือ: ที่ไหนและทำไมวิธีการนี้ส่องแสง? ทำไมทุกคนพูดถึงมันตอนนี้? คือเอะอะทั้งหมดเกี่ยวกับอะไร?

3
วิธีการใช้การหยุด แต่เนิ่น ๆ อย่างถูกต้องสำหรับการฝึกอบรมโครงข่ายประสาทเทียมลึก?
ฉันมีรูปแบบโครงข่ายประสาทเทียมที่ลึกและฉันจำเป็นต้องฝึกกับชุดข้อมูลซึ่งประกอบด้วยตัวอย่างประมาณ 100,000 ตัวอย่างข้อมูลการตรวจสอบความถูกต้องของฉันมีประมาณ 1,000 ตัวอย่าง เนื่องจากต้องใช้เวลาในการฝึกฝนแต่ละตัวอย่าง (ประมาณ 0.5 ตัวอย่างสำหรับแต่ละตัวอย่าง) และเพื่อหลีกเลี่ยงการทำให้อ้วนมากเกินไปฉันจึงต้องการใช้การหยุดก่อนกำหนดเพื่อป้องกันการคำนวณที่ไม่จำเป็น แต่ฉันไม่แน่ใจว่าจะฝึกโครงข่ายประสาทอย่างถูกต้องด้วยการหยุด แต่เนิ่น ๆ หลายสิ่งที่ฉันยังไม่เข้าใจในตอนนี้: ความถี่การตรวจสอบที่ดีจะเป็นอย่างไร ฉันควรตรวจสอบโมเดลของฉันเกี่ยวกับข้อมูลการตรวจสอบความถูกต้องในตอนท้ายของแต่ละยุคหรือไม่ (ขนาดแบตช์ของฉันคือ 1) เป็นกรณีที่ epochs ไม่กี่ครั้งแรกอาจให้ผลลัพธ์ที่เลวร้ายกว่าก่อนที่จะเริ่มบรรจบกันเพื่อค่าที่ดีขึ้น? ในกรณีนี้เราควรฝึกอบรมเครือข่ายของเราสำหรับยุคหลาย ๆ ก่อนที่จะตรวจสอบการหยุดก่อน? วิธีจัดการกับกรณีที่การสูญเสียการตรวจสอบอาจขึ้นและลงได้อย่างไร ในกรณีนั้นการหยุดก่อนอาจทำให้โมเดลของฉันไม่สามารถเรียนรู้เพิ่มเติมได้ใช่ไหม ขอบคุณล่วงหน้า.

2
ในมุ้งประสาททำไมใช้วิธีการไล่ระดับสีมากกว่า metaheuristics อื่น ๆ ?
ในการฝึกอบรมโครงข่ายประสาทเทียมที่ลึกและตื้นเหตุใดจึงใช้วิธีการไล่ระดับสี (เช่นการไล่ระดับสีเนสโตฟนิวตัน - ราฟสัน) ที่ใช้กันโดยทั่วไป ฉันหมายถึงวิธีการต่าง ๆ เช่นการจำลองการหลอมการเพิ่มประสิทธิภาพของฝูงมด ฯลฯ ซึ่งได้รับการพัฒนาเพื่อหลีกเลี่ยงการติดอยู่ใน minima ท้องถิ่น

3
ความสำคัญของโหนดอคติในเครือข่ายประสาทเทียม
ฉันอยากรู้ว่าโหนด bias สำคัญต่อประสิทธิภาพของเครือข่ายประสาทยุคใหม่อย่างไร ฉันสามารถเข้าใจได้อย่างง่ายดายว่ามันมีความสำคัญในเครือข่ายตื้นที่มีตัวแปรอินพุตเพียงไม่กี่ตัว อย่างไรก็ตามโครงข่ายประสาทที่ทันสมัยเช่นในการเรียนรู้เชิงลึกมักจะมีตัวแปรอินพุตจำนวนมากในการตัดสินใจว่ามีการกระตุ้นเซลล์ประสาทบางอย่างหรือไม่ จะลบพวกเขาออกจากเพียงแค่เช่น LeNet5 หรือ ImageNet มีผลกระทบที่แท้จริงหรือไม่?

2
เลเยอร์ที่เชื่อมต่ออย่างเต็มที่ทำอะไรใน CNNs
ฉันเข้าใจเลเยอร์ convolutional และ pooling แต่ฉันไม่เห็นเหตุผลของเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ใน CNNs ทำไมเลเยอร์ก่อนหน้าไม่เชื่อมต่อโดยตรงกับเลเยอร์เอาท์พุท

4
เมื่อใดที่ฉันควรใช้โปรแกรมสร้างรหัสอัตโนมัติแบบแปรปรวนเมื่อเทียบกับโปรแกรมสร้างรหัสอัตโนมัติ?
ฉันเข้าใจโครงสร้างพื้นฐานของโปรแกรมสร้างรหัสอัตโนมัติแบบแปรปรวนและโปรแกรมสร้างรหัสอัตโนมัติปกติ (กำหนดขึ้นได้) และคณิตศาสตร์ที่อยู่เบื้องหลัง แต่เมื่อใดและทำไมฉันจึงต้องการโปรแกรมสร้างภาพอัตโนมัติประเภทหนึ่ง สิ่งที่ฉันคิดได้ก็คือการแจกแจงก่อนหน้าของตัวแปรแฝงของโปรแกรมสร้างตัวแปรอัตโนมัติช่วยให้เราสามารถตัวอย่างตัวแปรแฝงแล้วสร้างภาพใหม่ ความได้เปรียบอะไรจากการสุ่มอัตโนมัติของตัวสร้างความแปรปรวนมากกว่าตัวกำหนดค่าอัตโนมัติ

5
'การเรียนรู้การถ่ายโอน' กับ 'การปรับโดเมน' ต่างกันอย่างไร
มี 'ความแตกต่างระหว่างการเรียนรู้การถ่ายโอน' และ 'การปรับโดเมน' หรือไม่? ฉันไม่รู้เกี่ยวกับบริบท แต่ความเข้าใจของฉันคือเรามีชุดข้อมูล 1 และฝึกอบรมหลังจากนั้นเรามีชุดข้อมูลอีก 2 ชุดที่เราต้องการปรับโมเดลของเราโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่เริ่มต้นซึ่ง 'ถ่ายโอนการเรียนรู้' และ 'การปรับโดเมน' ช่วยแก้ปัญหานี้ได้ ตามข้อมูลของ Convolutional Neural Networks: โดย 'โอนการเรียนรู้' ฉันหมายถึง 'finetuning' [1] ในกรณีนี้[2]ไม่มีการสำรอง แต่ควรมีการยกเลิกการปรับโดเมน

2
ทำไมการรวมกำไรสูงสุดจึงเป็นสิ่งจำเป็นในโครงข่ายประสาทเทียม
เครือข่ายประสาทเทียมทั่วไปส่วนใหญ่มีชั้นการรวมกำไรเพื่อลดขนาดของคุณสมบัติเอาท์พุท ทำไมฉันถึงทำสิ่งเดียวกันไม่ได้โดยเพิ่มความก้าวหน้าของเลเยอร์ convolutional? อะไรทำให้เลเยอร์รวมกำไรจำเป็น?

3
แบบจำลอง (ของเล่น) ของโครงข่ายประสาทเทียม
อาจารย์ฟิสิกส์ของฉันในโรงเรียนระดับประถมศึกษาเช่นเดียวกับผู้ได้รับพระราชทานรางวัลไฟน์แมนมักจะนำเสนอสิ่งที่พวกเขาเรียกว่าแบบจำลองของเล่นเพื่อแสดงแนวคิดและวิธีการขั้นพื้นฐานในวิชาฟิสิกส์เช่นออสซิลเลเตอร์ออสซิลเลเตอร์, ลูกตุ้ม โมเดลของเล่นใดที่ใช้เพื่อแสดงแนวคิดพื้นฐานและวิธีการพื้นฐานที่ประยุกต์ใช้กับโครงข่ายประสาทเทียม (โปรดอ้างอิง) ด้วยแบบจำลองของเล่นฉันหมายถึงเครือข่ายที่เรียบง่ายและมีขนาดเล็กที่สุดที่ใช้กับปัญหาที่มีข้อ จำกัด สูงซึ่งวิธีการขั้นพื้นฐานสามารถนำเสนอและความเข้าใจของผู้ทดสอบและปรับปรุงผ่านการใช้งานจริงเช่นการสร้างรหัสพื้นฐาน การตรวจสอบคณิตศาสตร์พื้นฐานด้วยมือหรือได้รับความช่วยเหลือจากแอปคณิตศาสตร์สัญลักษณ์

2
เรียนรู้อย่างลึกซึ้งเทียบกับต้นไม้ตัดสินใจและวิธีการส่งเสริม
ฉันกำลังมองหาเอกสารหรือข้อความที่เปรียบเทียบและพูดคุย (ทั้งสังเกตุหรือในทางทฤษฎี): การเพิ่มและตัดสินใจอัลกอริธึมทรีของต้นไม้เช่นป่าสุ่มหรือAdaBoostและ GentleBoost นำไปใช้กับต้นไม้ตัดสินใจ กับ วิธีการเรียนรู้อย่างลึกซึ้งเช่นเครื่องจักร Boltzmann ที่ จำกัด , หน่วยความจำชั่วคราวลำดับชั้น , เครือข่ายประสาทเทียม , ฯลฯ มีใครรู้หรือไม่ว่าข้อความที่กล่าวถึงหรือเปรียบเทียบสองช่วงตึกของวิธีการ ML ในแง่ของความเร็วความแม่นยำหรือการลู่เข้า นอกจากนี้ฉันกำลังมองหาข้อความที่อธิบายหรือสรุปความแตกต่าง (เช่นข้อดีและข้อเสีย) ระหว่างแบบจำลองหรือวิธีการในบล็อกที่สอง คำแนะนำหรือคำตอบใด ๆ เกี่ยวกับการเปรียบเทียบดังกล่าวโดยตรงจะได้รับการชื่นชมอย่างมาก

2
มีการใช้วิธีการค้นหาสายในการเรียนรู้อย่างลึกซึ้งหรือไม่? ทำไมจะไม่ล่ะ?
บทเรียนออนไลน์มากมายพูดคุยเกี่ยวกับการไล่ระดับสีและเกือบทั้งหมดใช้ขนาดขั้นตอนคงที่ (อัตราการเรียนรู้ ) เหตุใดจึงไม่มีการใช้การค้นหาบรรทัด (เช่นการค้นหาบรรทัดย้อนรอยหรือการค้นหาเส้นตรง)αα\alpha

2
ควรมีการสุ่มตัวอย่างตัวอย่างการฝึกอบรมสำหรับโครงข่ายประสาทการฝึกอบรมขนาดเล็กแบบสุ่มโดยไม่ต้องเปลี่ยนใหม่หรือไม่?
เรากำหนดยุคเมื่อผ่านตัวอย่างการฝึกอบรมที่มีทั้งหมดและขนาดมินิ - แบทช์เป็นจำนวนตัวอย่างที่เราเฉลี่ยเพื่อค้นหาการอัปเดตสำหรับน้ำหนัก / อคติที่จำเป็นในการไล่ระดับสี คำถามของฉันคือเราควรวาดโดยไม่เปลี่ยนจากชุดตัวอย่างการฝึกอบรมเพื่อสร้าง mini-batch แต่ละชุดภายในยุค ฉันรู้สึกว่าเราควรหลีกเลี่ยงการแทนที่เพื่อให้แน่ใจว่าเรา "ดึงตัวอย่างทั้งหมด" เพื่อตอบสนองความต้องการในตอนท้ายของยุค แต่มีปัญหาในการหาคำตอบที่ชัดเจนไม่ทางใดก็ทางหนึ่ง ฉันได้ลองใช้ Google และอ่าน Ch 1 ในเครือข่ายประสาทและการเรียนรู้เชิงลึกของ Nielsen แต่ไม่พบคำตอบที่ชัดเจน ในข้อความนั้น Nielsen ไม่ได้ระบุว่าการสุ่มตัวอย่างจะทำได้โดยไม่ต้องเปลี่ยน แต่ดูเหมือนจะบอกเป็นนัยว่า การฝึกอบรมอย่างเป็นทางการที่ชัดเจนในยุคนี้สามารถดูได้ที่นี่หากต้องการ - /stats//a/141265/131630 แก้ไข: คำถามนี้ดูเหมือนกับฉัน แต่มันก็ไม่ชัดเจนว่าจะใช้ความจริงที่ว่าความเป็นเส้นตรงของความคาดหวังไม่แยแสกับความเป็นอิสระกับสถานการณ์นี้ - ควรสุ่มตัวอย่างเกิดขึ้นโดยมีหรือไม่มีการเปลี่ยน

4
เกี่ยวกับซีเอ็นเอ็นเมล็ดและความแปรปรวนของสเกล / การหมุน
ฉันมีคำถามสองสามข้อที่ทำให้ฉันสับสนเกี่ยวกับ CNN 1) ฟีเจอร์ที่สกัดโดยใช้ CNN คือค่าคงที่และการหมุน? 2) เมล็ดที่เราใช้ในการโน้มน้าวใจกับข้อมูลของเราได้ถูกกำหนดไว้แล้วในวรรณคดี? เมล็ดเหล่านี้เป็นอะไร? แตกต่างกันสำหรับทุกแอปพลิเคชันหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.