คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

1
การวิเคราะห์ความอ่อนไหวในโครงข่ายประสาทลึก
คำถามต่อไปนี้ได้ตอบแล้ว (การดึงความสำคัญของน้ำหนักจากเครือข่ายฟีดไปข้างหน้าหนึ่งชั้น ) ฉันกำลังมองหาการอนุมานเกี่ยวกับความเกี่ยวข้องของอินพุตในเครือข่ายประสาท เมื่อพิจารณาถึงเครือข่ายที่ลึกซึ่งการสร้างความสำคัญของอินพุตใหม่โดยการย้อนกลับผ่านชั้นจากโหนดผลลัพธ์ที่น่าสนใจอาจเป็นเรื่องยากหรือใช้เวลานาน ป้อนข้อมูลและพิจารณาวิธีการที่โหนด ouptut เปลี่ยนแปลงความสนใจ มีวิธีที่ยอมรับได้ของการวิเคราะห์ความไวในเครือข่ายประสาทหรือไม่? ฉันยินดีต้อนรับรหัส Python ให้ทำเช่นนั้นหากมี

3
เครือข่ายนิวรัล - ไบนารีเทียบกับอินพุตแบบไม่ต่อเนื่อง
มีเหตุผลที่ดีสำหรับการเลือกค่าไบนารี (0/1) มากกว่าค่าปกติหรือต่อเนื่องเช่น (1; 3) เป็นอินพุตสำหรับเครือข่าย feedforward สำหรับโหนดอินพุตทั้งหมด (มีหรือไม่มี backpropagation) แน่นอนฉันแค่พูดถึงอินพุตที่สามารถเปลี่ยนเป็นรูปแบบใดรูปแบบหนึ่งได้ เช่นเมื่อคุณมีตัวแปรที่สามารถรับค่าได้หลายค่าไม่ว่าจะป้อนค่าเหล่านั้นโดยตรงเป็นค่าของอินพุตโหนดหนึ่งโหนดหรือเป็นโหนดฐานสองสำหรับแต่ละค่าที่ไม่ต่อเนื่อง และสันนิษฐานว่าช่วงของค่าที่เป็นไปได้ที่จะเป็นเหมือนกันสำหรับทุกโหนดการป้อนข้อมูล ดูรูปเพื่อเป็นตัวอย่างของความเป็นไปได้ทั้งสองอย่าง ขณะทำการค้นคว้าในหัวข้อนี้ฉันไม่สามารถหาข้อเท็จจริงที่ยากเย็นแสนเข็ญได้ สำหรับฉันดูเหมือนว่า - มากหรือน้อย - มันจะเป็น "การทดลองและข้อผิดพลาด" ในท้ายที่สุด แน่นอนว่าโหนดฐานสองสำหรับค่าอินพุตไม่ต่อเนื่องหมายถึงโหนดเลเยอร์อินพุตเพิ่มเติม (และโหนดเลเยอร์ที่ซ่อนอยู่) แต่มันจะสร้างการจำแนกประเภทเอาท์พุทที่ดีกว่าการมีค่าเดียวกันในโหนดเดียวหรือไม่ เลเยอร์ที่ซ่อนอยู่? คุณเห็นด้วยหรือไม่ว่าเป็นเพียง "ลองและดู" หรือคุณมีความคิดเห็นอื่นเกี่ยวกับเรื่องนี้หรือไม่?

3
ทำไมเครือข่ายนิวรัลจึงต้องเลือกคุณสมบัติ / วิศวกรรม
โดยเฉพาะอย่างยิ่งในบริบทของการแข่งขัน kaggle ฉันได้สังเกตเห็นว่าประสิทธิภาพของโมเดลนั้นเกี่ยวกับการเลือกคุณสมบัติ / วิศวกรรม ในขณะที่ฉันสามารถเข้าใจได้อย่างสมบูรณ์ว่าเหตุใดในกรณีที่ต้องจัดการกับอัลกอริธึม ML / แบบเก่ามากกว่าเดิมฉันไม่เห็นว่าทำไมมันถึงเป็นเช่นนี้เมื่อใช้โครงข่ายประสาทเทียมลึก อ้างถึงหนังสือการเรียนรู้ลึก: การเรียนรู้เชิงลึกแก้ปัญหาศูนย์กลางนี้ในการเรียนรู้การเป็นตัวแทนโดยการแนะนำการเป็นตัวแทนที่แสดงในแง่ของการเป็นตัวแทนอื่น ๆ ที่ง่ายกว่าการเป็นตัวแทน การเรียนรู้อย่างลึกซึ้งทำให้คอมพิวเตอร์สามารถสร้างแนวคิดที่ซับซ้อนจากแนวคิดที่เรียบง่าย ดังนั้นฉันจึงคิดเสมอว่าถ้า "ข้อมูลอยู่ในข้อมูล" เครือข่ายประสาทที่มีความลึกและมีพารามิเตอร์เพียงพอจะรับคุณสมบัติที่เหมาะสมเมื่อใช้เวลาในการฝึกอบรมเพียงพอ

1
ความแตกต่างระหว่างตอนและยุคในการเรียนรู้ Q ลึกคืออะไร?
ฉันกำลังพยายามทำความเข้าใจกับกระดาษที่มีชื่อเสียง "Playing Atari with Deep Reinforcement Learning" ( pdf ) ผมไม่มีความชัดเจนเกี่ยวกับความแตกต่างระหว่างนั้นยุคและตอน ในขั้นตอนวิธีการ , ห่วงด้านนอกเป็นมากกว่าตอนในขณะที่ในรูปที่แกน x จะมีป้ายยุค ในบริบทของการเสริมแรงการเรียนรู้ฉันไม่ชัดเจนว่ายุคหมายถึงอะไร ยุคเป็นวงรอบนอกของลูปตอนหรือไม่ 111222

2
การเริ่มต้นน้ำหนักของ CNN ซาเวียร์
ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบันVar(W)Var(W)Var(W)ninninn_{in}noutnoutn_{out} มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional? ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)ดังนั้นขนาดเคอร์เนลคือการ5x5กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8แผนที่คุณลักษณะ ... จะถูก3พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3เพราะอินพุตเป็น5x5แพตช์สำหรับแต่ละช่องสี ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ

2
การจำแนกประเภทที่มีป้ายกำกับที่มีเสียงดัง?
ฉันพยายามฝึกอบรมเครือข่ายประสาทเทียมเพื่อจัดหมวดหมู่ แต่ป้ายกำกับที่ฉันมีเสียงค่อนข้างดัง (ประมาณ 30% ของป้ายกำกับผิด) การสูญเสียข้ามเอนโทรปีใช้งานได้จริง แต่ฉันสงสัยว่ามีทางเลือกอื่นที่มีประสิทธิภาพมากกว่าในกรณีนี้หรือไม่? หรือการสูญเสียข้ามเอนโทรปีเหมาะสมที่สุดหรือไม่ ฉันไม่แน่ใจ แต่ฉันคิดว่าค่อนข้าง "ตัด" การสูญเสียข้ามเอนโทรปีดังนั้นการสูญเสียจุดข้อมูลหนึ่งจุดจะไม่เกินขอบเขตบน ขอบคุณ! ปรับปรุง ตามคำตอบของลูคัสผมได้ต่อไปนี้สำหรับสัญญาซื้อขายล่วงหน้าสำหรับการส่งออกการทำนายและใส่ของฟังก์ชัน softmax Zดังนั้นฉันเดาว่ามันคือการเพิ่มเทอมที่ราบรื่นลงในอนุพันธ์ สัญญาซื้อขายล่วงหน้าสำหรับการสูญเสียข้ามเอนโทรปีดั้งเดิม: z 3yyyzzz Pฉัน=0.3/N+0.7YฉันL=-Σทีฉันเข้าสู่ระบบ(Pฉัน)∂ลิตร37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂l∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} ∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i โปรดแจ้งให้เราทราบหากฉันผิด ขอบคุณ! อัปเดต ฉันเพิ่งอ่านบทความโดย Googleที่ใช้สูตรเดียวกันกับคำตอบของลูคัส แต่มีการตีความที่แตกต่างกัน ในส่วนที่ 7 การทำให้เป็นมาตรฐานโมเดลผ่านการปรับให้เรียบของฉลาก อย่างไรก็ตามการสูญเสียเอนโทรปีนี้อาจทำให้เกิดปัญหาสองประการ …

3
ทฤษฎีการประมาณค่าแบบสากลสำหรับเครือข่ายแบบ Convolutional
ทฤษฎีบทการประมาณแบบสากลเป็นผลลัพธ์ที่มีชื่อเสียงสำหรับเครือข่ายประสาทโดยทั่วไประบุว่าภายใต้สมมติฐานบางฟังก์ชั่นสามารถประมาณได้อย่างสม่ำเสมอโดยเครือข่ายประสาทในความแม่นยำ มีผลลัพธ์ที่คล้ายคลึงกันที่ใช้กับเครือข่ายประสาทเทียมหรือไม่?

4
โครงข่ายประสาทเทียมสำหรับการถดถอยแบบหลายเอาต์พุต
ฉันมีชุดข้อมูลที่มีคอลัมน์อินพุต 34 คอลัมน์และ 8 คอลัมน์เอาต์พุต วิธีหนึ่งในการแก้ปัญหาคือใช้อินพุต 34 ตัวและสร้างโมเดลการถดถอยแบบแยกเฉพาะสำหรับแต่ละคอลัมน์เอาต์พุต ฉันสงสัยว่าปัญหานี้สามารถแก้ไขได้โดยใช้เพียงหนึ่งโมเดลโดยเฉพาะอย่างยิ่งการใช้ Neural Network ฉันใช้ตัวรับหลายเลเยอร์ แต่ต้องการโมเดลหลายตัวเช่นเดียวกับการถดถอยเชิงเส้น สามารถเรียงลำดับตามลำดับที่1การเรียนรู้เป็นทางเลือกได้หรือไม่? ฉันลองใช้ TensorFlow ดูเหมือนจะไม่สามารถจัดการค่าลอยได้ ข้อเสนอแนะใด ๆ ที่จะแก้ไขปัญหานี้โดยใช้รูปแบบรวมเป็นหนึ่งเดียวโดยเฉพาะโดยใช้โครงข่ายประสาทเทียมจะได้รับการชื่นชม Ilya Sutskever, Oriol Vinyals, & Quoc V. Le (2014) ลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาทเทียม ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท , 27. ( pdf )

2
Neural Nets: ตัวแปรร้อนแรงอย่างต่อเนื่องหรือไม่
ฉันมีข้อมูลดิบที่มีประมาณ 20 คอลัมน์ (20 คุณสมบัติ) สิบรายการเป็นข้อมูลต่อเนื่องและ 10 รายการจัดอยู่ในหมวดหมู่ ข้อมูลหมวดหมู่บางส่วนอาจมีค่าแตกต่างกัน 50 ค่า (สหรัฐอเมริกา) หลังจากที่ฉันประมวลผลข้อมูลล่วงหน้าแล้วคอลัมน์ 10 คอลัมน์ต่อเนื่องจะกลายเป็น 10 คอลัมน์ที่เตรียมไว้และค่า 10 หมวดหมู่กลายเป็นตัวแปร 200 ตัวที่เข้ารหัสร้อน ฉันกังวลว่าถ้าฉันใส่ฟีเจอร์ 200 + 10 = 210 เหล่านี้ทั้งหมดลงในตาข่ายประสาทดังนั้นฟีเจอร์ 200-one-hot (คอลัมน์หมวดหมู่ 10 คอลัมน์) ทั้งหมดจะมีอิทธิพลต่อคุณสมบัติ 10 ต่อเนื่องทั้งหมด บางทีวิธีการหนึ่งอาจจะเป็นการรวมกลุ่มหรือคอลัมน์ นี่เป็นข้อกังวลที่ถูกต้องและมีวิธีมาตรฐานในการจัดการกับปัญหานี้หรือไม่? (ฉันใช้ Keras แม้ว่าฉันไม่คิดว่ามันจะสำคัญมาก)

1
ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?
ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น? กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html และส่วนที่ฉันพยายามเข้าใจคือ: การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

2
ทำไมเครือข่ายประสาทถูกหลอกง่าย
ฉันได้อ่านเอกสารเกี่ยวกับการสร้างภาพด้วยตนเองเพื่อ "หลอก" เครือข่ายประสาท (ดูด้านล่าง) นี่เป็นเพราะเครือข่ายเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขเท่านั้นหรือไม่? หากเครือข่ายสามารถจำลองความน่าจะเป็นแบบร่วมกรณีดังกล่าวจะยังคงเกิดขึ้นได้หรือไม่p ( y , x )p(y|x)p(y|x)p(y|x)p(y,x)p(y,x)p(y,x) ฉันเดาภาพที่สร้างขึ้นเทียมดังกล่าวมีความแตกต่างจากข้อมูลการฝึกอบรมเพื่อให้พวกเขามีความน่าจะเป็นที่ต่ำ(x) ดังนั้นควรต่ำแม้ว่าจะสูงสำหรับภาพเหล่านี้p ( y , x ) p ( y | x )p(x)p(x)p(x)p(y,x)p(y,x)p(y,x)p(y|x)p(y|x)p(y|x) ปรับปรุง ฉันลองแบบจำลองทั่วไปแล้วมันกลับกลายเป็นว่าไม่ได้มีประโยชน์ดังนั้นฉันเดาว่านี่น่าจะเป็นผลมาจาก MLE? ฉันหมายถึงในกรณีที่ KL divergence ถูกใช้เป็นฟังก์ชันการสูญเสียค่าของโดยที่มีขนาดเล็กไม่ส่งผลกระทบต่อการสูญเสีย ดังนั้นสำหรับอิมเมจที่วางแผนไว้ซึ่งไม่ตรงกับค่าของสามารถกำหนดเองได้p d a t a ( x ) p d a t a p θpθ(x)pθ(x)p_{\theta}(x)pdata(x)pdata(x)p_{data}(x)pdatapdatap_{data}pθpθp_{\theta} ปรับปรุง ฉันพบบล็อกของ Andrej Karpathy …

2
ข้อมูลอินพุตที่สัมพันธ์กันนำไปสู่การ overfitting กับเครือข่ายประสาทเทียมหรือไม่
ในความคิดของฉันข้อมูลที่สัมพันธ์กันจะต้องนำไปสู่การ overfitting ในเครือข่ายประสาทเพราะเครือข่ายเรียนรู้ความสัมพันธ์เช่นเสียงในข้อมูล ถูกต้องหรือไม่

2
ประโยชน์ของการกระจายแบบปกติที่ถูกตัดทอนในการเริ่มต้นน้ำหนักในเครือข่ายประสาทคืออะไร
เมื่อเริ่มต้นน้ำหนักการเชื่อมต่อในเครือข่ายประสาท feedforward เป็นสิ่งสำคัญที่จะเริ่มต้นพวกเขาแบบสุ่มเพื่อหลีกเลี่ยง symmetries ใด ๆ ที่อัลกอริทึมการเรียนรู้จะไม่สามารถทำลาย คำแนะนำที่ฉันได้เห็นในสถานที่ต่าง ๆ (เช่นในการสอน MNIST ของTensorFlow ) คือการใช้การแจกแจงแบบปกติที่ถูกตัดทอนโดยใช้ค่าเบี่ยงเบนมาตรฐานของโดยที่คือจำนวนอินพุตของ รับชั้นเซลล์ประสาท1ยังไม่มีข้อความ--√1N\dfrac{1}{\sqrt{N}}ยังไม่มีข้อความNN ฉันเชื่อว่าสูตรค่าเบี่ยงเบนมาตรฐานช่วยให้มั่นใจว่าการไล่ระดับสีที่ backpropagated ไม่ละลายหรือขยายเร็วเกินไป แต่ฉันไม่รู้ว่าทำไมเราจึงใช้การแจกแจงแบบปกติที่ถูกตัดทอนเมื่อเทียบกับการแจกแจงแบบปกติทั่วไป มันคือการหลีกเลี่ยงน้ำหนักผิดปกติที่หายาก?

1
วิธีฝึกเลเยอร์ LSTM ของเครือข่ายลึก
ฉันใช้เครือข่าย lstm และ feed-forward เพื่อจำแนกข้อความ ฉันแปลงข้อความเป็นเวกเตอร์ที่ร้อนแรงหนึ่งรายการและป้อนให้แต่ละรายการเป็น lstm เพื่อที่ฉันจะสามารถสรุปได้ว่าเป็นการแทนเพียงครั้งเดียว จากนั้นฉันก็ป้อนไปยังเครือข่ายอื่น แต่ฉันจะฝึก lstm ได้อย่างไร ฉันต้องการจัดลำดับข้อความ - ฉันควรป้อนโดยไม่ต้องฝึกอบรมหรือไม่? ฉันแค่ต้องการแสดงข้อความเป็นรายการเดียวที่ฉันสามารถป้อนลงในเลเยอร์อินพุตของตัวแยกประเภท ฉันขอขอบคุณคำแนะนำใด ๆ อย่างมาก! ปรับปรุง: ดังนั้นฉันมี lstm และลักษณนาม ฉันเอาเอาท์พุตทั้งหมดของ lstm และ mean-pool พวกมันจากนั้นฉันป้อนค่าเฉลี่ยนั้นลงในลักษณ ปัญหาของฉันคือฉันไม่รู้วิธีฝึก lstm หรือตัวจําแนก ฉันรู้ว่าอินพุตควรเป็นอะไรสำหรับ lstm และเอาต์พุตของตัวแยกประเภทที่ควรใช้สำหรับอินพุตนั้น เนื่องจากเป็นเครือข่ายสองเครือข่ายที่เพิ่งเปิดใช้งานตามลำดับฉันจำเป็นต้องทราบและไม่ทราบว่าอุดมคติของเอาต์พุตควรเป็น lstm ซึ่งจะเป็นอินพุตสำหรับตัวแยกประเภท มีวิธีทำเช่นนี้หรือไม่?

3
โครงข่ายประสาทเทียมแบบ Convolutional ใช้วิธีการแบบ Convolitis แทนการคูณเมทริกซ์อย่างไร?
ฉันกำลังอ่านหนังสือของ Yoshua Bengio เกี่ยวกับการเรียนรู้ที่ลึกซึ้งและมันบอกไว้ในหน้า 224: เครือข่าย Convolutional เป็นเพียงเครือข่ายประสาทที่ใช้ convolution แทนการคูณเมทริกซ์ทั่วไปอย่างน้อยหนึ่งชั้น อย่างไรก็ตามฉันไม่แน่ใจ 100% ของวิธีการ "แทนที่การคูณเมทริกซ์ด้วยการโน้มน้าว" ในแง่ที่แม่นยำทางคณิตศาสตร์ สิ่งที่ฉันสนใจจริงๆคือการกำหนดสิ่งนี้สำหรับเวกเตอร์อินพุตใน 1D (เช่นใน ) ดังนั้นฉันจะไม่ป้อนข้อมูลเป็นภาพและพยายามหลีกเลี่ยงการบิดในแบบ 2Dx ∈ Rdx∈Rdx \in \mathbb{R}^d ตัวอย่างเช่นในเครือข่ายประสาท "ปกติ" การดำเนินการและรูปแบบของผู้ให้บริการอาหารสามารถแสดงให้เห็นได้อย่างชัดเจนดังที่บันทึกไว้ในบันทึกของ Andrew Ng: W( l )a( l )= z( l + 1 )W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} ฉ( z( l + 1 )) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.