คำถามติดแท็ก conv-neural-network

Convolutional Neural Networks เป็นประเภทของโครงข่ายประสาทที่มีเพียงชุดย่อยของการเชื่อมต่อที่เป็นไปได้ระหว่างชั้นที่มีอยู่เพื่อสร้างภูมิภาคที่ทับซ้อนกัน พวกเขามักใช้สำหรับงานภาพ

1
อะไรคือคำอธิบายของตัวอย่างว่าทำไมการทำแบทช์ให้เป็นมาตรฐานต้องทำด้วยความระมัดระวัง
ฉันกำลังอ่านเอกสารการทำให้เป็นมาตรฐานของแบทช์ [1] และมันมีส่วนหนึ่งที่ต้องผ่านตัวอย่างพยายามที่จะแสดงว่าทำไมการทำให้เป็นมาตรฐานต้องทำอย่างระมัดระวัง ฉันอย่างจริงใจไม่เข้าใจวิธีการทำงานของตัวอย่างและฉันอยากรู้อยากเห็นจริง ๆ เข้าใจพวกเขากระดาษมากที่สุดเท่าที่จะทำได้ ก่อนอื่นให้ฉันพูดที่นี่: ตัวอย่างเช่นพิจารณาชั้นด้วยการป้อนข้อมูลที่ยูที่เพิ่มเรียนรู้อคติ B และ normalizes ที่ x = U + B , x = { x 1 . . N }คือชุดของค่าของxในชุดฝึกอบรมและE [ x ] = ∑ N i = 1 x ix^= x - E[ x ]x^=x-E[x]\hat{x} = x − E[x]x = u + …

1
การสูญเสียน้ำหนักคืออะไร?
ฉันเริ่มต้นด้วยการเรียนรู้อย่างลึกซึ้งและฉันมีคำถามที่คำตอบที่ฉันไม่สามารถหาได้บางทีฉันอาจค้นหาไม่ถูกต้อง ฉันได้เห็นคำตอบนี้แล้ว แต่ก็ยังไม่ชัดเจนว่าการลดลงของน้ำหนักคืออะไรและเกี่ยวข้องกับฟังก์ชั่นลดน้ำหนักอย่างไร

2
ตัวกรองและแผนที่การเปิดใช้งานเชื่อมต่อในเครือข่ายประสาทเทียมอย่างไร
แผนที่เปิดใช้งานในเลเยอร์ที่กำหนดเชื่อมต่อกับตัวกรองสำหรับเลเยอร์นั้นอย่างไร ฉันไม่ได้ถามเกี่ยวกับวิธีการดำเนินการ convolutional ระหว่างตัวกรองและแผนที่เปิดใช้งานฉันกำลังถามเกี่ยวกับประเภทของการเชื่อมต่อที่ทั้งสองมี ตัวอย่างเช่นสมมติว่าคุณต้องการเชื่อมต่อเต็มรูปแบบ คุณมีตัวกรองจำนวน f และจำนวนแผนที่เปิดใช้งาน n ในเลเยอร์ที่กำหนด คุณได้รับแผนที่การเปิดใช้งานจำนวน f * n ในเลเยอร์ถัดไปและจำนวนแผนที่การเปิดใช้งานจะเพิ่มขึ้นในแต่ละเลเยอร์ใหม่ นี่คือวิธีที่ฉันคิดเอาไว้ หรือคุณอาจบอกว่าตัวกรองแต่ละตัวเชื่อมต่อกับแผนที่เปิดใช้งานเพียงแผนที่เดียว ในกรณีนี้จำนวนตัวกรองจะเท่ากับจำนวนของแผนที่เปิดใช้งานและทุกชั้นจะมีจำนวนตัวกรองและแผนที่เปิดใช้งานเท่ากัน นี่คือสถาปัตยกรรมปัจจุบันของเครือข่ายของฉันและดูเหมือนว่าจะเรียนรู้ได้ดี แหล่งที่มาหลักของความสับสนของฉันคือดูไดอะแกรมของ convnets ที่ฉันเห็นทางออนไลน์ บางส่วนมี "การเชื่อมต่อแบบเต็ม" ระหว่างตัวกรองและแผนที่เปิดใช้งานเช่นนี้ - ในเลเยอร์แรกคุณมีแผนที่เปิดใช้งาน 4 แห่งและตัวกรอง 2 ตัวน่าจะเป็น แต่ละแผนที่มีความเชื่อมั่นกับตัวกรองแต่ละตัวทำให้เกิด 8 แผนที่ในเลเยอร์ถัดไป ดูดี. แต่ที่นี่เรามีสถาปัตยกรรมที่ไม่สมเหตุสมผลสำหรับฉัน - คุณจะไปจากแผนที่ 6 แห่งในชั้นแรกถึง 16 ในอันดับที่ 2 ได้อย่างไร ฉันสามารถคิดถึงวิธีรับแผนที่ 16 จาก 6 แต่พวกเขาจะไม่มีเหตุผลทำ

1
ฝึกอบรมโครงข่ายประสาทเทียม
ฉันกำลังทำงานกับซอฟต์แวร์จดจำใบหน้าที่ใช้เครือข่ายประสาทเทียมเพื่อจดจำใบหน้า จากการอ่านของฉันฉันได้รวบรวมว่าเครือข่ายประสาทเทียมได้แบ่งปันน้ำหนักเพื่อประหยัดเวลาในการฝึก แต่วิธีหนึ่งจะปรับการกระจายกลับเพื่อให้สามารถใช้ในโครงข่ายประสาทเทียม ในการแพร่กระจายย้อนกลับหนึ่งใช้สูตรที่คล้ายกับสิ่งนี้ในการฝึกอบรมน้ำหนัก New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta อย่างไรก็ตามเนื่องจากในเครือข่ายประสาทเทียมน้ำหนักที่ใช้ร่วมกันจึงมีการใช้น้ำหนักแต่ละเซลล์ร่วมกับเซลล์ประสาทหลายตัวดังนั้นฉันจะตัดสินใจได้อย่างไรว่าOutput of InputNeuronจะใช้อุปกรณ์ใด กล่าวอีกนัยหนึ่งเนื่องจากน้ำหนักถูกแชร์ฉันจะตัดสินใจได้อย่างไรว่าต้องเปลี่ยนน้ำหนักด้วย

2
จะไม่กรองหลายตัวในเลเยอร์ convolutional เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรม?
จากสิ่งที่ฉันได้เรียนรู้เราใช้ตัวกรองหลายตัวใน Conv Layer ของ CNN เพื่อเรียนรู้ตัวตรวจจับคุณสมบัติที่แตกต่างกัน แต่เนื่องจากตัวกรองเหล่านี้มีการใช้งานคล้ายกัน (เช่นเลื่อนและคูณกับพื้นที่ของอินพุต) พวกเขาจะไม่ได้เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรมหรือไม่ ดังนั้นการใช้ตัวกรองหลายรายการจะซ้ำซ้อน?

3
CIFAR-10 ไม่สามารถรับความแม่นยำสูงกว่า 60% ได้ Keras พร้อมแบ็กเอนด์ Tensorflow [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว การฝึกอบรมหลังจาก 15 epochs บนชุดข้อมูล CIFAR-10 ดูเหมือนว่าจะทำให้การสูญเสียการตรวจสอบความถูกต้องไม่ลดลงอีกต่อไปโดยประมาณ 1.4 (มีความแม่นยำในการตรวจสอบ 60%) ฉันได้สับชุดฝึกอบรมแล้วหารด้วย 255 และนำเข้าเป็น float32 ฉันได้ลองสถาปัตยกรรมจำนวนมากทั้งที่มีและไม่มีการออกกลางคันในชั้น Conv2D และดูเหมือนว่าจะไม่มีอะไรทำงาน สถาปัตยกรรมเดียวกันมีความแม่นยำถึง 99.7% สำหรับชุดทดสอบสำหรับ MNIST โปรดดูสถาปัตยกรรมด้านล่าง: (หมายเหตุ: ฉันได้ลองเพิ่มการออกกลางคันและเพิ่ม / ลดอัตราการเรียนรู้ของเครื่องมือเพิ่มประสิทธิภาพ Adam เพื่อป้องกันการ overfitting ทั้งหมดนี้เป็นการป้องกันการ overfitting แต่ด้วยชุดฝึกอบรมและการทดสอบที่มีความแม่นยำต่ำประมาณ 60%) with tf.device('/gpu:0'): tf.placeholder(tf.float32, shape=(None, 20, 64)) #placeholder initialized (pick /cpu:0 or /gpu:0) …

2
เครือข่ายประสาทเทียมสามารถใช้เป็นภาพอินพุตที่มีขนาดต่างกันได้หรือไม่?
ฉันกำลังทำงานบนเครือข่ายการสนทนาเพื่อการจดจำรูปภาพและฉันสงสัยว่าฉันสามารถใส่ภาพที่มีขนาดต่างกันได้หรือไม่ ในโครงการนี้: https://github.com/harvardnlp/im2markup พวกเขาพูดว่า: and group images of similar sizes to facilitate batching ดังนั้นแม้หลังจากประมวลผลล่วงหน้าภาพยังคงมีขนาดแตกต่างกันซึ่งเหมาะสมเนื่องจากไม่ตัดบางส่วนของสูตร มีปัญหาในการใช้ขนาดที่แตกต่างกันหรือไม่? หากมีฉันจะแก้ไขปัญหานี้ได้อย่างไร (เนื่องจากสูตรจะไม่พอดีกับขนาดภาพเดียวกัน) การป้อนข้อมูลใด ๆ จะได้รับการชื่นชมมาก

4
ความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง
ในแง่ของความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้เชิงลึกเราสามารถแสดงรายการได้หลายรายการเช่นมีเลเยอร์เพิ่มขึ้นชุดข้อมูลขนาดใหญ่ฮาร์ดแวร์คอมพิวเตอร์ทรงพลังเพื่อให้การฝึกอบรมมีความซับซ้อน นอกจากนี้มีคำอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างระหว่าง NN และ DL หรือไม่?

1
เครือข่ายประสาทมักใช้เวลาสักครู่เพื่อ“ เริ่มเล่น” ระหว่างการฝึกซ้อมหรือไม่?
ฉันพยายามที่จะฝึกอบรมเครือข่ายประสาทลึกเพื่อจัดหมวดหมู่โดยใช้การขยายพันธุ์กลับ โดยเฉพาะฉันใช้เครือข่ายประสาทเทียมสำหรับการจำแนกภาพโดยใช้ห้องสมุด Tensor Flow ในระหว่างการฝึกฉันพบกับพฤติกรรมแปลก ๆ และฉันแค่สงสัยว่ามันเป็นเรื่องปกติหรือว่าฉันอาจจะทำอะไรผิด ดังนั้นเครือข่ายประสาทเทียมของฉันมี 8 ชั้น (5 convolutional, 3 เชื่อมต่อเต็ม) น้ำหนักและอคติทั้งหมดจะเริ่มต้นด้วยตัวเลขสุ่มขนาดเล็ก จากนั้นฉันตั้งขนาดขั้นตอนและดำเนินการฝึกอบรมด้วยชุดเล็กโดยใช้ Adam Optimizer ของ Tensor Flow พฤติกรรมแปลก ๆ ที่ฉันกำลังพูดถึงคือประมาณ 10 ลูปแรกจากข้อมูลการฝึกอบรมของฉันการสูญเสียการฝึกอบรมโดยทั่วไปไม่ลดลง น้ำหนักกำลังได้รับการปรับปรุง แต่การสูญเสียการฝึกอบรมอยู่ที่ประมาณค่าเดียวกันบางครั้งจะเพิ่มขึ้นและบางครั้งจะลดลงระหว่างชุดมินิ มันคงอยู่แบบนี้ซักพักแล้วและฉันก็มักจะได้รับความประทับใจว่าการสูญเสียจะไม่ลดลง ทันใดนั้นการสูญเสียการฝึกอบรมก็ลดลงอย่างรวดเร็ว ตัวอย่างเช่นภายในประมาณ 10 ลูปผ่านข้อมูลการฝึกอบรมความแม่นยำในการฝึกอบรมจะอยู่ที่ประมาณ 20% ถึงประมาณ 80% จากนั้นเป็นต้นมาทุกอย่างก็จบลงอย่างบรรจบกัน สิ่งเดียวกันเกิดขึ้นทุกครั้งที่ฉันเรียกใช้ขั้นตอนการฝึกอบรมตั้งแต่เริ่มต้นและด้านล่างเป็นกราฟที่แสดงตัวอย่างการวิ่งหนึ่งครั้ง ดังนั้นสิ่งที่ฉันสงสัยคือว่านี่เป็นพฤติกรรมปกติด้วยการฝึกอบรมโครงข่ายประสาทเทียมลึกหรือไม่ หรือเป็นไปได้ว่ามีบางอย่างที่ฉันทำผิดซึ่งทำให้เกิดความล่าช้านี้ ขอบคุณมาก ๆ!

1
วิธีการกำหนดจำนวนของผู้ประกอบการ convolutional ในซีเอ็นเอ็น?
ในงานด้านการมองเห็นคอมพิวเตอร์เช่นการจำแนกประเภทวัตถุด้วย Convolutional Neural Networks (CNN) เครือข่ายจะให้ประสิทธิภาพที่น่าดึงดูด แต่ฉันไม่แน่ใจว่าจะตั้งค่าพารามิเตอร์ในเลเยอร์ convolutional ได้อย่างไร ตัวอย่างเช่นรูปภาพระดับสีเทา ( 480x480) เลเยอร์ convolutional แรกอาจใช้โอเปอเรเตอร์ convolutional เช่น11x11x10ซึ่งหมายเลข10หมายถึงจำนวนของโอเปอเรเตอร์ convolutional คำถามคือวิธีการกำหนดจำนวนผู้ประกอบการ convolutional ใน CNN?

2
WaveNet ไม่ใช่การโน้มน้าวใจจริง ๆ ใช่ไหม?
ในกระดาษWaveNetเมื่อเร็ว ๆ นี้ผู้เขียนอ้างถึงรูปแบบของพวกเขาว่ามีชั้นซ้อนทับของความเชื่อมั่นที่ขยาย พวกเขายังจัดทำแผนภูมิต่อไปนี้เพื่ออธิบายความแตกต่างระหว่างการโน้มน้าวแบบ 'ปกติ' และการโน้มน้าวแบบขยาย Convolutions ทั่วไปดูเหมือนว่า นี่คือ convolutions ที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 1 ซ้ำเป็น 4 เลเยอร์ จากนั้นพวกเขาแสดงสถาปัตยกรรมที่ใช้โดยแบบจำลองของพวกเขาซึ่งพวกเขาเรียกว่า convolutions ที่ขยาย ดูเหมือนว่านี้ พวกเขาบอกว่าแต่ละชั้นมีการเจือจางที่เพิ่มขึ้นของ (1, 2, 4, 8) แต่สำหรับฉันแล้วนี่ดูเหมือนการบิดปกติที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 2 ซ้ำเป็น 4 เลเยอร์ ตามที่ฉันเข้าใจแล้วการบิดแบบขยายที่มีขนาดตัวกรองเป็น 2 ก้าว 1 และเพิ่มการเจือจางที่ (1, 2, 4, 8) จะมีลักษณะเช่นนี้ ในไดอะแกรม WaveNet ไม่มีตัวกรองใด …

3
ฟังก์ชั่นการสูญเสียสำหรับการแบ่งส่วนความหมาย
ขอโทษสำหรับการใช้ผิดข้อกำหนดทางเทคนิค ฉันกำลังทำงานในโครงการของการแบ่งส่วนความหมายผ่านเครือข่ายประสาทเทียม (CNNs); พยายามใช้สถาปัตยกรรมประเภท Encoder-Decoder ดังนั้นเอาต์พุตจะมีขนาดเท่ากับอินพุต คุณออกแบบฉลากอย่างไร สิ่งที่ฟังก์ชั่นการสูญเสียควรใช้? โดยเฉพาะอย่างยิ่งในสถานการณ์ของความไม่สมดุลของคลาสหนัก (แต่อัตราส่วนระหว่างคลาสเป็นตัวแปรจากรูปภาพต่อภาพ) ปัญหาเกี่ยวข้องกับสองคลาส (วัตถุที่น่าสนใจและพื้นหลัง) ฉันกำลังใช้ Keras กับแบ็กเอนด์เทนโฟลว์ จนถึงตอนนี้ฉันกำลังออกแบบเอาท์พุทที่คาดหวังว่าจะมีขนาดเท่ากับภาพอินพุตโดยใช้การติดฉลากแบบพิกเซล เลเยอร์สุดท้ายของแบบจำลองมีการเปิดใช้งาน softmax อย่างใดอย่างหนึ่ง (สำหรับ 2 คลาส) หรือการเปิดใช้งาน sigmoid (เพื่อแสดงความน่าจะเป็นที่พิกเซลนั้นอยู่ในคลาสของออบเจ็กต์) ฉันมีปัญหาในการออกแบบฟังก์ชั่นวัตถุประสงค์ที่เหมาะสมสำหรับงานประเภท: function(y_pred,y_true), ในข้อตกลงกับKeras โปรดพยายามระบุขนาดของเทนเซอร์ที่เกี่ยวข้อง (อินพุต / เอาท์พุตของโมเดล) ความคิดและข้อเสนอแนะใด ๆ ที่ชื่นชมมาก ขอบคุณ !

1
มีข้อมูลมากน้อยเพียงใดสำหรับการเรียนรู้เชิงลึก
ฉันกำลังเรียนรู้เกี่ยวกับการเรียนรู้เชิงลึก (โดยเฉพาะอย่างยิ่ง CNNs) และวิธีการที่ต้องใช้ข้อมูลจำนวนมากเพื่อป้องกันไม่ให้ข้อมูลมากเกินไป อย่างไรก็ตามฉันยังได้รับแจ้งว่ามีความจุสูงกว่า / พารามิเตอร์เพิ่มเติมที่แบบจำลองมีข้อมูลเพิ่มเติมจำเป็นต้องมีเพื่อป้องกันการ overfitting ดังนั้นคำถามของฉันคือ: ทำไมคุณไม่สามารถลดจำนวนเลเยอร์ / โหนดต่อเลเยอร์ในเครือข่ายนิวรัลลึกและทำให้มันทำงานกับข้อมูลจำนวนน้อยลงได้ มี "จำนวนพารามิเตอร์ขั้นต่ำ" ขั้นพื้นฐานหรือไม่ที่เครือข่ายประสาทต้องการจนกว่าจะถึง "kicks" ด้านล่างของเลเยอร์จำนวนหนึ่งดูเหมือนว่าเครือข่ายประสาทจะไม่ทำงานเช่นเดียวกับคุณสมบัติที่เขียนด้วยมือ

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
รูปภาพที่ไม่ใช่สี่เหลี่ยมสำหรับการจำแนกภาพ
ฉันมีชุดภาพกว้าง: 1760x128 ฉันได้อ่านทั้งแบบฝึกหัดและหนังสือแล้วและส่วนใหญ่ระบุว่าภาพอินพุตควรเป็นสี่เหลี่ยมจัตุรัสและหากไม่เป็นเช่นนั้นภาพเหล่านั้นจะถูกแปลงเป็นรูปสี่เหลี่ยมจัตุรัสเพื่อฝึกฝนในซีเอ็นเอ็น มีวิธีการฝึกอบรม cnn สำหรับภาพที่ไม่ใช่ตารางสี่เหลี่ยมหรือฉันควรมองหาตัวเลือกอื่นเป็นช่องว่างภายใน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.