คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

2
Neural Network: สำหรับการจำแนกประเภท Binary ให้ใช้ 1 หรือ 2 เซลล์ประสาทเอาท์พุท?
สมมติว่าฉันต้องการจำแนกไบนารี (บางสิ่งเป็นของคลาส A หรือคลาส B) มีความเป็นไปได้ที่จะทำสิ่งนี้ในเลเยอร์การส่งออกของโครงข่ายประสาทเทียม: ใช้ 1 โหนดเอาต์พุต เอาต์พุต 0 (<0.5) ถือเป็นคลาส A และ 1 (> = 0.5) ถือเป็นคลาส B (ในกรณีที่ sigmoid) ใช้ 2 โหนดเอาต์พุต อินพุตเป็นของคลาสของโหนดที่มีค่า / ความน่าจะเป็นสูงสุด (argmax) มีเอกสารใดบ้างที่เขียนเกี่ยวกับเรื่องนี้หรือไม่? คำหลักที่เฉพาะเจาะจงในการค้นหาคืออะไร คำถามนี้ถูกถามมาก่อนในเว็บไซต์นี้เช่นดูลิงค์นี้โดยไม่มีคำตอบจริง ฉันต้องเลือก (วิทยานิพนธ์ระดับปริญญาโท) ดังนั้นฉันต้องการได้รับข้อมูลเชิงลึกเกี่ยวกับข้อดีข้อเสียของแต่ละวิธี

1
การสูญเสียการฝึกอบรมลดลงเรื่อย ๆ เกิดอะไรขึ้น?
การสูญเสียการฝึกอบรมของฉันลดลงจากนั้นขึ้นอีกครั้ง มันแปลกมาก การสูญเสียการตรวจสอบข้ามติดตามการสูญเสียการฝึกอบรม เกิดอะไรขึ้น? ฉันมี LSTMS สองกองซ้อนกันดังต่อไปนี้ (บน Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') ฉันฝึกฝนมาเป็น 100 Epochs: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) อบรมเกี่ยวกับตัวอย่าง 127803 ตรวจสอบตัวอย่าง 31951 และนั่นคือลักษณะของการสูญเสีย:

4
โครงข่ายประสาทเทียมที่มีการเชื่อมต่อแบบข้ามชั้น
ฉันสนใจในการถดถอยกับเครือข่ายประสาท โครงข่ายประสาทเทียมที่ไม่มีโหนดซ่อนเร้น + การเชื่อมต่อข้ามชั้นเป็นโมเดลเชิงเส้น สิ่งที่เกี่ยวกับมุ้งประสาทเดียวกัน แต่มีโหนดที่ซ่อนอยู่? ฉันสงสัยว่าสิ่งที่จะเป็นบทบาทของการเชื่อมต่อข้ามชั้น? โดยสังเขปฉันจะบอกว่าถ้าคุณรวมการเชื่อมต่อข้ามชั้นแล้วรูปแบบสุดท้ายจะเป็นผลรวมของแบบจำลองเชิงเส้น + บางส่วนที่ไม่ใช่เชิงเส้น มีข้อได้เปรียบหรือเสียเปรียบในการเพิ่มการเชื่อมต่อข้ามชั้นไปยังตาข่ายประสาทหรือไม่?

8
ทำไมจึงเป็นสิ่งสำคัญที่จะมีทฤษฎีหลักการและคณิตศาสตร์สำหรับการเรียนรู้ของเครื่อง?
ฉันสงสัยอยู่แล้วว่าทำไมการเรียนรู้ด้วยเครื่อง / ทฤษฎีอย่างมีเหตุผลจึงสำคัญ? จากมุมมองส่วนบุคคลในฐานะมนุษย์ฉันสามารถเข้าใจได้ว่าทำไมการเรียนรู้ด้วยเครื่องแบบแยกส่วนจึงสำคัญ: มนุษย์ชอบทำความเข้าใจกับสิ่งที่พวกเขากำลังทำเราค้นหาความงามและความพึงพอใจต่อความเข้าใจ จากมุมมองทางทฤษฎีคณิตศาสตร์ก็สนุก เมื่อมีหลักการที่เป็นแนวทางในการออกแบบสิ่งต่าง ๆ มีเวลาน้อยลงในการคาดเดาแบบสุ่มการลองผิดลองถูกและผิดพลาด ถ้าเราเข้าใจพูดได้ว่าโครงข่ายประสาททำงานอย่างไรเราอาจใช้เวลาที่ดีกว่าในการออกแบบพวกมันมากกว่าการลองผิดลองถูกจำนวนมหาศาล อีกไม่นานหากหลักการมีความชัดเจนและทฤษฎีก็ชัดเจนเช่นกันก็ควรจะมีความโปร่งใสมากขึ้นในระบบ สิ่งนี้เป็นสิ่งที่ดีเพราะถ้าเราเข้าใจว่าระบบทำงานอะไรอยู่ AI ก็มีความเสี่ยงที่ผู้คนจำนวนมากจะหายตัวไปในทันที หลักการดูเหมือนจะเป็นวิธีที่กระชับเพื่อสรุปโครงสร้างที่สำคัญที่โลกอาจมีและเมื่อต้องใช้เครื่องมือมากกว่าที่อื่น อย่างไรก็ตามเหตุผลเหล่านี้มีความแข็งแกร่งเพียงพอที่จะพิสูจน์การศึกษาเชิงทฤษฎีที่เข้มข้นของการเรียนรู้ด้วยเครื่องได้หรือไม่? หนึ่งในข้อวิจารณ์ที่ใหญ่ที่สุดของทฤษฎีก็คือเพราะมันยากที่จะทำพวกเขามักจะจบลงด้วยการศึกษากรณีที่ถูก จำกัด มากหรือข้อสันนิษฐานที่ต้องนำมาเป็นหลักทำให้ผลลัพธ์ไร้ประโยชน์ ฉันคิดว่าฉันได้ยินเรื่องนี้อีกครั้งในการพูดคุยที่ MIT โดยผู้สร้าง Tor การวิพากษ์วิจารณ์บางส่วนของทอร์ที่เขาเคยได้ยินเป็นข้อโต้แย้งเชิงทฤษฎี แต่โดยพื้นฐานแล้วผู้คนไม่สามารถพิสูจน์สิ่งต่าง ๆ เกี่ยวกับสถานการณ์จริงของชีวิตจริงเพราะพวกเขาซับซ้อนมาก ในยุคใหม่นี้ด้วยพลังการประมวลผลและข้อมูลที่มากมายเราสามารถทดสอบโมเดลของเราด้วยชุดข้อมูลจริงและชุดทดสอบ เราสามารถดูว่าสิ่งต่าง ๆ ทำงานโดยใช้ประสบการณ์นิยม ถ้าเราสามารถบรรลุ AGI หรือระบบที่ทำงานกับวิศวกรรมและประสบการณ์นิยมได้มันก็ยังคุ้มค่าที่จะทำตามหลักการและเหตุผลทางทฤษฎีสำหรับการเรียนรู้ของเครื่องจักรโดยเฉพาะอย่างยิ่งเมื่อขอบเขตเชิงปริมาณนั้นยากที่จะบรรลุ แต่สัญชาตญาณและคำตอบเชิงคุณภาพ บรรลุด้วยวิธีการขับเคลื่อนข้อมูล? วิธีการนี้ไม่สามารถใช้ได้ในสถิติแบบดั้งเดิมซึ่งเป็นเหตุผลที่ฉันคิดว่าทฤษฎีมีความสำคัญในช่วงเวลาเหล่านั้นเพราะคณิตศาสตร์เป็นวิธีเดียวที่เราจะมั่นใจได้ว่าสิ่งต่าง ๆ ถูกต้องหรือว่าพวกเขาทำงานจริงอย่างที่เราคิด ฉันชอบทฤษฎีความคิดส่วนตัวและความคิดส่วนตัวอยู่เสมอ แต่ด้วยพลังของความสามารถในการทดลองกับข้อมูลจริงและพลังการประมวลผลทำให้ฉันสงสัยว่าความพยายามในระดับสูง ทฤษฎีและหลักการของการเรียนรู้ของเครื่องเป็นสิ่งสำคัญจริง ๆ หรือไม่?

5
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทเทียมและการเรียนรู้อย่างลึกซึ้ง?
ฉันต้องการใช้การเรียนรู้อย่างลึกซึ้งในโครงการของฉัน ฉันได้อ่านบทความสองสามฉบับและมีคำถามเกิดขึ้นกับฉัน: มีความแตกต่างระหว่างโครงข่ายประสาทเทียมกับการเรียนรู้ลึกหรือไม่? สิ่งเหล่านี้เหมือนกันหรือมีความแตกต่างที่สำคัญและสิ่งใดดีกว่ากัน

6
โครงข่ายใยประสาทรับรู้ภาพได้อย่างไร
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 7 ปีที่ผ่านมา ฉันพยายามที่จะเรียนรู้ว่า Neural Network ทำงานอย่างไรกับการจดจำภาพ ฉันได้เห็นตัวอย่างและสับสนมากขึ้น ในตัวอย่างของการจดจำตัวอักษรของภาพขนาด 20x20 ค่าของแต่ละพิกเซลจะกลายเป็นเลเยอร์อินพุต ดังนั้น 400 เซลล์ประสาท จากนั้นเป็นชั้นที่ซ่อนอยู่ของเซลล์ประสาทและเซลล์ประสาทเอาท์พุท 26 จากนั้นฝึกเครือข่ายและใช้งานได้ไม่สมบูรณ์แบบ สิ่งที่ทำให้ฉันสับสนเกี่ยวกับ Neural Network คือมันเรียนรู้เกี่ยวกับสิ่งที่อยู่ในภาพได้อย่างไร คุณไม่จำเป็นต้องทำการกำหนดใหม่หรือการแบ่งส่วนหรือการวัดใด ๆ เครือข่ายเรียนรู้ที่จะเปรียบเทียบภาพและรับรู้ ตอนนี้มันเป็นเวทย์มนตร์สำหรับฉันแล้ว ที่จะเริ่มเรียนรู้เครือข่ายประสาท

10
ทำไมไม่ลองทิ้งโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ปัญหาพื้นฐานกับการเรียนรู้ลึกและเครือข่ายประสาทโดยทั่วไป โซลูชั่นที่เหมาะสมกับข้อมูลการฝึกอบรมไม่มีที่สิ้นสุด เราไม่มีสมการทางคณิตศาสตร์ที่แม่นยำซึ่งเป็นที่น่าพอใจเพียงอันเดียวและเราสามารถพูดได้ว่าดีที่สุด เพียงแค่พูดเราไม่รู้ว่า generalizes ใดดีที่สุด การปรับน้ำหนักให้เหมาะสมไม่ใช่ปัญหานูนดังนั้นเราไม่มีทางรู้เลยว่าเราจะจบลงด้วยการใช้งานทั่วโลกหรือในระดับท้องถิ่น ดังนั้นทำไมไม่เพียงแค่ถ่ายโอนข้อมูลโครงข่ายประสาทเทียมและค้นหารุ่น ML ที่ดีกว่าแทน สิ่งที่เราเข้าใจและสิ่งที่สอดคล้องกับชุดของสมการทางคณิตศาสตร์หรือไม่ Linear และ SVM ไม่มีข้อบกพร่องทางคณิตศาสตร์นี้และสอดคล้องอย่างสมบูรณ์กับชุดของสมการทางคณิตศาสตร์ ทำไมไม่เพียงแค่คิดในบรรทัดเดียวกัน (ไม่จำเป็นต้องเป็นแบบเชิงเส้น) และมาพร้อมกับ ML โมเดลใหม่ที่ดีกว่า Linear และ SVM และโครงข่ายประสาทและการเรียนรู้เชิงลึก

6
สำหรับปัญหานูนการไล่ระดับสีใน Stochastic Gradient Descent (SGD) ชี้ไปที่ค่าที่สูงที่สุดในโลกเสมอหรือไม่?
ด้วยฟังก์ชั่นค่าใช้จ่ายนูนโดยใช้ SGD เพื่อเพิ่มประสิทธิภาพเราจะมีการไล่ระดับสี (เวกเตอร์) ณ จุดหนึ่งระหว่างกระบวนการปรับให้เหมาะสม คำถามของฉันคือเมื่อให้จุดบนนูนการไล่ระดับสีจะชี้ไปที่ทิศทางที่ฟังก์ชันเพิ่มขึ้น / ลดลงเร็วที่สุดหรือการไล่ระดับสีชี้ไปที่จุดที่เหมาะสมที่สุดหรือมากที่สุดของฟังก์ชันต้นทุนหรือไม่ อดีตเป็นแนวคิดในท้องถิ่นหลังเป็นแนวคิดระดับโลก ในที่สุดก็สามารถมารวมกันเป็นมูลค่าสุดยอดของฟังก์ชั่นค่าใช้จ่าย ฉันสงสัยเกี่ยวกับความแตกต่างระหว่างทิศทางของการไล่ระดับสีที่กำหนดจุดโดยพลการบนนูนและทิศทางที่ชี้ไปที่ค่าสุดขั้วทั่วโลก ทิศทางของการไล่ระดับสีควรเป็นทิศทางที่ฟังก์ชั่นเพิ่ม / ลดเร็วที่สุดในจุดนั้นใช่ไหม

3
อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?
อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ

1
เหตุใดหน่วยโฆษณาเชิงเส้นที่แก้ไขแล้วจึงถือว่าเป็นแบบไม่เชิงเส้น
ทำไมฟังก์ชั่นการเปิดใช้งานของหน่วยเชิงเส้นที่ถูกแก้ไข (ReLU) จึงไม่ถือว่าเป็นแบบเชิงเส้น ฉ( x ) = สูงสุด( 0 , x )f(x)=max(0,x) f(x) = \max(0,x) พวกเขาเป็นเส้นตรงเมื่ออินพุตเป็นบวกและจากความเข้าใจของฉันที่จะปลดล็อคพลังตัวแทนของเครือข่ายลึกนั้นต้องมีการเปิดใช้งานที่ไม่ใช่เชิงเส้นมิฉะนั้นเครือข่ายทั้งหมดอาจแสดงเป็นเลเยอร์เดียว

3
อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

4
เราเรียนรู้อะไรได้บ้างเกี่ยวกับสมองมนุษย์จากเครือข่ายประสาทเทียม
ฉันรู้ว่าคำถาม / ชื่อของฉันไม่เจาะจงมากดังนั้นฉันจะพยายามอธิบายให้ชัดเจน: โครงข่ายประสาทเทียมมีการออกแบบที่ค่อนข้างเข้มงวด แน่นอนโดยทั่วไปแล้วพวกเขาได้รับอิทธิพลจากชีววิทยาและพยายามสร้างแบบจำลองทางคณิตศาสตร์ของโครงข่ายประสาทจริง แต่ความเข้าใจของเราเกี่ยวกับโครงข่ายประสาทจริงนั้นไม่เพียงพอสำหรับการสร้างแบบจำลองที่แน่นอน ดังนั้นเราจึงไม่สามารถเข้าใจโมเดลที่แน่นอนหรือสิ่งใดก็ตามที่เกิดขึ้น "ใกล้" เครือข่ายประสาทจริง เท่าที่ฉันรู้เครือข่ายประสาทเทียมทั้งหมดอยู่ไกลจากเครือข่ายประสาทจริง MLP มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์แบบคลาสสิกไม่มีอยู่ในชีววิทยา เครือข่ายประสาทที่เกิดขึ้นอีกมีการขาดความเป็นจริงของระบบประสาทแต่ละเซลล์ประสาทของ RNN แต่ละคนมี "สถาปัตยกรรมความคิดเห็น" ที่เหมือนกันในขณะที่เซลล์ประสาทที่แท้จริงบันทึกและแบ่งปันข้อมูลของพวกเขาค่อนข้างเป็นรายบุคคล Convolutional neural Networks นั้นมีประสิทธิภาพและเป็นที่นิยม แต่การประมวลผลภาพในสมองของมนุษย์นั้นประกอบด้วยเพียงสองสามชั้นในขณะที่วิธีการแก้ปัญหาที่ทันสมัย ​​(เช่น GoogLeNet) นั้นใช้หลายสิบชั้น ... และถึงแม้ว่าพวกมันจะสร้างผลลัพธ์ที่ยอดเยี่ยมสำหรับคอมพิวเตอร์ พวกเขาไม่ได้ใกล้เคียงกับประสิทธิภาพของมนุษย์ โดยเฉพาะอย่างยิ่งเมื่อเราคิดว่า "ประสิทธิภาพต่อเลเยอร์" เนื่องจากเราต้องการเลเยอร์และการลดข้อมูลที่ค่อนข้างสูงเมื่อเทียบกับเครือข่ายประสาทจริง นอกจากนี้ตามความรู้ของฉันแม้แต่เครือข่ายโครงข่ายประสาทเทียมที่ปรับขยาย / ปรับโครงสร้างด้วยตนเองนั้นค่อนข้าง "ค่อนข้างคงที่" เมื่อเทียบกับเครือข่ายประสาทจริงที่ปรับตัวได้มาก โดยปกติเซลล์ประสาทชีวภาพจะมี dendrites นับพันที่เชื่อมต่อเซลล์ประสาทกับพื้นที่ต่าง ๆ และเซลล์ประสาทอื่น ๆ มากมาย โครงข่ายประสาทเทียมเป็นวิธีที่ "ตรงไปตรงมา" มากกว่า ดังนั้นมีอะไรบ้างที่เราสามารถเรียนรู้เกี่ยวกับสมองมนุษย์ / เครือข่ายประสาทจริงจากเครือข่ายประสาทเทียม? หรือเป็นเพียงความพยายามในการสร้างซอฟต์แวร์ที่ทำงานได้ดีกว่าอัลกอริธึมแบบคงที่คลาสสิก …

2
ระบบเข้ารหัสอัตโนมัติไม่สามารถเรียนรู้คุณสมบัติที่มีความหมายได้
ฉันมี 50,000 ภาพเช่นสองภาพนี้: พวกเขาแสดงกราฟของข้อมูล ฉันต้องการแยกฟีเจอร์จากภาพเหล่านี้ดังนั้นฉันจึงใช้รหัส autoencoder ที่จัดทำโดย Theano (deeplearning.net) ปัญหาคือตัวเข้ารหัสอัตโนมัติเหล่านี้ดูเหมือนจะไม่ได้เรียนรู้คุณสมบัติใด ๆ ฉันลอง RBM แล้วมันก็เหมือนกัน ชุดข้อมูล MNIST ให้คุณสมบัติที่ดี แต่ดูเหมือนว่าข้อมูลของฉันจะไม่ให้ผลลัพธ์ ฉันแนบตัวอย่างด้านล่าง: ตัวกรองที่สร้างบน MNIST: ตัวกรองที่สร้างขึ้นโดยการฝึกอบรมกับข้อมูลของฉัน: ฉันใช้พีชคณิตขนาดต่าง ๆ ที่ซ่อนอยู่และการฝึกอบรมต่าง ๆ มากมาย แต่ผลลัพธ์ก็เหมือนกันเสมอ ทำไมมันไม่ทำงาน ทำไมระบบเข้ารหัสอัตโนมัติไม่สามารถดึงคุณสมบัติต่าง ๆ จากภาพเหล่านี้ได้? แก้ไข: สำหรับใครก็ตามที่มีปัญหาคล้ายกัน วิธีการแก้ปัญหานั้นง่ายมากและเป็นสาเหตุที่โง่ ฉันลืมที่จะ rescale ค่าพิกเซลจากการเข้ารหัส RGB เพื่อลอยในช่วง 0 - 1 การลดขนาดค่าแก้ปัญหา

2
Krizhevsky '12 CNN ได้รับเซลล์ประสาท 253,440 ในชั้นแรกอย่างไร
ในAlex Krizhevsky และคณะ การจัดหมวดหมู่ของ Imagenet ด้วยเครือข่ายนิวรัล convolutionalพวกเขาระบุจำนวนของเซลล์ประสาทในแต่ละชั้น (ดูแผนภาพด้านล่าง) อินพุตของเครือข่ายคือ 150,528 มิติและจำนวนของเซลล์ประสาทในเลเยอร์ที่เหลือของเครือข่ายนั้นมอบให้โดย 253,440–186,624–64,896–64,896–43,896–43,264–4096–4096–1000 มุมมอง 3 มิติ จำนวนเซลล์ประสาทสำหรับเลเยอร์ทั้งหมดหลังจากที่แรกมีความชัดเจน วิธีง่ายๆในการคำนวณเซลล์ประสาทคือการคูณสามมิติของชั้นนั้น ( planes X width X height): ชั้นที่ 2: 27x27x128 * 2 = 186,624 ชั้นที่ 3: 13x13x192 * 2 = 64,896 เป็นต้น อย่างไรก็ตามการดูเลเยอร์แรก: ชั้นที่ 1: 55x55x48 * 2 = 290400 ขอให้สังเกตว่านี่ไม่ใช่ 253,440ตามที่ระบุไว้ในกระดาษ! คำนวณขนาดผลงาน อีกวิธีหนึ่งในการคำนวณเมตริกซ์เอาท์พุทของการแปลงคือ: …

2
ความแตกต่างระหว่างการออกกลางคันและการเชื่อมต่อแบบเลื่อนคืออะไร?
ความแตกต่างระหว่างการออกกลางคันและการเชื่อมต่อแบบเลื่อนคืออะไร? AFAIK, dropout สุ่มลดลงโหนดที่ซ่อนอยู่ในระหว่างการฝึกอบรม แต่เก็บไว้ในการทดสอบและวางการเชื่อมต่อการเชื่อมต่อหยด แต่ไม่ทิ้งการเชื่อมต่อเทียบเท่ากับการทิ้งโหนดที่ซ่อนอยู่หรือไม่ โหนด (หรือการเชื่อมต่อ) ไม่ใช่แค่ชุดของน้ำหนักใช่หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.