คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

3
วิธีการใช้การทำให้เป็นมาตรฐาน L2 ไปยังจุดที่ว่างในพื้นที่?
นี่คือสิ่งที่ผมอ่านในหนังสือเอียน Goodfellow ของการเรียนรู้ลึก ในบริบทของเครือข่ายนิวรัล "การปรับค่าพารามิเตอร์ของพารามิเตอร์ L2 เป็นที่รู้กันทั่วไปว่าเป็นการลดน้ำหนักกลยุทธ์การทำให้เป็นมาตรฐานนี้ทำให้น้ำหนักใกล้เคียงกับแหล่งกำเนิด [... ] โดยทั่วไปเราสามารถทำให้ค่าพารามิเตอร์อยู่ใกล้กับจุดใด ๆ ในช่องว่าง "แต่มันเป็นเรื่องธรรมดามากที่จะทำให้พารามิเตอร์ของโมเดลเป็นศูนย์ (การเรียนรู้อย่างลึก Goodfellow และคณะ) ฉันแค่อยากรู้ ฉันเข้าใจว่าเพียงเพิ่มคำ normalizing ในฟังก์ชันต้นทุนของเราและด้วยการลดค่าใช้จ่ายทั้งหมดJJJเราสามารถส่งผลต่อพารามิเตอร์ของแบบจำลองให้มีขนาดเล็กลง: J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,Y)=L(Θ,X,Y)+λ||W||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} แต่เราจะใช้กลยุทธ์การทำให้เป็นมาตรฐานนี้ได้อย่างไรซึ่งจะนำพารามิเตอร์ไปสู่จุดใด ๆ (กล่าวว่าเราต้องการบรรทัดฐานมีแนวโน้มที่จะ 5)

2
เครือข่ายที่เหลือเกี่ยวข้องกับการไล่ระดับสีอย่างรวดเร็วหรือไม่?
เมื่อเร็ว ๆ นี้เราเห็นการเกิดขึ้นของ Residual Neural Net นั้นแต่ละชั้นประกอบด้วยโมดูลการคำนวณและการเชื่อมต่อทางลัดที่เก็บรักษาอินพุตไว้กับเลเยอร์เช่นเอาท์พุทของการจัดแสดงชั้น ith: เครือข่ายอนุญาตให้แยกคุณลักษณะที่เหลือและช่วยให้ความลึกที่ลึกขึ้นในขณะที่มีประสิทธิภาพมากขึ้นสำหรับปัญหาการไล่ระดับสีที่หายไปเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัยy i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i การขุดลึกลงไปในการเพิ่มระดับความลาดชันซึ่งเป็นเทคนิคการตระการตาที่ทรงพลังในโลกแห่งการเรียนรู้ของเครื่องซึ่งดูเหมือนว่าจะทำการเพิ่มประสิทธิภาพการไล่ระดับสีบนส่วนที่เหลือของการสูญเสียมันยากที่จะไม่เห็นความคล้ายคลึงกัน ฉันรู้ว่าพวกมันเหมือนกัน แต่ไม่เหมือนกัน - ข้อแตกต่างที่สำคัญอย่างหนึ่งที่ฉันสังเกตเห็นก็คือการเพิ่มความลาดชันนั้นจะทำการปรับให้เหมาะสมที่สุดกับคำศัพท์เสริมในขณะที่ส่วนที่เหลืออยู่จะทำให้เครือข่ายทั้งหมดดีที่สุด ผมไม่ได้เห็นเขา et al, ทราบว่านี่เป็นส่วนหนึ่งของแรงจูงใจของพวกเขาในของพวกเขากระดาษเดิม ดังนั้นฉันจึงสงสัยว่าความเข้าใจของคุณในหัวข้อนี้คืออะไรและขอให้คุณแบ่งปันแหล่งข้อมูลที่น่าสนใจที่คุณมี ขอบคุณ.

3
แบบจำลอง skip-gram ของ Word2Vec สร้างเวกเตอร์เอาต์พุตได้อย่างไร
ฉันมีปัญหาในการทำความเข้าใจโมเดลอัลกอริทึมของ Word2Vec ในกระเป๋าของคำอย่างต่อเนื่องเป็นเรื่องง่ายที่จะเห็นว่าคำบริบทสามารถ "พอดี" ในเครือข่ายประสาทเนื่องจากคุณโดยเฉลี่ยพวกเขาหลังจากที่คูณการเป็นตัวแทนการเข้ารหัสหนึ่งร้อนด้วยเมทริกซ์อินพุต W. อย่างไรก็ตามในกรณีของ skip-gram คุณจะได้รับเวกเตอร์คำอินพุตโดยการคูณการเข้ารหัสแบบร้อนกับเมทริกซ์อินพุตและจากนั้นคุณควรจะได้เวกเตอร์ C (= ขนาดหน้าต่าง) สำหรับคำบริบทโดยการคูณ การแทนค่าเวกเตอร์อินพุทด้วยเมทริกซ์เอาต์พุต W ' สิ่งที่ฉันหมายถึงคือการมีคำศัพท์ขนาดและการเข้ารหัสขนาด ,อินพุตเมทริกซ์และเป็นเมทริกซ์เอาต์พุต ให้คำว่าด้วยการเข้ารหัสหนึ่งร้อนด้วยคำบริบทและ (กับ reps หนึ่งร้อนและ ) ถ้าคุณคูณด้วยเมทริกซ์อินพุตคุณจะได้รับตอนนี้คุณจะสร้างเวกเตอร์คะแนนจากสิ่งนี้ได้อย่างไรN W ∈ R V × N W ' ∈ R N × V W ฉันx ฉันW J W H x J x H x ฉัน W …

2
การจำแนกประเภทที่มีข้อมูล“ ไม่ทราบ” บางส่วน
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ใช้เวกเตอร์ของตัวเลขเป็นอินพุตและให้เลเบลของคลาสเป็นเอาต์พุต ข้อมูลการฝึกอบรมของฉันประกอบด้วยคู่ของอินพุตและเอาท์พุตจำนวนมาก อย่างไรก็ตามเมื่อฉันมาทดสอบข้อมูลใหม่บางอย่างข้อมูลนี้จะสมบูรณ์เพียงบางส่วนเท่านั้น ตัวอย่างเช่นถ้าเวกเตอร์การป้อนข้อมูลมีความยาว 100 อาจมีเพียง 30 องค์ประกอบเท่านั้นที่จะได้รับค่า เป็นตัวอย่างของสิ่งนี้พิจารณาการรู้จำภาพเมื่อเป็นที่ทราบกันว่าส่วนหนึ่งของภาพนั้นถูกบดบัง หรือพิจารณาการจัดประเภทในแง่ทั่วไปที่ทราบว่าส่วนหนึ่งของข้อมูลเสียหาย ในทุกกรณีฉันรู้ว่าองค์ประกอบใดในเวกเตอร์ข้อมูลคือส่วนที่ไม่รู้จัก ฉันสงสัยว่าฉันจะเรียนรู้ลักษณนามที่จะทำงานกับข้อมูลประเภทนี้ได้อย่างไร ฉันสามารถตั้งค่าองค์ประกอบที่ "ไม่รู้จัก" เป็นตัวเลขสุ่ม แต่เนื่องจากมีองค์ประกอบที่ไม่รู้จักมากกว่าที่รู้จักบ่อยครั้งสิ่งนี้ไม่ได้ดูเหมือนโซลูชันที่ดี หรือฉันสามารถเปลี่ยนองค์ประกอบในข้อมูลการฝึกอบรมเป็น "ไม่ทราบ" และฝึกอบรมกับสิ่งเหล่านี้แทนที่จะเป็นข้อมูลที่สมบูรณ์ แต่อาจต้องมีการสุ่มตัวอย่างแบบละเอียดขององค์ประกอบที่รู้จักและไม่รู้จักทั้งหมด โดยเฉพาะอย่างยิ่งฉันกำลังคิดเกี่ยวกับโครงข่ายประสาท ความคิดใด ๆ ขอบคุณ!

2
ตัวกรองและแผนที่การเปิดใช้งานเชื่อมต่อในเครือข่ายประสาทเทียมอย่างไร
แผนที่เปิดใช้งานในเลเยอร์ที่กำหนดเชื่อมต่อกับตัวกรองสำหรับเลเยอร์นั้นอย่างไร ฉันไม่ได้ถามเกี่ยวกับวิธีการดำเนินการ convolutional ระหว่างตัวกรองและแผนที่เปิดใช้งานฉันกำลังถามเกี่ยวกับประเภทของการเชื่อมต่อที่ทั้งสองมี ตัวอย่างเช่นสมมติว่าคุณต้องการเชื่อมต่อเต็มรูปแบบ คุณมีตัวกรองจำนวน f และจำนวนแผนที่เปิดใช้งาน n ในเลเยอร์ที่กำหนด คุณได้รับแผนที่การเปิดใช้งานจำนวน f * n ในเลเยอร์ถัดไปและจำนวนแผนที่การเปิดใช้งานจะเพิ่มขึ้นในแต่ละเลเยอร์ใหม่ นี่คือวิธีที่ฉันคิดเอาไว้ หรือคุณอาจบอกว่าตัวกรองแต่ละตัวเชื่อมต่อกับแผนที่เปิดใช้งานเพียงแผนที่เดียว ในกรณีนี้จำนวนตัวกรองจะเท่ากับจำนวนของแผนที่เปิดใช้งานและทุกชั้นจะมีจำนวนตัวกรองและแผนที่เปิดใช้งานเท่ากัน นี่คือสถาปัตยกรรมปัจจุบันของเครือข่ายของฉันและดูเหมือนว่าจะเรียนรู้ได้ดี แหล่งที่มาหลักของความสับสนของฉันคือดูไดอะแกรมของ convnets ที่ฉันเห็นทางออนไลน์ บางส่วนมี "การเชื่อมต่อแบบเต็ม" ระหว่างตัวกรองและแผนที่เปิดใช้งานเช่นนี้ - ในเลเยอร์แรกคุณมีแผนที่เปิดใช้งาน 4 แห่งและตัวกรอง 2 ตัวน่าจะเป็น แต่ละแผนที่มีความเชื่อมั่นกับตัวกรองแต่ละตัวทำให้เกิด 8 แผนที่ในเลเยอร์ถัดไป ดูดี. แต่ที่นี่เรามีสถาปัตยกรรมที่ไม่สมเหตุสมผลสำหรับฉัน - คุณจะไปจากแผนที่ 6 แห่งในชั้นแรกถึง 16 ในอันดับที่ 2 ได้อย่างไร ฉันสามารถคิดถึงวิธีรับแผนที่ 16 จาก 6 แต่พวกเขาจะไม่มีเหตุผลทำ

1
ฉันสามารถใช้ ReLU ใน autoencoder เป็นฟังก์ชั่นการเปิดใช้งานได้หรือไม่?
เมื่อติดตั้ง autoencoder กับโครงข่ายประสาทเทียมคนส่วนใหญ่จะใช้ sigmoid เป็นฟังก์ชั่นการเปิดใช้งาน เราสามารถใช้ ReLU แทนได้หรือไม่? (เนื่องจาก ReLU ไม่มีขีด จำกัด บนขอบเขตโดยทั่วไปหมายถึงภาพอินพุตสามารถมีพิกเซลใหญ่กว่า 1 ซึ่งแตกต่างจากเกณฑ์ที่ จำกัด สำหรับ autoencoder เมื่อใช้ sigmoid)

4
ทำไมเราไม่เรียนรู้พารามิเตอร์ไฮเปอร์?
ฉันใช้กระดาษที่ได้รับความนิยมอย่างมากเรื่อง "การอธิบายและการฝ่าฝืนตัวอย่างที่เป็นที่นิยม " และในกระดาษมันฝึกฟังก์ชั่นวัตถุประสงค์เชิงรุก J '' (θ) = αJ (θ) + (1 - α) J '(θ) มันถือว่าαเป็นพารามิเตอร์ αสามารถ 0.1, 0.2, 0.3 และอื่น ๆ โดยไม่คำนึงถึงเอกสารเฉพาะนี้ฉันสงสัยว่าทำไมเราไม่รวมαไว้ในพารามิเตอร์ของเราและเรียนรู้αที่ดีที่สุด ข้อเสียที่จะทำคืออะไร? มันเป็นเพราะการใส่มากเกินไป? ถ้าเป็นเช่นนั้นเพราะเหตุใดการเรียนรู้พารามิเตอร์อีก 1 รายการจึงทำให้มีจำนวนข้อมูลมากเกินไป?

1
อะไรคือความแตกต่างระหว่าง VAE และ Stochastic Backpropagation สำหรับ Deep Generative Model?
อะไรคือความแตกต่างระหว่างการเข้ารหัสอัตโนมัติ Bay Variation BayesและStochastic Backpropagation สำหรับ Deep Generative Model ? การอนุมานในทั้งสองวิธีนำไปสู่ผลลัพธ์เดียวกันหรือไม่ ฉันไม่ได้ตระหนักถึงการเปรียบเทียบที่ชัดเจนระหว่างทั้งสองวิธีแม้จะมีผู้เขียนทั้งสองกลุ่มอ้างอิงซึ่งกันและกัน

1
ฉันควรใช้ฟังก์ชันการสูญเสียใดเพื่อให้คะแนนโมเดล seq2seq RNN
ฉันกำลังทำงานผ่านกระดาษCho 2014ซึ่งนำเสนอสถาปัตยกรรมตัวเข้ารหัส - ถอดรหัสสำหรับการสร้างแบบจำลอง seq2seq ในกระดาษพวกเขาดูเหมือนจะใช้ความน่าจะเป็นของผลลัพธ์ที่ได้รับอินพุต (หรือเป็นลบบันทึกการเกิดโอกาส) เป็นฟังก์ชั่นการสูญเสียสำหรับอินพุตของความยาวMและเอาท์พุทyของความยาวN :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m) อย่างไรก็ตามฉันคิดว่าฉันพบปัญหาหลายประการกับการใช้ฟังก์ชันนี้เป็นฟังก์ชันการสูญเสีย: ดูเหมือนว่าจะถือว่าครูบังคับให้ใช้ในระหว่างการฝึกอบรม (เช่นแทนที่จะใช้ตัวถอดรหัสสำหรับตำแหน่งในการป้อนข้อมูลในการทำซ้ำครั้งถัดไปจะใช้โทเค็นที่รู้จัก มันจะไม่ลงโทษลำดับยาว ๆ เนื่องจากความน่าจะเป็นคือจากถึงNของเอาต์พุตหากตัวถอดรหัสสร้างลำดับที่ยาวกว่าทุกอย่างหลังจากNแรกจะไม่รวมการสูญเสีย111NNNNNN หากโมเดลทำนายโทเค็น End-of-String ก่อนหน้านี้ฟังก์ชั่นการสูญเสียยังต้องการขั้นตอน - ซึ่งหมายความว่าเรากำลังสร้างเอาต์พุตตาม "นานา" ที่ไม่ได้รับการฝึกฝนของโมเดล …

4
ความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง
ในแง่ของความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้เชิงลึกเราสามารถแสดงรายการได้หลายรายการเช่นมีเลเยอร์เพิ่มขึ้นชุดข้อมูลขนาดใหญ่ฮาร์ดแวร์คอมพิวเตอร์ทรงพลังเพื่อให้การฝึกอบรมมีความซับซ้อน นอกจากนี้มีคำอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างระหว่าง NN และ DL หรือไม่?

1
ความสัมพันธ์ระหว่างอัตราการเรียนรู้และจำนวนเลเยอร์ที่ซ่อนอยู่?
มีกฎของหัวแม่มือระหว่างความลึกของเครือข่ายประสาทและอัตราการเรียนรู้หรือไม่? ฉันสังเกตเห็นว่ายิ่งเครือข่ายลึกเท่าไรอัตราการเรียนรู้ก็จะยิ่งต่ำลงเท่านั้น หากถูกต้องทำไมถึงเป็นเช่นนั้น

3
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์?
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์? (ดังนั้นจึงใช้รูปภาพและวาดใหม่ในสไตล์ที่ฝึกมา) มีเทคโนโลยีใดที่ได้รับการรับรองสำหรับสิ่งนั้นหรือไม่? ฉันรู้เกี่ยวกับอัลกอริทึม DeepArt มันเป็นการดีที่จะเติมภาพหลักด้วยรูปแบบบางอย่าง (ตัวอย่างเช่นรูปภาพ vangoghify) แต่ฉันกำลังมองหาบางอย่างที่แตกต่าง - ตัวอย่างเช่นทำให้การ์ตูนในสไตล์ที่แน่นอนจากแนวตั้งอินพุท

1
การไล่ระดับสีเมื่อการฝึกอบรมเครือข่ายประสาทลึก
เมื่อใดที่ต้องการจะทำการไล่ระดับสีเมื่อฝึก RNN หรือ CNN ฉันสนใจเป็นพิเศษ สิ่งที่จะเป็นค่าเริ่มต้นที่ดีสำหรับการตัด? (แน่นอนสามารถปรับได้)

1
วิธีการกำหนดจำนวนของผู้ประกอบการ convolutional ในซีเอ็นเอ็น?
ในงานด้านการมองเห็นคอมพิวเตอร์เช่นการจำแนกประเภทวัตถุด้วย Convolutional Neural Networks (CNN) เครือข่ายจะให้ประสิทธิภาพที่น่าดึงดูด แต่ฉันไม่แน่ใจว่าจะตั้งค่าพารามิเตอร์ในเลเยอร์ convolutional ได้อย่างไร ตัวอย่างเช่นรูปภาพระดับสีเทา ( 480x480) เลเยอร์ convolutional แรกอาจใช้โอเปอเรเตอร์ convolutional เช่น11x11x10ซึ่งหมายเลข10หมายถึงจำนวนของโอเปอเรเตอร์ convolutional คำถามคือวิธีการกำหนดจำนวนผู้ประกอบการ convolutional ใน CNN?

2
WaveNet ไม่ใช่การโน้มน้าวใจจริง ๆ ใช่ไหม?
ในกระดาษWaveNetเมื่อเร็ว ๆ นี้ผู้เขียนอ้างถึงรูปแบบของพวกเขาว่ามีชั้นซ้อนทับของความเชื่อมั่นที่ขยาย พวกเขายังจัดทำแผนภูมิต่อไปนี้เพื่ออธิบายความแตกต่างระหว่างการโน้มน้าวแบบ 'ปกติ' และการโน้มน้าวแบบขยาย Convolutions ทั่วไปดูเหมือนว่า นี่คือ convolutions ที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 1 ซ้ำเป็น 4 เลเยอร์ จากนั้นพวกเขาแสดงสถาปัตยกรรมที่ใช้โดยแบบจำลองของพวกเขาซึ่งพวกเขาเรียกว่า convolutions ที่ขยาย ดูเหมือนว่านี้ พวกเขาบอกว่าแต่ละชั้นมีการเจือจางที่เพิ่มขึ้นของ (1, 2, 4, 8) แต่สำหรับฉันแล้วนี่ดูเหมือนการบิดปกติที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 2 ซ้ำเป็น 4 เลเยอร์ ตามที่ฉันเข้าใจแล้วการบิดแบบขยายที่มีขนาดตัวกรองเป็น 2 ก้าว 1 และเพิ่มการเจือจางที่ (1, 2, 4, 8) จะมีลักษณะเช่นนี้ ในไดอะแกรม WaveNet ไม่มีตัวกรองใด …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.