คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

3
การสร้างแรงจูงใจหน่วยเอาท์พุท sigmoid ในเครือข่ายประสาทเทียมเริ่มต้นด้วยความน่าจะเป็นของบันทึกที่ไม่เป็นเส้นตรงใน
แบ็คกราวน์:ฉันกำลังศึกษาบทที่ 6 ของ Deep Learning โดย Ian Goodfellow และ Yoshua Bengio และ Aaron Courville ในส่วน 6.2.2.2 (หน้า 182 จาก 183 ซึ่งสามารถดูได้ที่นี่ ) การใช้ sigmoid เพื่อส่งออกเป็นแรงจูงใจP( y= 1 | x )P(y=1|x)P(y=1|x) เพื่อสรุปเนื้อหาบางส่วนที่พวกเขาปล่อยให้เป็นเซลล์ประสาทเอาท์พุทก่อนที่จะมีการเปิดใช้งานโดยที่hคือผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้wคือเวกเตอร์ของน้ำหนักและbเป็นสเกลาร์สเกลา เวกเตอร์อินพุตถูกเขียนแทนx (ซึ่งhคือฟังก์ชันของ) และค่าเอาต์พุตจะแสดงเป็นy = ϕ ( z )โดยที่ϕคือฟังก์ชัน sigmoid หนังสือมีความประสงค์ที่จะแจกแจงความน่าจะเป็นเหนือyโดยใช้ค่าzZ= wTh + bz=wTh+bz = w^Th+bชั่วโมงhhWwwขbbxxxชั่วโมงhhY= ϕ ( z)y=ϕ(z)y=\phi(z)φϕ\phiYyyzzz. จากย่อหน้าที่สองของหน้า …

2
ความแตกต่างระหว่าง 'ปกติ' การถดถอยเชิงเส้นและการเรียนรู้การถดถอยเชิงเส้นลึกคืออะไร?
ฉันต้องการทราบความแตกต่างระหว่างการถดถอยเชิงเส้นในการวิเคราะห์การเรียนรู้ของเครื่องปกติและการถดถอยเชิงเส้นในการตั้งค่า "การเรียนรู้ลึก" ขั้นตอนวิธีใดที่ใช้สำหรับการถดถอยเชิงเส้นในการตั้งค่าการเรียนรู้ลึก

1
บล็อกการเรียนรู้ที่เหลือคืออะไรในบริบทของเครือข่ายที่หลงเหลืออยู่ลึกในการเรียนรู้อย่างลึก
ฉันกำลังอ่านการเรียนรู้ส่วนที่เหลือลึกเพื่อการจดจำรูปภาพและฉันมีปัญหาในการทำความเข้าใจกับความมั่นใจ 100% สิ่งที่บล็อกส่วนเหลือตกค้างคำนวณ อ่านกระดาษของพวกเขาพวกเขามีรูปที่ 2: ซึ่งแสดงให้เห็นถึงสิ่งที่บล็อกส่วนที่เหลือควรจะเป็น การคำนวณของส่วนที่เหลือเป็นเพียงบล็อกเดียวกับ: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) หรือมันเป็นอย่างอื่น? ในคำอื่น ๆ อาจจะพยายามที่จะตรงกับสัญกรณ์ของกระดาษคือ: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} มันเป็นเรื่องจริงเหรอ? โปรดสังเกตว่าหลังจากการรวมกลุ่มวงกลมคำว่า ReLU จะปรากฏบนกระดาษดังนั้นผลลัพธ์ของบล็อกส่วนที่เหลือ …

2
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเป็นเป้าหมายการเพิ่มประสิทธิภาพในการเรียนรู้ของเครื่อง
ในการเรียนรู้ของเครื่อง (สำหรับปัญหาการถดถอย) ฉันมักจะเห็นค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) หรือค่าเฉลี่ย - ข้อผิดพลาด (แม่) ที่ใช้เป็นฟังก์ชันข้อผิดพลาดเพื่อลด (บวกกับข้อกำหนดการทำให้เป็นปกติ) ฉันสงสัยว่ามีสถานการณ์ที่การใช้สัมประสิทธิ์สหสัมพันธ์จะเหมาะสมกว่าหรือไม่ หากสถานการณ์ดังกล่าวมีอยู่แล้ว: ค่าสัมประสิทธิ์สหสัมพันธ์ภายใต้สถานการณ์ใดเป็นตัวชี้วัดที่ดีกว่าเมื่อเทียบกับ MSE / MAE ในสถานการณ์เหล่านี้ MSE / MAE ยังคงเป็นฟังก์ชั่นต้นทุนพร็อกซีที่ดีที่จะใช้หรือไม่? สัมประสิทธิ์สหสัมพันธ์เป็นไปได้สูงสุดหรือไม่ นี่เป็นฟังก์ชั่นวัตถุประสงค์ที่มั่นคงที่จะใช้หรือไม่? ฉันไม่พบกรณีที่มีการใช้สัมประสิทธิ์สหสัมพันธ์โดยตรงเป็นฟังก์ชันวัตถุประสงค์ในการปรับให้เหมาะสม ฉันจะขอบคุณถ้าคนสามารถชี้ให้ฉันข้อมูลในพื้นที่นี้

3
การเข้ารหัสวันที่ / เวลา (ข้อมูลรอบ) สำหรับเครือข่ายประสาท
วิธีเข้ารหัสวันที่และเวลาของเหตุการณ์สำหรับเครือข่ายประสาทเทียม ฉันไม่มีอนุกรมเวลาต่อเนื่อง แต่มีบางเหตุการณ์ที่มีวันที่และเวลาและฉันวิเคราะห์ความสนใจบางอย่าง ความสนใจนี้แตกต่างกันระหว่างเช้าและเย็นและแตกต่างระหว่างวันธรรมดาและระหว่างฤดูร้อนและฤดูหนาวและก่อนคริสต์มาสและอีสเตอร์เป็นต้น และเหตุการณ์ต่าง ๆ ก็มีการกระจายตัวที่ไม่สม่ำเสมอตลอดเวลา (มากกว่าในตอนกลางคืนมากกว่ากลางคืนในบางประเภทในช่วงสัปดาห์ ฉันพยายามเข้ารหัสเป็นจำนวนสัปดาห์ในปีเช่นวันธรรมดา 1-7 และชั่วโมงของวัน แต่การเล่นโดยใช้ตัวกระจายสัญญาณอัตโนมัติทำให้ฉันรู้สึกว่าข้อมูลของฉันไม่สมเหตุสมผลกับเครือข่ายประสาทเทียมมันไม่สามารถทำซ้ำสิ่งใดก็ได้ที่อยู่ใกล้กับอินพุตแม้จะมีเลเยอร์ที่ซ่อนอยู่ขนาดใหญ่ ไม่ว่าจะเป็น categorial 0-1 หรือเป็นค่าปกติ แต่การค้นหาการเข้ารหัสเวลาสำหรับเครือข่ายประสาทส่วนใหญ่จะให้ข้อมูลเกี่ยวกับอนุกรมเวลาดังนั้นฉันจึงปิดตาเล็กน้อย แต่มองหาต้นไม้ แน่นอนฉันสามารถดูข้อมูลและจัดหมวดหมู่คร่าวๆได้ไม่มากก็น้อย แต่แนวคิดของการเรียนรู้อย่างลึกซึ้งดูเหมือนว่าจะแยกการสกัดคุณลักษณะด้วยมือที่สร้างขึ้นด้วยมือทั้งหมด และการจัดหมวดหมู่จะแทรกการกระโดดครั้งใหญ่ในตัวแปรอินพุตต่อเนื่องตามธรรมชาติ "การเข้ารหัสตามธรรมชาติ" ในสมองของฉันเป็นเหมือนสมาชิกฟัซซี่ในบางประเภทเช่น "กลางคืน", "เช้า", "วันธรรมดา" เป็นต้น เพื่อทำให้สิ่งทั้งหมดน่าสนใจยิ่งขึ้นนอกจากนี้ตัวแปรที่ขึ้นอยู่กับยังประกอบด้วยข้อมูลวันที่ / เวลา แต่นั่นเป็นคำถามที่แตกต่าง แก้ไข: อย่างใดที่เกี่ยวข้องกับชนิดของข้อมูลเป็นคำถามล่าสุดเช่น การทดสอบทางสถิติใดที่เหมาะสมกับชุดข้อมูลเวลานี้

3
การสร้างแบบจำลองทางคณิตศาสตร์แบบเครือข่ายประสาทเทียมเป็นแบบกราฟิก
ฉันกำลังดิ้นรนเพื่อให้การเชื่อมต่อทางคณิตศาสตร์ระหว่างเครือข่ายประสาทและแบบจำลองกราฟิก ในแบบกราฟิกความคิดนั้นง่ายมาก: การแจกแจงความน่าจะเป็นเป็นตัวประกอบตามกลุ่มในกราฟโดยทั่วไปแล้วศักยภาพนั้นเป็นของตระกูลเอ็กซ์โพเนนเชียล มีเหตุผลที่เท่าเทียมกันสำหรับโครงข่ายประสาทเทียมหรือไม่? เราสามารถแสดงการแจกแจงความน่าจะเป็นเหนือหน่วย (ตัวแปร) ในเครื่อง จำกัด Boltzmann หรือซีเอ็นเอ็นเป็นฟังก์ชันของพลังงานหรือผลิตภัณฑ์พลังงานระหว่างหน่วยหรือไม่ นอกจากนี้การแจกแจงความน่าจะเป็นแบบจำลองโดย RBM หรือเครือข่ายความเชื่อลึก (เช่นกับ CNNs) ของตระกูลเอ็กซ์โปเนนเชียลหรือไม่? ผมหวังที่จะพบข้อความที่ formalizes การเชื่อมต่อระหว่างชนิดปัจจุบันนี้เครือข่ายประสาทและสถิติในลักษณะเดียวกับที่จอร์แดนและเวนไรท์ได้สำหรับรุ่นกราฟิกกับพวกเขารุ่นกราฟิกครอบครัวเอกและแปรผันอนุมาน ตัวชี้ใด ๆ จะดีมาก

2
การเลือกขนาดตัวกรองความก้าวหน้า ฯลฯ ใน CNN
ฉันกำลังดูการบรรยาย CS231N จาก Stanford และฉันพยายามที่จะสรุปประเด็นสำคัญในสถาปัตยกรรมของ CNN สิ่งที่ฉันพยายามจะเข้าใจก็คือหากมีแนวทางทั่วไปในการเลือกขนาดตัวกรอง convolution และสิ่งต่าง ๆ เช่นความก้าวหน้าหรือสิ่งนี้เป็นศิลปะมากกว่าวิทยาศาสตร์? การรวมกันฉันเข้าใจว่ามีอยู่ส่วนใหญ่เพื่อชักนำรูปแบบของค่าคงที่ของการแปลในรูปแบบ ในทางกลับกันฉันไม่มีสัญชาตญาณที่ดีในการเลือกขนาดกางเกง มีแนวทางอื่นที่นอกเหนือไปจากการพยายามบีบอัดขนาดเลเยอร์ปัจจุบันหรือพยายามที่จะทำให้เกิดการตอบสนองที่กว้างขึ้นไปยังเซลล์ประสาทหรือไม่? ใครรู้เอกสารที่ดีหรือคล้ายกันที่กล่าวถึงนี้

4
การเชื่อมต่อระหว่าง MLE และความหมายของเอนโทรปีในการเรียนรู้ลึกเป็นอย่างไร
ผมเข้าใจว่าได้รับชุดของอิสระสังเกต ตัวประมาณความน่าจะเป็นสูงสุด (หรือที่เท่ากันคือ MAP ที่มี flat / uniform มาก่อน) ซึ่งระบุพารามิเตอร์ที่สร้างแบบจำลองการกระจาย p_ {model} \ ซ้าย (\, \ cdot \,; \ mathbf {θ} \ right) ที่ตรงกับข้อสังเกตเหล่านั้นมากที่สุดmmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) หรือสะดวกยิ่งขึ้น θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) และดูบทบาทที่θMLθML\mathbf{θ}_{ML}สามารถเล่นในการกำหนดฟังก์ชั่นการสูญเสียสำหรับเครือข่ายนิวรัลลึกหลายระดับซึ่งθθ\mathbf{θ}สอดคล้องกับพารามิเตอร์ที่ฝึกอบรมของเครือข่าย (เช่นθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )และการสังเกตเป็นคู่ของการเปิดใช้งานอินพุตxx\mathbf{x}และการแก้ไขเลเบลคลาสที่ถูกต้องy∈[1,k]y∈[1,k]y …

3
ความสัมพันธ์ระหว่างทฤษฎีเกมกับการเรียนรู้การเสริมกำลังคืออะไร?
ฉันสนใจ(ลึก) เสริมสร้างการเรียนรู้ (RL) ก่อนลงดำน้ำในสาขานี้ฉันควรเรียนในGame Theory (GT)หรือไม่? วิธีGTและRLเกี่ยวข้อง?

3
Non-linearity ก่อนชั้น Softmax สุดท้ายในเครือข่ายประสาทเทียม
ฉันกำลังศึกษาและพยายามใช้โครงข่ายประสาทเทียม แต่ฉันคิดว่าคำถามนี้ใช้ได้กับผู้เรียนหลายคนโดยทั่วไป เซลล์ส่งออกในเครือข่ายของฉันเป็นตัวแทนของการเปิดใช้งานของแต่ละชั้นเรียน: เซลล์ประสาทที่ใช้งานมากที่สุดสอดคล้องกับระดับที่คาดการณ์ไว้สำหรับการป้อนข้อมูลที่กำหนด ในการพิจารณาค่าใช้จ่ายข้ามเอนโทรปีสำหรับการฝึกอบรมฉันเพิ่มเลเยอร์ softmax ที่ส่วนท้ายของเครือข่ายเพื่อให้ค่าการเปิดใช้งานของเซลล์ประสาทแต่ละค่าถูกตีความเป็นค่าความน่าจะเป็น คำถามของฉันคือ: เซลล์ประสาทในชั้นเอาต์พุตควรใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นกับอินพุตหรือไม่ สัญชาตญาณของฉันคือมันไม่จำเป็น: ถ้าอินพุตกับ th เอาต์พุตเซลล์ประสาทคือจุดผลิตภัณฑ์ระหว่างเวกเตอร์ (มาจากเลเยอร์ก่อนหน้า) และน้ำหนักสำหรับเซลล์ประสาทนั้นx T θ ฉัน x θ ฉันผมผมixTθผมxTθผมx^T\theta_ixxxθผมθผม\theta_i และถ้าฉันใช้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นเดียวเช่น sigmoid หรือ ReLU ดังนั้นการเปิดใช้งานเอาต์พุตขนาดใหญ่จะยังคงสอดคล้องกับใหญ่ที่สุดดังนั้นจากมุมมองนี้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นจะไม่เปลี่ยนการทำนายxTθผมxTθผมx^T\theta_i มีอะไรผิดปกติกับการตีความนี้หรือไม่? มีปัจจัยการฝึกอบรมบางอย่างที่ฉันมองเห็นหรือไม่ และถ้าฉันพูดถูกสิ่งใดจะเปลี่ยนไปถ้าแทนที่จะใช้ฟังก์ชั่น sigmoid ฉันใช้ฟังก์ชั่น ReLUซึ่งไม่ใช่ฟังก์ชั่นโมโนโทนิกอย่างแน่นอนสูงสุด( 0 , xTθผม)สูงสุด(0,xTθผม)\max(0,x^T\theta_i) แก้ไข จากการอ้างอิงถึงคำตอบของ Karel ซึ่งคำตอบโดยทั่วไปคือ "ขึ้นอยู่กับ" นี่คือคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับเครือข่ายและข้อสงสัยของฉัน: สมมติว่าฉันมีเลเยอร์ที่ซ่อนอยู่ N ชั้นและชั้นการส่งออกของฉันเป็นเพียงชั้น softmax เหนือชุดของเซลล์ประสาทที่เป็นตัวแทนของคลาส (ดังนั้นผลลัพธ์ที่คาดหวังของฉันคือความน่าจะเป็นที่ข้อมูลอินพุตเป็นของแต่ละชั้นเรียน) สมมติว่าเลเยอร์ N-1 แรกมีเซลล์ประสาทแบบไม่เชิงเส้นอะไรคือความแตกต่างระหว่างการใช้เซลล์ประสาทแบบไม่เชิงเส้นกับเชิงเส้นตรงในเลเยอร์ …

4
โมเดลการเรียนรู้เชิงลึกเป็นพารามิเตอร์หรือไม่ หรือไม่ใช่พารามิเตอร์?
ฉันไม่คิดว่าจะมีคำตอบเดียวสำหรับโมเดลการเรียนรู้ลึกทั้งหมด แบบจำลองการเรียนรู้แบบลึกใดที่เป็นพารามิเตอร์และแบบใดที่ไม่ใช่พารามิเตอร์และเพราะอะไร

4
อะไรคือความแตกต่างระหว่าง autoencoders และ t-SNE
เท่าที่ฉันรู้ทั้งตัวเข้ารหัสอัตโนมัติและ t-SNE นั้นใช้สำหรับการลดขนาดแบบไม่เชิงเส้น อะไรคือความแตกต่างระหว่างพวกเขาและทำไมฉันถึงควรใช้อันหนึ่งกับอีกอัน?

5
ฟังก์ชั่นการสูญเสียใดที่ฉันควรใช้สำหรับการตรวจจับแบบไบนารีในการตรวจจับใบหน้า / ไม่ใบหน้าใน CNN
ฉันต้องการใช้การเรียนรู้ลึกในการฝึกอบรมการตรวจจับใบหน้าไบนารี / ไม่ใช่ใบหน้าสิ่งที่สูญเสียฉันควรใช้ผมคิดว่ามันเป็นSigmoidCrossEntropyLossหรือบานพับการสูญเสีย ใช่แล้ว แต่ฉันสงสัยด้วยว่าฉันควรใช้ softmax แต่มีเพียงสองคลาสเท่านั้น?

1
ประมาณอันดับที่สองของฟังก์ชั่นการสูญเสีย (หนังสือการเรียนรู้ลึก, 7.33)
ในหนังสือ Goodfellow (ปี 2559) เกี่ยวกับการเรียนรู้อย่างลึกซึ้งเขาได้พูดคุยเกี่ยวกับความเท่าเทียมกันของการหยุดการเข้าสู่ช่วงปกติของ L2 ( https://www.deeplearningbook.org/contents/regularization.htmlหน้า 247) การประมาณกำลังสองของฟังก์ชันต้นทุนถูกกำหนดโดย:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) โดยที่คือเมทริกซ์ของ Hessian (Eq. 7.33) สิ่งนี้หายไปในระยะกลางหรือไม่ การขยายตัวของเทย์เลอร์ควรเป็น: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
การอนุมานที่ไม่มีความเป็นไปได้ - หมายความว่าอย่างไร
เมื่อเร็ว ๆ นี้ฉันได้ตระหนักถึงวิธีการ 'ไร้ความน่าจะเป็น' ซึ่งถูกรวบรวมในวรรณคดี อย่างไรก็ตามฉันไม่ชัดเจนเกี่ยวกับความหมายของวิธีการอนุมานหรือการเพิ่มประสิทธิภาพที่จะไม่มีโอกาสเกิดขึ้น ในการเรียนรู้ของเครื่องเป้าหมายมักจะเพิ่มความน่าจะเป็นของพารามิเตอร์บางอย่างให้เหมาะสมกับฟังก์ชั่นเช่นน้ำหนักบนเครือข่ายประสาท ดังนั้นอะไรคือปรัชญาของวิธีการที่ปราศจากโอกาสและทำไมเครือข่ายที่เป็นปฏิปักษ์เช่น GAN จึงอยู่ในหมวดหมู่นี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.