คำถามติดแท็ก cross-entropy

5
ฟังก์ชั่นการสูญเสียสำหรับงานการจำแนกประเภทหลายคลาสและหลายฉลากในเครือข่ายประสาทเทียมคืออะไร?
ฉันกำลังฝึกโครงข่ายประสาทเทียมเพื่อจัดกลุ่มวัตถุเป็นคลาส n แต่ละวัตถุสามารถเป็นของหลายคลาสในเวลาเดียวกัน (หลายคลาสหลายป้าย) ฉันอ่านว่าสำหรับปัญหาหลายคลาสแนะนำโดยทั่วไปให้ใช้ softmax และหมวดหมู่ข้ามเอนโทรปีเป็นฟังก์ชั่นการสูญเสียแทน mse และฉันเข้าใจมากขึ้นหรือน้อยลงว่าทำไม สำหรับปัญหาของฉันเกี่ยวกับมัลติ - เลเบลมันไม่สมเหตุสมผลที่จะใช้ซอฟต์แม็กซ์แน่นอนเพราะความน่าจะเป็นในแต่ละชั้นควรเป็นอิสระจากที่อื่น ดังนั้นชั้นสุดท้ายของฉันคือหน่วย sigmoid ที่สควอชใส่ลงในช่วงความน่าจะเป็น 0..1 สำหรับทุกชั้น ตอนนี้ฉันไม่แน่ใจว่าฟังก์ชั่นการสูญเสียที่ฉันควรใช้สำหรับสิ่งนี้ เมื่อพิจารณาถึงคำจำกัดความของ crossentropy ที่เป็นหมวดหมู่ฉันเชื่อว่ามันจะใช้ไม่ได้กับปัญหานี้เพราะมันจะคำนึงถึงผลลัพธ์ของเซลล์ประสาทที่ควรจะเป็น 1 เท่านั้นและไม่สนใจสิ่งอื่น เอนโทรปีของ Binary cross ดูเหมือนว่าจะเหมาะกว่า แต่ฉันเห็นเพียงว่ามันเคยถูกกล่าวถึงสำหรับปัญหาการจำแนกเลขฐานสองด้วยเซลล์ประสาทเอาท์พุทเดี่ยว ฉันใช้ python และ keras เพื่อฝึกฝนในกรณีที่มันสำคัญ

6
Backpropagation ด้วย Softmax / Cross Entropy
ฉันพยายามที่จะเข้าใจวิธีการทำงานของ backpropagation สำหรับเลเยอร์เอาต์พุต softmax / cross-entropy ฟังก์ชันข้อผิดพลาดข้ามเอนโทรปีคือ E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j ด้วยและเป็นเป้าหมายและเอาต์พุตที่เซลล์ประสาทตามลำดับ ผลรวมอยู่เหนือเซลล์ประสาทแต่ละเซลล์ในชั้นเอาต์พุต นั้นเป็นผลมาจากฟังก์ชั่น softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} อีกครั้งผลรวมจะอยู่เหนือแต่ละเซลล์ประสาทในเลเยอร์เอาต์พุตและคืออินพุตไปยังเซลล์ประสาท :zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b นั่นคือผลรวมกว่าเซลล์ทั้งหมดในชั้นก่อนหน้านี้กับการส่งออกของพวกเขาที่สอดคล้องกันและน้ำหนักต่อเซลล์ประสาทบวกอคติขoioio_iwijwijw_{ij}jjjbbb ตอนนี้เพื่ออัปเดตน้ำหนักที่เชื่อมต่อเซลล์ประสาทในชั้นเลเยอร์เอาท์พุทกับเซลล์ประสาทในชั้นก่อนหน้าฉันต้องคำนวณอนุพันธ์บางส่วนของฟังก์ชันข้อผิดพลาดโดยใช้กฎลูกโซ่:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} กับเป็น input เพื่อเซลล์ประสาทญzjzjz_jjjj เทอมสุดท้ายค่อนข้างเรียบง่าย เนื่องจากมีน้ำหนักเพียงหนึ่งเดียวระหว่างและอนุพันธ์คือ:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i เทอมแรกคือการสืบทอดของฟังก์ชันข้อผิดพลาดเกี่ยวกับเอาต์พุต :ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial …

1
ทำไมเราใช้ Kullback-Leibler divergence แทนที่จะข้ามเอนโทรปีในฟังก์ชันวัตถุประสงค์ t-SNE
ในใจของฉัน KL แตกต่างจากการกระจายตัวอย่างไปจนถึงการแจกแจงที่แท้จริงเป็นเพียงความแตกต่างระหว่างเอนโทรปีและเอนโทรปี เหตุใดเราใช้ cross entropy เป็นฟังก์ชั่นค่าใช้จ่ายในแบบจำลองการเรียนรู้ของเครื่องหลายเครื่อง แต่ใช้ Kullback-Leibler divergence ใน t-sne ความเร็วในการเรียนรู้แตกต่างกันหรือไม่?

3
การเรียนรู้ของเครื่อง: ฉันควรใช้เอนโทรปีของการแยกประเภทเอนโทรปีหรือการสูญเสียเอนโทรปีในการทำนายแบบไบนารี
ก่อนอื่นฉันรู้ว่าฉันต้องทำการคาดคะเนไบนารีฉันต้องสร้างคลาสอย่างน้อยสองคลาสผ่านการเข้ารหัสหนึ่งครั้ง ถูกต้องหรือไม่ อย่างไรก็ตามเอนโทรปีของไบนารีไขว้สำหรับการทำนายด้วยคลาสเดียวเท่านั้น? หากฉันต้องใช้การสูญเสียเอนโทรปีของการจำแนกอย่างเป็นหมวดหมู่ซึ่งมักพบในห้องสมุดส่วนใหญ่ (เช่น TensorFlow) จะมีความแตกต่างที่สำคัญหรือไม่ ในความเป็นจริงอะไรคือความแตกต่างที่แน่นอนระหว่างเอนโทรปีของการแบ่งประเภทและการข้ามแบบไบนารี? ฉันไม่เคยเห็นการใช้งานของเอนโทรปีของการข้ามเลขฐานสองใน TensorFlow ดังนั้นฉันคิดว่าบางทีหมวดหมู่อาจใช้ได้ดี

2
ทำไมค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเป็นค่าเอนโทรปีระหว่างการกระจายเชิงประจักษ์กับแบบจำลองเกาส์เซียน?
ใน 5.5 การเรียนรู้เชิงลึก (โดย Ian Goodfellow, Yoshua Bengio และ Aaron Courville) กล่าวไว้ว่า การสูญเสียใด ๆ ที่ประกอบด้วยความน่าจะเป็นบันทึกเชิงลบคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์ที่กำหนดโดยชุดการฝึกอบรมและการแจกแจงความน่าจะเป็นที่กำหนดโดยแบบจำลอง ยกตัวอย่างเช่นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์และแบบจำลองเกาส์เซียน ฉันไม่สามารถเข้าใจว่าทำไมพวกเขาถึงเทียบเท่าและผู้เขียนไม่ขยายในจุด

2
ฟังก์ชั่นการสูญเสียค่าสัมประสิทธิ์ลูกเต๋าเทียบกับเอนโทรปี
เมื่อทำการฝึกอบรมการแบ่งส่วนพิกเซลของโครงข่ายประสาทเทียมเช่นเครือข่าย convolutional ทั้งหมดคุณจะตัดสินใจใช้ฟังก์ชั่นการสูญเสียข้ามเอนโทรปีกับฟังก์ชันการสูญเสียค่าสัมประสิทธิ์ Dice ได้อย่างไร? ฉันรู้ว่านี่เป็นคำถามสั้น ๆ แต่ไม่แน่ใจว่าจะให้ข้อมูลอื่นใดอีก ฉันดูเอกสารจำนวนมากเกี่ยวกับฟังก์ชั่นการสูญเสียสองอย่าง แต่ไม่สามารถเข้าใจได้ง่ายว่าจะใช้ฟังก์ชันใดฟังก์ชันหนึ่ง

1
ฟังก์ชั่นการสูญเสียสำหรับระบบเข้ารหัสอัตโนมัติ
ฉันกำลังทดลองตัวเข้ารหัสอัตโนมัติเล็กน้อยและด้วย tenorflow ฉันได้สร้างแบบจำลองที่พยายามสร้างชุดข้อมูล MNIST ขึ้นมาใหม่ เครือข่ายของฉันง่ายมาก: X, e1, e2, d1, Y โดยที่ e1 และ e2 กำลังเข้ารหัสเลเยอร์, ​​d2 และ Y เป็นชั้นถอดรหัส (และ Y เป็นเอาต์พุตที่สร้างขึ้นใหม่) X มี 784 หน่วย, e1 มี 100, e2 มี 50, d1 มี 100 อีกครั้งและ Y 784 อีกครั้ง ฉันใช้ sigmoids เป็นฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ e1, e2, d1 และ Y อินพุตอยู่ใน [0,1] …

5
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอยหรือไม่?
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอย (ตรงข้ามกับการจำแนก)? ถ้าเป็นเช่นนั้นคุณช่วยยกตัวอย่างของเล่นผ่าน TensorFlow ได้ไหม ถ้าไม่ทำไมล่ะ ฉันอ่านเกี่ยวกับ cross-entropy ในNeural Networks และ Deep Learningโดย Michael Nielsen และดูเหมือนว่าบางสิ่งบางอย่างที่สามารถใช้สำหรับการถดถอยและการจำแนกตามธรรมชาติ แต่ฉันไม่เข้าใจว่าคุณจะนำมันไปใช้อย่างมีประสิทธิภาพใน TensorFlow ตั้งแต่ ฟังก์ชั่นการสูญเสียทำบันทึก (ซึ่งฉันก็ไม่เข้าใจเหมือนกัน) และพวกมันอยู่ในหมวดหมู่ที่นี่

2
นิยามที่แตกต่างกันของฟังก์ชั่นการสูญเสียเอนโทรปี
ฉันเริ่มเรียนรู้เกี่ยวกับเครือข่ายประสาทด้วยการสอนเกี่ยวกับโครงข่ายประสาทเทียมและคำแนะนำ dot com โดยเฉพาะอย่างยิ่งในบทที่ 3มีส่วนที่เกี่ยวกับฟังก์ชั่นเอนโทรปีของการข้ามและกำหนดการสูญเสียเอนโทรปีของครอสเป็น: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) อย่างไรก็ตามการอ่านการแนะนำ Tensorflowการสูญเสียเอนโทรปีถูกกำหนดเป็น: C=−1n∑x∑j(yjlnaLj)C=−1n∑x∑j(yjln⁡ajL)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j) (เมื่อใช้สัญลักษณ์เดียวกันกับด้านบน) จากนั้นค้นหาไปรอบ ๆ เพื่อค้นหาว่าเกิดอะไรขึ้นฉันพบบันทึกอีกชุดหนึ่ง: ( https://cs231n.github.io/linear-classify/#softmax-classifier ) ซึ่งใช้คำจำกัดความที่แตกต่างกันโดยสิ้นเชิงของการสูญเสียเอนโทรปีของการข้าม เวลาสำหรับตัวจําแนก softmax แทนเครือข่ายประสาท บางคนสามารถอธิบายให้ฉันฟังได้ว่าเกิดอะไรขึ้นที่นี่ ทำไมถึงมีข้อแตกต่าง btw สิ่งที่ผู้คนกำหนดการสูญเสียข้ามเอนโทรปีเป็น? มีเพียงหลักการบางอย่างที่ครอบคลุมอยู่หรือไม่

4
การเชื่อมต่อระหว่าง MLE และความหมายของเอนโทรปีในการเรียนรู้ลึกเป็นอย่างไร
ผมเข้าใจว่าได้รับชุดของอิสระสังเกต ตัวประมาณความน่าจะเป็นสูงสุด (หรือที่เท่ากันคือ MAP ที่มี flat / uniform มาก่อน) ซึ่งระบุพารามิเตอร์ที่สร้างแบบจำลองการกระจาย p_ {model} \ ซ้าย (\, \ cdot \,; \ mathbf {θ} \ right) ที่ตรงกับข้อสังเกตเหล่านั้นมากที่สุดmmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) หรือสะดวกยิ่งขึ้น θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) และดูบทบาทที่θMLθML\mathbf{θ}_{ML}สามารถเล่นในการกำหนดฟังก์ชั่นการสูญเสียสำหรับเครือข่ายนิวรัลลึกหลายระดับซึ่งθθ\mathbf{θ}สอดคล้องกับพารามิเตอร์ที่ฝึกอบรมของเครือข่าย (เช่นθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )และการสังเกตเป็นคู่ของการเปิดใช้งานอินพุตxx\mathbf{x}และการแก้ไขเลเบลคลาสที่ถูกต้องy∈[1,k]y∈[1,k]y …

1
โดยสังเขปเหตุใดไขว้เอนโทรปีจึงวัดระยะทางของการแจกแจงความน่าจะเป็นสองอัน?
สำหรับการแจกแจงแบบแยกสองและข้ามเอนโทรปีจะถูกกำหนดเป็นqพีppQqq H( p , q) = - ∑xp ( x ) บันทึกQ( x )H(p,q)=−∑xp(x)log⁡q(x).H(p,q)=-\sum_x p(x)\log q(x). ฉันสงสัยว่าทำไมนี่เป็นการวัดระยะทางแบบง่าย ๆ ระหว่างการแจกแจงความน่าจะเป็นสองแบบ? ผมเห็นว่าเป็นเอนโทรปีของซึ่งมาตรการ "แปลกใจ" ของพีเป็นตัวชี้วัดที่ส่วนหนึ่งแทนที่โดยQฉันยังไม่เข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังคำจำกัดความp p H ( p , q ) p qH( p , p )H(พี,พี)H(p,p)พีพีpพีพีpH( p , q)H(พี,Q)H(p,q)พีพีpQQq
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.