อัลกอริทึมการเรียนรู้ของเครื่องเช่นตัวแยกประเภทจำลองข้อมูลอินพุตที่นี่โดยการพิจารณาความน่าจะเป็นของอินพุตที่อยู่ในหมวดหมู่ที่แตกต่างกัน สำหรับจำนวนคลาสโดยพลการเลเยอร์ softmax จะถูกผนวกเข้ากับโมเดลดังนั้นเอาต์พุตจะมีคุณสมบัติความน่าจะเป็นโดยการออกแบบ:
y⃗ =softmax(a⃗ )≡1∑ie−ai×[e−a1,e−a2,...,e−an]
0≤yi≤1 for all i
y1+y2+...+yn=1
นี่เปิดใช้งานของชั้นก่อนชั้น softmaxa
สิ่งนี้ใช้ได้อย่างสมบูรณ์แบบสำหรับสองคลาสอย่างไรก็ตามหนึ่งสามารถใช้หนึ่งเซลล์ประสาท (แทนสอง) เนื่องจากเอาต์พุตของมันเป็นไปตาม:
0≤y≤1 for all inputs.
สิ่งนี้สามารถมั่นใจได้ว่าหากมีการใช้การแปลงรูปแบบ (differentiable / smooth เพื่อ backpropagation) ซึ่งแมปกับดังที่ได้พบกับเงื่อนไขข้างต้น ฟังก์ชั่น sigmoid ตรงตามเกณฑ์ของเรา ไม่มีอะไรพิเศษเกี่ยวกับมันนอกเหนือจากการเป็นตัวแทนทางคณิตศาสตร์อย่างง่าย
ay
sigmoid(a)≡σ(a)≡11+e−a
คุณสมบัติทางคณิตศาสตร์ที่มีประโยชน์ (ความแตกต่างถูก จำกัด ระหว่าง 0 และ 1 ฯลฯ ) ประสิทธิภาพการคำนวณและการมีความชันที่เหมาะสมเช่นการปรับปรุงน้ำหนักของเครือข่ายจะมีการเปลี่ยนแปลงเล็กน้อย แต่สามารถวัดได้ในผลลัพธ์สำหรับวัตถุประสงค์ในการปรับให้เหมาะสม
ข้อสรุป
ฉันไม่แน่ใจว่าเหตุผลของ @ itdxer ที่แสดง softmax และ sigmoid นั้นเทียบเท่ากันหรือไม่ แต่เขามีสิทธิ์ในการเลือก 1 เซลล์ประสาทในทางตรงกันข้ามกับ 2 เซลล์ประสาทสำหรับตัวแยกประเภทไบนารีเนื่องจากต้องการพารามิเตอร์และการคำนวณที่น้อยลง ฉันได้รับการวิพากษ์วิจารณ์จากการใช้เซลล์ประสาทสองตัวสำหรับตัวจําแนกแบบไบนารีเนื่องจาก