สิ่งที่ทำให้เครือข่ายประสาทเทียมเป็นรูปแบบการจำแนกแบบไม่เชิงเส้น?


18

ฉันพยายามเข้าใจความหมายทางคณิตศาสตร์ของตัวแบบการจำแนกแบบไม่เชิงเส้น:

ฉันเพิ่งอ่านบทความที่พูดคุยเกี่ยวกับอวนประสาทเป็นรูปแบบการจัดหมวดหมู่ที่ไม่ใช่เชิงเส้น

แต่ฉันเพิ่งรู้ว่า:

ป้อนคำอธิบายรูปภาพที่นี่

ชั้นแรก:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

ชั้นต่อมา

y=bwby+h1wh1y+h2wh2y

สามารถทำให้ง่ายขึ้นไป

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

โครงข่ายประสาทสองชั้นเป็นเพียงการถดถอยเชิงเส้นอย่างง่าย

=b+x1W1+x2W2

สิ่งนี้สามารถแสดงให้เห็นถึงจำนวนเลเยอร์ใด ๆ เนื่องจากการรวมกันเชิงเส้นของจำนวนน้ำหนักใด ๆ เป็นเส้นตรงอีกครั้ง

อะไรที่ทำให้โครงข่ายประสาทเทียมเป็นแบบจำลองการจำแนกแบบไม่เชิงเส้น
ฟังก์ชั่นการเปิดใช้งานจะส่งผลกระทบต่อความไม่เป็นเชิงเส้นของรุ่นอย่างไร
คุณอธิบายฉันได้ไหม

คำตอบ:


18

ฉันคิดว่าคุณลืมฟังก์ชั่นการเปิดใช้งานในโหนดในเครือข่ายนิวรัลซึ่งไม่ใช่เชิงเส้นและจะทำให้ทั้งโมเดลไม่เป็นเชิงเส้น

ในสูตรของคุณไม่ถูกต้องทั้งหมดที่

h1w1x1+w2x2

แต่

h1=sigmoid(w1x1+w2x2)

โดยที่ sigmoid ทำหน้าที่เช่นนี้sigmoid(x)=11+ex

ป้อนคำอธิบายรูปภาพที่นี่

ลองใช้ตัวอย่างตัวเลขที่จะอธิบายถึงผลกระทบของฟังก์ชั่น sigmoid ที่สมมติว่าคุณมีแล้ว\ในทางกลับกันสมมติว่าคุณมี ,และมันเกือบจะเหมือนกับซึ่งไม่ใช่เชิงเส้นsigmoid ( 4 ) = 0.99 w 1 x 1 + w 2 x 2 = 4000 sigmoid ( 4000 ) = 1 sigmoid ( 4 )w1x1+w2x2=4sigmoid(4)=0.99w1x1+w2x2=4000sigmoid(4000)=1sigmoid(4)


นอกจากนี้ฉันคิดว่าสไลด์ 14 ในบทช่วยสอนนี้สามารถแสดงตำแหน่งที่คุณทำผิดอย่างแน่นอน สำหรับโปรดไม่ใช่ otuput ไม่ใช่ -7.65 แต่ sigmoid ( - 7.65 )H1sigmoid(7.65)

ป้อนคำอธิบายรูปภาพที่นี่


1
ฟังก์ชั่นการเปิดใช้งานจะส่งผลกระทบต่อความไม่เป็นเชิงเส้นของรุ่นอย่างไร คุณอธิบายฉันได้ไหม
Alvaro Joao

3

คุณถูกต้องว่าเลเยอร์เชิงเส้นหลายรายการสามารถเทียบเท่ากับเลเยอร์เชิงเส้นเดียวได้ ดังที่คำตอบอื่น ๆ ได้กล่าวไว้ฟังก์ชั่นการเปิดใช้งานแบบไม่เชิงเส้นอนุญาตการจำแนกแบบไม่เชิงเส้น การบอกว่าตัวจําแนกเป็นแบบไม่เชิงเส้นหมายความว่ามันมีขอบเขตการตัดสินใจแบบไม่เชิงเส้น ขอบเขตการตัดสินใจเป็นพื้นผิวที่แยกชั้นเรียน ตัวจําแนกจะคาดการณ์หนึ่งชั้นสำหรับทุกจุดในด้านหนึ่งของขอบเขตการตัดสินใจและอีกชั้นหนึ่งสำหรับทุกจุดในด้านอื่น ๆ

ลองพิจารณาสถานการณ์ทั่วไป: ทำการจำแนกเลขฐานสองกับเครือข่ายที่มีหน่วยซ้อนไม่เชิงเส้นหลายชั้นและหน่วยเอาท์พุทที่มีฟังก์ชั่นเปิดใช้งาน sigmoidal ให้เอาต์พุต,คือเวกเตอร์ของการเปิดใช้งานสำหรับเลเยอร์ที่ซ่อนอยู่ล่าสุด,คือเวกเตอร์ของน้ำหนักของพวกเขาไปยังยูนิตเอาต์พุต, และคืออคติของเอาต์พุตยูนิต ผลลัพธ์คือ:h w byhwb

y=σ(hw+b)

โดยที่เป็นฟังก์ชัน sigmoid โลจิสติกส์ เอาท์พุทถูกตีความว่าเป็นความน่าจะเป็นว่าชั้นเป็น1คลาสคาดการณ์คือ:1 cσ1c

c={0y0.51y>0.5

ลองพิจารณากฎการจัดหมวดหมู่เกี่ยวกับการเปิดใช้งานหน่วยที่ซ่อนอยู่ เราจะเห็นว่าการเปิดใช้งานหน่วยที่ซ่อนอยู่จะถูกฉายลงบนเส้นB กฎสำหรับการกำหนดคลาสเป็นฟังก์ชั่นของซึ่งสัมพันธ์กับการฉายภาพตามเส้น กฎการจัดหมวดหมู่จึงเทียบเท่ากับการพิจารณาว่าการประมาณการตามเส้นนั้นน้อยกว่าหรือมากกว่าขีด จำกัด บางส่วน (ในกรณีนี้ขีด จำกัด จะถูกกำหนดโดยค่าลบของอคติ) ซึ่งหมายความว่าขอบเขตการตัดสินใจเป็นไฮเปอร์เพลนที่เป็นฉากตั้งฉากกับเส้นและตัดกันเส้น ณ จุดที่สอดคล้องกับขีด จำกัด นั้นhW+by

ฉันกล่าวก่อนหน้านี้ว่าขอบเขตการตัดสินใจไม่เชิงเส้น แต่ไฮเปอร์เพลนเป็นคำจำกัดความของขอบเขตเชิงเส้น แต่เราได้พิจารณาขอบเขตเป็นหน้าที่ของหน่วยที่ซ่อนอยู่ก่อนหน้าเอาต์พุต การเปิดใช้งานหน่วยที่ซ่อนอยู่เป็นฟังก์ชันที่ไม่ใช่เชิงเส้นของอินพุตดั้งเดิมเนื่องจากเลเยอร์ที่ซ่อนไว้ก่อนหน้านี้และฟังก์ชั่นการเปิดใช้งานแบบไม่เชิงเส้น วิธีหนึ่งที่จะคิดเกี่ยวกับเครือข่ายก็คือมันจะทำการแมปข้อมูลแบบไม่เชิงเส้นในพื้นที่ของคุณลักษณะ พิกัดในพื้นที่นี้ได้รับจากการเปิดใช้งานของหน่วยที่ซ่อนอยู่ล่าสุด เครือข่ายทำการจำแนกเชิงเส้นในพื้นที่นี้ (การถดถอยโลจิสติกส์ในกรณีนี้) นอกจากนี้เรายังสามารถคิดถึงขอบเขตการตัดสินใจในฐานะหน้าที่ของอินพุตต้นฉบับ ฟังก์ชั่นนี้จะเป็นแบบไม่เชิงเส้นเนื่องจากการแมปแบบไม่เชิงเส้นจากอินพุตไปยังการเปิดใช้งานหน่วยที่ซ่อนอยู่

โพสต์บล็อกนี้แสดงให้เห็นถึงตัวเลขและภาพเคลื่อนไหวที่ดีของกระบวนการนี้


1

ความไม่เชิงเส้นมาจากฟังก์ชันการเปิดใช้งาน sigmoid, 1 / (1 + e ^ x) โดยที่ x คือการรวมกันเชิงเส้นของตัวทำนายและน้ำหนักที่คุณอ้างถึงในคำถามของคุณ

อย่างไรก็ตามขอบเขตของการเปิดใช้งานนี้เป็นศูนย์และอีกอันหนึ่งเนื่องจากตัวส่วนมีขนาดใหญ่จนเศษส่วนเข้าใกล้ศูนย์หรือ e ^ x กลายเป็นขนาดเล็กมากจนเศษส่วนเข้าใกล้ 1/1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.