“ ระดับอิสรภาพ” หมายถึงอะไรในเครือข่ายประสาทเทียม


17

ในหนังสือของบิชอป "การจำแนกรูปแบบและการเรียนรู้ของเครื่อง" ในหนังสือของบิชอปมันอธิบายถึงเทคนิคสำหรับการทำให้เป็นมาตรฐานในบริบทของเครือข่ายประสาท อย่างไรก็ตามฉันไม่เข้าใจย่อหน้าที่อธิบายว่าในระหว่างกระบวนการฝึกอบรมจำนวนองศาอิสระเพิ่มขึ้นพร้อมกับความซับซ้อนของแบบจำลอง คำพูดที่เกี่ยวข้องมีดังต่อไปนี้:

ทางเลือกในการทำให้เป็นมาตรฐานในฐานะวิธีการควบคุมความซับซ้อนที่มีประสิทธิภาพของเครือข่ายคือขั้นตอนการหยุดก่อน การฝึกอบรมรูปแบบเครือข่ายที่ไม่เชิงเส้นนั้นสอดคล้องกับการลดฟังก์ชั่นข้อผิดพลาดซ้ำ ๆ ที่กำหนดตามส่วนของชุดข้อมูลการฝึกอบรม สำหรับอัลกอริธึมการปรับให้เหมาะสมจำนวนมากที่ใช้สำหรับการฝึกอบรมเครือข่ายเช่นการไล่ระดับสีแบบคอนจูเกตข้อผิดพลาดเป็นฟังก์ชันที่ไม่เพิ่มขึ้นของดัชนีการวนซ้ำ อย่างไรก็ตามข้อผิดพลาดที่วัดได้ด้วยความเคารพต่อข้อมูลอิสระโดยทั่วไปเรียกว่าชุดการตรวจสอบความถูกต้องมักจะแสดงการลดลงในตอนแรกตามด้วยการเพิ่มขึ้นเมื่อเครือข่ายเริ่มทำงานมากเกินไป การฝึกอบรมสามารถหยุดได้ที่จุดที่มีข้อผิดพลาดน้อยที่สุดในส่วนของชุดข้อมูลการตรวจสอบความถูกต้องตามที่ระบุในรูปที่ 5.12 เพื่อให้เครือข่ายมีประสิทธิภาพการทำงานที่ดีพฤติกรรมของเครือข่ายในกรณีนี้บางครั้งมีการอธิบายเชิงคุณภาพในแง่ของจำนวนองศาความมีประสิทธิภาพในเครือข่ายซึ่งจำนวนนี้เริ่มจากเล็กและเติบโตในระหว่างกระบวนการฝึกอบรมซึ่งสอดคล้องกับการเพิ่มขึ้นอย่างต่อเนื่องในประสิทธิภาพ ความซับซ้อนของรูปแบบ

นอกจากนี้ยังกล่าวว่าจำนวนพารามิเตอร์เพิ่มขึ้นในระหว่างการฝึกอบรม ฉันสันนิษฐานว่าโดย "พารามิเตอร์" มันหมายถึงจำนวนน้ำหนักที่ควบคุมโดยหน่วยที่ซ่อนอยู่ของเครือข่าย บางทีฉันผิดเพราะน้ำหนักถูกป้องกันเพื่อเพิ่มขนาดโดยกระบวนการ normalization แต่พวกเขาไม่เปลี่ยนจำนวน มันอาจหมายถึงกระบวนการค้นหาหน่วยที่ซ่อนอยู่จำนวนมากหรือไม่?

เสรีภาพในเครือข่ายประสาทคืออะไร พารามิเตอร์ใดเพิ่มขึ้นในระหว่างการฝึก?


1
ศัพท์เฉพาะ พารามิเตอร์คือน้ำหนักเดียว จำนวนพารามิเตอร์ที่เพิ่มขึ้นหมายถึงจำนวน "เซลล์ประสาท" หรือ "การเชื่อมต่อระหว่างเซลล์ประสาท" เพิ่มขึ้น ซึ่งหมายความว่าทอพอโลยีไม่คงที่
EngrStudent - Reinstate Monica

ขอบคุณ! แต่ทำไมการฝึกจึงเพิ่มจำนวนของน้ำหนัก?
Robert Smith

ในความเป็นจริงมีอัลกอริทึมการฝึกอบรมที่จัดการโครงสร้างของโครงข่ายประสาทเทียมในระหว่างการฝึกอบรม (Cascade Correlation, NEAT, ... ) พวกเขามักจะเพิ่มน้ำหนักอย่างต่อเนื่อง แต่ฉันไม่คิดว่าบิชอปพูดถึงในหนังสือของเขา
alfa

@alfa ที่น่าสนใจ ฉันยังไม่ได้อ่านหนังสือทั้งเล่มดังนั้นฉันไม่รู้ว่ามันพูดถึงอัลกอริธึมแบบนั้นหรือไม่ ฉันไม่คิดว่ามันหมายถึงพวกเขาในส่วนของหนังสือเล่มนี้แม้ว่า
Robert Smith

คำตอบ:


12

ฉันสงสัยว่านี่คือความหมายของอธิการ:

ถ้าคุณคิดว่าตาข่ายประสาทเป็นฟังก์ชันที่แมปอินพุตกับเอาต์พุตจากนั้นเมื่อคุณเริ่มต้นตาข่ายประสาทด้วยน้ำหนักสุ่มขนาดเล็กครั้งแรกตาข่ายประสาทมีลักษณะเหมือนฟังก์ชันเชิงเส้นมาก ฟังก์ชั่นการเปิดใช้งาน sigmoid นั้นอยู่ใกล้กับเส้นตรงรอบ ๆ ศูนย์ (เพียงแค่ทำการขยายตัวของเทย์เลอร์) และน้ำหนักขาเข้าขนาดเล็กจะรับประกันได้ว่าโดเมนที่มีประสิทธิภาพของแต่ละหน่วยที่ซ่อนอยู่นั้นเป็นเพียงช่วงเวลาเล็ก ๆ รอบศูนย์ เลเยอร์ที่คุณมีจะดูเหมือนฟังก์ชันเชิงเส้นมาก ดังนั้นคุณจึงสามารถอธิบายโครงข่ายประสาทด้วยวิธีฮิวริสติกได้ว่ามีจำนวนองศาอิสระน้อย (เท่ากับมิติของอินพุต) ในขณะที่คุณฝึกโครงข่ายประสาทน้ำหนักนั้นสามารถมีขนาดใหญ่ขึ้นโดยพลการและตาข่ายประสาทสามารถทำงานที่ไม่ใช่เชิงเส้นโดยประมาณได้ดีขึ้น ดังนั้นเมื่อการฝึกอบรมดำเนินไป


ขอบคุณสำหรับคำตอบ. ฉันเพิ่มส่วนที่เกี่ยวข้องของหนังสือเป็นคำพูดเพื่อให้คุณสามารถมองเห็นบริบท ไม่แน่ใจว่ามันยืนยันคำแนะนำของคุณหรือไม่
Robert Smith

ใช่นั่นเป็นการยืนยันสิ่งที่ฉันคิดว่าอธิการตั้งใจ
Marc Shivers

ฉันอ่านคำตอบของคุณสองสามครั้งฉันคิดว่าในขณะที่การฝึกอบรมดำเนินไปเรื่อย ๆ และตัวแบบเริ่มมากเกินไปจำนวนของฟังก์ชั่นที่แบบจำลองสามารถลดลงได้จริง ๆ แล้วเพราะมันจะประมาณจุดที่ดีมากจากข้อมูลการฝึกอบรม ไม่ดีเพราะมันไม่สามารถพูดคุยเพื่อให้พอดีกับจุดอื่นหรือชุดข้อมูลที่คล้ายกันได้
Robert Smith

4

วลี "บางครั้งอธิบายเชิงคุณภาพ" แสดงให้เห็นว่าเขาเป็นเพียงการเปรียบเทียบกับการถดถอยเชิงเส้นอย่างง่าย ทุกครั้งที่เราเพิ่มคำลงในแบบจำลองการถดถอยเชิงเส้นเราจะเพิ่มระดับความเป็นอิสระให้กับแบบจำลองและลบระดับของอิสรภาพจากสิ่งที่เกี่ยวข้องกับคำที่ผิดพลาด หากเราใส่คำที่เป็นอิสระมากพอลงในแบบจำลองเราสามารถ "ทำนาย" ประวัติศาสตร์ได้อย่างสมบูรณ์แบบจากชุดตัวเลขสุ่ม แต่เราจะไม่สามารถทำนายอนาคตได้ทั้งหมด


3

pพี. สำหรับโมเดลที่มีความซับซ้อนมากขึ้น (เจ้าพิจารณาว่าต้นไม้ถดถอย) ความสามารถในการเพิ่มโหนดพิเศษให้ความยืดหยุ่นมากขึ้นเนื่องจากโมเดล CART จะมองหาตัวแปรที่ดีในการแยกและจุดแยกที่ดี นั่นเป็นวิธีที่มากกว่าสิ่งที่เพิ่ม regressor ให้กับโมเดลเชิงเส้นสามารถทำได้และ Ye พบต้นไม้การถดถอยเพื่อใช้ประมาณ 3.5-4 dfs ต่อโหนด โครงข่ายใยประสาทเทียมอาจอยู่ในที่ใดที่หนึ่ง แต่ระดับของอิสรภาพนั้นใหญ่กว่าจำนวนหน่วยและอาจมากกว่าจำนวนของน้ำหนัก

ฉันคิดว่าHTF Secจัดทำสิ่งที่คล้ายกัน 7.6แม้ว่าพวกเขาจะไม่อ้างถึง Ye (1998) อย่างน่าประหลาดใจ ถึงแม้ว่าพวกเขาจะอ้างถึงบิชอปเป็นกรณีพิเศษ


1
ขอบคุณ ดูเหมือนว่าจะถูก แต่เกี่ยวกับความสัมพันธ์กับการฝึกโครงข่ายประสาท ฉันพบใน "องค์ประกอบของการเรียนรู้ทางสถิติ" ในหน้า 96 ( docs.google.co.th ) เพื่อแสดงระดับของเสรีภาพและความแปรปรวนร่วมและฉันสามารถเห็นได้ว่าเหตุใดการฝึกอบรมเพิ่มเติมจึงลดฟังก์ชันข้อผิดพลาดและเป็นผลให้ความแปรปรวนร่วมเพิ่มขึ้นและ ระดับความอิสระ. อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมสมการนั้น (3.60 ในหนังสือ) จึงเกิดขึ้น
Robert Smith

อย่างไรก็ตามมันก็ดูแตกต่างจากนิยามขององศาอิสระที่พูดคุยกันในบทความของ Ye
Robert Smith

1
ฉันเดาว่าคุณสามารถคิดถึงความแปรปรวนร่วมแบบนั้นในรูปแบบคร่าวๆของอนุพันธ์ ... หรืออาจเป็นวิธีอื่น ๆ : อนุพันธ์นั้นนิยามเป็นขีด จำกัด เมื่อขนาดของขั้นตอนเป็นศูนย์สามารถคิดได้ว่าเป็นส่วนของ ความแปรปรวนร่วมนั้นเป็นความแปรปรวนของการรบกวนไปที่ศูนย์ สมการ (3.60) ไม่จำเป็นต้องถือมันเป็นคำจำกัดความดังนั้นจึงไม่มีอะไรจะถือ สิ่งที่ไม่ถือเป็นความสมดุลที่มีความคมชัดมาตรฐานของ DFS สำหรับรูปแบบเชิงเส้นที่พวกเขาพูดถึงในเวลาสั้น ๆ ในหน้าถัดไปและนั่นเป็นเพียงพีชคณิตเชิงเส้นของแบบจำลองเชิงเส้น เย่ (1998) ต้องพูดเกี่ยวกับมันด้วย
StasK

3

เขากล่าวว่า "ความซับซ้อนที่มีประสิทธิภาพของเครือข่าย" จริงๆแล้วเขาหมายถึงขนาดของน้ำหนักของเครือข่าย นี้สามารถเข้าใจได้ในแง่ของขั้นต่ำหลักการความยาวคำอธิบาย แต่ก่อนที่ฉันจะเข้าใจสิ่งนั้นปรีชาคือน้ำหนักที่ใหญ่กว่ายิ่งฟังก์ชั่นที่แตกต่างกันมากเท่าที่เครือข่ายของคุณสามารถทำได้และระดับความอิสระที่สูงขึ้น

ในบทนั้นเขากำลังพูดถึงการทำให้เป็นระเบียบซึ่งเป็นเทคนิคในการลดความเสี่ยงจากการล้นโดยการเรียกร้องให้ตุ้มน้ำหนักมีขนาดเล็กที่สุดเท่าที่จะทำได้ โดยทั่วไปแล้ว

p(D|w)=np(tn|xn,w)=nexp(β2[tny(xn,w)]2)/ZD(β)
wZD(β)

p(w)=exp(α||w||22)/ZW(α)
argmaxwp(w|D)

p(w|D)=p(D|w)p(w)
Zw

argminwnβ2[tny(xn,w)]2+α2iwi2

โดยทั่วไปคุณมีการประมาณค่า MAP เท่ากับค่าต่อไปนี้

wMAP=argminwlog2P(D|w)log2(w)

ทางด้านขวามือของนิพจน์สามารถตีความได้ว่าจำนวนบิตที่จำเป็นในการอธิบายตัวจําแนกของคุณ คำแรกแสดงจำนวนบิตที่จำเป็นในการเขียนรหัสข้อผิดพลาดที่เครือข่ายของคุณทำกับข้อมูลการฝึกอบรม ที่สองแสดงจำนวนบิตที่จำเป็นในการกำหนดน้ำหนัก

ประมาณการ MAP จึงเทียบเท่ากับการเลือกการแสดงที่กะทัดรัดที่สุดเท่าที่จะทำได้ กล่าวอีกนัยหนึ่งคุณมองหาชุดของน้ำหนักซึ่งบัญชีสำหรับข้อมูลการฝึกอบรมอย่างซื่อสัตย์ที่สุดซึ่งสามารถแสดงได้ด้วยจำนวนบิตน้อยที่สุด

ขอให้สังเกตว่านี่เป็นอีกรูปแบบหนึ่งของปัญหาอคติ / ความแปรปรวน: ยิ่งมีน้ำหนักมากขึ้นยิ่งใช้เทอมแรกน้อยลงเนื่องจากเครือข่ายสามารถใส่ข้อมูลการฝึกอบรมได้ดีขึ้น แต่ในเวลาเดียวกันความซับซ้อนของน้ำหนักก็สูงขึ้น น้ำหนักยิ่งเล็กความซับซ้อนของเครือข่ายก็จะยิ่งมากขึ้น แต่ยิ่งมีข้อผิดพลาด (อคติ) สูงเท่าใด จำนวนบิตที่สูงขึ้นที่จำเป็นในการเขียนรหัสข้อผิดพลาดของเครือข่าย

หวังว่านี่จะช่วยให้คุณมีความคิดที่ดีเกี่ยวกับสิ่งที่เขาอ้างถึง

ป.ล. เพิ่มข้อโต้แย้งที่ยาวกว่าให้กับการสนทนาต่อเนื่องบางทีฉันอาจเข้าใจผิด ให้ฉันลองอธิบายตัวเองเป็นครั้งสุดท้าย

ก่อนหน้านี้เกี่ยวกับตุ้มน้ำหนักหมายถึงการสันนิษฐานที่เราทำเกี่ยวกับฟังก์ชันที่คุณต้องการให้พอดี ยิ่งก่อนหน้านี้ (เช่นน้ำหนัก) ที่กว้างขึ้น Gaussian ที่กว้างขึ้นเช่นการกำหนดค่าที่เป็นไปได้มากกว่าที่เราคิดว่าเหมาะสมกับเครือข่าย

ขอให้เราพิจารณากรณีของการถดถอย (ดังในกระดาษที่ฉันอ้างถึง) ข้อผิดพลาดการวางนัยทั่วไปต่ำหมายความว่าเครือข่ายสามารถแมปตัวอย่างที่มองไม่เห็นได้ใกล้เคียงกับค่าจริง หากคุณกำลังหาเส้นตรงแล้วก็เป็นพหุนามอันดับหนึ่งพอเพียง (ความซับซ้อนต่ำ) ตอนนี้คุณสามารถใส่ข้อมูลด้วยพหุนามลำดับที่สูงขึ้นได้ (ให้ค่าสัมประสิทธิ์การสั่งซื้อที่สูงกว่าแตกต่างจากศูนย์) ความซับซ้อนของเครือข่ายนั้นสูงขึ้นเพราะคุณยอมให้มีการแกว่งเพื่อโค้งที่ซับซ้อนมากขึ้น อย่างไรก็ตามหากค่าสัมประสิทธิ์ที่เกี่ยวข้องกับคำสั่งซื้อที่สูงกว่าอยู่ในระดับต่ำเครือข่ายสามารถประมาณเส้นตรงได้ดีมาก

ดังนั้นจุดรวมของ MDL คือการทำให้น้ำหนักของคุณมีขนาดเล็กที่สุดเท่าที่จะทำได้ตราบใดที่ข้อผิดพลาดทั่วไปสามารถลดลงได้

ในที่สุดการอ้างถึงคุณ: "ฉันยังพบปัญหาในการโต้แย้งว่าเมื่อแบบจำลองเริ่มเกินความสามารถในการสร้างแบบจำลองฟังก์ชั่นอื่น ๆ จะเพิ่มขึ้นฉันคิดว่ามันค่อนข้างตรงกันข้ามเพราะแบบจำลองที่ overfits ไม่สามารถสรุปได้ว่า ข้อมูล.". ใช่มันสามารถจำลอง OTHER ฟังก์ชั่นที่ซับซ้อนมากขึ้น แต่มันจะล้มเหลวในการจำลองฟังก์ชั่นในมืออย่างถูกต้อง ในรูปที่ 5.12 ในหนังสือข้อผิดพลาดลดลงก่อนตามขนาดของน้ำหนักที่เพิ่มขึ้น (ลดอคติ) จนถึงจุดที่กำหนดเมื่อมันเริ่มเพิ่มขึ้นอีกครั้ง (ลดลงโดยทั่วไป, พอดี)


1
ขอบคุณ นี่คล้ายกับแนวคิดของ Marc อย่างไรก็ตามฉันยังคงพบปัญหาในการโต้แย้งว่าเมื่อตัวแบบเริ่มมีความเหมาะสมความสามารถในการทำแบบจำลองฟังก์ชั่นอื่น ๆ จะเพิ่มขึ้น ฉันคิดว่ามันค่อนข้างตรงกันข้ามเพราะนางแบบที่สวมชุดไม่สามารถพูดคุยกับข้อมูลใหม่ได้
Robert Smith

1
โรเบิร์ตฉันเชื่อว่านี่เป็นความเข้าใจผิดของความผิดพลาดในการวางนัยทั่วไปกับความซับซ้อนของเครือข่ายนั่นคือความสามารถในการสร้างแบบจำลองฟังก์ชั่นที่ซับซ้อนมากขึ้น มีจำนวนของเอกสารที่อธิบายถึงเงื่อนไขที่แตกต่างกันเช่นcbcl.mit.edu/projects/cbcl/publications/ps/...
jpmuc

ฉันไม่คิดว่าจะมีความสับสนเมื่อคำว่า "ความซับซ้อน" ถูกนำมาใช้เพราะถ้าคุณมีตุ้มน้ำหนักที่มีค่าบ้านั่นทำให้โมเดลนั้นซับซ้อนมากและคุณสามารถบอกได้ทันทีจากพล็อตที่เกิดขึ้น ในทางกลับกันความสามารถในการจัดการชุดฟังก์ชั่นที่หลากหลายจำเป็นต้องใช้แบบจำลองที่มีความสามารถในการพูดคุยทั่วไปจากข้อมูลที่สามารถรับได้โดยหลีกเลี่ยงการ overfitting
Robert Smith
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.