สถิติและข้อมูลขนาดใหญ่ neural-networks

3

ฉันพยายามที่จะเพิ่มเลเยอร์ softmax ให้กับเครือข่ายประสาทที่ได้รับการฝึกอบรมเกี่ยวกับ backpropagation ดังนั้นฉันจึงพยายามคำนวณการไล่ระดับสี เอาต์พุต softmax คือโดยที่คือหมายเลขเซลล์ประสาทเอาท์พุท jhj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj ถ้าฉันได้มันมาฉันก็จะได้ ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) คล้ายกับการถดถอยโลจิสติก อย่างไรก็ตามนี่เป็นสิ่งที่ผิดเนื่องจากการตรวจสอบการไล่ระดับสีของฉันล้มเหลว ผมทำอะไรผิดหรือเปล่า? ฉันคิดว่าฉันต้องคำนวณ cross cross เช่นกัน (เช่น ) แต่ฉันไม่แน่ใจว่าจะทำอย่างไรและรักษามิติการไล่ระดับสีไว้ เหมือนกันดังนั้นจึงจะเหมาะสำหรับกระบวนการเผยแพร่กลับ∂hj∂zk∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}

43 neural-networks

2

maxout ในโครงข่ายประสาทเทียมคืออะไร

ใครสามารถอธิบายว่าหน่วย maxout ในเครือข่ายประสาทเทียมทำอะไรได้บ้าง พวกเขาทำงานได้อย่างไรและแตกต่างจากหน่วยทั่วไปอย่างไร ฉันพยายามอ่านกระดาษ"Maxout Network" 2013 โดย Goodfellow และคณะ (จากกลุ่มของศาสตราจารย์โยชูวาเบงกิโอ) แต่ฉันไม่เข้าใจเลย

42 machine-learning neural-networks

1

โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก

โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:αα\alpha ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตราΔ โอห์มผม( t + 1 ) = - η∂E∂Wผม+ อัลฟ่าΔ โอห์มผม( T ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})Ww{\bf w}ηη\eta การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - …

41 neural-networks optimization regularization gradient-descent

4

ทำไม sigmoid จึงทำงานแทนอย่างอื่น?

ทำไมฟังก์ชั่น sigmoid มาตรฐานแบบพฤตินัยจึงได้รับความนิยมในเครือข่ายนิวรัลและการถดถอยโลจิสติก11+e−x11+e−x\frac{1}{1+e^{-x}} ทำไมเราไม่ใช้ฟังก์ชั่นที่เปลี่ยนแปลงได้อื่น ๆ อีกมากมายด้วยเวลาการคำนวณที่เร็วขึ้นหรือการสลายตัวที่ช้ากว่า ไม่กี่ตัวอย่างในวิกิพีเดียเกี่ยวกับฟังก์ชั่น sigmoid หนึ่งในรายการโปรดของฉันกับการสลายตัวช้าและการคำนวณอย่างรวดเร็ว|}x1+|x|x1+|x|\frac{x}{1+|x|} แก้ไข คำถามนั้นแตกต่างจากรายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในเครือข่ายนิวรัลที่มีข้อดี / ข้อเสียเนื่องจากฉันสนใจเพียงแค่ 'ทำไม' และสำหรับ sigmoid เท่านั้น

40 logistic neural-networks least-squares

3

อะไรคือความแตกต่างระหว่างโมเดลมาร์คอฟที่ซ่อนอยู่กับเครือข่ายประสาทเทียม

ฉันแค่ทำให้เท้าของฉันเปียกในสถิติดังนั้นฉันขอโทษถ้าคำถามนี้ไม่สมเหตุสมผล ฉันใช้โมเดลของมาร์คอฟเพื่อทำนายสถานะที่ซ่อนอยู่ (คาสิโนที่ไม่เป็นธรรมลูกเต๋าทอย ฯลฯ ) และเครือข่ายประสาทเทียมเพื่อศึกษาการคลิกของผู้ใช้ในเครื่องมือค้นหา ทั้งสองมีสถานะซ่อนเร้นที่เราพยายามคิดโดยใช้การสังเกต เพื่อความเข้าใจของฉันพวกเขาทั้งคู่ทำนายสถานะซ่อนเร้นดังนั้นฉันสงสัยว่าเมื่อไหร่จะใช้โมเดลมาร์คอฟผ่านเครือข่ายประสาท พวกเขามีวิธีการที่แตกต่างกันสำหรับปัญหาที่คล้ายกันหรือไม่ (ฉันสนใจที่จะเรียนรู้ แต่ฉันก็มีแรงจูงใจอีกอย่างฉันมีปัญหาที่ฉันพยายามแก้ไขโดยใช้โมเดลของมาร์คอฟที่ซ่อนอยู่ แต่มันทำให้ฉันเป็นบ้า

40 data-mining algorithms neural-networks markov-process

4

ฟังก์ชันการเปิดใช้งาน rectilinear ช่วยแก้ปัญหาการไล่ระดับสีที่หายไปในเครือข่ายประสาทได้อย่างไร

ฉันพบหน่วยการเชิงเส้นที่ถูกต้อง (ReLU) ยกย่องในหลาย ๆ ที่เพื่อแก้ปัญหาการไล่ระดับสีที่หายไปสำหรับเครือข่ายประสาท นั่นคือหนึ่งใช้สูงสุด (0, x) เป็นฟังก์ชั่นการเปิดใช้งาน เมื่อการเปิดใช้งานเป็นบวกจะเห็นได้ชัดว่านี่เป็นสิ่งที่ดีกว่าพูดว่าฟังก์ชั่นการเปิดใช้งาน sigmoid เนื่องจากการสืบทอดมาเป็น 1 เสมอแทนที่จะเป็นค่าเล็ก ๆ โดยพลการสำหรับ x ขนาดใหญ่ ในทางกลับกันการได้มานั้นคือ 0 เมื่อ x น้อยกว่า 0 ในกรณีที่แย่ที่สุดเมื่อหน่วยไม่เคยถูกเปิดใช้งานน้ำหนักของหน่วยนี้จะไม่เปลี่ยนแปลงอีกต่อไปและหน่วยจะไม่มีประโยชน์ตลอดไป - ซึ่งดูเหมือนว่า เลวร้ายยิ่งกว่าการไล่ระดับสีขนาดเล็กที่หายไปมาก อัลกอริทึมการเรียนรู้จะจัดการกับปัญหานั้นอย่างไรเมื่อพวกเขาใช้ ReLU

40 machine-learning neural-networks deep-learning gradient-descent

7

การทำข้อมูลให้เป็นมาตรฐานและมาตรฐานในเครือข่ายประสาทเทียม

ฉันพยายามทำนายผลลัพธ์ของระบบที่ซับซ้อนโดยใช้โครงข่ายประสาท (ANN's) ค่าผลลัพธ์ขึ้นอยู่กับช่วงระหว่าง 0 ถึง 10,000 ตัวแปรอินพุตที่ต่างกันมีช่วงที่แตกต่างกัน ตัวแปรทั้งหมดมีการแจกแจงแบบปกติประมาณ ฉันพิจารณาตัวเลือกต่าง ๆ เพื่อปรับขนาดข้อมูลก่อนการฝึกอบรม ทางเลือกหนึ่งคือการปรับขนาดตัวแปรอินพุต (อิสระ) และเอาต์พุต (ขึ้นอยู่กับ) เป็น [0, 1] โดยการคำนวณฟังก์ชันการแจกแจงสะสมโดยใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของแต่ละตัวแปรอย่างอิสระ ปัญหาของวิธีนี้คือถ้าฉันใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ที่เอาต์พุตฉันจะพลาดข้อมูลมากโดยเฉพาะที่ไม่ได้เห็นในชุดฝึกอบรม อีกทางเลือกหนึ่งคือใช้คะแนน z ในกรณีนี้ฉันไม่มีปัญหาข้อมูลมาก อย่างไรก็ตามฉัน จำกัด ฟังก์ชั่นการเปิดใช้งานเชิงเส้นที่เอาต์พุต เทคนิคการทำให้เป็นมาตรฐานที่ยอมรับอื่น ๆ ที่ใช้กับ ANN คืออะไร ฉันพยายามค้นหาคำวิจารณ์ในหัวข้อนี้ แต่ไม่พบสิ่งที่มีประโยชน์

39 machine-learning neural-networks multidimensional-scaling

2

ImageNet: อัตราข้อผิดพลาด top-1 และ top-5 คืออะไร?

ในเอกสารการจัดประเภท ImageNet อัตราความผิดพลาดอันดับ 1 และ top-5 เป็นหน่วยที่สำคัญสำหรับการวัดความสำเร็จของการแก้ปัญหาบางอย่าง แต่อัตราข้อผิดพลาดเหล่านั้นคืออะไร ในการจัดประเภท ImageNet ด้วย Deep Convolutional Networks โดย Krizhevsky et al. ทุกโซลูชันที่ใช้ CNN เดียว (หน้า 7) ไม่มีอัตราข้อผิดพลาด 5 อันดับแรกในขณะที่โซลูชันที่มี 5 และ 7 CNN มี (และอัตราข้อผิดพลาดสำหรับ 7 CNN นั้นดีกว่า 5 CNNs) นี่หมายความว่าอัตราความผิดพลาดอันดับ 1 เป็นอัตราข้อผิดพลาดเดียวที่ดีที่สุดสำหรับ CNN เดียวหรือไม่ อัตราข้อผิดพลาด 5 อันดับแรกเป็นเพียงอัตราความผิดพลาดสะสมของ CNN ห้าแห่งหรือไม่

38 classification neural-networks error measurement-error image-processing

5

ทำอย่างไรจึงจะเห็นภาพ / เข้าใจว่าเครือข่ายประสาทกำลังทำอะไร

โครงข่ายประสาทมักได้รับการปฏิบัติเหมือน "กล่องดำ" เนื่องจากโครงสร้างที่ซับซ้อน สิ่งนี้ไม่เหมาะเนื่องจากมักจะมีประโยชน์ที่จะเข้าใจอย่างถ่องแท้ว่าโมเดลทำงานภายในอย่างไร วิธีการแสดงให้เห็นว่าเครือข่ายประสาทที่ได้รับการฝึกฝนนั้นทำงานอย่างไร อีกวิธีหนึ่งเราจะแยกคำอธิบายที่ย่อยได้ง่ายของเครือข่าย (เช่นโหนดที่ซ่อนอยู่นี้ทำงานกับอินพุตเหล่านี้เป็นหลัก) ฉันสนใจเครือข่ายการส่งต่อเลเยอร์สองระดับเป็นหลัก แต่ฉันอยากจะได้ยินโซลูชั่นสำหรับเครือข่ายที่ลึกกว่า ข้อมูลที่ป้อนเข้าสามารถเป็นได้ทั้งแบบเป็นภาพและไม่เป็นภาพ

37 data-visualization neural-networks

7

ทำไมการทำให้เป็นมาตรฐานไม่สามารถแก้ปัญหาความหิวโหยของโครงข่ายประสาทได้

ปัญหาที่ฉันเห็นบ่อยขึ้นในบริบทของเครือข่ายประสาททั่วไปและโดยเฉพาะอย่างยิ่งเครือข่ายประสาทลึกคือพวกเขากำลัง "หิวข้อมูล" - นั่นคือพวกเขาทำงานได้ไม่ดียกเว้นว่าเรามีชุดข้อมูลขนาดใหญ่ ที่จะฝึกอบรมเครือข่าย ความเข้าใจของฉันคือว่านี่เป็นเพราะความจริงที่ว่า NNets โดยเฉพาะอย่างยิ่ง NNets ลึกมีระดับของเสรีภาพจำนวนมาก ดังนั้นในแบบจำลอง NNet จึงมีพารามิเตอร์จำนวนมากและหากจำนวนพารามิเตอร์ของแบบจำลองมีขนาดใหญ่เมื่อเทียบกับจำนวนจุดข้อมูลการฝึกอบรมมีแนวโน้มที่จะเพิ่มขึ้นพอดี แต่ทำไมปัญหานี้ถึงไม่ได้รับการแก้ไขโดยการทำให้เป็นมาตรฐาน เท่าที่ฉันรู้ NNets สามารถใช้การทำให้เป็นมาตรฐาน L1 และ L2 และยังมีวิธีการทำให้เป็นมาตรฐานของตนเองเช่นการออกกลางคันซึ่งสามารถลดจำนวนพารามิเตอร์ในเครือข่าย เราสามารถเลือกวิธีการทำให้เป็นมาตรฐานของเราเช่นที่พวกเขาบังคับใช้ parsimony และ จำกัด ขนาดของเครือข่ายได้หรือไม่? เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้

37 neural-networks deep-learning regularization

4

ความแตกต่างระหว่าง“ เคอร์เนล” และ“ ตัวกรอง” ในซีเอ็นเอ็น

ความแตกต่างระหว่างคำว่า "เคอร์เนล" และ "ตัวกรอง" ในบริบทของเครือข่ายประสาทเทียมคืออะไร?

37 neural-networks terminology deep-learning conv-neural-network

4

ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่สามารถพูดคุยได้ดี

ฉันกำลังฝึกอบรมโครงข่ายประสาทและการสูญเสียการฝึกอบรมลดลง แต่การสูญเสียการตรวจสอบไม่ได้หรือลดลงน้อยกว่าที่ฉันคาดไว้มากขึ้นอยู่กับการอ้างอิงหรือการทดลองกับสถาปัตยกรรมและข้อมูลที่คล้ายคลึงกันมาก ฉันจะแก้ไขสิ่งนี้ได้อย่างไร สำหรับคำถาม ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้เรียนรู้ คำถามนี้ได้รับการดลใจคำถามก็คือจงใจทิ้งไว้โดยทั่วไปเพื่อให้คำถามอื่น ๆ เกี่ยวกับวิธีการลดความผิดพลาดในการวางนัยทั่วไปของโครงข่ายใยประสาทเทียมลงไปถึงระดับที่พิสูจน์แล้วว่าสามารถบรรลุได้ ดูเพิ่มเติมที่เธรดเฉพาะบน Meta: มีคำถามทั่วไปที่เราสามารถเปลี่ยนเส้นทางคำถามประเภท "ทำไมเครือข่ายประสาทของฉันถึงไม่พูดคุยได้ดี?"

36 neural-networks deep-learning

5

ฟังก์ชั่นค่าใช้จ่ายของโครงข่ายประสาทเทียมนั้นไม่นูนหรือไม่?

ฟังก์ชั่นค่าใช้จ่ายของเครือข่ายประสาทเป็นและมันจะอ้างว่าเป็นที่ไม่นูน ฉันไม่เข้าใจว่าทำไมมันถึงเป็นเช่นนั้นเพราะเมื่อฉันเห็นว่ามันค่อนข้างคล้ายกับฟังก์ชันต้นทุนของการถดถอยโลจิสติกใช่มั้ยJ(W,b)J(W,b)J(W,b) ถ้ามันไม่ใช่แบบนูนดังนั้นอนุพันธ์อันดับสองใช่ไหม?∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0 UPDATE ขอบคุณคำตอบด้านล่างรวมถึงความคิดเห็นของ @ gung ฉันได้รับประเด็นของคุณหากไม่มีเลเยอร์ที่ซ่อนอยู่เลยมันก็นูนเหมือนการถดถอยโลจิสติก แต่ถ้ามีเลเยอร์ที่ซ่อนอยู่โดยอนุญาตให้โหนดในเลเยอร์ที่ซ่อนอยู่รวมถึงตุ้มน้ำหนักในการเชื่อมต่อที่ตามมาเราอาจมีวิธีแก้ปัญหาหลายอย่างของน้ำหนักที่ทำให้สูญเสียเหมือนกัน ตอนนี้คำถามเพิ่มเติม 1) มีหลายท้องถิ่นน้อยและบางอันควรมีค่าเท่ากันเนื่องจากมันสอดคล้องกับบางโหนดและการเปลี่ยนลำดับน้ำหนักใช่ไหม? 2) ถ้าโหนดและตุ้มน้ำหนักไม่ได้ถูกดัดแปรเลยงั้นมันก็จะโค้งงั้นเหรอ? และ Minima จะเป็น Minima ทั่วโลก ถ้าเป็นเช่นนั้นคำตอบของ 1) คือ minima ท้องถิ่นทั้งหมดนั้นจะมีค่าเท่ากันถูกต้องหรือไม่

36 neural-networks loss-functions

4

LSTM ป้องกันปัญหาการไล่ระดับสีที่หายไปได้อย่างไร

LSTM ถูกคิดค้นโดยเฉพาะเพื่อหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไป มันควรจะทำที่มีข้อผิดพลาดคงที่ม้าหมุน (CEC) ซึ่งในแผนภาพด้านล่าง (จากGreff et al. ) สอดคล้องกับวงรอบของเซลล์ (ที่มา: deeplearning4j.org ) และฉันเข้าใจว่าส่วนนั้นสามารถเห็นได้ว่าเป็นฟังก์ชันตัวตนดังนั้นอนุพันธ์จึงเป็นหนึ่งและการไล่ระดับสีคงที่ สิ่งที่ฉันไม่เข้าใจคือวิธีที่มันไม่หายไปเนื่องจากฟังก์ชั่นการเปิดใช้งานอื่น ๆ ? การป้อนข้อมูลการส่งออกและลืมประตูใช้ sigmoid ซึ่งเป็นอนุพันธ์ที่มากที่สุด 0.25, และ g h และประเพณีtanh backpropagating ผ่านสิ่งที่ไม่ทำให้การไล่ระดับสีหายไปได้อย่างไร

35 neural-networks lstm

3

การเรียนรู้ของเครื่อง: ฉันควรใช้เอนโทรปีของการแยกประเภทเอนโทรปีหรือการสูญเสียเอนโทรปีในการทำนายแบบไบนารี

ก่อนอื่นฉันรู้ว่าฉันต้องทำการคาดคะเนไบนารีฉันต้องสร้างคลาสอย่างน้อยสองคลาสผ่านการเข้ารหัสหนึ่งครั้ง ถูกต้องหรือไม่ อย่างไรก็ตามเอนโทรปีของไบนารีไขว้สำหรับการทำนายด้วยคลาสเดียวเท่านั้น? หากฉันต้องใช้การสูญเสียเอนโทรปีของการจำแนกอย่างเป็นหมวดหมู่ซึ่งมักพบในห้องสมุดส่วนใหญ่ (เช่น TensorFlow) จะมีความแตกต่างที่สำคัญหรือไม่ ในความเป็นจริงอะไรคือความแตกต่างที่แน่นอนระหว่างเอนโทรปีของการแบ่งประเภทและการข้ามแบบไบนารี? ฉันไม่เคยเห็นการใช้งานของเอนโทรปีของการข้ามเลขฐานสองใน TensorFlow ดังนั้นฉันคิดว่าบางทีหมวดหมู่อาจใช้ได้ดี

35 machine-learning neural-networks loss-functions tensorflow cross-entropy

คำถามติดแท็ก neural-networks