คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

3
การถดถอยเชิงเส้นหลายตัวแปรเทียบกับเครือข่ายประสาทเทียม?
ดูเหมือนว่าเป็นไปได้ที่จะได้ผลลัพธ์ที่คล้ายคลึงกับเครือข่ายประสาทที่มีการถดถอยเชิงเส้นหลายตัวแปรในบางกรณีและการถดถอยเชิงเส้นหลายตัวแปรนั้นรวดเร็วและง่ายมาก เครือข่ายประสาทสามารถให้ผลลัพธ์ที่ดีกว่าการถดถอยเชิงเส้นหลายตัวแปรในสถานการณ์ใดบ้าง

5
เครื่องมือเพิ่มประสิทธิภาพของอดัมพร้อมการสลายตัวแบบทวีคูณ
ในรหัส Tensorflow ส่วนใหญ่ฉันเห็น Adam Optimizer ใช้กับอัตราการเรียนรู้คงที่1e-4(เช่น 0.0001) รหัสมักจะมีลักษณะดังต่อไปนี้: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually …

5
โครงข่ายประสาทเทียมเทียบกับเครื่องเวกเตอร์สนับสนุน: เป็นอันดับสองที่เหนือกว่าอย่างแน่นอนหรือไม่
ผู้เขียนบทความจำนวนมากที่ฉันอ่านยืนยันว่า SVM เป็นเทคนิคที่เหนือกว่าในการเผชิญกับปัญหาการถดถอย / การจำแนกประเภทของพวกเขาทราบว่าพวกเขาไม่สามารถรับผลลัพธ์ที่คล้ายกันผ่าน NNs บ่อยครั้งที่การเปรียบเทียบระบุว่า SVM แทน NNs มีทฤษฎีการก่อตั้งที่แข็งแกร่ง เข้าถึงโลกที่เหมาะสมเนื่องจากการเขียนโปรแกรมสมการกำลังสอง ไม่มีปัญหาในการเลือกพารามิเตอร์ที่เหมาะสม มีความเสี่ยงที่จะเกิดการแพ้น้อยกว่า ต้องการหน่วยความจำน้อยลงเพื่อจัดเก็บแบบจำลองการทำนาย ให้ผลลัพธ์ที่อ่านง่ายขึ้นและการตีความทางเรขาคณิต มันเป็นความคิดที่ยอมรับกันอย่างกว้างขวางหรือไม่? อย่าอ้างทฤษฎีบทอาหารกลางวันแบบไม่มีข้อความหรือข้อความที่คล้ายกันคำถามของฉันคือการใช้เทคนิคเหล่านั้นในทางปฏิบัติ ในอีกด้านหนึ่งปัญหาเชิงนามธรรมประเภทใดที่คุณจะต้องเผชิญกับ NN อย่างแน่นอน

2
ANN เครือข่ายประสาทเทียมสามารถใช้สำหรับการจัดกลุ่มที่ไม่ได้รับการดูแลได้อย่างไร?
ฉันเข้าใจวิธีartificial neural network (ANN)สามารถฝึกอบรมในลักษณะที่มีการควบคุมดูแลโดยใช้ backpropogation เพื่อปรับปรุงอุปกรณ์ให้เหมาะสมโดยลดข้อผิดพลาดในการทำนาย ฉันเคยได้ยินว่า ANN สามารถใช้สำหรับการเรียนรู้ที่ไม่มีผู้ดูแลแต่วิธีการนี้สามารถทำได้โดยไม่ต้องมีฟังก์ชั่นค่าใช้จ่ายบางอย่างเพื่อเป็นแนวทางในขั้นตอนการปรับให้เหมาะสม ด้วย k-mean หรืออัลกอริทึม EM มีฟังก์ชันที่แต่ละการค้นหาซ้ำเพื่อเพิ่ม เราจะทำคลัสเตอร์กับ ANN ได้อย่างไรและใช้กลไกใดในการจัดกลุ่มจุดข้อมูลในท้องที่เดียวกัน (และมีความสามารถพิเศษอะไรบ้างที่มาพร้อมกับเพิ่มเลเยอร์ให้มากขึ้น)

1
ขนาดของแบทช์ควรมีขนาดเท่าใดสำหรับการไล่ระดับสีแบบสุ่ม
ฉันเข้าใจว่าอาจใช้การไล่ระดับสีแบบสโตแคสติกเพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียมโดยใช้การทำ backpropagation โดยการอัพเดทแต่ละการวนซ้ำด้วยตัวอย่างชุดข้อมูลการฝึกอบรมที่แตกต่างกัน ขนาดของแบทช์ควรใหญ่แค่ไหน?

3
เครือข่ายแบบเรียกซ้ำ vs Recursive Neural: NLP ไหนดีกว่ากัน?
มีเครือข่ายประสาทที่เกิดขึ้นอีกและเครือข่ายประสาทแบบเรียกซ้ำ ทั้งสองมักจะแสดงโดยตัวย่อเดียวกัน: RNN ตามที่Wikipedia , Recurrent NN เป็นความจริงแล้ว Recursive NN แต่ฉันไม่เข้าใจคำอธิบายจริงๆ ยิ่งกว่านั้นฉันดูเหมือนจะไม่พบสิ่งที่ดีกว่า (พร้อมตัวอย่างหรือมากกว่านั้น) สำหรับการประมวลผลภาษาธรรมชาติ ความจริงก็คือถึงแม้ว่า Socher จะใช้ Recursive NN สำหรับ NLP ในการสอนของเขาแต่ฉันไม่พบการใช้งานที่ดีของเครือข่ายประสาทแบบเรียกซ้ำและเมื่อฉันค้นหาใน Google คำตอบส่วนใหญ่เกี่ยวกับ NN ที่เกิดขึ้นอีก นอกจากนั้นมี DNN อื่นที่ใช้กับ NLP ได้ดีกว่าหรือไม่นั้นขึ้นอยู่กับงาน NLP หรือไม่ ความเชื่อลึกหรือตาข่าย Autoencoders ซ้อนกัน? (ฉันดูเหมือนจะไม่พบการใช้งานใด ๆ ที่พิเศษสำหรับ ConvNets ใน NLP และการใช้งานส่วนใหญ่อยู่ในวิสัยทัศน์ของเครื่องในใจ) ในที่สุดฉันต้องการใช้งาน DNN สำหรับ C ++ (ดีกว่าถ้ามีการรองรับ GPU) …

3
เหตุใดการถดถอยแบบลอจิสติกจึงเป็นลักษณนามเชิงเส้น
เนื่องจากเราใช้ฟังก์ชันลอจิสติกส์ในการแปลงชุดค่าผสมเชิงเส้นของอินพุตให้เป็นเอาต์พุตแบบไม่เชิงเส้นการถดถอยลอจิสติกจะถือว่าเป็นลักษณนามเชิงเส้นได้อย่างไร การถดถอยเชิงเส้นเป็นเหมือนเครือข่ายประสาทที่ไม่มีเลเยอร์ที่ซ่อนอยู่ดังนั้นทำไมเครือข่ายประสาทจึงพิจารณาว่าตัวแยกประเภทที่ไม่เป็นเชิงเส้นและการถดถอยแบบลอจิสติกเป็นแบบเชิงเส้น

2
ทำไม Convolutional Neural Networks ไม่ใช้ Support Vector Machine เพื่อจัดประเภท?
ในช่วงไม่กี่ปีที่ผ่านมา Convolutional Neural Networks (CNNs) ได้กลายเป็นสุดยอดของการรับรู้วัตถุในคอมพิวเตอร์วิสัยทัศน์ โดยทั่วไปแล้วซีเอ็นเอ็นประกอบด้วยหลายชั้น convolutional ตามมาด้วยสองชั้นเชื่อมต่ออย่างเต็มที่ สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือเลเยอร์ convolutional เรียนรู้การแสดงข้อมูลอินพุตที่ดีขึ้นและเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์จากนั้นเรียนรู้ที่จะจำแนกการแสดงนี้ตามชุดฉลาก อย่างไรก็ตามก่อนที่ CNNs จะเริ่มครอบครอง Support Vector Machines (SVMs) เป็นสิ่งที่ล้ำสมัย ดังนั้นจึงมีเหตุผลที่จะบอกว่า SVM ยังคงเป็นลักษณนามที่แข็งแกร่งกว่าเครือข่ายนิวรัลสองชั้นที่เชื่อมต่อเต็มที่ ดังนั้นฉันสงสัยว่าทำไม CNN ที่ล้ำสมัยมักใช้เลเยอร์ที่เชื่อมต่ออย่างเต็มที่เพื่อการจำแนกประเภทมากกว่า SVM ด้วยวิธีนี้คุณจะได้สิ่งที่ดีที่สุดทั้งสองโลก: การแสดงคุณสมบัติที่แข็งแกร่งและตัวจําแนกที่แข็งแกร่งมากกว่าการแสดงคุณสมบัติที่แข็งแกร่ง แต่เป็นตัวจําแนกที่อ่อนแอเท่านั้น ... ความคิดใด ๆ

1
ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”
ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า: เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม ความเชื่อนี้มาจากไหน

1
ความแตกต่างระหว่าง GradientDescentOptimizer และ AdamOptimizer (TensorFlow)?
ผมเคยเขียนง่ายMLPในTensorFlowซึ่งจะสร้างแบบจำลองXOR ประตู ดังนั้นสำหรับ: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] มันควรผลิตดังต่อไปนี้: output_data = [[0.], [1.], [1.], [0.]] เครือข่ายมีเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทที่มีเซลล์ประสาท 2, 5 และ 1 เซลล์ ขณะนี้ฉันมีเอนโทรปีของการข้ามต่อไปนี้: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) ฉันได้ลองทางเลือกที่ง่ายกว่านี้แล้ว: cross_entropy = tf.square(n_output - output) ควบคู่ไปกับความพยายามอื่น ๆ อย่างไรก็ตามไม่ว่าสิ่งที่การตั้งค่าของฉันคือข้อผิดพลาดที่มีการGradientDescentOptimizerลดลงมากAdamOptimizerช้ากว่า ในความเป็นtf.train.AdamOptimizer(0.01)จริงให้ผลลัพธ์ที่ดีจริงๆหลังจากขั้นตอนการเรียนรู้ …

5
ทางเลือกของ Gradient Descent คืออะไร?
Gradient Descent มีปัญหาในการติดอยู่ใน Local Minima เราจำเป็นต้องใช้เวลาเอ็กซ์โพเนนเชียลของการไล่ระดับสีเพื่อค้นหาค่าต่ำสุดของโลก ใครสามารถบอกฉันเกี่ยวกับทางเลือกอื่น ๆ ของการไล่ระดับสีแบบลาดเอียงที่ใช้ในการเรียนรู้เครือข่ายประสาทเทียมพร้อมกับข้อดีข้อเสีย

1
วิธีการอาดัมของโคตรลาดลงแบบสุ่มทำงานอย่างไร
ฉันคุ้นเคยกับอัลกอริธึมการไล่ระดับสีพื้นฐานสำหรับการฝึกอบรมโครงข่ายประสาท ฉันได้อ่านกระดาษเสนออดัม: ADAM: เป็นวิธีการในการเพิ่มประสิทธิภาพ ในขณะที่ฉันมีความเข้าใจอย่างแน่นอน(อย่างน้อย) กระดาษดูเหมือนจะอยู่ในระดับสูงเกินไปสำหรับฉันโดยรวม ตัวอย่างเช่นฟังก์ชั่นต้นทุนมักจะเป็นผลรวมของฟังก์ชั่นที่แตกต่างกันจำนวนมากดังนั้นจึงต้องทำการคำนวณจำนวนมากเพื่อปรับค่าให้เหมาะสม การไล่ระดับสีแบบสุ่มสุ่ม - เท่าที่ฉันเข้าใจหัวข้อ - คำนวณการเพิ่มประสิทธิภาพสำหรับเซตย่อยของฟังก์ชันเหล่านี้เท่านั้น สำหรับผมแล้วมันก็ไม่มีความชัดเจนว่าอดัมไม่นี้และทำไมผลในลดลงข้อผิดพลาดการฝึกอบรมสำหรับทั้งของJ ( θ )J( θ )J(θ)J(\theta)J(θ)J(θ)J(\theta) ฉันคิดว่าอดัมอัปเดตการไล่ระดับสีโดยคำนึงถึงการไล่ระดับสีก่อนหน้า พวกเขาเรียกมันว่าการใช้โมเมนตัม โมเมนตัมนี้คืออะไร? ตามอัลกอริทึมในหน้าสองในกระดาษมันเป็นค่าเฉลี่ยเคลื่อนที่บางอย่างเช่นค่าประมาณของช่วงเวลาที่หนึ่งและสองของการไล่ระดับสี "ปกติ" หรือไม่? ในทางปฏิบัติฉันจะสงสัยว่าอดัมสามารถใช้ขนาดขั้นตอนที่มีประสิทธิภาพมากขึ้นในการลดการไล่ระดับสีดังนั้นข้อผิดพลาดในการฝึกอบรมเมื่อใช้ร่วมกับการประมาณแบบสุ่ม ดังนั้นเวกเตอร์การอัพเดทที่ได้ผลลัพธ์ควร "กระโดด" รอบ ๆ ในมิติเชิงพื้นที่มากกว่าที่จะอธิบายถึงเส้นโค้งบางอย่างเช่นอัลกอริธึมการไล่ระดับสีปกติ บางคนสามารถแยกแยะว่าอดัมทำงานอย่างไร? โดยเฉพาะอย่างยิ่งวิธีการที่มันมาบรรจบกันโดยเฉพาะว่าทำไมวิธีการของอดัมทำงานและสิ่งที่เป็นประโยชน์คืออะไร?

4
เมล็ดถูกนำไปใช้กับแผนที่คุณลักษณะเพื่อสร้างแผนที่คุณลักษณะอื่น ๆ อย่างไร
ฉันพยายามที่จะทำความเข้าใจกับส่วนต่าง ๆ ของโครงข่ายประสาทเทียม ดูรูปต่อไปนี้: ฉันไม่มีปัญหาในการทำความเข้าใจกับชั้นแรกของการบิดที่เรามีเมล็ดที่แตกต่างกัน 4 ขนาด (ขนาด ) ซึ่งเราได้ทำการเชื่อมต่อกับภาพอินพุตเพื่อรับแผนที่คุณลักษณะ 4 แบบk × kk×kk \times k สิ่งที่ฉันไม่เข้าใจคือเลเยอร์ convolution ถัดไปซึ่งเราไปจาก 4 ฟีเจอร์แมปถึง 6 ฟีเจอร์แมป ฉันคิดว่าเรามี 6 เมล็ดในเลเยอร์นี้ (ดังนั้นให้แผนที่คุณลักษณะเอาต์พุต 6 รายการ) แต่เมล็ดเหล่านี้ทำงานบนแผนที่คุณลักษณะ 4 รายการที่แสดงใน C1 ได้อย่างไร เมล็ดเป็นแบบสามมิติหรือเป็นแบบสองมิติและทำซ้ำในแผนที่คุณลักษณะอินพุต 4 ตัวหรือไม่

4
ฟังก์ชันการเปิดใช้งานใดสำหรับเลเยอร์เอาท์พุท
ในขณะที่ทางเลือกของฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ที่ซ่อนอยู่นั้นค่อนข้างชัดเจน (ส่วนใหญ่เป็น sigmoid หรือ tanh) ฉันสงสัยว่าจะเลือกฟังก์ชั่นเปิดใช้งานสำหรับเลเยอร์เอาท์พุทได้อย่างไร ตัวเลือกทั่วไปคือฟังก์ชันเชิงเส้นฟังก์ชัน sigmoid และฟังก์ชัน softmax อย่างไรก็ตามเมื่อใดฉันจึงควรใช้อันไหน

7
การอ้างอิงเครือข่ายนิวรัล (ตำรา, หลักสูตรออนไลน์) สำหรับผู้เริ่มต้น
ฉันต้องการเรียนรู้โครงข่ายประสาท ฉันเป็นนักภาษาศาสตร์คอมพิวเตอร์ ฉันรู้วิธีการเรียนรู้ด้วยเครื่องเชิงสถิติและสามารถเขียนโค้ดใน Python ได้ ฉันกำลังมองหาที่จะเริ่มต้นด้วยแนวคิดของมันและรู้ว่าหนึ่งหรือสองรูปแบบที่นิยมซึ่งอาจเป็นประโยชน์จากมุมมองของภาษาศาสตร์เชิงคำนวณ ฉันเรียกดูเว็บเพื่อการอ้างอิงและพบหนังสือและเอกสารสองสามฉบับ Ripley, Brian D. (1996) การจดจำรูปแบบและ Neural Networks, Cambridge บิชอปซม. (2538) เครือข่ายประสาทรับรู้รูปแบบออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด เชื่อมโยงบางอย่างเช่นวิทยานิพนธ์ฉบับนี้ , เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยโตรอนโตจิตวิทยากรม) เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยวิสคอนซินวิทยาการคอมพิวเตอร์) และสไลด์โชว์ (การวิจัย Facebook) โดยทั่วไปแล้วหลักสูตร Coursera นั้นดีถ้ามีใครรู้อะไรที่เกี่ยวข้องกับพวกเขา ฉันชอบวัสดุที่มีภาษาที่ชัดเจนและเป็นตัวอย่างที่กว้างขวาง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.