คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

4
การทำเหมืองข้อความ: วิธีจัดกลุ่มข้อความ (เช่นบทความข่าว) ด้วยปัญญาประดิษฐ์ได้อย่างไร
ฉันได้สร้างเครือข่ายนิวรัล (MLP (เชื่อมต่อเต็ม), Elman (กำเริบ) สำหรับงานที่แตกต่างกันเช่นการเล่นโป่ง, การจำแนกตัวเลขหลักที่เขียนด้วยลายมือและสิ่งต่าง ๆ ... นอกจากนี้ฉันพยายามสร้างโครงข่ายประสาทเทียมแบบแรกเช่นสำหรับการจำแนกบันทึกย่อที่เขียนด้วยลายมือหลายหลัก แต่ฉันใหม่สมบูรณ์ในการวิเคราะห์และจัดกลุ่มข้อความเช่นในการรับรู้ภาพ / การจัดกลุ่มงานหนึ่งสามารถพึ่งพาอินพุตมาตรฐานเช่นรูปภาพขนาด 25x25 RGB หรือเฉดสีเทาและอื่น ๆ ... มีคุณสมบัติมากมายที่คาดการณ์ไว้ล่วงหน้า สำหรับการทำเหมืองข้อความตัวอย่างเช่นบทความข่าวคุณมีขนาดของการป้อนข้อมูลที่เปลี่ยนแปลงตลอดเวลา (คำต่าง ๆ ประโยคที่แตกต่างความยาวข้อความที่แตกต่างกัน ... ) เราจะใช้เครื่องมือขุดข้อความที่ทันสมัยโดยใช้ปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม / SOM ได้อย่างไร? น่าเสียดายที่ฉันไม่สามารถหาบทแนะนำง่าย ๆ สำหรับการเริ่มต้นได้ เอกสารทางวิทยาศาสตร์ที่ซับซ้อนยากที่จะอ่านและไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับการเรียนรู้หัวข้อ (ตามความเห็นของฉัน) ฉันได้อ่านบทความเกี่ยวกับ MLPs, เทคนิคการออกกลางคัน, โครงข่ายประสาทเทียมและอื่น ๆ แล้ว แต่ฉันไม่สามารถหาพื้นฐานเกี่ยวกับการทำเหมืองข้อความได้ - ทั้งหมดที่ฉันพบนั้นอยู่ในระดับที่สูงเกินไปสำหรับทักษะการทำเหมืองข้อความที่ จำกัด

4
เครือข่ายประสาทเทียมคืออะไร *
เมื่อเราเจาะลึกลงไปในวรรณกรรมของNeural Networksเราจะหาวิธีอื่น ๆ ด้วยโทโพโลยีของนิวโรมอร์ฟิค (สถาปัตยกรรมแบบ "Neural-Network") และฉันไม่ได้พูดคุยเกี่ยวกับยูนิเวอร์แซประมาณทฤษฎีบท ตัวอย่างได้รับด้านล่าง จากนั้นมันทำให้ฉันสงสัยว่า: อะไรคือความหมายของเครือข่ายประสาทเทียม? โทโพโลยีของมันดูเหมือนจะครอบคลุมทุกอย่าง ตัวอย่าง: หนึ่งในการระบุตัวแรกที่เราทำคือระหว่าง PCA และ Linear Autoencoder ที่มีตุ้มน้ำหนักในตัวเข้ารหัสและตัวถอดรหัส นอกจากนี้ยังมีการระบุร่วมกันระหว่างตัวแบบเชิงเส้น (การถดถอยแบบโลจิสติกส์ในแบบพิเศษ) และแบบโครงข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทเดี่ยว การระบุนี้เปิดหลายประตู ซีรี่ส์ฟูริเยร์และเทย์เลอร์? ANNs SVM ? ANN กระบวนการแบบเกาส์ ANN (พร้อมเลเยอร์ที่ซ่อนเดี่ยวพร้อมยูนิตที่ซ่อนไม่ จำกัด ) และเช่นเดียวกับที่ง่าย ๆ เราสามารถรวมเวอร์ชันปกติโดยพลการกับฟังก์ชั่นการสูญเสียพิเศษของอัลกอริทึมเหล่านี้ลงในกรอบโครงข่ายประสาทเทียม แต่ยิ่งเราขุดมากเท่าไหร่ ฉันเพิ่งเข้าสู่Deep Neural Decision Treesซึ่งทำให้การระบุสถาปัตยกรรม ANN ที่เฉพาะเจาะจงกับต้นไม้การตัดสินใจทำให้สามารถเรียนรู้สิ่งเหล่านี้ได้ด้วยวิธีการของ ANN (เช่นการไล่ระดับสีย้อนกลับของ Gradient Descent) จากนี้เราสามารถสร้างป่าสุ่มและต้นไม้ตัดสินใจเพิ่มไล่โทนสีจากทอพอโลยีโครงข่ายประสาทเทียมเพียงอย่างเดียว หากทุกอย่างสามารถแสดงเป็นโครงข่ายใยประสาทเทียมอะไรคือตัวกำหนดเครือข่ายประสาทเทียม

2
โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น
ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ …

2
เหตุใดการคาดการณ์ของอนุกรมเวลาจึง“ แย่มาก”
ฉันพยายามเรียนรู้วิธีใช้ Neural Networks ฉันกำลังอ่านบทช่วยสอนนี้ หลังจากติดตั้งโครงข่ายประสาทในอนุกรมเวลาโดยใช้ค่าที่เพื่อทำนายค่าที่t + 1ผู้เขียนได้รับพล็อตต่อไปนี้โดยที่เส้นสีฟ้าคืออนุกรมเวลาสีเขียวคือการทำนายข้อมูลรถไฟสีแดงคือ การคาดการณ์ข้อมูลการทดสอบ (เขาใช้การทดสอบรถไฟแบบแยก)เสื้อเสื้อtt + 1เสื้อ+1t+1 และเรียกมันว่า "เราจะเห็นว่าแบบจำลองนั้นทำงานได้ค่อนข้างแย่ในการปรับทั้งชุดฝึกอบรมและชุดทดสอบ เสื้อเสื้อtt - 1เสื้อ-1t-1t - 2เสื้อ-2t-2t + 1เสื้อ+1t+1 และพูดว่า "เมื่อมองที่กราฟเราจะเห็นโครงสร้างเพิ่มเติมในการทำนาย" คำถามของฉัน ทำไมคนยากจนคนแรก? มันเกือบจะสมบูรณ์แบบสำหรับฉันมันทำนายการเปลี่ยนแปลงทุกอย่างสมบูรณ์แบบ และในทำนองเดียวกันทำไมอันดับสองถึงดีกว่า? "โครงสร้าง" อยู่ที่ไหน สำหรับฉันมันดูด้อยกว่าครั้งแรกมาก โดยทั่วไปการคาดการณ์ของซีรีย์เวลาจะดีและเมื่อไร

3
จำนวนเลเยอร์ขั้นต่ำในเครือข่ายประสาทลึก
เราจะเริ่มจำแนกประเภทเครือข่ายประสาทหลายชั้นเป็นเครือข่ายประสาทลึกหรือในอีกทางหนึ่ง 'จำนวนชั้นต่ำสุดในเครือข่ายประสาทลึกคืออะไร'

1
ผลรวมหรือค่าเฉลี่ยของการไล่ระดับสีในชุดการไล่ระดับสีแบบย่อส่วน
เมื่อฉันใช้การไล่ระดับสีแบบย่อส่วนที่เหมาะสมฉันเพิ่งเฉลี่ยการไล่ระดับสีของตัวอย่างทั้งหมดในชุดการฝึกอบรม อย่างไรก็ตามฉันสังเกตเห็นว่าตอนนี้อัตราการเรียนรู้ที่ดีที่สุดนั้นสูงกว่าการไล่ระดับสีออนไลน์อย่างมาก สัญชาตญาณของฉันคือสิ่งนี้เป็นเพราะการไล่ระดับสีเฉลี่ยนั้นมีเสียงดังน้อยกว่าและสามารถติดตามได้เร็วขึ้น ดังนั้นมันอาจจะสมเหตุสมผลที่จะสรุปการไล่ระดับสีของแบทช์ ค่าสามารถเป็นบวกและลบได้อยู่ดี ฉันรู้ว่ามันเป็นเพียงปัจจัยคงที่ที่สามารถทำให้สมดุลโดยใช้อัตราการเรียนรู้ แต่ฉันสงสัยว่าคำนิยามใดที่นักวิทยาศาสตร์ได้ตกลงกันเพื่อที่ฉันจะสามารถทำซ้ำผลลัพธ์จากเอกสารโครงข่ายประสาท โดยทั่วไปแล้วจะแบ่งการไล่ระดับสีแบบรวมของแบทช์ด้วยขนาดแบทช์หรือไม่

4
คุณต้องการข้อมูลเท่าไหร่สำหรับเครือข่ายประสาทเทียม?
หากฉันมีโครงข่ายประสาทเทียม (CNN) ซึ่งมีพารามิเตอร์ประมาณ 1,000,000 พารามิเตอร์จำเป็นต้องใช้ข้อมูลการฝึกอบรมจำนวนเท่าใด (สมมติว่าฉันกำลังทำโคตรลาดแบบสุ่ม) มีกฎง่ายๆไหม? หมายเหตุเพิ่มเติม: เมื่อฉันทำ stochastic gradient descent (เช่น 64 patch สำหรับ 1 การวนซ้ำ) หลังจาก ~ 10,000 iterations ความแม่นยำของตัวจําแนกสามารถเข้าถึงค่าคงที่หยาบ) นี่หมายถึงไม่จำเป็นต้องใช้ข้อมูลจำนวนมาก? เช่นเดียวกับข้อมูล 100k-1,000k

1
เหตุใด ReLU เดียวจึงไม่สามารถเรียนรู้ ReLU ได้
จากการติดตามเครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิดฉันได้ง่ายขึ้นและพยายามฝึกฝน ReLU เดี่ยว (ด้วยน้ำหนักสุ่ม) ไปยัง ReLU เดียว นี่คือเครือข่ายที่ง่ายที่สุดที่มีอยู่และยังครึ่งหนึ่งของเวลาที่มันไม่มาบรรจบกัน หากการเดาเริ่มต้นอยู่ในทิศทางเดียวกับเป้าหมายมันจะเรียนรู้ได้อย่างรวดเร็วและแปลงเป็นน้ำหนักที่ถูกต้อง 1: หากการเดาเริ่มต้นคือ "ถอยหลัง" มันจะติดอยู่ที่น้ำหนักเป็นศูนย์และไม่ผ่านไปยังพื้นที่ที่มีการสูญเสียต่ำกว่า: ฉันไม่เข้าใจว่าทำไม โคตรลาดชันไม่ควรทำตามโค้งการสูญเสียไปสู่มินิมาระดับโลกอย่างง่ายดายหรือไม่? รหัสตัวอย่าง: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU …

2
น้ำหนักได้รับการปรับปรุงในวิธีการเรียนรู้แบบแบตช์ในเครือข่ายประสาทเทียมอย่างไร
ใครช่วยบอกฉันทีว่าฉันควรจะสร้างเครือข่ายประสาทโดยใช้วิธีการแบทช์ได้ไหม ฉันได้อ่านแล้วว่าในโหมดแบทช์สำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมเราคำนวณข้อผิดพลาดเดลต้าและทำให้น้ำหนักเดลต้าสำหรับเซลล์ประสาทแต่ละตัวในเครือข่ายและจากนั้นแทนที่จะอัปเดตน้ำหนักทันทีเราสะสมพวกเขาและจากนั้นก่อนเริ่ม ยุคต่อไปเราจะปรับปรุงน้ำหนัก ฉันยังอ่านบางที่ว่าวิธีการแบทช์เป็นเหมือนวิธีการออนไลน์ แต่ด้วยความแตกต่างที่เราต้องการเพียงข้อสรุปข้อผิดพลาดสำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมแล้วใช้ค่าเฉลี่ยของมันแล้วใช้ค่าเฉลี่ยของมัน วิธีการหนึ่งในวิธีออนไลน์ (ความแตกต่างเป็นเพียงค่าเฉลี่ย) เช่นนี้: for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update …

6
เหตุใดเราจึงควรสลับข้อมูลในขณะฝึกเครือข่ายประสาท
ในการฝึกอบรมมินิแบทช์ของเครือข่ายประสาทเทียมฉันได้ยินมาว่าการฝึกฝนที่สำคัญคือการสับเปลี่ยนข้อมูลการฝึกอบรมก่อนทุกยุค ใครสามารถอธิบายได้ว่าทำไมการสับในแต่ละยุคจึงช่วยได้บ้าง จากการค้นหาของ Google ฉันพบคำตอบต่อไปนี้: ช่วยให้การฝึกอบรมมาบรรจบกันอย่างรวดเร็ว มันป้องกันอคติใด ๆ ในระหว่างการฝึกอบรม มันป้องกันโมเดลจากการเรียนรู้ลำดับของการฝึกอบรม แต่ฉันมีความยากลำบากในการทำความเข้าใจว่าทำไมผลกระทบเหล่านี้เกิดจากการสับแบบสุ่ม ใครสามารถให้คำอธิบายง่ายๆ

1
ทำไมจึงเป็นสิ่งสำคัญที่จะรวมคำแก้ไขอคติสำหรับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึก
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมเพื่อการเรียนรู้ที่ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่Deep Learningโดย Begnio, Goodfellow และ Courtville: อดัมรวมการแก้ไขอคติกับการประมาณการช่วงเวลาที่สั่งซื้อครั้งแรก (คำว่าโมเมนตัม) และช่วงเวลาอันดับที่สอง (ไม่ระบุตัวตน) เพื่ออธิบายการเริ่มต้นที่จุดเริ่มต้น ดูเหมือนว่าเหตุผลหลักที่จะรวมถึงข้อตกลงการแก้ไขอคติเหล่านี้คือที่ใดก็เอาอคติของการเริ่มต้นของและ0mt=0mt=0m_t = 0vt=0vt=0v_t = 0 ฉันไม่แน่ใจ 100% ว่านั่นหมายถึงอะไร แต่ดูเหมือนว่าสำหรับฉันว่ามันอาจหมายความว่าช่วงเวลาที่ 1 และ 2 เริ่มต้นที่ศูนย์และเริ่มต้นที่ศูนย์อย่างใดอย่างหนึ่งแทนค่าที่ใกล้เคียงกับศูนย์ในทางที่ไม่ยุติธรรม ? แม้ว่าฉันจะชอบที่จะรู้ว่าสิ่งที่หมายถึงบิตที่แม่นยำมากขึ้นและวิธีการที่ทำลายการเรียนรู้ โดยเฉพาะอย่างยิ่งข้อดีของการเพิ่มประสิทธิภาพให้เกิดประโยชน์ในแง่ของการเพิ่มประสิทธิภาพ un-biasing คืออะไร? สิ่งนี้จะช่วยฝึกอบรมรูปแบบการเรียนรู้ลึกได้อย่างไร นอกจากนี้มันหมายความว่าอย่างไรเมื่อไม่มีอคติ ฉันคุ้นเคยกับความเบี่ยงเบนมาตรฐานที่เป็นกลาง แต่มันไม่ชัดเจนสำหรับฉันในความหมายนี้ในบริบทนี้ การแก้ไขอคตินั้นเป็นเรื่องใหญ่จริง ๆ หรือว่ามีบางสิ่งที่ overhyped ในกระดาษเพิ่มประสิทธิภาพของอดัม? แค่มีคนรู้ว่าฉันพยายามอย่างหนักที่จะเข้าใจกระดาษต้นฉบับ แต่ฉันได้อ่านและอ่านกระดาษต้นฉบับน้อยมาก ฉันคิดว่าคำถามเหล่านี้บางคำถามอาจตอบได้ แต่ฉันไม่สามารถแยกคำตอบได้

1
Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?
สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

1
มิติข้อมูล VC บอกอะไรเราเกี่ยวกับการเรียนรู้อย่างลึกซึ้ง
ในการเรียนรู้เครื่องจักรขั้นพื้นฐานเราได้รับการสอน "กฎง่ายๆ" ต่อไปนี้: ก) ขนาดของข้อมูลของคุณควรมีขนาดอย่างน้อย 10 เท่าของขนาด VC ของชุดสมมติฐานของคุณ b) เครือข่ายประสาทเทียมที่มีการเชื่อมต่อ N มีมิติ VC ประมาณ N ดังนั้นเมื่อเครือข่ายนิวรัลการเรียนรู้อย่างลึกซึ้งได้พูดไปแล้วหลายล้านหน่วยนี่หมายความว่าเราควรจะพูดจุดข้อมูลนับพันล้านหรือไม่ คุณช่วยส่องแสงนี้ให้หน่อยได้ไหม?

4
ไม่มีการกำหนดมาตรฐานสำหรับหน่วยอคติในเครือข่ายประสาทเทียม
ตามบทช่วยสอนนี้เกี่ยวกับการเรียนรู้อย่างลึกซึ้งการลดน้ำหนัก (การทำให้เป็นมาตรฐาน) มักจะไม่นำมาใช้กับเงื่อนไขของอคติขทำไม ความสำคัญ (สัญชาตญาณ) ที่อยู่เบื้องหลังคืออะไร?

1
เลเยอร์คอขวดหมายถึงอะไรในเครือข่ายประสาทเทียม
ฉันกำลังอ่านกระดาษFaceNetและในย่อหน้าที่ 3 ของบทนำกล่าวว่า: วิธีการจดจำใบหน้าก่อนหน้านี้ที่ใช้เครือข่ายชั้นลึกใช้เลเยอร์การจัดหมวดหมู่ที่ได้รับการฝึกฝนผ่านชุดของใบหน้าที่รู้จักกันแล้วนำเลเยอร์คอขวดที่อยู่ตรงกลางมาเป็นตัวแทนที่ใช้ในการสรุปการจดจำนอกเหนือจาก ฉันสงสัยว่าพวกเขาหมายถึงอะไรโดยเลเยอร์คอขวดกลาง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.