คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

2
ส่งเสริมเครือข่ายประสาท
เมื่อเร็ว ๆ นี้ฉันกำลังทำงานเกี่ยวกับการเรียนรู้อัลกอริทึมการส่งเสริมเช่น adaboost, การไล่ระดับสีและฉันได้ทราบความจริงที่ว่าผู้เรียนอ่อนแอที่ใช้กันมากที่สุดคือต้นไม้ ฉันอยากรู้ว่ามีตัวอย่างที่ประสบความสำเร็จเมื่อเร็ว ๆ นี้ (ฉันหมายถึงบางบทความหรือบทความ) สำหรับการใช้เครือข่ายประสาทในฐานะผู้เรียนพื้นฐาน

3
จากกฎ Perceptron ไปยัง Gradient Descent: Perceptrons ที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid แตกต่างจาก Logistic Regression อย่างไร
โดยพื้นฐานแล้วคำถามของฉันคือใน Multilayer Perceptrons, Perceptrons นั้นใช้กับฟังก์ชั่นการเปิดใช้งาน sigmoid ดังนั้นในการอัปเดตกฎจะถูกคำนวณดังนี้y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Perceptron "sigmoid" นี้แตกต่างจากการถดถอยโลจิสติกอย่างไร ฉันจะบอกว่า sigmoid perceptron ชั้นเดียวเทียบเท่ากับการถดถอยโลจิสติกในแง่ที่ว่าทั้งสองใช้ในกฎการอัพเดท นอกจากนี้ทั้งสองส่งกลับในการทำนาย อย่างไรก็ตามในมัลติเลเยอร์ Perceptrons ฟังก์ชั่นการเปิดใช้งาน sigmoid จะใช้เพื่อคืนความน่าจะเป็นไม่ใช่สัญญาณเปิดปิดในทางตรงกันข้ามกับการถดถอยโลจิสติกและ perceptron ชั้นเดียวy^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) ฉันคิดว่าการใช้คำว่า "Perceptron" อาจจะคลุมเครือเล็กน้อยดังนั้นให้ฉันให้พื้นหลังตามความเข้าใจในปัจจุบันของฉันเกี่ยวกับ perceptrons ชั้นเดียว: กฎ Perceptron แบบคลาสสิก ประการแรกคลาสสิก perceptron โดย F. Rosenblatt ที่เรามีฟังก์ชั่นขั้นตอน: Δ wd= η( yผม- yผม^) xฉันdYผม, yผม^∈ …

2
เครือข่ายประสาทเทียมสำหรับอนุกรมเวลา?
ฉันต้องการที่จะทราบว่ามีรหัสในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อการจำแนกประเภทอนุกรมเวลาหรือไม่ ฉันเคยเห็นเอกสารล่าสุด ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ) แต่ฉันไม่แน่ใจว่ามีบางสิ่งอยู่หรือถ้าฉันทำรหัสด้วยตัวเอง

5
เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอY= β0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0β0\beta_0

5
โครงข่ายประสาทที่ทันสมัยที่สร้างโทโพโลยีของตนเอง
ข้อ จำกัด ของอัลกอริทึมโครงข่ายประสาทแบบมาตรฐาน (เช่น backprop) คือคุณต้องตัดสินใจออกแบบจำนวนเลเยอร์ที่ซ่อนอยู่และเซลล์ประสาทต่อเลเยอร์ที่คุณต้องการ โดยทั่วไปแล้วอัตราการเรียนรู้และการวางนัยทั่วไปมีความไวสูงต่อตัวเลือกเหล่านี้ นี่เป็นเหตุผลว่าทำไมอัลกอริธึมโครงข่ายประสาทเช่นความสัมพันธ์แบบเรียงซ้อนได้สร้างความสนใจ มันเริ่มต้นด้วยโครงสร้างขั้นต่ำสุด (เพียงแค่หน่วยอินพุตและเอาต์พุต) และรับสมัครหน่วยที่ซ่อนใหม่เมื่อการเรียนรู้ดำเนินไป อัลกอริทึม CC-NN ได้รับการแนะนำโดย Fahlman ในปี 1990 และเวอร์ชันที่เกิดขึ้นซ้ำในปี 1991 อะไรคืออัลกอริทึม net neural net (post 1992) ล่าสุดที่เริ่มต้นด้วย topology ที่น้อยที่สุดคืออะไร คำถามที่เกี่ยวข้อง CogSci.SE: โครงข่ายประสาทเทียมที่มีความน่าเชื่อถือทางชีววิทยาของบัญชี neurogenesis

5
ฉันจะทำให้เครือข่ายประสาทของฉันดีขึ้นในการทำนายคลื่นไซน์ได้อย่างไร
ดูที่นี่: คุณสามารถดูได้ว่าข้อมูลการฝึกอบรมสิ้นสุดลงที่ใด การฝึกอบรมข้อมูลไปจากที่จะ1- 1-1-1111 ฉันใช้ Keras และเครือข่ายหนาแน่น 1-100-100-2 ด้วยการเปิดใช้งาน tanh ฉันคำนวณผลลัพธ์จากสองค่าคือ p และ q เป็น p / q ด้วยวิธีนี้ฉันสามารถบรรลุขนาดใดก็ได้โดยใช้ค่าน้อยกว่า 1 ค่า โปรดทราบว่าฉันยังเป็นผู้เริ่มต้นในสาขานี้ดังนั้นไปง่าย ๆ กับฉัน

3
การสูญเสียการฝึกอบรมเพิ่มขึ้นตามเวลา [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ฟังก์ชั่นการเปลี่ยนแปลงค่าใช้จ่ายสามารถเป็นบวกได้อย่างไร? (1 คำตอบ) ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทไม่ได้เรียนรู้ (5 คำตอบ) ปิดเมื่อเดือนที่แล้ว ฉันกำลังฝึกอบรมนางแบบ (Recurrent Neural Network) เพื่อจำแนกลำดับของ 4 ประเภท ขณะที่ฉันทำการฝึกฉันเห็นการสูญเสียการฝึกอบรมลดลงจนถึงจุดที่ฉันจัดประเภทตัวอย่างในชุดการฝึกได้มากกว่า 90% อย่างไรก็ตามอีกไม่กี่ยุคต่อมาฉันสังเกตเห็นว่าการสูญเสียการฝึกอบรมเพิ่มขึ้นและความแม่นยำลดลง ดูเหมือนว่าจะแปลกสำหรับฉันเพราะฉันคาดหวังว่าในชุดฝึกอบรมประสิทธิภาพจะดีขึ้นเมื่อเวลาไม่ลดลง ฉันกำลังใช้การสูญเสียเอนโทรปีและอัตราการเรียนรู้ของฉันคือ 0.0002 อัปเดต:ปรากฎว่าอัตราการเรียนรู้สูงเกินไป ด้วยอัตราการเรียนรู้ที่ต่ำพอที่ต่ำฉันไม่สังเกตพฤติกรรมนี้ อย่างไรก็ตามฉันยังพบสิ่งแปลกประหลาดนี้ คำอธิบายที่ดียินดีต้อนรับว่าทำไมสิ่งนี้ถึงเกิดขึ้น

2
ประโยชน์ของการใช้ ReLU บน softplus เป็นฟังก์ชันการเปิดใช้งานคืออะไร
มีการกล่าวถึงบ่อยครั้งว่าหน่วยเชิงเส้นที่ได้รับการแก้ไข (ReLU) มีหน่วย softplus ที่ถูกแทนที่เพราะหน่วยนั้นเป็นเส้นตรงและเร็วกว่าในการคำนวณ ซอฟต์พลัสนั้นยังคงมีข้อดีของการชักนำให้เกิด sparsity หรือถูก จำกัด อยู่ที่ ReLU หรือไม่? เหตุผลที่ฉันถามคือฉันสงสัยเกี่ยวกับผลกระทบเชิงลบของความชันศูนย์ของ ReLU คุณสมบัติ "กับดัก" ของคุณสมบัตินี้ไม่เป็นศูนย์ซึ่งอาจเป็นประโยชน์ที่จะให้พวกเขามีโอกาสในการเปิดใช้งานอีกครั้งหรือไม่

2
Batch Normalization ใช้ค่าเฉลี่ยเคลื่อนที่อย่างไรและทำไมในการติดตามความแม่นยำของโมเดลในขณะที่รถไฟ?
ฉันกำลังอ่านกระดาษการทำแบตช์ให้เป็นมาตรฐาน (BN) (1) และไม่เข้าใจความจำเป็นในการใช้ค่าเฉลี่ยเคลื่อนที่เพื่อติดตามความแม่นยำของแบบจำลองและแม้ว่าฉันยอมรับว่ามันเป็นสิ่งที่ถูกต้องที่จะทำฉันไม่เข้าใจ พวกเขากำลังทำอะไรกันแน่ เพื่อความเข้าใจของฉัน (ซึ่งฉันผิด) กระดาษกล่าวว่าจะใช้สถิติประชากรมากกว่ามินิแบทช์สถิติเมื่อแบบจำลองเสร็จสิ้นการฝึกอบรม หลังจากการอภิปรายของการประมาณการที่ไม่เอนเอียง (ซึ่งดูเหมือนว่าจะเป็นวงสัมผัสกับฉันและไม่เข้าใจว่าทำไมมันถึงพูดถึงเรื่องนี้) พวกเขาไปและพูดว่า: ใช้ค่าเฉลี่ยเคลื่อนที่แทนเราติดตามความแม่นยำของแบบจำลองในขณะที่รถไฟ นั่นคือส่วนที่ทำให้ฉันสับสน เหตุใดพวกเขาจึงทำการย้ายค่าเฉลี่ยเพื่อประเมินความแม่นยำของโมเดลและชุดข้อมูลใด โดยทั่วไปแล้วสิ่งที่ผู้คนทำเพื่อประเมินลักษณะทั่วไปของแบบจำลองของพวกเขาพวกเขาเพียงแค่ติดตามข้อผิดพลาดในการตรวจสอบความถูกต้องของแบบจำลองของพวกเขา อย่างไรก็ตามดูเหมือนว่าการทำแบทช์ให้เป็นมาตรฐานนั้นกำลังทำสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ใครบางคนสามารถชี้แจงสิ่งที่และทำไมมันทำอะไรที่แตกต่างกันอย่างไร 1 : Ioffe S. และ Szegedy C. (2015), "Batch Normalization: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift" การดำเนินการประชุมนานาชาติครั้งที่ 32 เกี่ยวกับการเรียนรู้ของเครื่องจักร Lille, France, 2015 วารสารการวิจัยการเรียนรู้ของเครื่องจักร W&CP เล่ม 37

2
เหตุใดฟังก์ชัน softmax จึงถูกใช้เพื่อคำนวณความน่าจะเป็นแม้ว่าเราจะสามารถหารแต่ละค่าด้วยผลรวมของเวกเตอร์ได้
การใช้ฟังก์ชั่น softmax บนเวกเตอร์จะผลิต "ความน่าจะเป็น" และค่าระหว่างและ1 000111 แต่เรายังสามารถแบ่งแต่ละค่าโดยรวมของเวกเตอร์และที่จะผลิตความน่าจะเป็นและค่าระหว่างและ1000111 ฉันอ่านคำตอบที่นี่แต่มันบอกว่าเหตุผลก็เพราะมันแตกต่างกันถึงแม้ว่าทั้งสองฟังก์ชั่นจะแตกต่างกัน

2
ความแตกต่างระหว่าง initializer scaling initializer และ xavier initializer คืออะไร
ในการใช้งานResNetของ Tensorflow ฉันพบว่าพวกเขาใช้ initializer scaling initializer ฉันยังพบว่า xavier initializer นั้นเป็นที่นิยม ฉันไม่มีประสบการณ์มากเกินไปเกี่ยวกับเรื่องนี้

1
จาก Bayesian Networks ไปยัง Neural Networks: วิธีการถดถอยหลายตัวแปรสามารถเปลี่ยนเป็นเครือข่ายหลายเอาท์พุทได้อย่างไร
ฉันกำลังจัดการกับโมเดลเชิงเส้นลำดับชั้นแบบเบย์ที่นี่เครือข่ายอธิบาย YYYหมายถึงยอดขายสินค้ารายวันในซูเปอร์มาร์เก็ต (ปฏิบัติตาม) XXXเป็นเมทริกซ์ที่รู้จักกันดีของผู้ถดถอยซึ่งรวมถึงราคาโปรโมชั่นวันของสัปดาห์สภาพอากาศวันหยุด 1SSSคือระดับสินค้าคงคลังแฝงที่ไม่รู้จักของแต่ละผลิตภัณฑ์ซึ่งทำให้เกิดปัญหามากที่สุดและฉันพิจารณาเวกเตอร์ของตัวแปรไบนารีหนึ่งรายการสำหรับแต่ละผลิตภัณฑ์ที่มีบ่งบอกถึงการออกจากสต็อคและดังนั้นความไม่พร้อมใช้งานของผลิตภัณฑ์ แม้ว่าในทางทฤษฎีไม่ทราบว่าฉันประเมินมันผ่าน HMM สำหรับแต่ละผลิตภัณฑ์ดังนั้นจึงถือได้ว่าเป็นที่รู้จักกันในชื่อ X.ฉันเพิ่งตัดสินใจปลดมันเพื่อพิธีการที่เหมาะสม111 ηη\etaเป็นพารามิเตอร์เอฟเฟกต์แบบผสมสำหรับผลิตภัณฑ์ใด ๆ ก็ตามที่พิจารณาถึงผลกระทบแบบผสมคือราคาผลิตภัณฑ์โปรโมชั่นและสต็อกสินค้า b 1 b 2ββ\betaคือเวกเตอร์ของสัมประสิทธิ์การถดถอยคงที่ในขณะที่และเป็นเวกเตอร์ของสัมประสิทธิ์ผลกระทบผสม กลุ่มหนึ่งบ่งบอกถึงแบรนด์และอีกกลุ่มระบุถึงรสชาติ (นี่คือตัวอย่างในความเป็นจริงฉันมีหลายกลุ่ม แต่ที่นี่ฉันรายงานเพียง 2 เพื่อความชัดเจน)ข1ข1b_1ข2ข2b_2 Σ ข1 Σ ข2ΣηΣη\Sigma_{\eta} ,และเป็นเหนือเอฟเฟกต์ผสมΣข1Σข1\Sigma_{b_1}Σข2Σข2\Sigma_{b_2} เนื่องจากฉันมีข้อมูลจำนวนมากสมมติว่าฉันปฏิบัติต่อยอดขายแต่ละครั้งเนื่องจาก Poisson กระจายเงื่อนไขบน Regressors (แม้ว่าสำหรับผลิตภัณฑ์บางอย่างการประมาณเชิงเส้นจะถือและสำหรับคนอื่นแบบจำลองที่สูงเกินศูนย์จะดีกว่า) ในกรณีเช่นนี้ฉันจะมีผลิตภัณฑ์ ( นี่เป็นเพียงสำหรับผู้ที่สนใจในแบบจำลอง Bayesian เองข้ามไปที่คำถามหากคุณพบว่ามันไม่น่าสนใจหรือไม่สำคัญ :) ):YYY Ση∼ ฉันW( α0, γ0)Ση~ผมW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σข1∼ ฉันW( α1, γ1)Σข1~ผมW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) …

4
การเข้ารหัสข้อมูลมุมสำหรับโครงข่ายประสาทเทียม
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียม (รายละเอียดไม่สำคัญ) โดยที่ข้อมูลเป้าหมายเป็นเวกเตอร์ของมุม (ระหว่าง 0 ถึง 2 * pi) ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการเข้ารหัสข้อมูลนี้ นี่คือสิ่งที่ฉันกำลังพยายาม (ด้วยความสำเร็จที่ จำกัด ): 1) การเข้ารหัส 1-of-C: ฉันวางมุมที่เป็นไปได้ในการตั้งค่าไว้ที่ 1,000 มุมหรือแยกกันแล้วระบุมุมที่ต้องการโดยการใส่ 1 ที่ดัชนีที่เกี่ยวข้อง ปัญหาเกี่ยวกับสิ่งนี้คือเครือข่ายเรียนรู้ที่จะเอาท์พุททั้งหมด 0 (เนื่องจากเป็นสิ่งที่ถูกต้องเกือบ) 2) การปรับขนาดง่าย: ฉันปรับขนาดช่วงสัญญาณเครือข่าย ([0,1]) ถึง [0,2 * pi] ปัญหาตรงนี้คือมุมโดยธรรมชาติมีลักษณะเป็นวงกลม (เช่น 0.0001 และ 2 * pi นั้นอยู่ติดกัน) ด้วยการเข้ารหัสชนิดนี้ข้อมูลนั้นจะหายไป ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม!

1
วิธีการตั้งค่าเครือข่ายประสาทเพื่อส่งออกข้อมูลลำดับ
ฉันมีโครงข่ายใยประสาทเทียมที่ตั้งค่าเพื่อคาดเดาบางสิ่งที่ตัวแปรเอาต์พุตเป็นลำดับ ฉันจะอธิบายด้านล่างโดยใช้สามเอาต์พุตที่เป็นไปได้ A <B <C มันค่อนข้างชัดเจนว่าจะใช้โครงข่ายประสาทเทียมเพื่อส่งออกข้อมูลที่เป็นหมวดหมู่ได้อย่างไร: เอาต์พุตเป็นเลเยอร์ softmax ของเลเยอร์สุดท้าย (โดยปกติจะเชื่อมต่อเต็มที่) หนึ่งต่อหมวดหมู่และหมวดที่คาดการณ์ไว้คือหนึ่งที่มีค่าเอาต์พุตที่ใหญ่ที่สุด ค่าเริ่มต้นในรุ่นยอดนิยมจำนวนมาก) ฉันใช้การตั้งค่าเดียวกันสำหรับค่าลำดับ อย่างไรก็ตามในกรณีนี้ผลลัพธ์มักจะไม่สมเหตุสมผลตัวอย่างเช่นเอาท์พุทเครือข่ายสำหรับ A และ C สูง แต่ B ต่ำ: นี่ไม่น่าเชื่อถือสำหรับค่าลำดับ ฉันมีความคิดหนึ่งสำหรับสิ่งนี้ซึ่งเป็นการคำนวณการสูญเสียจากการเปรียบเทียบผลลัพธ์กับ 1 0 0 สำหรับ A, 1 1 0 สำหรับ B และ 1 1 1 สำหรับ C เกณฑ์ที่แน่นอนสามารถปรับได้ภายหลังโดยใช้ตัวแยกประเภทอื่น (Bayesian Bayesian) ) แต่นี่ดูเหมือนจะจับความคิดที่สำคัญของการสั่งซื้ออินพุตโดยไม่ต้องกำหนดช่วงเวลาเฉพาะใด ๆ วิธีมาตรฐานในการแก้ไขปัญหานี้คืออะไร มีการวิจัยหรือการอ้างอิงใด ๆ ที่อธิบายข้อดีข้อเสียของวิธีการต่าง ๆ …

4
ความแตกต่างระหว่างข้อเสนอแนะ RNN และ LSTM / GRU
ฉันกำลังพยายามที่จะเข้าใจโครงสร้างเครือข่ายนิวรัล (RNN) ที่แตกต่างกันเพื่อนำไปใช้กับข้อมูลอนุกรมเวลาและฉันสับสนเล็กน้อยกับชื่อต่าง ๆ ที่ใช้บ่อยเมื่ออธิบาย RNN โครงสร้างของหน่วยความจำระยะสั้นระยะยาว (LSTM) และ Gated Recurrent Unit (GRU) นั้นเป็น RNN ที่มีลูปข้อเสนอแนะหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.