คำถามติดแท็ก deep-learning

สำหรับคำถามที่เกี่ยวข้องกับการเรียนรู้ลึกซึ่งหมายถึงส่วนย่อยของวิธีการเรียนรู้ของเครื่องตามเครือข่ายประสาทเทียม (ANNs) ที่มีเลเยอร์ที่ซ่อนอยู่หลายชั้น คำคุณศัพท์ที่ลึกจึงหมายถึงจำนวนชั้นของ ANNs เห็นได้ชัดว่าการเรียนรู้การแสดงออกอย่างลึกซึ้งนั้นถูกนำเสนอ (แม้ว่าจะไม่ได้อยู่ในบริบทของการเรียนรู้ด้วยเครื่องหรือ ANNs) ในปี 1986 โดย Rina Dechter ในบทความเรื่อง "การเรียนรู้ขณะค้นหาในข้อ จำกัด

3
มีใครคิดบ้างเกี่ยวกับการสร้างโครงข่ายประสาทเทียมถามคำถามแทนที่จะตอบแค่พวกเขา
คนส่วนใหญ่พยายามตอบคำถามกับเครือข่ายประสาท อย่างไรก็ตามมีใครคิดบ้างเกี่ยวกับวิธีสร้างเครือข่ายประสาทเทียมถามคำถามแทนที่จะตอบคำถามหรือไม่ ตัวอย่างเช่นหาก CNN สามารถตัดสินใจได้ว่าเป็นวัตถุประเภทใดมันสามารถถามคำถามเพื่อช่วยในการจำแนกประเภทได้หรือไม่


2
การเข้ารหัสอินพุต / เอาต์พุตสำหรับเครือข่ายนิวรัลเพื่อเรียนรู้เกมแบบอิงกริด
ฉันกำลังเขียนเกมของเล่นง่ายๆโดยมีจุดประสงค์ในการฝึกอบรมโครงข่ายประสาทเทียมที่อยู่ด้านบน กฎของเกมมีดังต่อไปนี้: เกมนี้มีกระดานที่ประกอบด้วยเซลล์หกเหลี่ยม ผู้เล่นทั้งสองมีคอลเล็กชั่นชิ้นเดียวกันกับที่พวกเขาสามารถเลือกที่จะวางตำแหน่งบนกระดานได้อย่างอิสระ การวางคะแนนประเภทต่าง ๆ (หรือลดคะแนนของคู่ต่อสู้) ขึ้นอยู่กับตำแหน่งและการกำหนดค่าของกันและกัน ใครก็ตามที่มีคะแนนมากกว่าจะชนะ มีกฎเพิ่มเติม (เกี่ยวกับผลัดจำนวนและประเภทของชิ้นส่วน ฯลฯ ) แต่ก็ไม่สำคัญในบริบทของคำถามนี้ ฉันต้องการสร้างโครงข่ายประสาทเทียมที่สามารถเรียนรู้ซ้ำ ๆ ได้โดยการเล่นกับตัวเอง คำถามของฉันเกี่ยวกับการเป็นตัวแทนของอินพุตและเอาต์พุต โดยเฉพาะอย่างยิ่ง: เนื่องจากรูปแบบของชิ้นส่วนสำคัญฉันจึงคิดที่จะมีเลเยอร์ convolutional อย่างน้อย กระดานอาจมีขนาดที่แตกต่างกัน แต่โดยทั่วไปแล้วจะมีขนาดเล็กมาก (6x10 ในการทดสอบของฉันที่จะขยายโดยไม่กี่เซลล์) มันสมเหตุสมผลหรือไม่ ฉันสามารถใช้การรวมกำไรแบบใดได้บ้าง วิธีการเป็นตัวแทนของทั้งสองฝ่าย? ในบทความนี้เกี่ยวกับการเดินทางผู้เขียนใช้เมทริกซ์การป้อนข้อมูลสองรายการหนึ่งรายการสำหรับหินขาวและอีกเล่มสำหรับหินดำ มันสามารถทำงานได้ในกรณีนี้ด้วยหรือไม่ แต่จำไว้ว่าฉันมีประเภทที่แตกต่างกันพูด A, B, C และ D ฉันควรใช้เมทริกซ์การป้อนข้อมูล 2x4? มันดูเบาบางและมีประสิทธิภาพเพียงเล็กน้อยสำหรับฉัน ฉันกลัวว่ามันจะเบาบางเกินไปสำหรับการทำงานของชั้น convolutional ฉันคิดว่าผลลัพธ์อาจเป็นการกระจายความน่าจะเป็นเหนือเมทริกซ์ซึ่งเป็นตัวแทนของตำแหน่งคณะกรรมการรวมถึงความน่าจะเป็นที่แยกต่างหากซึ่งระบุว่าจะเล่นส่วนใด อย่างไรก็ตามฉันยังต้องแสดงความสามารถในการผ่านจุดเลี้ยวซึ่งมีความสำคัญมาก ฉันจะทำได้โดยไม่ลดความสำคัญลงในความน่าจะเป็นอื่น ๆ ได้อย่างไร และที่สำคัญที่สุดฉันต้องบังคับให้ชนะหรือไม่ การบังคับให้ย้ายที่ชนะเป็นเรื่องง่ายเพราะฉันเพิ่งตั้งความน่าจะเป็นที่ต้องการ 1 …

3
วิธีการใช้พื้นที่การกระทำที่ จำกัด ในการเรียนรู้การเสริมแรง?
ฉันกำลังเขียนโมเดลการเรียนรู้การเสริมแรงด้วยตัวแทน PPO ต้องขอบคุณห้องสมุด Tensorforceที่ดีมากซึ่งสร้างจากส่วนบนของ Tensorflow รุ่นแรกนั้นง่ายมากและตอนนี้ฉันกำลังดำดิ่งสู่สภาพแวดล้อมที่ซับซ้อนมากขึ้นซึ่งการกระทำทั้งหมดไม่พร้อมใช้งานในแต่ละขั้นตอน สมมติว่ามี 5 การกระทำและความพร้อมใช้งานขึ้นอยู่กับสถานะภายใน (ซึ่งกำหนดโดยการกระทำก่อนหน้าและ / หรือพื้นที่รัฐ / การสังเกตใหม่): 2 การกระทำ (0 และ 1) พร้อมใช้งานเสมอ 2 การกระทำ (2 และ 3) จะใช้ได้เฉพาะเมื่อ internal_state == 0 1 การกระทำ (4) ใช้ได้เฉพาะเมื่อ internal_state == 1 ดังนั้นจึงมีการดำเนินการ 4 รายการเมื่อ internal_state == 0 และ 3 การกระทำพร้อมใช้งานเมื่อ internal_state == 1 ฉันคิดว่ามีความเป็นไปได้เล็กน้อยที่จะนำไปใช้ เปลี่ยนพื้นที่การดำเนินการในแต่ละขั้นตอนขึ้นอยู่กับ …

2
เครือข่ายผู้ให้คำปรึกษาทั่วไปทำงานอย่างไร
ฉันกำลังอ่านเกี่ยวกับเครือข่าย adversarial (GANs) และฉันมีข้อสงสัยเกี่ยวกับมัน จนถึงตอนนี้ฉันเข้าใจว่าใน GAN มีเครือข่ายประสาทสองประเภทที่แตกต่างกัน: หนึ่งคือกำเนิด ( ) และเลือกปฏิบัติอื่น ( ) เครือข่ายนิวรัลแบบกำเนิดสร้างข้อมูลบางอย่างซึ่งเครือข่ายนิวรัลแบบเลือกปฏิบัติตัดสินความถูกต้อง GAN เรียนรู้โดยผ่านฟังก์ชั่นการสูญเสียไปยังเครือข่ายทั้งสองGGGDDD discriminative ( ) neural nets ในตอนแรกรู้ได้อย่างไรว่าข้อมูลที่สร้างโดยนั้นถูกต้องหรือไม่? เราต้องฝึกก่อนแล้วเพิ่มมันเข้าไปใน GAN ด้วยหรือไม่?DDDGGGDDDGGG ลองพิจารณาสุทธิที่ผ่านการฝึกอบรมของฉันซึ่งสามารถจัดประเภทรูปภาพที่มีความแม่นยำร้อยละ 90 หากเราเพิ่มสุทธินี้ไปยัง GAN มีความน่าจะเป็น 10% มันจะจำแนกภาพผิด หากเราฝึก GAN ด้วยสุทธินี้แล้วมันจะมีข้อผิดพลาด 10% เหมือนกันในการจำแนกภาพหรือไม่? ถ้าใช่แล้วทำไม GAN ถึงแสดงผลลัพธ์ที่มีแนวโน้มDDDDDDDDD

1
มาตราส่วน "คอมพิวเตอร์นิวรัลนิฟท์" ใหม่ของ Deepmind จะเป็นอย่างไร
Deepmind เผยแพร่เพียงกระดาษเกี่ยวกับ"คอมพิวเตอร์ประสาทอนุพันธ์"ซึ่งโดยทั่วไปรวมโครงข่ายประสาทเทียมที่มีหน่วยความจำ ความคิดคือการสอนเครือข่ายประสาทเทียมเพื่อสร้างและเรียกคืนความทรงจำที่ชัดเจนที่มีประโยชน์สำหรับงานบางอย่าง สิ่งนี้จะช่วยเสริมความสามารถของโครงข่ายประสาทเทียมได้ดีเนื่องจาก NNs เก็บความรู้ไว้เฉพาะในน้ำหนักและข้อมูลที่ใช้ในการทำงานในภารกิจเดียวนั้นจะถูกเก็บไว้ในการเปิดใช้งานเครือข่ายเท่านั้น ( LSTMsเป็นหนึ่งพยายามที่จะชะลอความเสื่อมของความทรงจำระยะสั้น แต่มันก็ยังเกิดขึ้น) ตอนนี้แทนที่จะเก็บข้อมูลที่จำเป็นในการเปิดใช้งานพวกเขาน่าจะเก็บที่อยู่ของช่องเสียบหน่วยความจำสำหรับข้อมูลเฉพาะในการเปิดใช้งานดังนั้นสิ่งเหล่านี้ควรอยู่ภายใต้การย่อยสลาย คำถามของฉันคือเหตุผลที่วิธีการนี้ควรปรับขนาด ไม่ควรมีข้อมูลเฉพาะจำนวนงานที่ค่อนข้างสูงกว่าความสามารถของเครือข่ายในการรักษาที่อยู่ของสล็อตหน่วยความจำที่เหมาะสมทั้งหมดในการเปิดใช้งาน

2
มีข้อโต้แย้งทางวิทยาศาสตร์ / คณิตศาสตร์ที่ป้องกันไม่ให้การเรียนรู้อย่างลึกซึ้งจากการผลิต AI ที่แข็งแกร่งหรือไม่?
ฉันอ่านThe Book of Why ของจูเดียเพิร์ลซึ่งเขากล่าวว่าการเรียนรู้อย่างลึกซึ้งเป็นเพียงแค่เทคโนโลยีการปรับโค้งที่ได้รับการยกย่องและจะไม่สามารถสร้างสติปัญญาของมนุษย์ได้ จากหนังสือของเขามีแผนภาพนี้ที่แสดงความสามารถทางปัญญาสามระดับ: แนวคิดก็คือ "ปัญญา" ที่ผลิตโดยเทคโนโลยีการเรียนรู้ลึกในปัจจุบันนั้นอยู่ในระดับของการเชื่อมโยงเท่านั้น ดังนั้น AI จึงไม่มีที่ไหนใกล้กับระดับของคำถามที่ถามเช่น "ฉันจะทำให้ Y เกิดขึ้นได้อย่างไร" (การแทรกแซง) และ "จะเกิดอะไรขึ้นถ้าฉันทำสิ่งที่แตกต่างไป (counterfactuals) และเป็นไปได้ยากที่เทคนิคการปรับโค้งจะทำให้เราเข้าใกล้ความสามารถทางปัญญาในระดับที่สูงขึ้น ฉันพบว่าเหตุผลของเขาโน้มน้าวใจในระดับสัญชาตญาณ แต่ฉันไม่สามารถหากฎหมายทางกายภาพหรือคณิตศาสตร์ที่สามารถหนุนหรือสงสัยในการโต้แย้งนี้ ดังนั้นมีข้อโต้แย้งทางวิทยาศาสตร์ / กายภาพ / เคมี / ชีวภาพ / คณิตศาสตร์ที่ป้องกันไม่ให้การเรียนรู้อย่างลึกซึ้งจากที่เคยผลิต AI ที่แข็งแกร่ง (ปัญญาเหมือนมนุษย์)?

7
AI จะได้รับการฝึกฝนเพื่อสร้างโครงร่างของเรื่องราวได้หรือไม่?
ฉันรู้ว่าหนึ่งในแฟชั่นล่าสุดเมื่อเร็ว ๆ นี้คือการฝึกอบรมเครือข่ายประสาทเทียมเพื่อสร้างบทภาพยนตร์และตอนใหม่ ๆ เช่น Friends หรือ The Simpsons และมันก็ดี: มันน่าสนใจและอาจเป็นขั้นตอนแรกที่จำเป็นในการสร้างโปรแกรมที่สามารถสร้าง เรื่องที่สมเหตุสมผล / เข้าใจได้ ในบริบทนี้สามารถฝึกโครงข่ายประสาทเทียมโดยเฉพาะเพื่อศึกษาโครงสร้างของเรื่องราวหรือบทภาพยนตร์และอาจสร้างจุดพล็อตหรือขั้นตอนในการเดินทางของฮีโร่ ฯลฯ การเขียนโครงร่างเรื่องราวอย่างมีประสิทธิภาพ? สำหรับฉันสิ่งนี้แตกต่างจากเครื่องกำเนิดไฟฟ้าแบบพล็อตจุดจำนวนมากทางออนไลน์แม้ว่าฉันต้องยอมรับความคล้ายคลึงกัน ฉันแค่อยากรู้ว่าเทคโนโลยีหรือการนำไปใช้ยังมีอยู่หรือไม่และถ้าเป็นเช่นนั้นจะมีใครทำได้บ้าง

2
ควรดูเครือข่ายที่ตกค้างในระดับลึกเป็นเครือข่ายหรือไม่
คำถามเกี่ยวกับสถาปัตยกรรมของ Deep Residual Networks ( ResNets ) รูปแบบที่ชนะอันดับ 1 ในงาน"Large Scale Visual Recognition Challenge 2015" (ILSVRC2015)ในห้าเส้นทางหลัก: การจำแนกประเภทของ ImageNet:“ ล้ำลึก” (อ้างถึงยานน์) ตาข่าย 152 ชั้น การตรวจจับ ImageNet: ดีขึ้นกว่า 2% 16% การแปล ImageNet: 27% ดีกว่าที่ 2 การตรวจจับ COCO: ดีขึ้นกว่า 2% 11% การแบ่งส่วน COCO: ดีกว่าอันดับ 2 ถึง 12% ที่ มา: การ แข่งขัน MSRA @ …

1
เครือข่ายประสาทประเภทต่าง ๆ ใช้สำหรับทำอะไร?
ฉันพบแผ่นโกงโครงข่ายประสาทต่อไปนี้ (แผ่นโกงสำหรับ AI, โครงข่ายประสาทเทียม, การเรียนรู้ของเครื่อง, การเรียนรู้ลึกและข้อมูลขนาดใหญ่ ) เครือข่ายประสาทประเภทต่าง ๆ เหล่านี้ใช้ทำอะไร? ตัวอย่างเช่นเครือข่ายประสาทใดสามารถใช้สำหรับการถดถอยหรือการจำแนกซึ่งสามารถใช้สำหรับการสร้างลำดับ ฯลฯ ฉันต้องการภาพรวมสั้น ๆ (1-2 บรรทัด) ของแอปพลิเคชันของพวกเขา

2
เลเยอร์ใดที่ใช้เวลามากขึ้นในการฝึกอบรมของ CNN Convolution Layer กับ FC FC
ใน Convolutional Neural Network เลเยอร์ใดที่ใช้เวลาสูงสุดในการฝึกอบรม? Convolution Layer หรือ Layer ที่เชื่อมต่อเต็ม? เราสามารถใช้สถาปัตยกรรม AlexNet เพื่อทำความเข้าใจกับสิ่งนี้ ฉันต้องการที่จะเห็นการแบ่งเวลาของกระบวนการฝึกอบรม ฉันต้องการเปรียบเทียบเวลาแบบสัมพัทธ์เพื่อให้เราสามารถกำหนดค่า GPU คงที่ได้

5
ทำไมเครือข่ายประสาทลึกและการเรียนรู้อย่างลึกล้ำจึงไม่เพียงพอที่จะบรรลุความฉลาดทางสติปัญญา
ทุกอย่างที่เกี่ยวข้องกับการเรียนรู้ลึก (DL) และเครือข่ายลึก (เอ้อ) ดูเหมือนว่า "ประสบความสำเร็จ" อย่างน้อยก็ดำเนินไปอย่างรวดเร็วและปลูกฝังความเชื่อที่ AGI เข้าถึงได้ นี่คือจินตนาการที่เป็นที่นิยม DL เป็นเครื่องมืออันยิ่งใหญ่ในการจัดการปัญหามากมายรวมถึงการสร้าง AGIs แม้ว่ามันจะไม่เพียงพอ เครื่องมือเป็นส่วนประกอบที่จำเป็น แต่มักจะไม่เพียงพอ บุคคลสำคัญในโดเมนกำลังค้นหาที่อื่นเพื่อสร้างความก้าวหน้า นี้รายงาน / เรียกร้องรวบรวมเชื่อมโยงไปยังงบโดยโยชัวเบนจิโอ , ยานน์เลคันและเจฟฟ์ฮินตัน รายงานยังอธิบาย: จุดอ่อนหลักของ DL (อย่างที่ฉันเห็น) คือ: พึ่งพาเซลล์ประสาทแบบจำลองที่ง่ายที่สุด (“ cartoonish” ตามที่ LeCun เรียกพวกเขา); การใช้ความคิดจากกลศาสตร์และสถิติเชิงสถิติในศตวรรษที่ 19 ซึ่งเป็นพื้นฐานของฟังก์ชันพลังงานและวิธีการบันทึกความเป็นไปได้ และการรวมเทคนิคเหล่านี้เข้าด้วยกันเช่น backprop และ stochastic gradient descent ทำให้แอพพลิเคชั่นมีข้อ จำกัด มาก (ออฟไลน์ส่วนใหญ่เป็นแบตช์การเรียนรู้แบบมีผู้สอน) ซึ่งต้องการผู้ฝึกสอนที่มีความสามารถสูง ข้อมูลการฝึกอบรมที่มีข้อความและพลังการคำนวณ ในขณะที่ยอดเยี่ยมสำหรับ บริษัท …

1
เลเยอร์ของเครือข่ายนิวรัลลึกสามารถมองเห็นเป็นเครือข่าย Hopfield ได้หรือไม่
เครือข่าย Hopfield สามารถเก็บเวกเตอร์และดึงข้อมูลได้โดยเริ่มจากรุ่นที่มีเสียงดัง พวกมันทำการตั้งค่าตุ้มน้ำหนักเพื่อลดฟังก์ชั่นพลังงานเมื่อเซลล์ประสาททั้งหมดถูกตั้งค่าให้เท่ากับค่าเวกเตอร์และดึงเวกเตอร์โดยใช้เสียงรบกวนในรูปแบบของอินพุต ออกจากปัญหาเช่นความจริงที่ว่าไม่มีการรับประกันว่าเน็ตจะตั้งอยู่ในขั้นต่ำที่ใกล้ที่สุด - ปัญหาในที่สุดก็แก้ไขได้ด้วยเครื่องจักร Boltzmann และในที่สุดก็มีการขยายพันธุ์กลับ - การพัฒนาเป็นจุดเริ่มต้นสำหรับการเป็นตัวแทนนามธรรม เอกสารเดียวกันสองเวอร์ชันจะเรียกคืนสถานะเดียวกันพวกเขาจะถูกแสดงในเครือข่ายโดยสถานะเดียวกัน อย่างที่ Hopfield เขียนในเครือข่ายนิวรัลและระบบทางกายภาพของกระดาษในปี 1982 ด้วยความสามารถในการคำนวณแบบกลุ่ม การสร้างแบบจำลองในปัจจุบันนั้นอาจเกี่ยวข้องกับวิธีการที่หน่วยความจำหรือเกสตัลท์ถูกจดจำหรือจัดหมวดหมู่บนพื้นฐานของปัจจัยการผลิตที่เป็นตัวแทนของคอลเลกชันของคุณสมบัติ ในอีกด้านหนึ่งการพัฒนาอย่างลึกซึ้งของการเรียนรู้ลึกคือความสามารถในการสร้างตัวแทนที่หลากหลายและเป็นลำดับชั้นของอินพุตในที่สุดนำไปสู่การทำให้ชีวิตของผู้ปฏิบัติงาน AI ง่ายขึ้นและง่ายขึ้น (ดูตัวอย่างการเรียนรู้จากการเป็นตัวแทน: บทวิจารณ์และมุมมองใหม่เบงจิโอ Courville วินเซนต์) จากมุมมองแนวคิดผมเชื่อว่าเราสามารถเห็นการเรียนรู้อย่างลึกซึ้งในฐานะภาพรวมของอวน Hopfield: จากการแสดงเพียงครั้งเดียวไปจนถึงลำดับชั้นของการเป็นตัวแทน นั่นเป็นความจริงจากมุมมองการคำนวณ / ทอพอโลยีเช่นกัน? ไม่ได้พิจารณาว่าเครือข่าย Hopfield "ง่าย" นั้นเป็นอย่างไร (เซลล์ประสาท 2 สถานะ, ไม่ระบุทิศทาง, ฟังก์ชั่นด้านพลังงาน) สามารถมองเห็นแต่ละชั้นของเครือข่ายเป็นเครือข่าย Hopfield และกระบวนการทั้งหมดเป็นการแยกตามลำดับของ Gestalt ที่จดจำไว้ก่อนหน้านี้ เกสตัลต์เหล่านี้หรือไม่

1
การสูญเสียเพิ่มขึ้นทันทีเมื่อฉันสลายอัตราการเรียนรู้ด้วย Adam optimizer ใน PyTorch
ฉันกำลังฝึกอบรมauto-encoderเครือข่ายด้วยAdamเครื่องมือเพิ่มประสิทธิภาพ (พร้อมamsgrad=True) และMSE lossสำหรับงานแยกสัญญาณเสียงช่องทางเดียว เมื่อใดก็ตามที่ฉันสลายอัตราการเรียนรู้โดยปัจจัยการสูญเสียเครือข่ายจะเพิ่มขึ้นอย่างกระทันหันและลดลงเรื่อย ๆ จนกระทั่งอัตราการเรียนรู้สลายตัวครั้งถัดไป ฉันใช้ Pytorch สำหรับการติดตั้งและใช้งานเครือข่าย Following are my experimental setups: Setup-1: NO learning rate decay, and Using the same Adam optimizer for all epochs Setup-2: NO learning rate decay, and Creating a new Adam optimizer with same initial values every epoch Setup-3: 0.25 decay in …

1
การไล่ระดับสีนโยบายสามารถนำไปใช้ในกรณีของการกระทำหลายอย่างต่อเนื่องได้อย่างไร?
การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ (TRPO) และนโยบายการเพิ่มประสิทธิภาพ Proximal (PPO) เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่ล้ำสมัยสองขั้นตอน เมื่อใช้การกระทำแบบต่อเนื่องครั้งเดียวโดยปกติคุณจะต้องใช้การแจกแจงความน่าจะเป็นบางอย่าง (เช่น Gaussian) สำหรับฟังก์ชันการสูญเสีย รุ่นคร่าวๆคือ: L ( θ ) = บันทึก( P(a1) ) ,L(θ)=เข้าสู่ระบบ⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, ที่ไหน AAA เป็นข้อได้เปรียบของรางวัล P(a1)P(a1)P(a_1) โดดเด่นด้วย μμ\mu และ σ2σ2\sigma^2ที่ออกมาของเครือข่ายประสาทเช่นในสภาพแวดล้อมลูกตุ้มที่นี่: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py ปัญหาคือฉันไม่สามารถหารายงานใด ๆ เกี่ยวกับการกระทำต่อเนื่อง 2+ ครั้งโดยใช้การไล่ระดับสีนโยบาย (ไม่ใช่วิธีการที่นักวิจารณ์ที่ใช้วิธีการที่แตกต่างกันโดยการถ่ายโอนการไล่ระดับสีจาก Q-function) คุณรู้วิธีการทำสิ่งนี้โดยใช้ TRPO สำหรับการกระทำ 2 อย่างต่อเนื่องในสภาพแวดล้อม LunarLanderหรือไม่? วิธีการต่อไปนี้ถูกต้องสำหรับฟังก์ชั่นการสูญเสียการไล่ระดับสีนโยบาย L ( θ ) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.