ปัญญาประดิษฐ์ reinforcement-learning

6

อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?

อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง? สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้ ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด

28 reinforcement-learning comparison model-based model-free

1

ความสัมพันธ์ระหว่าง Q-learning และวิธีการไล่ระดับสีนโยบายคืออะไร?

เท่าที่ฉันเข้าใจการเรียนรู้ Q- และการไล่ระดับสีนโยบาย (PG) เป็นสองแนวทางหลักที่ใช้ในการแก้ปัญหา RL ในขณะที่การเรียนรู้ Q มีวัตถุประสงค์เพื่อทำนายรางวัลของการกระทำบางอย่างที่เกิดขึ้นในบางสถานะการไล่ระดับสีของนโยบายจะทำนายการกระทำโดยตรง อย่างไรก็ตามทั้งสองวิธีดูเหมือนกันกับฉันเช่นการทำนายรางวัลสูงสุดสำหรับการกระทำ (Q-learning) เทียบเท่ากับการทำนายความน่าจะเป็นของการดำเนินการโดยตรง (PG) ความแตกต่างในวิธีการสูญเสียจะแพร่กระจายกลับ?

21 reinforcement-learning q-learning policy-gradients comparison

4

จะจัดการกับการเคลื่อนไหวที่ไม่ถูกต้องในการเรียนรู้การเสริมแรงได้อย่างไร?

ฉันต้องการสร้าง AI ซึ่งสามารถเล่นห้าในแถว / gomoku ดังที่ฉันพูดถึงในชื่อเรื่องฉันต้องการใช้การเรียนรู้เสริมแรงสำหรับสิ่งนี้ ฉันใช้วิธีการไล่ระดับสีนโยบายคือ REINFORCE ที่มีพื้นฐาน สำหรับการประมาณค่าและนโยบายการทำงานของผมใช้โครงข่ายประสาทเทียม มันมีเลเยอร์ convolutional และเชื่อมต่ออย่างเต็มที่ เลเยอร์ทั้งหมดยกเว้นการส่งออกจะถูกแชร์ ชั้นผลผลิตของนโยบายมี8 × 8 = 648×8=648 \times 8=64 (ขนาดของคณะกรรมการ) หน่วยส่งออกและsoftmaxกับพวกเขา ดังนั้นมันจึงสุ่ม แต่ถ้าเครือข่ายสร้างความน่าจะเป็นสูงมากสำหรับการย้ายที่ไม่ถูกต้อง การย้ายที่ไม่ถูกต้องคือเมื่อตัวแทนต้องการตรวจสอบสี่เหลี่ยมที่มีหนึ่ง "X" หรือ "O" ฉันคิดว่ามันสามารถติดอยู่ในสถานะเกมนั้น คุณช่วยแนะนำวิธีแก้ปัญหาสำหรับปัญหานี้ได้ไหม? ฉันเดาว่าจะใช้วิธีการของนักวิจารณ์ สำหรับการย้ายที่ไม่ถูกต้องเราควรให้รางวัลเป็นค่าลบและส่งต่อให้ฝ่ายตรงข้าม

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

จะกำหนดรัฐในการเรียนรู้เสริมได้อย่างไร?

ฉันกำลังเรียนรู้การเสริมกำลังและตัวแปรของมัน ฉันเริ่มเข้าใจถึงวิธีการทำงานของอัลกอริทึมและวิธีนำไปใช้กับ MDP สิ่งที่ฉันไม่เข้าใจคือกระบวนการกำหนดสถานะของ MDP ในตัวอย่างและแบบฝึกหัดส่วนใหญ่พวกเขาแสดงสิ่งที่ง่ายเช่นสี่เหลี่ยมในตารางหรือคล้ายกัน สำหรับปัญหาที่ซับซ้อนมากขึ้นเช่นการเรียนรู้การเดินของหุ่นยนต์เป็นต้นคุณจะกำหนดสถานะอย่างไร คุณสามารถใช้อัลกอริทึมการเรียนรู้หรือการจำแนกประเภทเพื่อ "เรียนรู้" สถานะเหล่านั้นได้หรือไม่?

14 reinforcement-learning

2

ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร

ตัวอย่างเช่นชื่อเรื่องของบทความนี้อ่าน: "Sample Actor-Critic with Replay Experience" ประสิทธิภาพของตัวอย่างคืออะไรและการสุ่มตัวอย่างที่สำคัญสามารถใช้เพื่อให้บรรลุได้อย่างไร

14 reinforcement-learning statistical-ai importance-sampling

3

มีแอพพลิเคชั่นเสริมการเรียนรู้ที่นอกเหนือจากเกมหรือไม่?

มีวิธีสอนการเรียนรู้แบบเสริมในแอปพลิเคชั่นนอกเหนือจากเกมหรือไม่? ตัวอย่างเดียวที่ฉันพบบนอินเทอร์เน็ตเป็นของตัวแทนเกม ฉันเข้าใจว่า VNC ควบคุมอินพุตให้กับเกมผ่านเครือข่ายเสริมแรง เป็นไปได้ไหมที่จะตั้งค่าด้วยซอฟต์แวร์ CAD?

13 reinforcement-learning applications

3

วิธีการใช้พื้นที่การกระทำที่ จำกัด ในการเรียนรู้การเสริมแรง?

ฉันกำลังเขียนโมเดลการเรียนรู้การเสริมแรงด้วยตัวแทน PPO ต้องขอบคุณห้องสมุด Tensorforceที่ดีมากซึ่งสร้างจากส่วนบนของ Tensorflow รุ่นแรกนั้นง่ายมากและตอนนี้ฉันกำลังดำดิ่งสู่สภาพแวดล้อมที่ซับซ้อนมากขึ้นซึ่งการกระทำทั้งหมดไม่พร้อมใช้งานในแต่ละขั้นตอน สมมติว่ามี 5 การกระทำและความพร้อมใช้งานขึ้นอยู่กับสถานะภายใน (ซึ่งกำหนดโดยการกระทำก่อนหน้าและ / หรือพื้นที่รัฐ / การสังเกตใหม่): 2 การกระทำ (0 และ 1) พร้อมใช้งานเสมอ 2 การกระทำ (2 และ 3) จะใช้ได้เฉพาะเมื่อ internal_state == 0 1 การกระทำ (4) ใช้ได้เฉพาะเมื่อ internal_state == 1 ดังนั้นจึงมีการดำเนินการ 4 รายการเมื่อ internal_state == 0 และ 3 การกระทำพร้อมใช้งานเมื่อ internal_state == 1 ฉันคิดว่ามีความเป็นไปได้เล็กน้อยที่จะนำไปใช้ เปลี่ยนพื้นที่การดำเนินการในแต่ละขั้นตอนขึ้นอยู่กับ …

13 deep-learning reinforcement-learning

1

ทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในตัวอย่างการเรียนรู้การเสริมแรง?

ฉันได้ดูการเรียนรู้การเสริมแรงและโดยเฉพาะการเล่นกับการสร้างสภาพแวดล้อมของตัวเองเพื่อใช้กับ OpenAI Gym AI ฉันกำลังใช้ตัวแทนจากโครงการ stable_baselines เพื่อทดสอบกับมัน สิ่งหนึ่งที่ฉันสังเกตเห็นได้ในตัวอย่าง RL เกือบทั้งหมดคือดูเหมือนจะไม่มีเลเยอร์ดรอปเอาต์ในเครือข่ายใด ๆ เลย ทำไมนี้ ฉันได้สร้างสภาพแวดล้อมที่จำลองราคาสกุลเงินและตัวแทนง่าย ๆ โดยใช้ DQN ที่พยายามเรียนรู้เวลาที่จะซื้อและขาย ฝึกมันมากกว่าหนึ่งล้าน timesteps นำมาจากชุดของข้อมูลที่เฉพาะเจาะจงซึ่งประกอบด้วยข้อมูลราคา 5 นาทีหนึ่งเดือนที่ดูเหมือนว่าจะมีค่าเกินจำนวนมาก ถ้าฉันประเมินเอเจนต์และโมเดลเทียบกับมูลค่าข้อมูลของเดือนอื่น ๆ ดังนั้นฟังดูเหมือนการโอเวอร์คลาสสิกแบบดั้งเดิม แต่มีเหตุผลทำไมคุณไม่เห็นเลเยอร์การออกกลางคันในเครือข่าย RL หรือไม่ มีกลไกอื่น ๆ ที่จะลองและจัดการกับการสวมใส่เกินได้ไหม? หรือในตัวอย่าง RL หลายเรื่องไม่สำคัญ เช่นอาจมีเพียงวิธีเดียวที่แท้จริงในการทำคะแนนสูงสุดในเกม 'breakout' ดังนั้นคุณอาจจะเรียนรู้อย่างแน่นอนและไม่จำเป็นต้องพูดคุยกัน? หรือถือว่าเป็นธรรมชาติที่วุ่นวายของสภาพแวดล้อมเองควรให้ผลลัพธ์ที่แตกต่างกันมากพอที่คุณไม่จำเป็นต้องมีชั้นการออกกลางคัน

13 machine-learning reinforcement-learning overfitting dropout

1

เมื่อใดที่ฉันควรใช้การเรียนรู้เสริมแรงเทียบกับการควบคุมแบบ PID

เมื่อออกแบบวิธีการแก้ปัญหาเช่น Lunar Lander บนOpenAIGymการเรียนรู้การเสริมแรงเป็นวิธีการล่อลวงให้ตัวแทนควบคุมการกระทำที่เพียงพอเพื่อที่จะประสบความสำเร็จในการลงจอด แต่อินสแตนซ์ใดบ้างที่อัลกอริทึมของระบบควบคุมเช่นตัวควบคุม PIDจะทำงานได้อย่างเพียงพอหากไม่ดีกว่าการเสริมแรงการเรียนรู้ คำถามเช่นนี้ทำหน้าที่ได้ดีในการจัดการกับทฤษฎีของคำถามนี้ แต่ทำเพียงเล็กน้อยที่จะกล่าวถึงส่วนประกอบที่ใช้งานได้จริง ในฐานะวิศวกรด้านปัญญาประดิษฐ์องค์ประกอบของโดเมนปัญหาควรแนะนำให้ฉันรู้ว่าตัวควบคุม PID ไม่เพียงพอที่จะแก้ปัญหาและอัลกอริทึมการเรียนรู้การเสริมกำลังควรใช้แทน (หรือในทางกลับกัน)

12 reinforcement-learning ai-design control-theory

1

เหตุใด DQN จึงต้องการเครือข่ายสองเครือข่ายที่แตกต่างกัน

ผมจะผ่านนี้การดำเนินงานของ DQN และผมเห็นว่าในสาย 124 และ 125 สองเครือข่าย Q ที่แตกต่างกันได้รับการเริ่มต้น จากความเข้าใจของฉันฉันคิดว่าเครือข่ายหนึ่งทำนายการกระทำที่เหมาะสมและเครือข่ายที่สองทำนายค่าเป้าหมาย Q สำหรับการค้นหาข้อผิดพลาดของ Bellman ทำไมเราไม่สามารถสร้างเครือข่ายเดียวที่ทำนายค่า Q และใช้กับทั้งสองกรณีได้? การคาดเดาที่ดีที่สุดของฉันคือการดำเนินการเพื่อลดเวลาในการคำนวณไม่เช่นนั้นเราจะต้องค้นหาค่า q สำหรับแต่ละการกระทำจากนั้นเลือกอันที่ดีที่สุด นี่เป็นเหตุผลเดียวหรือไม่ ฉันพลาดอะไรไปรึเปล่า?

12 reinforcement-learning q-learning dqn

2

เหตุใดการเรียนรู้แบบ Q ถึงไม่รวมกันเมื่อใช้การประมาณฟังก์ชั่น

อัลกอริทึม Q-learning แบบมีตารางรับประกันว่าจะหาสิ่งที่ดีที่สุด QQQ ฟังก์ชั่น Q∗Q∗Q^*ให้เงื่อนไขต่อไปนี้ (เงื่อนไขRobbins-Monro ) เกี่ยวกับอัตราการเรียนรู้เป็นที่พอใจ ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty ที่ไหน αt(s,a)αt(s,a)\alpha_t(s, a) หมายถึงอัตราการเรียนรู้ที่ใช้เมื่ออัปเดต QQQ ค่าที่เกี่ยวข้องกับรัฐ sss และการกระทำ aaa ในเวลาขั้นตอน tttที่ไหน 0≤αt(s,a)<10≤αt(s,a)<10 \leq \alpha_t(s, a) < 1 จะถือว่าเป็นจริงสำหรับทุกรัฐ sss และการกระทำ aaa. เห็นได้ชัดว่า 0≤αt(s,a)<10≤αt(s,a)<10 \leq \alpha_t(s, a) < 1เพื่อให้ทั้งสองเงื่อนไขเป็นจริงคู่การกระทำของรัฐทุกคนจะต้องเข้าชมอย่างไม่สิ้นสุดบ่อยครั้ง: นี่คือที่ระบุไว้ในหนังสือเสริมการเรียนรู้: การแนะนำนอกเหนือจากข้อเท็จจริงที่ว่านี้ควรเป็นที่รู้จักอย่างกว้างขวางและเป็นเหตุผล เบื้องหลังการใช้งานของϵϵ\epsilon- …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

ทำไมอัตราคิดลดในอัลกอริทึม REINFORCE ปรากฏสองครั้ง

ฉันกำลังอ่านหนังสือเสริมการเรียนรู้: บทนำโดย Richard S. Sutton และ Andrew G. Barto (ฉบับร่างสมบูรณ์, 5 พฤศจิกายน 2017) บนหน้า 271 รหัสหลอกสำหรับวิธีการนโยบายไล่ระดับสี Monte-Carlo หลักการจะแสดง ดูโค้ดหลอกนี้ฉันไม่เข้าใจว่าทำไมมันดูเหมือนว่าอัตราส่วนลดปรากฏขึ้น 2 ครั้งหนึ่งครั้งในสถานะอัพเดตและครั้งที่สองภายในผลตอบแทน [ดูรูปด้านล่าง] ดูเหมือนว่าการคืนค่าสำหรับขั้นตอนหลังจากขั้นตอนที่ 1 เป็นเพียงการตัดทอนการคืนค่าของขั้นตอนแรก นอกจากนี้หากคุณดูเพียงหนึ่งหน้าข้างบนในหนังสือคุณจะพบสมการที่มีอัตราส่วนลดเพียง 1 รายการ (หนึ่งในผลตอบแทน) ทำไมรหัสเทียมดูไม่เหมือนกัน? ฉันเดาว่าฉันเข้าใจผิดบางสิ่ง: θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt).(13.6)(13.6)θt+1 =˙ θt+αGt∇θπ(At|St,θt)π(At|St,θt). {\mathbf{\theta}}_{t+1} ~\dot{=}~\mathbf{\theta}_t + \alpha G_t \frac{{\nabla}_{\mathbf{\theta}} \pi \left(A_t \middle| S_t, \mathbf{\theta}_{t} \right)}{\pi \left(A_t \middle| …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

จะอยู่กับนักวิจัยล่าสุดในชุมชน ML / RL ได้อย่างไร

ในฐานะนักเรียนที่ต้องการทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรฉันต้องการทราบว่าเป็นไปได้อย่างไรที่จะเริ่มการศึกษาของฉันและวิธีการติดตามเพื่อให้ทันสมัย ตัวอย่างเช่นฉันยินดีที่จะแก้ไขปัญหา RL และ MAB แต่มีบทความมากมายในหัวข้อเหล่านี้ นอกจากนี้หัวข้อเหล่านี้ยังได้รับการศึกษาโดยนักวิจัยจากชุมชนต่าง ๆ เช่น AI และ ML, การวิจัยการดำเนินงาน, วิศวกรรมการควบคุม, สถิติและฉันคิดว่ามีการตีพิมพ์บทความจำนวนมากในหัวข้อเหล่านี้ทุกสัปดาห์ซึ่งทำให้ยากต่อการติดตาม ฉันจะขอบคุณถ้าใครสามารถแนะนำแผนที่ถนนเพื่อเริ่มศึกษาหัวข้อเหล่านี้ติดตามพวกเขาและฉันควรเลือกและศึกษาเอกสารเผยแพร่ใหม่ ๆ ได้อย่างไร ในที่สุดฉันยินดีที่จะทราบแนวโน้มใหม่ในปัญหา RL และ MAB

11 machine-learning reinforcement-learning research markov-decision-process

1

การไล่ระดับสีนโยบายสามารถนำไปใช้ในกรณีของการกระทำหลายอย่างต่อเนื่องได้อย่างไร?

การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ (TRPO) และนโยบายการเพิ่มประสิทธิภาพ Proximal (PPO) เป็นอัลกอริทึมการไล่ระดับสีนโยบายที่ล้ำสมัยสองขั้นตอน เมื่อใช้การกระทำแบบต่อเนื่องครั้งเดียวโดยปกติคุณจะต้องใช้การแจกแจงความน่าจะเป็นบางอย่าง (เช่น Gaussian) สำหรับฟังก์ชันการสูญเสีย รุ่นคร่าวๆคือ: L ( θ ) = บันทึก( P(a1) ) ,L(θ)=เข้าสู่ระบบ⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, ที่ไหน AAA เป็นข้อได้เปรียบของรางวัล P(a1)P(a1)P(a_1) โดดเด่นด้วย μμ\mu และ σ2σ2\sigma^2ที่ออกมาของเครือข่ายประสาทเช่นในสภาพแวดล้อมลูกตุ้มที่นี่: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py ปัญหาคือฉันไม่สามารถหารายงานใด ๆ เกี่ยวกับการกระทำต่อเนื่อง 2+ ครั้งโดยใช้การไล่ระดับสีนโยบาย (ไม่ใช่วิธีการที่นักวิจารณ์ที่ใช้วิธีการที่แตกต่างกันโดยการถ่ายโอนการไล่ระดับสีจาก Q-function) คุณรู้วิธีการทำสิ่งนี้โดยใช้ TRPO สำหรับการกระทำ 2 อย่างต่อเนื่องในสภาพแวดล้อม LunarLanderหรือไม่? วิธีการต่อไปนี้ถูกต้องสำหรับฟังก์ชั่นการสูญเสียการไล่ระดับสีนโยบาย L ( θ ) …

11 deep-learning reinforcement-learning trpo

3

นโยบายที่ดีที่สุดคือการสุ่มเสมอหากสภาพแวดล้อมเป็นแบบสุ่ม?

นโยบายที่ดีที่สุดคือสุ่มเสมอ (นั่นคือแผนที่จากรัฐไปสู่การกระจายความน่าจะเป็นมากกว่าการกระทำ) หากสภาพแวดล้อมนั้นสุ่ม อย่างสังหรณ์ใจหากสภาพแวดล้อมเป็นสิ่งที่กำหนด (นั่นคือถ้าตัวแทนอยู่ในสถานะsss และดำเนินการ aaaจากนั้นสถานะถัดไป s's's' เหมือนกันเสมอไม่ว่าขั้นตอนใดเวลานั้นนโยบายที่เหมาะสมก็ควรถูกกำหนดไว้ (นั่นคือมันควรเป็นแผนที่จากสหรัฐฯไปสู่การกระทำ

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

คำถามติดแท็ก reinforcement-learning