คำถามติดแท็ก reinforcement-learning

7
วิธีการฝึกอบรมเครือข่ายประสาทเทียมเพื่อเล่น Diablo 2 โดยใช้การป้อนข้อมูลด้วยภาพ
ฉันกำลังพยายามรับ ANN เพื่อเล่นวิดีโอเกมและฉันหวังว่าจะได้รับความช่วยเหลือจากชุมชนที่ยอดเยี่ยมที่นี่ ฉันได้ตัดสินจาก Diablo 2 แล้วการเล่นเกมจึงเป็นแบบเรียลไทม์และจากมุมมองภาพวาดสามมิติโดยผู้เล่นสามารถควบคุมอวาตาร์ตัวเดียวที่กล้องมีศูนย์กลางอยู่ ในการสร้างสิ่งที่เป็นรูปธรรมภารกิจคือการได้รับคะแนนประสบการณ์ x โดยไม่ทำให้สุขภาพลดลงเหลือ 0 ซึ่งจะได้รับค่าประสบการณ์จากการฆ่ามอนสเตอร์ นี่คือตัวอย่างของการเล่นเกม: ตอนนี้เนื่องจากฉันต้องการให้เน็ตทำงานโดยอาศัยข้อมูลที่ได้รับจากพิกเซลบนหน้าจอเท่านั้นจึงต้องเรียนรู้การแสดงที่หลากหลายเพื่อที่จะเล่นได้อย่างมีประสิทธิภาพเนื่องจากสิ่งนี้น่าจะต้องการให้รู้ (โดยปริยาย) แบ่งโลกของเกมออกเป็นวัตถุและวิธีการโต้ตอบกับพวกเขา และข้อมูลทั้งหมดนี้จะต้องถูกสอนให้กับเครือข่ายอย่างใด ฉันทำไม่ได้สำหรับชีวิตของฉันคิดว่าจะฝึกเรื่องนี้อย่างไร ความคิดเดียวของฉันคือมีโปรแกรมแยกสิ่งที่มองเห็นสิ่งที่ดี / ไม่ดีโดยธรรมชาติในเกม (เช่นสุขภาพ, ทอง, ประสบการณ์) จากหน้าจอจากนั้นใช้สถิตินั้นในกระบวนการเรียนรู้การเสริมแรง ฉันคิดว่ามันจะเป็นส่วนหนึ่งของคำตอบ แต่ฉันคิดว่ามันจะไม่เพียงพอ มีเพียงนามธรรมในระดับที่มากเกินไปจากการป้อนข้อมูลแบบวิชวลไปจนถึงพฤติกรรมที่มุ่งเน้นเป้าหมายสำหรับข้อเสนอแนะที่ จำกัด เช่นนี้เพื่อฝึกฝนเน็ตภายในชีวิตของฉัน ดังนั้นคำถามของฉัน: คุณมีวิธีอื่นอย่างไรในการฝึกอบรมให้ทำอย่างน้อยส่วนหนึ่งของงานนี้ โดยไม่ต้องทำตัวอย่างหลายพันรายการ ขอทิศทางอีกเล็กน้อย: ฉันกำลังมองหาแหล่งการเรียนรู้การเสริมแรงอื่น ๆ และ / หรือวิธีการที่ไม่ได้รับการสนับสนุนสำหรับการดึงข้อมูลที่เป็นประโยชน์ในการตั้งค่านี้ หรืออัลกอริทึมการดูแลถ้าคุณสามารถคิดหาวิธีที่จะติดป้ายกำกับข้อมูลจากโลกของเกมโดยไม่ต้องติดป้ายกำกับด้วยตนเอง UPDATE (04/27/12): แปลกฉันยังคงทำงานนี้และดูเหมือนจะก้าวหน้า ความลับที่ใหญ่ที่สุดในการทำให้คอนโทรลเลอร์ ANN ทำงานได้คือใช้สถาปัตยกรรม ANN ที่ทันสมัยที่สุดที่เหมาะสมกับงาน ดังนั้นผมเคยใช้สุทธิความเชื่อลึกประกอบด้วยเอาเรื่องเงื่อนไข จำกัด …

4
อะไรคือความแตกต่างระหว่างการวนซ้ำมูลค่าและการวนซ้ำตามนโยบาย?
ในการเรียนรู้เสริมสิ่งที่เป็นความแตกต่างระหว่างการย้ำนโยบายและย้ำคุ้มค่า ? เท่าที่ฉันเข้าใจในการวนซ้ำคุณค่าคุณใช้สมการ Bellman เพื่อแก้ปัญหาสำหรับนโยบายที่ดีที่สุดในขณะที่ในการวนซ้ำนโยบายคุณสุ่มเลือกนโยบายπและหารางวัลของนโยบายนั้น ข้อสงสัยของฉันคือหากคุณเลือกนโยบายแบบสุ่มπใน PI จะรับประกันได้อย่างไรว่าจะเป็นนโยบายที่ดีที่สุดแม้ว่าเราจะเลือกนโยบายแบบสุ่มหลายนโยบายก็ตาม

1
ทำความเข้าใจเกี่ยวกับนโยบายการไล่ระดับสี
ฉันพยายามที่จะสร้างตัวอย่างง่ายๆนโยบายการไล่โทนสีจากมันทรัพยากรกำเนิดAndrej Karpathy บล็อก ในบทความนั้นคุณจะพบตัวอย่างกับ CartPole และ Policy Gradient พร้อมรายการน้ำหนักและการเปิดใช้งาน Softmax นี่คือตัวอย่างการสร้างและง่ายมากของฉัน CartPole ลาดนโยบายซึ่งทำงานที่สมบูรณ์แบบ import gym import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures import copy NUM_EPISODES = 4000 LEARNING_RATE = 0.000025 GAMMA = 0.99 # noinspection PyMethodMayBeStatic class Agent: def __init__(self): self.poly = PolynomialFeatures(1) self.w = …

1
TypeError: len ไม่ได้กำหนดไว้อย่างดีสำหรับเทนเซอร์แบบสัญลักษณ์ (activation_3 / ข้อมูลประจำตัว: 0) กรุณาโทร `x.shape` แทน` len (x) `สำหรับข้อมูลรูปร่าง
ฉันกำลังพยายามใช้โมเดล DQL ในหนึ่งเกมของโรงยิม openAI แต่มันทำให้ฉันผิดพลาด TypeError: len ไม่ได้กำหนดไว้อย่างดีสำหรับเทนเซอร์แบบสัญลักษณ์ (activation_3 / บัตรประจำตัว: 0) กรุณาโทรx.shapeมากกว่าlen(x) สำหรับข้อมูลรูปร่าง การสร้างสภาพแวดล้อมในโรงยิม: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) env.seed(123) nb_actions = env.action_space.n แบบจำลองของฉันมีลักษณะเช่นนี้: model = Sequential() model.add(Flatten(input_shape=(1,) + env.observation_space.shape)) model.add(Dense(16)) model.add(Activation('relu')) model.add(Dense(nb_actions)) model.add(Activation('linear')) print(model.summary()) การติดตั้งโมเดลนั้นกับโมเดล DQN จาก keral-rl ดังต่อไปนี้: policy = EpsGreedyQPolicy() memory = SequentialMemory(limit=50000, window_length=1) …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.