คำถามติดแท็ก q-learning

4
ทำไม Q-Learning ใช้ epsilon-โลภในระหว่างการทดสอบ?
ในบทความของ DeepMind เกี่ยวกับ Deep Q-Learning สำหรับวิดีโอเกมอาตาริ ( ที่นี่ ) พวกเขาใช้วิธีการ epsilon-โลภสำหรับการสำรวจในระหว่างการฝึกอบรม ซึ่งหมายความว่าเมื่อมีการเลือกการดำเนินการในการฝึกอบรมจะมีการเลือกว่าเป็นการกระทำที่มีค่า q สูงสุดหรือการกระทำแบบสุ่ม การเลือกระหว่างสองสิ่งนี้คือการสุ่มและขึ้นอยู่กับมูลค่าของ epsilon และ epsilon จะถูกทำให้อ่อนลงในระหว่างการฝึกอบรมซึ่งในขั้นต้นจะมีการดำเนินการแบบสุ่มจำนวนมาก (การสำรวจ) แต่ในขณะที่การฝึกอบรมดำเนินไป (การแสวงหาผลประโยชน์) จากนั้นในระหว่างการทดสอบพวกเขายังใช้วิธี epsilon-greedy แต่ด้วย epsilon ที่ค่าต่ำมากเช่นนั้นมีอคติที่แข็งแกร่งต่อการแสวงหาผลประโยชน์มากกว่าการสำรวจโดยนิยมเลือกการกระทำที่มีค่า q สูงกว่าการกระทำแบบสุ่ม อย่างไรก็ตามการกระทำแบบสุ่มบางครั้งยังคงถูกเลือก (5% ของเวลา) คำถามของฉันคือ: ทำไมการสำรวจใด ๆ ที่จำเป็นในตอนนี้เนื่องจากการฝึกอบรมได้ทำไปแล้ว? หากระบบได้เรียนรู้นโยบายที่ดีที่สุดแล้วเหตุใดจึงไม่สามารถเลือกการกระทำเป็นรายการที่มีค่า q สูงสุดได้เสมอ ไม่ควรทำการสำรวจเท่านั้นในการฝึกอบรมและเมื่อเรียนรู้นโยบายที่เหมาะสมแล้วตัวแทนก็สามารถเลือกการกระทำที่เหมาะสมที่สุดซ้ำ ๆ ได้? ขอบคุณ!

2
เหตุใดจึงเลือกตัวอักษร Q ในการเรียนรู้ Q
เหตุใดจึงเลือกตัวอักษร Q ในชื่อของ Q-learning ตัวอักษรส่วนใหญ่จะถูกเลือกเป็นตัวย่อเช่นหมายถึงนโยบายและหมายถึงคุณค่า แต่ฉันไม่คิดว่า Q เป็นคำย่อของคำใด ๆππ\pivvv

1
ความแตกต่างระหว่างตอนและยุคในการเรียนรู้ Q ลึกคืออะไร?
ฉันกำลังพยายามทำความเข้าใจกับกระดาษที่มีชื่อเสียง "Playing Atari with Deep Reinforcement Learning" ( pdf ) ผมไม่มีความชัดเจนเกี่ยวกับความแตกต่างระหว่างนั้นยุคและตอน ในขั้นตอนวิธีการ , ห่วงด้านนอกเป็นมากกว่าตอนในขณะที่ในรูปที่แกน x จะมีป้ายยุค ในบริบทของการเสริมแรงการเรียนรู้ฉันไม่ชัดเจนว่ายุคหมายถึงอะไร ยุคเป็นวงรอบนอกของลูปตอนหรือไม่ 111222

1
ภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมแรง
ขณะนี้ฉันกำลังค้นหาภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมกำลังและอาจจัดหมวดหมู่ของพวกเขา แต่ถัดจาก Sarsa และ Q-Learning + Deep Q-Learning ฉันไม่สามารถหาอัลกอริทึมที่เป็นที่นิยมได้ Wikipediaให้ภาพรวมเกี่ยวกับวิธีการเรียนรู้การเสริมแรงทั่วไปที่แตกต่างกัน แต่ไม่มีการอ้างอิงถึงอัลกอริทึมที่แตกต่างกันในการใช้วิธีการนี้ แต่บางทีฉันสับสนวิธีและอัลกอริธึมทั่วไปและโดยทั่วไปไม่มีการจัดหมวดหมู่จริงในฟิลด์นี้เช่นในสาขาอื่น ๆ ของการเรียนรู้ของเครื่อง ใครบางคนอาจให้คำแนะนำสั้น ๆ แก่ฉันหรือเป็นเพียงการอ้างอิงที่ฉันสามารถเริ่มอ่านวิธีการต่าง ๆ ความแตกต่างระหว่างพวกเขาและอัลกอริทึมตัวอย่างที่ใช้แนวทางนี้

2
การเรียนรู้การเสริมแรงในสภาพแวดล้อมที่ไม่หยุดนิ่ง [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน22 วันที่ผ่านมา คำถามที่ 1: มีวิธีการทั่วไปหรือเป็นที่ยอมรับในการจัดการกับสภาพแวดล้อมที่ไม่อยู่นิ่งในการเรียนรู้การเสริมแรงโดยทั่วไปหรือไม่? Q2: ใน gridworld ของฉันฉันได้เปลี่ยนฟังก์ชั่นการให้รางวัลเมื่อมีการเยี่ยมชมรัฐ ทุก ๆ ตอนรางวัลจะรีเซ็ตเป็นสถานะเริ่มต้น ทั้งหมดที่ฉันต้องการให้ตัวแทนของฉันเรียนรู้คือ "อย่าย้อนกลับไปเว้นแต่คุณต้องการจริงๆ" อย่างไรก็ตามสิ่งนี้ทำให้สภาพแวดล้อมไม่อยู่กับที่ สามารถ / ควรรวมกฎง่ายๆนี้ไว้ในโมเดล MDP หรือไม่และอย่างไร Q-learning เป็นทางออกที่ดีที่สุดในการจัดการกับปัญหานี้หรือไม่? ข้อเสนอแนะหรือตัวอย่างที่มีอยู่? คำถามที่ 3: ฉันได้ดู Q-learning ด้วยการเล่นซ้ำประสบการณ์เป็นวิธีแก้ไขปัญหาเกี่ยวกับสภาพแวดล้อมที่ไม่หยุดนิ่งเนื่องจากมันสัมพันธ์กับการปรับปรุงที่ต่อเนื่อง นี่เป็นการใช้วิธีที่ถูกต้องหรือมากกว่านั้นเพื่อจัดการกับการเรียนรู้ข้อมูลที่มีประสิทธิภาพมากขึ้นหรือไม่ และฉันเห็นว่ามันใช้กับการประมาณค่าเท่านั้น ฉันไม่แน่ใจว่ามันเป็น overkill หรือเปล่าที่จะใช้มันสำหรับพื้นที่ที่แยกออกง่าย ๆ เช่น gridworld หรือมีเหตุผลอื่นสำหรับเรื่องนี้ โปรดตอบหรือแสดงความคิดเห็นแม้ว่าคุณจะไม่สามารถตอบคำถามทุกข้อได้

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

1
Q-learning มีประสิทธิภาพเพียงใดเมื่อใช้ Neural Networks เมื่อมีเอาต์พุตหนึ่งหน่วยต่อการกระทำ
ข้อมูลประกอบ: ฉันใช้การประมาณค่า Q ของโครงข่ายใยประสาทเทียมในงานการเรียนรู้การเสริมแรงของฉัน วิธีการนั้นเหมือนกับที่อธิบายไว้ในคำถามนี้แต่คำถามนั้นแตกต่างกัน ในแนวทางนี้จำนวนผลลัพธ์คือจำนวนการกระทำที่เราสามารถทำได้ และในคำง่ายขั้นตอนต่อไปนี้: กระทำ A, สำรวจรางวัลขอ NN ที่จะคาดการณ์ค่า Q สำหรับการกระทำที่เป็นไปได้ทั้งหมดให้เลือกค่า Q สูงสุดคำนวณ Q R + max(new_state_Q)สำหรับการดำเนินการโดยเฉพาะอย่างยิ่ง รุ่น Fit บนคาดการณ์ค่า Q R + max(new_state_Q)ที่มีเพียงหนึ่งของพวกเขาถูกแทนที่ด้วย คำถาม:วิธีการนี้มีประสิทธิภาพเพียงใดหากจำนวนผลผลิตมีขนาดใหญ่ ความพยายาม:สมมติว่ามี 10 การกระทำที่เราสามารถทำได้ ในแต่ละขั้นตอนเราขอให้แบบจำลองทำนายค่า 10 ค่าตั้งแต่อายุยังน้อยของแบบจำลองการทำนายนี้เป็นความยุ่งเหยิงโดยรวม จากนั้นเราปรับเปลี่ยนค่า 1 ของผลลัพธ์และปรับโมเดลให้เหมาะสมกับค่าเหล่านี้ ฉันมีความคิดที่ตรงกันข้ามสองประการเกี่ยวกับวิธีการที่ดี \ เลวคือวิธีการนี้และไม่สามารถตัดสินใจได้ว่าวิธีใดที่ถูกต้อง: จากมุมมองหนึ่งเรากำลังฝึกอบรมแต่ละเซลล์ประสาท 9 ครั้งในข้อมูลสุ่มและเพียงครั้งเดียวในข้อมูลที่ใกล้เคียงกับมูลค่าที่แท้จริง หาก NN ทำนายค่า 5 สำหรับการดำเนินการ A ในสถานะ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.