คำถามติดแท็ก reinforcement-learning

ชุดของกลยุทธ์แบบไดนามิกที่อัลกอริทึมสามารถเรียนรู้โครงสร้างของสภาพแวดล้อมทางออนไลน์โดยปรับการดำเนินการที่เกี่ยวข้องกับผลตอบแทนที่แตกต่างกันเพื่อเพิ่มผลตอบแทนสูงสุดที่ได้รับ

1
ภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมแรง
ขณะนี้ฉันกำลังค้นหาภาพรวมเกี่ยวกับอัลกอริทึมการเรียนรู้การเสริมกำลังและอาจจัดหมวดหมู่ของพวกเขา แต่ถัดจาก Sarsa และ Q-Learning + Deep Q-Learning ฉันไม่สามารถหาอัลกอริทึมที่เป็นที่นิยมได้ Wikipediaให้ภาพรวมเกี่ยวกับวิธีการเรียนรู้การเสริมแรงทั่วไปที่แตกต่างกัน แต่ไม่มีการอ้างอิงถึงอัลกอริทึมที่แตกต่างกันในการใช้วิธีการนี้ แต่บางทีฉันสับสนวิธีและอัลกอริธึมทั่วไปและโดยทั่วไปไม่มีการจัดหมวดหมู่จริงในฟิลด์นี้เช่นในสาขาอื่น ๆ ของการเรียนรู้ของเครื่อง ใครบางคนอาจให้คำแนะนำสั้น ๆ แก่ฉันหรือเป็นเพียงการอ้างอิงที่ฉันสามารถเริ่มอ่านวิธีการต่าง ๆ ความแตกต่างระหว่างพวกเขาและอัลกอริทึมตัวอย่างที่ใช้แนวทางนี้

2
การเรียนรู้การเสริมแรงในสภาพแวดล้อมที่ไม่หยุดนิ่ง [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน22 วันที่ผ่านมา คำถามที่ 1: มีวิธีการทั่วไปหรือเป็นที่ยอมรับในการจัดการกับสภาพแวดล้อมที่ไม่อยู่นิ่งในการเรียนรู้การเสริมแรงโดยทั่วไปหรือไม่? Q2: ใน gridworld ของฉันฉันได้เปลี่ยนฟังก์ชั่นการให้รางวัลเมื่อมีการเยี่ยมชมรัฐ ทุก ๆ ตอนรางวัลจะรีเซ็ตเป็นสถานะเริ่มต้น ทั้งหมดที่ฉันต้องการให้ตัวแทนของฉันเรียนรู้คือ "อย่าย้อนกลับไปเว้นแต่คุณต้องการจริงๆ" อย่างไรก็ตามสิ่งนี้ทำให้สภาพแวดล้อมไม่อยู่กับที่ สามารถ / ควรรวมกฎง่ายๆนี้ไว้ในโมเดล MDP หรือไม่และอย่างไร Q-learning เป็นทางออกที่ดีที่สุดในการจัดการกับปัญหานี้หรือไม่? ข้อเสนอแนะหรือตัวอย่างที่มีอยู่? คำถามที่ 3: ฉันได้ดู Q-learning ด้วยการเล่นซ้ำประสบการณ์เป็นวิธีแก้ไขปัญหาเกี่ยวกับสภาพแวดล้อมที่ไม่หยุดนิ่งเนื่องจากมันสัมพันธ์กับการปรับปรุงที่ต่อเนื่อง นี่เป็นการใช้วิธีที่ถูกต้องหรือมากกว่านั้นเพื่อจัดการกับการเรียนรู้ข้อมูลที่มีประสิทธิภาพมากขึ้นหรือไม่ และฉันเห็นว่ามันใช้กับการประมาณค่าเท่านั้น ฉันไม่แน่ใจว่ามันเป็น overkill หรือเปล่าที่จะใช้มันสำหรับพื้นที่ที่แยกออกง่าย ๆ เช่น gridworld หรือมีเหตุผลอื่นสำหรับเรื่องนี้ โปรดตอบหรือแสดงความคิดเห็นแม้ว่าคุณจะไม่สามารถตอบคำถามทุกข้อได้

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

1
Q-learning มีประสิทธิภาพเพียงใดเมื่อใช้ Neural Networks เมื่อมีเอาต์พุตหนึ่งหน่วยต่อการกระทำ
ข้อมูลประกอบ: ฉันใช้การประมาณค่า Q ของโครงข่ายใยประสาทเทียมในงานการเรียนรู้การเสริมแรงของฉัน วิธีการนั้นเหมือนกับที่อธิบายไว้ในคำถามนี้แต่คำถามนั้นแตกต่างกัน ในแนวทางนี้จำนวนผลลัพธ์คือจำนวนการกระทำที่เราสามารถทำได้ และในคำง่ายขั้นตอนต่อไปนี้: กระทำ A, สำรวจรางวัลขอ NN ที่จะคาดการณ์ค่า Q สำหรับการกระทำที่เป็นไปได้ทั้งหมดให้เลือกค่า Q สูงสุดคำนวณ Q R + max(new_state_Q)สำหรับการดำเนินการโดยเฉพาะอย่างยิ่ง รุ่น Fit บนคาดการณ์ค่า Q R + max(new_state_Q)ที่มีเพียงหนึ่งของพวกเขาถูกแทนที่ด้วย คำถาม:วิธีการนี้มีประสิทธิภาพเพียงใดหากจำนวนผลผลิตมีขนาดใหญ่ ความพยายาม:สมมติว่ามี 10 การกระทำที่เราสามารถทำได้ ในแต่ละขั้นตอนเราขอให้แบบจำลองทำนายค่า 10 ค่าตั้งแต่อายุยังน้อยของแบบจำลองการทำนายนี้เป็นความยุ่งเหยิงโดยรวม จากนั้นเราปรับเปลี่ยนค่า 1 ของผลลัพธ์และปรับโมเดลให้เหมาะสมกับค่าเหล่านี้ ฉันมีความคิดที่ตรงกันข้ามสองประการเกี่ยวกับวิธีการที่ดี \ เลวคือวิธีการนี้และไม่สามารถตัดสินใจได้ว่าวิธีใดที่ถูกต้อง: จากมุมมองหนึ่งเรากำลังฝึกอบรมแต่ละเซลล์ประสาท 9 ครั้งในข้อมูลสุ่มและเพียงครั้งเดียวในข้อมูลที่ใกล้เคียงกับมูลค่าที่แท้จริง หาก NN ทำนายค่า 5 สำหรับการดำเนินการ A ในสถานะ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.