วัตถุประสงค์คือการออกแบบองค์ประกอบการเพิ่มประสิทธิภาพนโยบายใกล้เคียงที่มีข้อ จำกัด เฉพาะในพื้นที่การดำเนินการขึ้นอยู่กับกฎที่ขับเคลื่อนโดยรัฐโดยใช้กรอบเช่น Tensorforce
ตัวเลือกการออกแบบที่ระบุไว้ในคำถาม
ตัวเลือกเหล่านี้แสดงไว้ที่นี่สำหรับการอ้างอิงอย่างรวดเร็วเมื่ออ่านการวิเคราะห์เริ่มต้นด้านล่าง
- เปลี่ยนพื้นที่การดำเนินการในแต่ละขั้นตอนขึ้นอยู่กับ internal_state ฉันคิดว่านี่เป็นเรื่องไร้สาระ
- ไม่ทำอะไรเลย: ปล่อยให้นายแบบเข้าใจว่าการเลือกการกระทำที่ไม่พร้อมใช้งานไม่มีผลกระทบ
- ทำ - เกือบทุกอย่าง: ส่งผลกระทบต่อรางวัลลบเล็กน้อยเมื่อแบบจำลองเลือกการกระทำที่ไม่พร้อมใช้งาน
- ช่วยโมเดล: โดยการรวมจำนวนเต็มเข้าไปในพื้นที่รัฐ / การสังเกตที่แจ้งให้โมเดลทราบว่าค่า internal_state + bullet point 2 หรือ 3 คืออะไร
การวิเคราะห์เบื้องต้น
แน่นอนว่ามีเหตุผลที่จะเปลี่ยนพื้นที่การกระทำสำหรับการเคลื่อนไหวแต่ละครั้ง นั่นคือในความเป็นจริงการแสดงที่เหมาะสมสำหรับปัญหาตามที่ระบุไว้และวิธีปกติของมนุษย์เล่นเกมและวิธีที่คอมพิวเตอร์เอาชนะมนุษย์ใน Chess and Go
ความไร้สติที่ชัดเจนของความคิดนี้เป็นเพียงสิ่งประดิษฐ์ของความคืบหน้าตามแผนที่ถนนของโครงการ Tensorforce และความคืบหน้าตามทฤษฎีการเสริมกำลังทั้งเด็กและเยาวชนในภาพใหญ่ขึ้น การอ่านเอกสาร Tensorforce และคำถามที่พบบ่อยจะไม่ปรากฏว่าเฟรมเวิร์กออกแบบมาเพื่อเชื่อมต่อกับเอ็นจินกฎเพื่อกำหนดพื้นที่การดำเนินการ นี่ไม่ใช่ข้อบกพร่องของโอเพ่นซอร์ส ดูเหมือนจะไม่มีเอกสารใดที่แสดงทฤษฎีหรือเสนออัลกอริธึมสำหรับการตัดสินใจลูกโซ่มาร์คอฟแบบมีเงื่อนไข
ตัวเลือกที่ไม่ทำอะไรเลยคือตัวเลือกที่เหมาะกับกลยุทธ์ที่มีอยู่ในปัจจุบันที่แสดงในวรรณกรรม สิ่งที่แทบจะไม่มีอะไรน่าจะเป็นวิธีการที่จะสร้างความน่าเชื่อถือและพฤติกรรมที่พึงประสงค์ในทันที
ปัญหาเกี่ยวกับแนวคิดของการช่วยเหลือแบบจำลองคือมันไม่ได้เป็นความคิดที่แข็งแกร่งกว่าการขยายแบบจำลอง ในโอเพ่นซอร์สสิ่งนี้จะทำโดยการขยายคลาสที่เป็นตัวแทนของโมเดลซึ่งจะต้องใช้งานเชิงทฤษฎีบางอย่างก่อนการเข้ารหัส
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
การขยายระบบการเรียนรู้เพื่อครอบคลุมกรณีที่มีข้อ จำกัด ทางกฏหมายเป็นแนวคิดที่ดีสำหรับวิทยานิพนธ์ระดับปริญญาเอกและอาจบินไปในห้องปฏิบัติการวิจัยเพื่อเป็นข้อเสนอโครงงานด้วยการใช้งานที่เป็นไปได้มากมาย อย่าปล่อยให้ทุกขั้นตอนห้ามนักวิจัย นี่เป็นรายการขั้นตอนสำหรับวิทยานิพนธ์ปริญญาเอกหรือโครงการห้องปฏิบัติการ AI ที่ได้รับทุน
สำหรับวิธีแก้ปัญหาระยะสั้นการช่วยแบบจำลองอาจใช้งานได้ แต่มันไม่ใช่กลยุทธ์ที่ดีในการส่งเสริมความคิดของ AI ในเส้นทางการเรียนรู้การเสริมแรง ในฐานะที่เป็นทางออกระยะสั้นสำหรับปัญหาบางอย่างมันอาจทำงานได้ดี ความคิดที่แทบจะไม่มีอะไรเลยอาจจะฟังดูดีกว่าเพราะมันเหมาะกับหลักฐานการลู่เข้าที่นำไปสู่การใช้งานเฉพาะ Tensorforce มีแนวโน้มที่จะใช้
การเปลี่ยนชื่อจากการไม่ทำอะไรเลยเป็นการช่วยเหลือแบบคอนเวอร์เจนซ์อาจช่วยพัฒนามุมมองที่ถูกต้องก่อนที่จะลอง คุณอาจพบว่าคุณต้องลดทอนความช่วยเหลือขณะที่คุณเข้าหาคอนเวอร์เจนซ์เพื่อหลีกเลี่ยงการใช้จ่ายเกินอัตราการเรียนรู้