นโยบายที่ดีที่สุดคือการสุ่มเสมอหากสภาพแวดล้อมเป็นแบบสุ่ม?


10

นโยบายที่ดีที่สุดคือสุ่มเสมอ (นั่นคือแผนที่จากรัฐไปสู่การกระจายความน่าจะเป็นมากกว่าการกระทำ) หากสภาพแวดล้อมนั้นสุ่ม

อย่างสังหรณ์ใจหากสภาพแวดล้อมเป็นสิ่งที่กำหนด (นั่นคือถ้าตัวแทนอยู่ในสถานะs และดำเนินการ aจากนั้นสถานะถัดไป s' เหมือนกันเสมอไม่ว่าขั้นตอนใดเวลานั้นนโยบายที่เหมาะสมก็ควรถูกกำหนดไว้ (นั่นคือมันควรเป็นแผนที่จากสหรัฐฯไปสู่การกระทำ


นี่เป็นคำถามที่เกี่ยวข้อง: mathoverflow.net/q/44677
nbro

คำตอบ:


6

นโยบายที่ดีที่สุดคือสุ่มเสมอ (นั่นคือแผนที่จากรัฐไปสู่การกระจายความน่าจะเป็นมากกว่าการกระทำ) หากสภาพแวดล้อมนั้นสุ่ม

เลขที่

โดยทั่วไปนโยบายที่ดีที่สุดจะถูกกำหนดไว้เว้นแต่:

  • ข้อมูลสถานะสำคัญขาดหายไป (POMDP) ตัวอย่างเช่นในแผนที่ที่เอเจนต์ไม่ได้รับอนุญาตให้รู้ตำแหน่งที่แน่นอนหรือจดจำสถานะก่อนหน้านี้และสถานะที่กำหนดไม่เพียงพอที่จะทำให้สับสนระหว่างตำแหน่ง หากเป้าหมายคือไปยังตำแหน่งปลายทางที่เฉพาะเจาะจงนโยบายที่เหมาะสมอาจรวมถึงการย้ายแบบสุ่มบางส่วนเพื่อหลีกเลี่ยงการติดค้าง โปรดทราบว่าสภาพแวดล้อมในกรณีนี้สามารถกำหนดได้ (จากมุมมองของคนที่สามารถมองเห็นทั้งรัฐ) แต่ยังคงนำไปสู่การกำหนดนโยบายสุ่มเพื่อแก้ปัญหา

  • มีสถานการณ์จำลองทฤษฎีเกมมินิแมกซ์บางประเภทที่นโยบายด้านความปลอดภัยสามารถถูกลงโทษโดยสภาพแวดล้อมหรือเอเจนต์อื่น คิดว่ากรรไกร / กระดาษ / หินหรือภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษ

โดยสัญชาตญาณหากสภาพแวดล้อมเลวร้าย (นั่นคือถ้าตัวแทนอยู่ในสถานะ𝑠และดำเนินการ𝑎แล้วสถานะถัดไปคือเสมอเหมือนกันไม่สำคัญว่าขั้นตอนเวลาใด) ดังนั้นนโยบายที่ดีที่สุดควรจะกำหนดขึ้น (นั่นคือมันควรจะเป็นแผนที่จากอเมริกาไปสู่การกระทำและไม่ใช่การกระจายความน่าจะเป็นเหนือการกระทำ)

ดูเหมือนว่าสมเหตุสมผล แต่คุณสามารถใช้สัญชาตญาณนั้นต่อไปได้ด้วยวิธีการใด ๆ โดยอิงตามฟังก์ชันค่า:

หากคุณพบว่าฟังก์ชั่นค่าที่ดีที่สุดแล้วทำหน้าที่โลภมากด้วยความเคารพมันเป็นนโยบายที่ดีที่สุด

The above statement is just a natural language re-statement of the Bellman optimality equation:

โวลต์* * * *(s)=สูงสุดaΣR,s'พี(R,s'|s,a)(R+γโวลต์* * * *(s'))

เช่นค่าที่ดีที่สุดจะได้รับเมื่อเลือกการกระทำที่เพิ่มรางวัลรวมถึงมูลค่าลดของขั้นตอนต่อไปเสมอ สูงสุดa การดำเนินการเป็นสิ่งที่กำหนดขึ้นมา (ถ้าจำเป็นคุณสามารถแยกความสัมพันธ์กับค่าสูงสุดได้อย่างแน่นอนด้วยเช่นรายการคำสั่งของการกระทำ)

ดังนั้นสภาพแวดล้อมใด ๆ ที่สามารถสร้างแบบจำลองโดย MDP และแก้ไขโดยวิธีการตามมูลค่า (เช่นการวนซ้ำตามค่า, การเรียนรู้แบบ Q) มีนโยบายที่ดีที่สุดซึ่งกำหนดขึ้นได้

เป็นไปได้ในสภาพแวดล้อมที่การแก้ปัญหาที่ดีที่สุดอาจไม่สุ่มเลย (เช่นถ้าคุณเพิ่มการสุ่มใด ๆ ในนโยบายที่ดีที่สุดที่กำหนดขึ้นนโยบายจะแย่ลงอย่างเคร่งครัด) อย่างไรก็ตามเมื่อมีความสัมพันธ์กับค่าสูงสุดสำหรับการกระทำหนึ่งอย่างหรือมากกว่านั้นในหนึ่งรัฐหรือมากกว่านั้นก็จะมีนโยบายที่เหมาะสมและกำหนดขึ้นหลายอย่างที่เทียบเท่ากัน คุณสามารถสร้างนโยบายสุ่มที่ผสมเหล่านี้ในชุดค่าผสมใดก็ได้และมันจะเป็นวิธีที่ดีที่สุด


1
"เป็นไปได้ในสภาพแวดล้อมที่ไม่มีนโยบายสุ่มที่ดีที่สุด" คุณหมายถึงนโยบายที่กำหนดขึ้นหรือไม่?
nbro

2
@nbro: ไม่ฉันหมายถึงไม่มีนโยบายสุ่มที่ดีที่สุด กรณีนี้เป็นเรื่องปกติ คิดว่าเป็นตัวอย่างของการแก้เขาวงกตที่เรียบง่าย หากทางออกที่ดีที่สุดคือทางออกเดียวตั้งแต่ต้นจนจบการเพิ่มการสุ่มใด ๆ ลงไปจะทำให้นโยบายแย่ลงอย่างเคร่งครัด สิ่งนี้จะไม่เปลี่ยนแปลงหากสภาพแวดล้อมมีการเพิ่มสัญญาณรบกวนแบบสุ่ม (เช่นบางครั้งการเคลื่อนย้ายล้มเหลว)
Neil Slater

2
ฉันเข้าใจแล้ว. คุณกำลังบอกว่ามีนโยบายที่กำหนดไว้แล้วจากนั้นนโยบายที่สุ่มและได้มาจากนโยบายที่กำหนดจะแย่กว่านโยบายที่กำหนดขึ้นมา
nbro

1
@nbro: ใช่แล้ว
Neil Slater

5

ฉันจะบอกว่าไม่มี

ยกตัวอย่างเช่นพิจารณาปัญหาสล็อตแมชชีน ดังนั้นคุณมีn แขนซึ่งทุกคนมีโอกาสที่จะให้รางวัลแก่คุณ (เช่น 1 คะแนน) พีผม, ผม อยู่ระหว่าง 1 ถึง n. นี่คือสภาพแวดล้อมแบบสุ่มง่าย ๆ : นี่คือสภาพแวดล้อมของรัฐเดียว แต่ก็ยังคงเป็นสภาพแวดล้อม

แต่เห็นได้ชัดว่านโยบายที่ดีที่สุดคือการเลือกแขนที่มีค่าสูงสุด พีผม. ดังนั้นนี่ไม่ใช่นโยบายสุ่ม

เห็นได้ชัดว่าหากคุณอยู่ในสภาพแวดล้อมที่คุณเล่นกับตัวแทนอื่น ๆ (การตั้งค่าทฤษฎีเกม) นโยบายที่ดีที่สุดของคุณจะสุ่ม (เช่นเกมโป๊กเกอร์เป็นต้น)


ทำไมจะเห็นได้ชัดว่าเลือกแขนที่สูงที่สุดเสมอ พีผม? พีผม เป็นความน่าจะเป็นดังนั้นจึงไม่แน่ใจว่าคุณจะได้รับรางวัลจำนวนสูงสุดเสมอ (อย่างน้อยในเวลา จำกัด ) ถ้าคุณเลือกแขนเสมอ ผม.
nbro

2
@nbro: มันมีความแน่นอนในความคาดหวังซึ่งเป็นสิ่งที่นโยบายที่เหมาะสมจะช่วยให้ นโยบายไม่พยายามที่จะสร้างตัวสร้างตัวเลขสุ่มแบบที่สองซึ่งถือว่าเป็นไปไม่ได้ (ถ้าเป็นไปได้เนื่องจากสถานะภายในของระบบบางอย่างคุณต้องเพิ่มสถานะภายในนั้นลงในแบบจำลองหรือถือว่าเป็น POMDP)
Neil Slater

@NeilSlater Ok แต่ข้อสรุปจะเปลี่ยนแปลงหากเวลามี จำกัด หากคุณมีเวลา จำกัด ในการเล่นดังนั้นฉันคาดว่าความคาดหวังต้องพิจารณาเวลาที่มีให้เล่นด้วย
nbro

2
@nbro: นั่นอาจเปลี่ยนการตัดสินใจของคุณ แต่ไม่ได้เกี่ยวกับนโยบายที่เหมาะสมที่สุดจริงๆ นโยบายที่ดีที่สุดสำหรับแขนโจรยังคงกำหนดไว้เกี่ยวกับการใช้แขนที่ดีที่สุด แต่คุณไม่รู้ นี่เป็นเรื่องเกี่ยวกับการสำรวจและการแสวงประโยชน์ คุณสามารถพูดได้ว่ามี "นโยบายที่ดีที่สุดสำหรับการสำรวจปัญหาโจร" บางที ไม่ใช่คำศัพท์ที่ใช้ในเช่น Sutton & Barto แต่บางทีนักต้มตุ๋นบางคนบอกว่าฉันไม่รู้ . .
Neil Slater

1
สภาพแวดล้อมมีเพียงหนึ่งสถานะที่คุณต้องเผชิญกับการตัดสินใจแบบเดียวกันซ้ำแล้วซ้ำอีก: แขนไหนที่ฉันต้องเลือก?
Adrien Forbu

0

ฉันกำลังคิดถึงภูมิประเทศที่น่าจะเป็นซึ่งคุณพบว่าตัวเองเป็นนักแสดงด้วยยอดเขาและรางต่างๆที่ไม่รู้จัก วิธีการกำหนดที่ดีนั้นมักจะนำคุณไปสู่จุดสูงสุดในท้องถิ่นที่ใกล้เคียงที่สุด แต่ไม่จำเป็นต้องเป็นจุดสูงสุดทั่วโลก เพื่อหาสิ่งที่เหมาะสมที่สุดในโลกบางอย่างเช่นอัลกอริธึม MCMC จะอนุญาตให้สุ่มรับผลลัพธ์ที่แย่กว่านั้นชั่วคราวเพื่อหลีกเลี่ยงจากสิ่งที่ดีที่สุดในท้องถิ่นและค้นหาความเหมาะสมระดับโลก สัญชาตญาณของฉันคือว่าในสภาพแวดล้อมที่สุ่มนี่จะเป็นจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.