3
นโยบายที่ดีที่สุดคือการสุ่มเสมอหากสภาพแวดล้อมเป็นแบบสุ่ม?
นโยบายที่ดีที่สุดคือสุ่มเสมอ (นั่นคือแผนที่จากรัฐไปสู่การกระจายความน่าจะเป็นมากกว่าการกระทำ) หากสภาพแวดล้อมนั้นสุ่ม อย่างสังหรณ์ใจหากสภาพแวดล้อมเป็นสิ่งที่กำหนด (นั่นคือถ้าตัวแทนอยู่ในสถานะsss และดำเนินการ aaaจากนั้นสถานะถัดไป s's's' เหมือนกันเสมอไม่ว่าขั้นตอนใดเวลานั้นนโยบายที่เหมาะสมก็ควรถูกกำหนดไว้ (นั่นคือมันควรเป็นแผนที่จากสหรัฐฯไปสู่การกระทำ