ฟังก์ชั่นถามคืออะไรและฟังก์ชั่น V ในการเรียนรู้การเสริมแรงคืออะไร?


30

สำหรับฉันแล้วดูเหมือนว่าฟังก์ชั่นสามารถแสดงออกได้อย่างง่ายดายด้วยฟังก์ชั่นและทำให้ฟังก์ชั่นดูเหมือนจะไม่จำเป็นสำหรับฉัน อย่างไรก็ตามฉันใหม่เพื่อเสริมการเรียนรู้ดังนั้นฉันคิดว่าฉันมีบางอย่างผิดปกติVQV

คำนิยาม

Q- และ V-การเรียนรู้อยู่ในบริบทของมาร์คอฟกระบวนการตัดสินใจ MDPเป็น 5 tupleด้วย(S,A,P,R,γ)

  • Sคือชุดของสถานะ (โดยทั่วไปจะ จำกัด )
  • Aคือชุดของการกระทำ (โดยทั่วไป จำกัด )
  • s s aP(s,s,a)=P(st+1=s|st=s,at=a)ความน่าจะเป็นที่จะได้รับจากรัฐไปยังรัฐด้วยการกระทำssa
  • s s a s R(s,s,a)Rเป็นรางวัลที่ได้ทันทีหลังจากที่ไปจากรัฐไปยังรัฐด้วยการกระทำ (สำหรับฉันดูเหมือนว่าโดยทั่วไปมักเรื่องของ)ssas
  • γ = 0 γ = 1γ[0,1]เรียกว่าอัตราส่วนลดและพิจารณาว่าใครมุ่งเน้นที่ผลตอบแทนทันที ( ), รางวัลรวม ( ) หรือการแลกเปลี่ยนบางอย่างγ=0γ=1

นโยบายπเธ: S ตามที่เสริมสร้างการเรียนรู้: บทนำโดยซัตตันและ Barto เป็นฟังก์ชั่น (นี้อาจจะมีความน่าจะเป็น)π:SA

ตามที่สไลด์มาริโอมาร์ตินที่ฟังก์ชั่นเป็น และฟังก์ชัน Qคือ V

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

ความคิดของฉัน

รัฐฟังก์ชั่นสิ่งที่มูลค่าโดยรวมคาดว่า (ได้รางวัล!) ของรัฐภายใต้นโยบายคือVsπ

ฟังก์ชั่นรัฐสิ่งที่มีค่าของรัฐและการกระทำที่ ภายใต้นโยบายคือQsaπ

ซึ่งหมายความว่า

Qπ(s,π(s))=Vπ(s)

ขวา? แล้วทำไมเราถึงมีฟังก์ชันค่าเลย? (ฉันคิดว่าฉันผสมบางอย่าง)

คำตอบ:


15

ค่า Q เป็นวิธีที่ยอดเยี่ยมในการดำเนินการอย่างชัดเจนเพื่อให้คุณสามารถจัดการกับปัญหาที่ไม่สามารถใช้ฟังก์ชั่นการเปลี่ยนภาพได้ (ไม่มีรุ่น) อย่างไรก็ตามเมื่อพื้นที่การกระทำของคุณมีขนาดใหญ่สิ่งต่าง ๆ ไม่ดีนักและค่า Q ไม่สะดวกนัก ลองนึกถึงการกระทำจำนวนมากหรือแม้แต่การกระทำต่อเนื่องช่องว่าง

จากมุมมองของการสุ่มตัวอย่าง, มิติของสูงกว่าจึงอาจได้รับยากที่จะได้รับเพียงพอตัวอย่างในการเปรียบเทียบกับ(s)หากคุณสามารถเข้าถึงฟังก์ชั่นการเปลี่ยนแปลงบางครั้งได้ดีQ(s,a)V(s)(s,a)(s)V

นอกจากนี้ยังมีการใช้งานอื่น ๆ ที่ทั้งสองรวมกัน ยกตัวอย่างเช่นฟังก์ชั่นได้เปรียบที่(s) หากคุณสนใจคุณสามารถหาตัวอย่างล่าสุดโดยใช้ฟังก์ชั่นความได้เปรียบที่นี่:A(s,a)=Q(s,a)V(s)

สถาปัตยกรรมเครือข่ายการต่อสู้เพื่อการเรียนรู้การเสริมแรงลึก

โดย Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot และ Nando de Freitas


19

Vπ(s)เป็นฟังก์ชั่นมูลค่ารัฐของ MDP (กระบวนการตัดสินใจมาร์คอฟ) มันเป็นผลตอบแทนที่คาดว่าจะเริ่มต้นจากรัฐตามนโยบาย\sπ

ในการแสดงออก

Vπ(s)=Eπ{Gt|st=s}

Gtคือรางวัลทั้งหมดที่ได้รับส่วนลดตั้งแต่ขั้นตอนเมื่อเทียบกับซึ่งเป็นผลตอบแทนทันที ที่นี่คุณจะได้รับความคาดหวังของการดำเนินการทั้งหมดเป็นไปตามนโยบาย\tRtπ

Qπ(s,a)เป็นฟังก์ชันค่าการกระทำ มันเป็นผลตอบแทนที่คาดว่าจะเริ่มต้นจากรัฐตามนโยบาย , การดำเนินการ มันมุ่งเน้นไปที่การกระทำเฉพาะในรัฐนั้น ๆsπa

Qπ(s,a)=Eπ{Gt|st=s,at=a}

ความสัมพันธ์ระหว่างและ (ค่าของการอยู่ในสถานะนั้น) คือQπVπ

Vπ(s)=aAπ(a|s)Qπ(a,s)

คุณรวมทุกค่าการกระทำคูณด้วยความน่าจะเป็นที่จะดำเนินการนั้น (นโยบาย )π(a|s)

หากคุณคิดว่าตัวอย่างโลกกริดคุณจะคูณความน่าจะเป็น (ขึ้น / ลง / ขวา / ซ้าย) ด้วยค่าสถานะล่วงหน้าหนึ่งขั้นของ (ขึ้น / ลง / ขวา / ซ้าย)


5
นี่เป็นคำตอบที่กระชับที่สุด
เบร็ท

ฉันมีแหล่งที่มาที่ระบุว่าA) คุณเกี่ยวข้องกับสมการนี้กับคำตอบของคุณอย่างไร ? ในสมการของคุณคุณนิยามในรูปของผลรวมถ่วงน้ำหนักของค่าซึ่งแตกต่างจากความหมายฉันมีซึ่งกำหนดเป็นสูงสุดQV π ( s ) = a A π ( a s ) Q π ( a , s ) V Q V Q QVπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQVQ
nbro

@nbro ฉันเชื่อว่ามันขึ้นอยู่กับประเภทของนโยบายที่คุณกำลังติดตาม ในนโยบายโลภที่บริสุทธิ์ที่คุณถูกต้อง แต่ถ้ามันเป็นนโยบายสำรวจเพิ่มเติมที่ถูกสร้างขึ้นเพื่อสุ่มตัดสินใจการกระทำจากนั้นจะถูกต้อง
deltaskelta

7

คุณพูดถูกแล้วฟังก์ชั่นให้คุณค่าแก่รัฐและให้คุณค่าของการกระทำในสถานะ (ตามนโยบายที่กำหนด ) ฉันพบคำอธิบายที่ชัดเจนที่สุดของ Q-learning และวิธีการทำงานในหนังสือ "Machine Learning" (1997), ch. ของ Tom Tomell 13 ซึ่งสามารถดาวน์โหลดได้ หมายถึงผลรวมของอนุกรมอนันต์ แต่ไม่สำคัญที่นี่ สิ่งที่สำคัญคือฟังก์ชันหมายถึงVQπVQ

Q(s,a)=r(s,a)+γV(δ(s,a))
โดยที่ V * เป็นค่าที่ดีที่สุดของรัฐถ้าคุณสามารถทำตามนโยบายที่เหมาะสมซึ่งคุณ ไม่ทราบ อย่างไรก็ตามมันมีลักษณะที่ดีในแง่ของ คำนวณทำได้โดยแทนที่ในสมการแรกเพื่อให้ Q
V(s)=maxaQ(s,a)
QV
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

สิ่งนี้อาจดูเป็นการเรียกซ้ำที่แปลก ๆ ในตอนแรกเนื่องจากมันแสดงค่า Q ของการกระทำในสถานะปัจจุบันในแง่ของค่า Q ที่ดีที่สุดของสถานะตัวตายตัวแทนแต่มันก็สมเหตุสมผลเมื่อคุณดูที่กระบวนการสำรองข้อมูลใช้: การสำรวจ กระบวนการหยุดเมื่อถึงสถานะเป้าหมายและรวบรวมรางวัลซึ่งกลายเป็นค่า Q ของการเปลี่ยนแปลงครั้งสุดท้าย ขณะนี้ในตอนการฝึกอบรมที่ตามมาเมื่อกระบวนการสำรวจมาถึงสถานะก่อนหน้านั้นกระบวนการสำรองข้อมูลใช้ความเท่าเทียมกันด้านบนเพื่ออัปเดตค่า Q ปัจจุบันของสถานะผู้บุกเบิก ครั้งต่อไปของมันผู้มาเยี่ยมชมก่อนหน้านั้นจะได้รับการอัปเดตค่า Q ของรัฐและตามลำดับ (หนังสือของ Mitchell อธิบายวิธีที่มีประสิทธิภาพมากขึ้นในการทำสิ่งนี้โดยการจัดเก็บการคำนวณทั้งหมดและเล่นซ้ำในภายหลัง) ให้ทุกรัฐมีการเข้าชมอนันต์บ่อยครั้งกระบวนการนี้ในที่สุดก็คำนวณ Q ที่ดีที่สุด

บางครั้งคุณจะเห็นอัตราการเรียนรู้ถูกนำไปใช้เพื่อควบคุมจำนวนการอัพเดท Q จริง: ให้สังเกตุในตอนนี้ว่าการอัพเดทค่า Q นั้นขึ้นอยู่กับค่า Q ปัจจุบัน หนังสือของมิทเชลยังอธิบายถึงสาเหตุและเหตุผลที่คุณต้องการ : สำหรับ MDP ที่สุ่ม หากไม่มีทุกครั้งที่มีรัฐพยายามจับคู่แอ็คชั่นจะมีรางวัลที่แตกต่างกันดังนั้นฟังก์ชั่น Q ^ จะเด้งไปทั่วสถานที่และไม่มาบรรจบกัน อยู่ที่นั่นเพื่อให้เป็นความรู้ใหม่ได้รับการยอมรับเพียงบางส่วนα

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
ααααถูกตั้งค่าสูงเพื่อให้กระแส (ส่วนใหญ่สุ่มค่า) ของ Q มีอิทธิพลน้อยกว่า ลดลงเมื่อการฝึกอบรมดำเนินไปเรื่อย ๆ ดังนั้นการอัพเดทใหม่จะมีอิทธิพลน้อยลงเรื่อย ๆ และตอนนี้การเรียนรู้ Q จะมาบรรจบกันα


0

นี่คือคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างค่าสถานะและค่าการกระทำในคำตอบของแอรอน ก่อนอื่นเรามาดูคำจำกัดความของฟังก์ชั่นค่าและฟังก์ชั่นค่าแอ็คชั่นภายใต้นโยบาย : โดยที่คือการกลับไปในเวลาทีความสัมพันธ์ระหว่างฟังก์ชั่นค่าทั้งสองนี้สามารถได้รับเป็น π

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
Gt=k=0γkRt+k+1t
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
สมการข้างบนมีความสำคัญ มันอธิบายความสัมพันธ์ระหว่างฟังก์ชันค่าพื้นฐานสองฟังก์ชันในการเรียนรู้การเสริมแรง มันถูกต้องสำหรับนโยบายใด ๆ นอกจากนี้หากเรามีการกำหนดนโยบายแล้ว(s)) หวังว่านี่จะเป็นประโยชน์สำหรับคุณ (หากต้องการดูเพิ่มเติมเกี่ยวกับสมการการเพิ่มประสิทธิภาพของ Bellman https: //stats.stackexchange vπ(s)=qπ(s,π(s))vπ(s)=qπ(s,π(s)))


0

ฟังก์ชั่นค่าเป็นสูตรนามธรรมของยูทิลิตี้ และใช้ฟังก์ชัน Q สำหรับอัลกอริทึม Q-learning


สำหรับบริบทของคำถามนี้และนั้นแตกต่างกัน QVQ
Siong Thye Goh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.