คำถามติดแท็ก reinforcement-learning

ชุดของกลยุทธ์แบบไดนามิกที่อัลกอริทึมสามารถเรียนรู้โครงสร้างของสภาพแวดล้อมทางออนไลน์โดยปรับการดำเนินการที่เกี่ยวข้องกับผลตอบแทนที่แตกต่างกันเพื่อเพิ่มผลตอบแทนสูงสุดที่ได้รับ

3
ทำไมมีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมดเสมอ
การเรียนรู้การเสริมแรง: การแนะนำ กำลังดำเนินการพิมพ์ครั้งที่สอง Richard S. Sutton และ Andrew G. Barto (c) 2012, pp. 67-68 การแก้ปัญหาการเรียนรู้การเสริมแรงนั้นหมายถึงการค้นหานโยบายที่ได้รับรางวัลมากมายในระยะยาว สำหรับ MDP ที่ จำกัด เราสามารถกำหนดนโยบายที่เหมาะสมได้อย่างแม่นยำด้วยวิธีต่อไปนี้ ฟังก์ชั่นค่ากำหนดการสั่งซื้อบางส่วนผ่านนโยบาย นโยบายถูกกำหนดให้ดีกว่าหรือเท่ากับนโยบายหากผลตอบแทนที่คาดหวังมากกว่าหรือเท่ากับของสำหรับทุกรัฐ กล่าวอีกนัยหนึ่งถ้าหาก , สำหรับทั้งหมด มีนโยบายอย่างน้อยหนึ่งนโยบายที่ดีกว่าหรือเท่ากับนโยบายอื่น ๆ ทั้งหมด นี่เป็นนโยบายที่ดีที่สุดπ ' π ' π ≥ π ' วีπ ( s ) ≥ วีπ ' ( s ) s ∈ Sππ\piπ′π′\pi'π′π′\pi'π≥π′π≥π′\pi \geq …

2
คำถามเกี่ยวกับ Q-Learning โดยใช้ Neural Networks
ฉันใช้ Q-Learning ตามที่อธิบายไว้ใน http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf เพื่อที่จะประมาณ Q (S, A) ฉันใช้โครงสร้างเครือข่ายประสาทดังต่อไปนี้ การเปิดใช้งาน sigmoid อินพุตจำนวนอินพุต + 1 สำหรับเซลล์ประสาทการกระทำ (อินพุตทั้งหมดปรับสัดส่วน 0-1) เอาท์พุทเอาท์พุทเดียว Q-Value จำนวน M ของเลเยอร์ที่ซ่อนอยู่ วิธีการสำรวจสุ่ม 0 <rand () <propExplore ในแต่ละการเรียนรู้ซ้ำโดยใช้สูตรต่อไปนี้ ฉันคำนวณค่า Q-Target แล้วคำนวณข้อผิดพลาดโดยใช้ error = QTarget - LastQValueReturnedFromNN และเผยแพร่กลับข้อผิดพลาดผ่านเครือข่ายประสาท Q1, ฉันอยู่ในเส้นทางที่ถูกต้องหรือไม่? ฉันได้เห็นเอกสารบางส่วนที่ใช้ NN กับเซลล์ประสาทขาออกหนึ่งอันสำหรับแต่ละการกระทำ Q2, ฟังก์ชั่นรางวัลของฉันจะส่งคืนตัวเลขระหว่าง -1 ถึง 1 หรือไม่จะส่งกลับตัวเลขระหว่าง -1 ถึง …

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

1
ความแตกต่างระหว่างตอนและยุคในการเรียนรู้ Q ลึกคืออะไร?
ฉันกำลังพยายามทำความเข้าใจกับกระดาษที่มีชื่อเสียง "Playing Atari with Deep Reinforcement Learning" ( pdf ) ผมไม่มีความชัดเจนเกี่ยวกับความแตกต่างระหว่างนั้นยุคและตอน ในขั้นตอนวิธีการ , ห่วงด้านนอกเป็นมากกว่าตอนในขณะที่ในรูปที่แกน x จะมีป้ายยุค ในบริบทของการเสริมแรงการเรียนรู้ฉันไม่ชัดเจนว่ายุคหมายถึงอะไร ยุคเป็นวงรอบนอกของลูปตอนหรือไม่ 111222

1
ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?
ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น? กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html และส่วนที่ฉันพยายามเข้าใจคือ: การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

1
อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?
ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจεε\epsilon มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?

2
เหตุใดการเล่นซ้ำประสบการณ์ต้องใช้อัลกอริทึมนอกนโยบาย
ในบทความแนะนำ DQN " Playing Atari with Deep Reinforcement Learning " กล่าวถึง: โปรดทราบว่าเมื่อการเรียนรู้ด้วยประสบการณ์การเล่นซ้ำมีความจำเป็นต้องเรียนรู้นอกนโยบาย (เนื่องจากพารามิเตอร์ปัจจุบันของเราแตกต่างจากที่ใช้ในการสร้างตัวอย่าง) ซึ่งเป็นตัวกระตุ้นให้เกิดการเลือก Q-learning ฉันไม่เข้าใจความหมายของมัน จะเป็นอย่างไรถ้าเราใช้ SARSA และจดจำการกระทำa'ที่เราต้องทำในs'ความทรงจำของเราจากนั้นสุ่มตัวอย่างจากมันแล้วอัปเดต Q เหมือนที่เราทำใน DQN และวิธีการที่นักวิจารณ์ (A3C สำหรับเฉพาะ) สามารถใช้การเล่นซ้ำประสบการณ์ได้หรือไม่ ถ้าไม่ทำไม

2
แปลปัญหาการเรียนรู้ของเครื่องเป็นกรอบการถดถอย
สมมติว่าฉันมีแผงของการอธิบายตัวแปรสำหรับฉัน= 1 . . N , T = 1 . . Tเช่นเดียวกับเวกเตอร์ของตัวแปรตามผลไบนารีY ฉันที ดังนั้นYจะสังเกตได้เฉพาะในครั้งสุดท้ายTและไม่ใช่ก่อนหน้านี้ กรณีทั่วไปอย่างสมบูรณ์คือการมีหลายX i j tสำหรับj = 1 ... Kสำหรับแต่ละหน่วยiในแต่ละครั้งtXฉันทีXitX_{it}ฉัน= 1 . . ยังไม่มีข้อความi=1...Ni = 1 ... NT = 1 . . Tt=1...Tt = 1 ... TYฉันTYiTY_{iT}YYYTTTXฉันเจทีXijtX_{ijt}j = 1 ... Kj=1...Kj=1...Kผมiitttแต่ขอเน้นที่กรณีเพื่อความกระชับK=1K=1K=1 การใช้งานของคู่ "ไม่สมดุล" มีตัวแปรอธิบายความสัมพันธ์ชั่วคราวเช่น (ราคาหุ้นรายวันเงินปันผลรายไตรมาส), (รายงานสภาพอากาศรายวัน, พายุเฮอริเคนรายปี) หรือ …

3
ความสัมพันธ์ระหว่างทฤษฎีเกมกับการเรียนรู้การเสริมกำลังคืออะไร?
ฉันสนใจ(ลึก) เสริมสร้างการเรียนรู้ (RL) ก่อนลงดำน้ำในสาขานี้ฉันควรเรียนในGame Theory (GT)หรือไม่? วิธีGTและRLเกี่ยวข้อง?

1
วิธีปรับน้ำหนักให้เป็นค่า Q ด้วยการประมาณฟังก์ชั่นเชิงเส้น
ในการเรียนรู้การเสริมแรงการประมาณฟังก์ชั่นเชิงเส้นมักใช้เมื่อมีพื้นที่ของรัฐขนาดใหญ่ (เมื่อค้นหาตารางจะไม่สามารถทำได้) รูปแบบของคุ้มค่ากับฟังก์ชั่นการประมาณเชิงเส้นจะถูกกำหนดโดยถาม-Q−Q- Q ( s , a ) = w1ฉ1( s , a ) + w2ฉ2( s , a ) + ⋯ ,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ที่มีน้ำหนักและฉฉันเป็นคุณสมบัติWผมWผมw_iฉผมฉผมf_i คุณสมบัติที่กำหนดไว้ล่วงหน้าโดยผู้ใช้ คำถามของฉันคือน้ำหนักถูกกำหนดอย่างไร ฉันได้อ่าน / ดาวน์โหลดสไลด์การบรรยายบางอย่างเกี่ยวกับการเรียนรู้ด้วยฟังก์ชั่นการประมาณ ส่วนใหญ่มีสไลด์บนการถดถอยเชิงเส้นที่ตามมา เนื่องจากเป็นเพียงสไลด์จึงมีแนวโน้มที่จะไม่สมบูรณ์ ฉันสงสัยว่าการเชื่อมต่อ / ความสัมพันธ์ระหว่างสองหัวข้อคืออะไรถาม-Q-Q-

2
เมื่อใดที่วิธีการ Monte Carlo เป็นที่นิยมมากกว่าวิธีที่ต่างกันชั่วคราว?
ฉันได้ทำการค้นคว้ามากมายเกี่ยวกับการเสริมแรงการเรียนรู้เมื่อเร็ว ๆ นี้ ฉันติดตามการเรียนรู้การเสริมแรงของ Sutton & Barto : คำแนะนำสำหรับสิ่งส่วนใหญ่ ฉันรู้ว่ากระบวนการตัดสินใจของมาร์คอฟคืออะไรและวิธีการเรียนรู้การเขียนโปรแกรมแบบไดนามิก (DP), มอนติคาร์โลและความแตกต่างของ Temporal (DP) สามารถนำมาใช้แก้ปัญหาได้อย่างไร ปัญหาฉันมีคือว่าผมไม่เห็นเมื่อ Monte Carlo จะเป็นตัวเลือกที่ดีกว่า TD-การเรียนรู้ ความแตกต่างที่สำคัญระหว่างพวกเขาคือการเรียนรู้ด้วยระบบ TD ใช้การบูตสแตรปเพื่อประมาณค่าฟังก์ชั่นการกระทำและ Monte Carlo ใช้ค่าเฉลี่ยเพื่อทำสิ่งนี้ให้สำเร็จ ฉันไม่สามารถคิดถึงสถานการณ์จริง ๆ ได้เมื่อนี่เป็นวิธีที่ดีกว่า ฉันเดาว่ามันอาจมีบางอย่างเกี่ยวกับประสิทธิภาพ แต่ฉันไม่สามารถหาแหล่งที่สามารถพิสูจน์ได้ ฉันขาดอะไรบางอย่างหรือ TD-learning เป็นตัวเลือกที่ดีกว่าหรือไม่?

1
นโยบายการเปิดตัวในกระดาษของ AlphaGo คืออะไร?
กระดาษเป็นที่นี่ นโยบายการเปิดตัว ... เป็นนโยบาย softmax เชิงเส้นที่ขึ้นอยู่กับคุณลักษณะของรูปแบบโลคัลที่คำนวณเพิ่มขึ้นอย่างรวดเร็ว ... ฉันไม่เข้าใจว่านโยบายการเปิดตัวคืออะไรและเกี่ยวข้องกับเครือข่ายนโยบายในการเลือกย้ายอย่างไร มีคำอธิบายที่ง่ายกว่านี้ไหม?

1
Q-learning ด้วย Neural Network เป็นฟังก์ชันการประมาณ
ฉันกำลังพยายามที่จะใช้เครือข่ายประสาทเพื่อให้ใกล้เคียงกับ Q-ค่าใน Q-การเรียนรู้ในขณะที่มีคำถามเกี่ยวกับ Q-การเรียนรู้โดยใช้โครงข่ายประสาทเทียม ตามที่แนะนำในคำตอบแรกฉันใช้ฟังก์ชั่นการเปิดใช้งานเชิงเส้นสำหรับเลเยอร์เอาท์พุทในขณะที่ฉันยังคงใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ในเลเยอร์ที่ซ่อนอยู่ (2 แม้ว่าฉันจะสามารถเปลี่ยนได้ในภายหลัง) ฉันยังใช้ NN เดี่ยวที่คืนค่าเอาต์พุตสำหรับแต่ละการดำเนินการQ ( a )Q(a)Q(a)ตามที่แนะนำ อย่างไรก็ตามอัลกอริทึมยังคงแยกออกสำหรับปัญหาการทรงตัวของรถเข็นเสาอย่างง่าย ดังนั้นฉันกลัวว่าการอัปเดต Q ของฉันจะผิด หลังจากการเริ่มต้นสิ่งที่ฉันทำในแต่ละขั้นตอนมีดังต่อไปนี้: คำนวณQเสื้อ( sเสื้อ)Qt(st)Q_t(s_t)โดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด เลือกการกระทำใหม่T , ที่ดินในรัฐใหม่s Taเสื้อata_tsเสื้อsts_t คำนวณQเสื้อ( st + 1)Qt(st+1)Q_t(s_{t+1})โดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด a t Q t + 1 ( sQt + 1( sเสื้อ,เสื้อ) = Qเสื้อ( sเสื้อ,เสื้อ) + αเสื้อ[ …

1
แบบจำลองของ P (Y | X) สามารถฝึกผ่านการไล่ระดับสีแบบสุ่มจากตัวอย่างที่ไม่ใช่ iid ของ P (X) และตัวอย่าง iid ของ P (Y | X) ได้หรือไม่?
เมื่อการฝึกอบรมแบบจำลองพารามิเตอร์ (เช่นเพื่อเพิ่มโอกาส) ผ่านการไล่ระดับสีแบบสุ่มในชุดข้อมูลบางอย่างก็มักจะสันนิษฐานว่าตัวอย่างการฝึกอบรมจะถูกดึงออกมาจากการกระจายข้อมูลการฝึกอบรม ดังนั้นหากเป้าหมายคือการสร้างแบบจำลองการแจกแจงร่วมดังนั้นตัวอย่างการฝึกอบรมแต่ละตัวอย่างควรถูกดึงออกมาจากการกระจายนั้น( x i , y i )P( X, วาย)P(X,Y)P(X,Y)( xผม, yผม)(xi,yi)(x_i,y_i) หากเป้าหมายคือการจำลองแบบการแจกแจงแบบมีเงื่อนไขดังนั้นความต้องการของ iid จะเปลี่ยนไปอย่างไรถ้าหากทั้งหมดP( Y| X)P(Y|X)P(Y|X) เราจะต้องดึงตัวอย่างแต่ละตัวอย่าง iid จากการกระจายข้อต่อหรือไม่?( xผม, yผม)(xi,yi)(x_i,y_i) เราควรจะวาด IID จากแล้ววาด IID จาก ? P ( X ) y i P ( Y | X )xผมxix_iP( X)P(X)P(X)Yผมyiy_iP( Y| X)P(Y|X)P(Y|X) เราสามารถวาดไม่ IID จาก (เช่นความสัมพันธ์ในช่วงเวลา) แล้ววาด …

2
ทำไมอัลกอริทึมการวนซ้ำของนโยบายจึงรวมเข้ากับนโยบายและฟังก์ชันค่าที่เหมาะสมที่สุด
ผมอ่านแอนดรูอึ้งของเอกสารประกอบการบรรยายเกี่ยวกับการเรียนรู้การเสริมแรงและผมพยายามที่จะเข้าใจว่าทำไมย้ำนโยบายการแปรสภาพการทำงานที่ค่าที่ดีที่สุดและนโยบายที่เหมาะสม *V∗V∗V^*π∗π∗\pi^* การทำซ้ำนโยบายการเรียกคืนคือ: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)} \text{Initialize $\pi$ randomly} \\ \text{Repeat}\{\\ \quad Let \ V := …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.