เหตุใดจึงเลือกตัวอักษร Q ในการเรียนรู้ Q


17

เหตุใดจึงเลือกตัวอักษร Q ในชื่อของ Q-learning

ตัวอักษรส่วนใหญ่จะถูกเลือกเป็นตัวย่อเช่นหมายถึงนโยบายและหมายถึงคุณค่า แต่ฉันไม่คิดว่า Q เป็นคำย่อของคำใด ๆπv


1
ในความเข้าใจเชิงเปรียบเทียบของฉัน Q เป็นฟังก์ชันที่เชื่อมโยงปริมาณ (เรียกว่ารางวัลค่าใช้จ่ายหรือสิ่งอื่นใดที่ปรับให้เหมาะสม) สำหรับการดำเนินการในสถานะที่กำหนด
KNK

1
@sycorax คำถามเดิมที่มีนัยบ่งบอกถึงความเข้าใจเกี่ยวกับ Q-learning และเพื่อที่จะให้คำอธิบายมันจะช่วยในการเพิ่มบริบท OP จะหายไปพร้อมกับคำอธิบายใด ๆ โดยไม่ต้องสร้างสายดิน
knk

อุปมาอุปมัย Q = ปริมาณช่วยได้หรือไม่? ฉันคิดว่ามันเป็นปริมาณของการกระทำที่กำหนดให้รัฐ
1818

คำตอบ:


35

ฉันขอโทษที่ทำให้ทุกคนผิดหวัง แต่ Q ไม่ยืนหยัดเพื่อสิ่งใด :)

Watkins ได้นำเสนอ Q-learning ในวิทยานิพนธ์ระดับปริญญาเอกของเขาในปี 1989 ดูที่หน้า 93 Q ในสมการในหน้านั้นได้รับการปรับปรุงด้วยวิธีบางอย่างในแต่ละขั้นตอน Q คือผลตอบแทนที่คาดหวังจากการกระทำในสถานะที่กำหนดดูคำจำกัดความของ Q ในหน้า 49 การกลับมาอยู่ในความหมายทางเศรษฐศาสตร์หรือทฤษฎีเกมเช่นความน่าจะเป็นของรางวัลลดความอ้วนไม่ใช่ศัพท์วิทยาศาสตร์คอมพิวเตอร์เช่นผลตอบแทนจากฟังก์ชั่น

สังเกตุว่าเขาใช้ P สำหรับความน่าจะเป็นและ R เป็นรางวัลได้อย่างไรเขาจึงคว้า Q สำหรับการกลับมา แค่นั้นแหละ. ไม่มีความหมายที่ลึกซึ้งยิ่งขึ้นสำหรับการเลือกจดหมาย Q


3
ไม่มีความหมายลึก แต่มันเป็นความหมาย (ที่เหมาะกับ Q, P และ R ในตัวอักษร) และหมายถึงบางสิ่งบางอย่าง
Sextus Empiricus

2
@MartijnWeterings มันไม่ได้มีความหมายเลย มันเป็นตัวเลือกทางไวยากรณ์อย่างแท้จริงของตัวอักษรโดยไม่มีการพิจารณาความหมายใด ๆ
David Richerby

แน่นอนว่าอาจมีการพิจารณาความหมายเล็กน้อย (และอาจมีการถกเถียงกันเนื่องจากความแตกต่างระหว่างตัวอักษรละตินหรือกรีกตัวอักษรในตำแหน่งที่แตกต่างกันของตัวอักษรหรือตัวพิมพ์ใหญ่เมื่อเทียบกับตัวพิมพ์เล็กอาจเป็นพื้นที่สีเทาระหว่าง syntactics ฉันพิจารณาตัวเลือกของ Q ว่า 'มีความหมาย' เพราะรูปแบบของตัวอักษร (ซึ่งค่อนข้างเป็นกฎเกณฑ์) แสดงถึงความหมายของตัวแปร / พารามิเตอร์ ความหมายเกี่ยวข้องกับการเลือกตัวอักษร ก็จะไม่ได้รับทางเลือกที่ดีเมื่อ u หรือ v จะได้รับการคัดเลือกหรือ I, J, K หรือ x, y, z หรือ γ α,β,γ
Sextus Empiricus

@Martijn Weterings, Q ก็ดูเหมือนคิวซึ่งนำความหมายแฝงที่ค่อนข้างเกี่ยวข้องด้วย
Aksakal

@ Aksakal นั่นอาจเป็นการตอกย้ำการใช้ Q. แต่ฉันไม่คิดว่ามันจะแข็งแกร่ง ผมไม่ทราบว่ามากเกี่ยวกับเรื่องนี้ แต่ในภาพรวมอย่างรวดเร็วของวิทยานิพนธ์กับผมว่าดูเหมือนว่าเป็นไปได้มากที่ตัวอักษรถูกนำมาใช้สำหรับปริมาณเช่น Σ ฉันR ฉันP ฉันหรือΣ ฉันV ฉันPฉัน ในที่สุด 'บางชื่อ' เช่น 'การกระทำค่า' ได้รับมัน แต่ตัวอักษรเหล่านั้นที่ใช้ในวิทยานิพนธ์ที่ดูเหมือนจะติดมากขึ้นกับตัวอักษร เช่นสำหรับการทำงานสำหรับตัวแปรสำหรับฟังก์ชั่นคุ้มค่าและเป็นตัวอย่าง ฯลฯQiRiPiiViPif g hx yV U
Sextus Empiricus

0

เหตุผลที่เรียกว่าการเรียนรู้แบบ Q-Learning นั้นเนื่องจากใช้ค่า Q เพื่อจัดทำแบบประเมิน กฎการเรียนรู้ตามปกติคือและควรชัดเจนว่าทำไมเรียกว่าการเรียนรู้ QQ(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

แต่คำถามที่แท้จริงในมุมมองของฉันคือเหตุผลที่เรียกว่า Q-Learning แม้ว่าดูเหมือนจะไม่มีคำตอบที่น่าพอใจ แต่ลิงค์นี้ระบุว่าAndrew Bartoซึ่งเป็นหนึ่งในผู้ก่อตั้ง Modern Reinforcement Learning คิดว่าย่อมาจาก Quality ถูกเรียกเช่นนั้นเพราะมันแสดงให้เห็นว่าผลลัพธ์ของการดึงแขนนั้นดีแค่ไหน เป็นQ


2
อ่านวิทยานิพนธ์และบอกฉันว่า "คุณภาพ" มีความหมายอย่างไรในบริบทของผลตอบแทนที่คาดหวัง
อักษะกัล

แม้ว่าฉันจะเห็นด้วยกับคุณ แต่วิทยานิพนธ์เขียนขึ้นหลังจาก Watkins ปรึกษากับ Andy เกี่ยวกับหลายสิ่ง แอนดี้อาจมีความคิดที่ดีกว่าที่คุณคิด
Ameet Deshpande

คุณภาพไม่ได้มีอยู่เป็นแนวคิดที่แตกต่างในการเรียนรู้ คุณสามารถใช้คำในความหมายปกติจากภาษาอังกฤษแน่นอน ในทางกลับกันการคาดหวังในทางกลับกันนั้นถูกกำหนดไว้อย่างดีในทฤษฎีเกมไม่จำเป็นต้องเจือจางโดยการแนบแนวคิดที่คลุมเครือเช่นคุณภาพ คุณไม่ได้เพิ่มคุณภาพให้มากที่สุด แต่คุณกำลังเพิ่มรางวัลให้มากที่สุดภายใต้มาตรการความน่าจะเป็นที่เหมาะสม หากคุณต้องการที่จะกว้างขึ้นเล็กน้อยจากนั้นคุณสามารถเพิ่มประโยชน์สูงสุด
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.