ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง
ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probability
แต่ละบริบท ในกรณีของฉันaction
และprobability
ง่ายต่อการเข้าใจ: action
เป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobability
เป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา
อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก)
ความคิดบางอย่างที่ฉันมีคือ:
- ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก)
- ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก)
- ราคา = -1 * เครื่องหมาย (คลิก) + 0.01 * (ไม่ได้คลิก)
- ราคา = -1 * คลิก + 0.01 * (ไม่ได้คลิก)
ในกรณีของเวกเตอร์การกระทำของ(0, 1, 5, 0)
ค่าใช้จ่ายจาก 4 ฟังก์ชันเหล่านี้จะเป็น:
(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)
เห็นได้ชัดว่ามีวิธีอื่น ๆ อีกมากมายที่จะนำเสนอสิ่งนั้นclicks=good
และno clicks=bad.
โดยทั่วไปแล้วฉันควรทำแบบจำลองต้นทุนสำหรับปัญหาโจรทางบริบทใน vowpal wabbit อย่างไร การได้รับผลประโยชน์เป็นต้นทุนเชิงลบหรือไม่หรือฉันควรปรับทุกอย่างใหม่เพื่อให้ต้นทุนทั้งหมดเป็นค่าบวก มันโอเคสำหรับการกระทำที่ค่อนข้างเป็นกลางที่จะมีค่าใช้จ่ายเป็นศูนย์หรือฉันควรให้พวกเขามีค่าบวกเล็กน้อยเพื่อผลักดันตัวแบบไปสู่การกระทำเชิงบวกหรือไม่?