ฟังก์ชั่นค่าใช้จ่ายสำหรับการโจรตามบริบท

ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง

ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probabilityแต่ละบริบท ในกรณีของฉันactionและprobabilityง่ายต่อการเข้าใจ: actionเป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobabilityเป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา

อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก)

ความคิดบางอย่างที่ฉันมีคือ:

ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก)
ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก)
ราคา = -1 * เครื่องหมาย (คลิก) + 0.01 * (ไม่ได้คลิก)
ราคา = -1 * คลิก + 0.01 * (ไม่ได้คลิก)

ในกรณีของเวกเตอร์การกระทำของ(0, 1, 5, 0)ค่าใช้จ่ายจาก 4 ฟังก์ชันเหล่านี้จะเป็น:

(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)

เห็นได้ชัดว่ามีวิธีอื่น ๆ อีกมากมายที่จะนำเสนอสิ่งนั้นclicks=goodและno clicks=bad.โดยทั่วไปแล้วฉันควรทำแบบจำลองต้นทุนสำหรับปัญหาโจรทางบริบทใน vowpal wabbit อย่างไร การได้รับผลประโยชน์เป็นต้นทุนเชิงลบหรือไม่หรือฉันควรปรับทุกอย่างใหม่เพื่อให้ต้นทุนทั้งหมดเป็นค่าบวก มันโอเคสำหรับการกระทำที่ค่อนข้างเป็นกลางที่จะมีค่าใช้จ่ายเป็นศูนย์หรือฉันควรให้พวกเขามีค่าบวกเล็กน้อยเพื่อผลักดันตัวแบบไปสู่การกระทำเชิงบวกหรือไม่?

— ซัค
แหล่งที่มา

ฉันสับสนโดย "มีการกระทำที่เป็นไปได้ 2 ประการ: ผู้ใช้สามารถคลิกที่โฆษณาหรือผู้ใช้ไม่สามารถคลิกที่โฆษณา" หากคุณกำลังพยายามตัดสินใจว่าจะแสดงโฆษณาใดโฆษณานั้นควรเป็นสิ่งที่กระทำหรือไม่

— อัลโต

@ ถึง: ฉันคิดว่าควรอ่าน "มี 2 คำตอบที่เป็นไปได้ที่เราสามารถบันทึกสำหรับผู้ใช้" นั่นทำให้รู้สึกมากขึ้น?

— Zach

ฉันไม่แน่ใจว่านี่เป็นปัญหาโจรบริบทเพราะฉันไม่แน่ใจว่าเป้าหมายของคุณคืออะไรที่นี่ การแก้ปัญหาโจรตามบริบท "พยายามปรับนโยบายให้เหมาะสมที่สุดซึ่งเลือกการกระทำที่มีต้นทุนขั้นต่ำสำหรับบริบทที่สังเกต" คุณพยายามคิดว่าจะให้โฆษณาทำงานได้จำนวนเท่าไหร่? กำลังพยายามสร้างแบบจำลองพฤติกรรมผู้บริโภค? อื่น ๆ อีก?

— shadowtalker

@ssdecontrol ฉันพยายามหาว่าจะให้แสดงโฆษณาใดตามบริบท มันเป็นปัญหาตัวอย่างที่ใช้กันโดยทั่วไปสำหรับโจรตามบริบท แต่ฉันได้รับผลลัพธ์ที่ไม่ดีจริงๆจากนักแก้ปัญหาเชิงบริบทของ vowpal-wabbit ฉันสงสัยว่าอาจมีวิธีอื่นที่ฉันควรระบุ "ราคา" คลิกหรือไม่คลิกโฆษณา

— ซัค

@ นิคฉันไม่เคยคิดออกมาจริง ๆ และไปกับโมเดลมัลติคลาสปกติจาก VW แทน

— ซัค

หนึ่งอาจจะปรึกษาที่นี่สำหรับคำแนะนำเบื้องต้น : https://arxiv.org/pdf/1802.04064.pdf

เป็นการประเมินเชิงประจักษ์

— ด้าน
แหล่งที่มา