ฟังก์ชั่นค่าใช้จ่ายสำหรับการโจรตามบริบท


14

ฉันใช้Wabbit vowpalในการแก้ปัญหาตามบริบทโจร ฉันแสดงโฆษณาต่อผู้ใช้และฉันมีข้อมูลพอสมควรเกี่ยวกับบริบทที่แสดงโฆษณา (เช่นผู้ใช้คือใครไซต์ใดที่พวกเขาเปิดอยู่เป็นต้น) นี้ดูเหมือนว่าจะเป็นปัญหาโจรคลาสสิกสวยตามบริบทตามที่อธิบายไว้โดยจอห์นแลง

ในสถานการณ์ของฉันมีการตอบสนองหลัก 2 อย่างที่ผู้ใช้สามารถทำได้กับโฆษณา: การคลิก (อาจเป็นหลายครั้ง) หรือไม่คลิก ฉันมีโฆษณาประมาณ 1,000 รายการที่ฉันสามารถเลือกได้ Vowpal Wabbit ต้องการตัวแปรเป้าหมายในรูปแบบของaction:cost:probabilityแต่ละบริบท ในกรณีของฉันactionและprobabilityง่ายต่อการเข้าใจ: actionเป็นโฆษณาที่ฉันเลือกที่จะแสดงและprobabilityเป็นโอกาสในการเลือกโฆษณานั้นที่ได้รับนโยบายปัจจุบันของฉันสำหรับการแสดงโฆษณา

อย่างไรก็ตามฉันมีปัญหาในการหาวิธีที่ดีในการจับคู่การจ่ายเงิน (คลิก) กับค่าใช้จ่าย เห็นได้ชัดว่าการคลิกนั้นดีและการคลิกหลายครั้งในโฆษณาเดียวกันก็ยังดีกว่าการคลิกครั้งเดียวในโฆษณาเดียวกัน อย่างไรก็ตามการไม่คลิกโฆษณานั้นเป็นกลางจริง ๆ แล้วมันไม่ได้ทำให้ฉันเสียอะไรเลยนอกจากโอกาสที่จะพลาดการคลิก (ฉันกำลังทำงานในบริบทการโฆษณาที่แปลก)

ความคิดบางอย่างที่ฉันมีคือ:

  1. ราคา = -1 * เครื่องหมาย (คลิก) + 0 * (ไม่ได้คลิก)
  2. ราคา = -1 * คลิก + 0 * (ไม่ได้คลิก)
  3. ราคา = -1 * เครื่องหมาย (คลิก) + 0.01 * (ไม่ได้คลิก)
  4. ราคา = -1 * คลิก + 0.01 * (ไม่ได้คลิก)

ในกรณีของเวกเตอร์การกระทำของ(0, 1, 5, 0)ค่าใช้จ่ายจาก 4 ฟังก์ชันเหล่านี้จะเป็น:

  1. (0, -1, -1, 0)
  2. (0, -1, -5, 0)
  3. (0.01, -1, -1, 0.01)
  4. (0.01, -1, -5, 0.01)

เห็นได้ชัดว่ามีวิธีอื่น ๆ อีกมากมายที่จะนำเสนอสิ่งนั้นclicks=goodและno clicks=bad.โดยทั่วไปแล้วฉันควรทำแบบจำลองต้นทุนสำหรับปัญหาโจรทางบริบทใน vowpal wabbit อย่างไร การได้รับผลประโยชน์เป็นต้นทุนเชิงลบหรือไม่หรือฉันควรปรับทุกอย่างใหม่เพื่อให้ต้นทุนทั้งหมดเป็นค่าบวก มันโอเคสำหรับการกระทำที่ค่อนข้างเป็นกลางที่จะมีค่าใช้จ่ายเป็นศูนย์หรือฉันควรให้พวกเขามีค่าบวกเล็กน้อยเพื่อผลักดันตัวแบบไปสู่การกระทำเชิงบวกหรือไม่?


1
ฉันสับสนโดย "มีการกระทำที่เป็นไปได้ 2 ประการ: ผู้ใช้สามารถคลิกที่โฆษณาหรือผู้ใช้ไม่สามารถคลิกที่โฆษณา" หากคุณกำลังพยายามตัดสินใจว่าจะแสดงโฆษณาใดโฆษณานั้นควรเป็นสิ่งที่กระทำหรือไม่
อัลโต

1
@ ถึง: ฉันคิดว่าควรอ่าน "มี 2 คำตอบที่เป็นไปได้ที่เราสามารถบันทึกสำหรับผู้ใช้" นั่นทำให้รู้สึกมากขึ้น?
Zach

ฉันไม่แน่ใจว่านี่เป็นปัญหาโจรบริบทเพราะฉันไม่แน่ใจว่าเป้าหมายของคุณคืออะไรที่นี่ การแก้ปัญหาโจรตามบริบท "พยายามปรับนโยบายให้เหมาะสมที่สุดซึ่งเลือกการกระทำที่มีต้นทุนขั้นต่ำสำหรับบริบทที่สังเกต" คุณพยายามคิดว่าจะให้โฆษณาทำงานได้จำนวนเท่าไหร่? กำลังพยายามสร้างแบบจำลองพฤติกรรมผู้บริโภค? อื่น ๆ อีก?
shadowtalker

1
@ssdecontrol ฉันพยายามหาว่าจะให้แสดงโฆษณาใดตามบริบท มันเป็นปัญหาตัวอย่างที่ใช้กันโดยทั่วไปสำหรับโจรตามบริบท แต่ฉันได้รับผลลัพธ์ที่ไม่ดีจริงๆจากนักแก้ปัญหาเชิงบริบทของ vowpal-wabbit ฉันสงสัยว่าอาจมีวิธีอื่นที่ฉันควรระบุ "ราคา" คลิกหรือไม่คลิกโฆษณา
ซัค

1
@ นิคฉันไม่เคยคิดออกมาจริง ๆ และไปกับโมเดลมัลติคลาสปกติจาก VW แทน
ซัค

คำตอบ:


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.