ฉันจะสุ่มตัวอย่างจากการกระจายแบบไม่ต่อเนื่อง (หมวดหมู่) ในพื้นที่บันทึกได้อย่างไร


12

สมมติว่าฉันมีการแจกแจงแบบไม่ต่อเนื่องที่กำหนดโดย vectorเช่นนั้นหมวดหมู่จะถูกวาดด้วยความน่าจะเป็นเป็นต้น จากนั้นฉันค้นพบว่าค่าบางอย่างในการแจกแจงมีขนาดเล็กจนทำให้ค่าตัวเลขลอยตัวของคอมพิวเตอร์ของฉันต่ำลงดังนั้นเพื่อชดเชยฉันทำการคำนวณทั้งหมดของฉันในพื้นที่ล็อก ตอนนี้ผมต้องเข้าสู่ระบบปริภูมิเวกเตอร์theta_N)θ0,θ1,...,θN0θ0log(θ0),log(θ1),...,log(θN)

เป็นไปได้หรือไม่ที่จะสุ่มตัวอย่างจากการแจกแจงที่มีความน่าจะเป็นดั้งเดิม (หมวดหมู่ถูกวาดด้วยความน่าจะเป็น ) แต่ไม่เคยออกจากพื้นที่บันทึก? กล่าวอีกนัยหนึ่งฉันจะสุ่มตัวอย่างจากการกระจายนี้โดยไม่มีอันเดอร์โฟลว์ได้อย่างไรiθi

คำตอบ:


15

มันเป็นไปได้ที่จะเด็ดขาดตัวอย่างจากการจัดจำหน่ายที่ได้รับการเข้าสู่ระบบความน่าจะเป็นโดยไม่ต้องออกจากพื้นที่เข้าสู่ระบบโดยใช้เคล็ดลับกัมเบล-Max แนวคิดก็คือถ้าคุณได้รับความน่าจะเป็นบันทึกแบบที่สามารถแปลเป็นความน่าจะเป็นที่เหมาะสมโดยใช้ฟังก์ชั่น softmaxα1,,αk

pi=exp(αi)jexp(αj)

แล้วกับตัวอย่างจากการกระจายเช่นคุณสามารถใช้ความจริงที่ว่าถ้าจะนำกลุ่มที่เป็นอิสระจากการกระจายกัมเบลมาตรฐาน parametrized ตามสถานที่ ,mg1,,gkG(0)m

F(Gg)=exp(exp(g+m))

จากนั้นจะสามารถแสดง (ดูข้อมูลอ้างอิงด้านล่าง) ที่

argmaxi{gi+αi}exp(αi)jexp(αj)maxi{gi+αi}G(logiexp{αi})

และเราสามารถใช้

z=argmaxi{gi+αi}

เป็นตัวอย่างจากการแจกแจงแบบแบ่งหมวดหมู่โดยความน่าจะเป็น วิธีการนี้ได้รับการอธิบายอย่างละเอียดยิ่งขึ้นในรายการบล็อกโดย Ryan AdamsและLaurent Dinhยิ่งกว่านั้น Chris J. Maddison, Daniel Tarlow และ Tom Minka ให้คำบรรยาย ( สไลด์ ) ในการประชุมNeural Information Processing Systems (2014) และเขียนบทความA * การสุ่มตัวอย่างที่เป็นแนวความคิดทั่วไปเหล่านั้น (ดูเพิ่มเติมที่ Maddison, 2016; Maddison, Mnih และ Teh, 2016; Jang and Poole, 2016) ที่อ้างถึง Yellott (1977) กล่าวถึงเขาเป็นหนึ่งในผู้ที่อธิบายคุณสมบัตินี้เป็นครั้งแรกp1,,pk

มันสวยง่ายที่จะใช้มันโดยใช้ผกผันเปลี่ยนการสุ่มตัวอย่างโดยการที่มีดึงออกมาจากการจัดจำหน่ายเครื่องแบบ(0,1)แน่นอนว่ามันไม่ใช่อัลกอริธึมที่ประหยัดเวลาที่สุดสำหรับการสุ่มตัวอย่างจากการกระจายตามหมวดหมู่ แต่ให้คุณอยู่ในพื้นที่บันทึกสิ่งที่อาจเป็นประโยชน์ในบางสถานการณ์gi=log(logui)ui(0,1)


Maddison, CJ, Tarlow, D. , & Minka, T. (2014) การสุ่มตัวอย่าง [ใน:] ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท (หน้า 3086-3094)

Yellott, JI (1977) ความสัมพันธ์ระหว่างสัจพจน์ที่เลือกไว้ของ Luce ทฤษฎีการตัดสินเปรียบเทียบของ Thurstone และการแจกแจงเลขชี้กำลังสองเท่า วารสารจิตวิทยาคณิตศาสตร์, 15 (2), 109-144

Maddison, CJ, Mnih, A. , & Teh, YW (2016) การกระจายคอนกรีต: การผ่อนคลายอย่างต่อเนื่องของตัวแปรสุ่มแบบแยก พิมพ์ arXiv arXiv: 1611.00712

Jang, E. , Gu, S. , & Poole, B. (2016) การจัดหมวดหมู่การทำซ้ำพารามิเตอร์ด้วย Gumbel-Softmax พิมพ์ล่วงหน้า arXiv arXiv: 1611.01144

Maddison, CJ (2016) แบบจำลองกระบวนการปัวซองสำหรับ Monte Carlo พิมพ์ล่วงหน้า arXiv arXiv: 1602.05986


5

นี่คือวิธีทั่วไปหนึ่งในการหลีกเลี่ยงอันเดอร์โฟล์ / โอเวอร์โฟล

ให้theta_i)m=maxilog(θi)

Letเมตร)θi=exp(log(θi)m)

คุณจะได้ลิ้มลองจาก ]θ=[θ1,θ2,...]


1
สิ่งนี้ทำงานได้ตราบใดที่ความแตกต่างระหว่างค่าใดค่าหนึ่งกับค่าสูงสุดนั้นไม่มากเกินไป --- เมื่อเกิดขึ้นค่าexpนั้นอาจสูญเสียความแม่นยำไปสู่การแจกแจงเช่น [1.0, 3.45e-66, 0.0, 7.54e-121] . ฉันต้องการที่จะตอบคำถามที่มีประสิทธิภาพแม้ในกรณีนั้น แต่สำหรับตอนนี้ฉันกำลังตอบโต้คำตอบของคุณ
Josh Hansen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.