การสุ่มตัวอย่างที่แน่นอนจากส่วนผสมที่ไม่เหมาะสม


10

สมมติว่าผมต้องการที่จะตัวอย่างจากการกระจายอย่างต่อเนื่อง(x) ถ้าฉันมีการแสดงออกของในรูปแบบหน้าp(x)p

p(x)=i=1aifi(x)

โดยที่และf_iคือการแจกแจงซึ่งสามารถสุ่มตัวอย่างได้ง่ายจากนั้นฉันสามารถสร้างตัวอย่างจากpโดย:ai0,iai=1fip

  1. การสุ่มตัวอย่างฉลากiด้วยความน่าจะเป็นai
  2. การสุ่มตัวอย่างXfi

เป็นไปได้หรือไม่ที่จะทำให้ขั้นตอนนี้เป็นมาตรฐานหากaiเป็นลบในบางครั้ง? ฉันสงสัยว่าฉันเคยเห็นสิ่งนี้ทำที่ไหนสักแห่ง - อาจจะเป็นในหนังสือบางทีสำหรับการแจกจ่าย Kolmogorov - ดังนั้นฉันยินดีอย่างยิ่งที่จะยอมรับการอ้างอิงเป็นคำตอบ

หากตัวอย่างของเล่นคอนกรีตมีประโยชน์สมมติว่าฉันต้องการตัวอย่างจาก

p(x,y)exp(xyαxy)x,y>0
ฉันจะ รับα(0,2)ด้วยเหตุผลทางเทคนิคซึ่งไม่ควรมีความสำคัญมากเกินไปในโครงการที่ยิ่งใหญ่

โดยหลักการแล้วฉันสามารถขยายสิ่งนี้เป็นผลรวมต่อไปนี้:

p(x,y)n=0(1)nαn(n2)!(n2)!n!(xn/2ex(n2)!)(yn/2ey(n2)!).

(x,y) -terms ภายในรวมนั้นจะสามารถเก็บตัวอย่างเป็นอิสระจากรังสีเป็นแบบสุ่ม variates ปัญหาของฉันเห็นได้ชัดว่าสัมประสิทธิ์เป็นลบ "เป็นครั้งคราว"

แก้ไข 1 : ผมชี้แจงว่าฉันกำลังมองหาที่จะสร้างตัวอย่างที่แน่นอนจากpมากกว่าการคำนวณความคาดหวังภายใต้พีpสำหรับผู้ที่สนใจกระบวนการบางอย่างในการทำเช่นนั้นถูกกล่าวถึงในความคิดเห็น

แก้ไข 2 : ฉันพบการอ้างอิงซึ่งรวมถึงวิธีการโดยเฉพาะอย่างยิ่งในการแก้ไขปัญหานี้ในDevroye ของ 'ไม่สม่ำเสมอสุ่ม variate Generation' อัลกอริทึมจาก'หมายเหตุเกี่ยวกับการเก็บตัวอย่างจากการรวมของการกระจาย' ของ Bignami และเด Matteis วิธีนี้มีประสิทธิภาพในการจำกัดความหนาแน่นจากด้านบนด้วยเงื่อนไขบวกของผลรวมแล้วใช้การสุ่มตัวอย่างการปฏิเสธตามซองจดหมายนี้ สิ่งนี้สอดคล้องกับวิธีที่อธิบายไว้ในคำตอบของ @ Xi'an


1
ทำไมคุณไม่ลองตัวอย่างโดยใช้ค่าสัมบูรณ์ของจากนั้นก็ลบตัวอย่างคุณ? กล่าวอีกนัยหนึ่งให้นิยาม(สมมติว่ามัน จำกัด ) แล้ว renormalize ผลรวมของคุณโดยZaiXfiZ:=i=1|ai|Z
Alex R.

2
@AlexR ถ้าผมเข้าใจคุณรุ่นนี้จะเป็นประโยชน์สำหรับการคำนวณความคาดหวังภายใต้แต่ยังคงไม่ได้สำหรับการวาดภาพตัวอย่างแน่นอนจากพีแน่นอนว่านี่คือคำตอบของปัญหาที่เกี่ยวข้องแม้ว่าจะไม่ใช่สิ่งที่ฉันกำลังมองหา pp
πr8

4
ขึ้นอยู่กับสิ่งที่คุณตั้งใจจะทำกับตัวอย่างนั้น ตัวอย่างเช่นเพื่อวัตถุประสงค์ในการคำนวณช่วงเวลามันดูตรงไปตรงมาเพื่อทำการสุ่มตัวอย่างจากการผสมของความหนาแน่นโดยการทำเครื่องหมายจุดใด ๆ ที่เลือกจากองค์ประกอบที่มีสัมประสิทธิ์เชิงลบว่าเป็นจุด "เชิงลบ" และถ่วงน้ำหนักการมีส่วนร่วมในเชิงลบ ในทำนองเดียวกันคุณสามารถสร้าง KDE ด้วยน้ำหนักเชิงลบดังกล่าวได้หากคุณสามารถยอมรับความเป็นไปได้ที่ค่าบางอย่างจะเป็นค่าลบ! (cc @ Xi'an)
whuber

1
ตัวอย่างของการแจกแจงแบบ "แน่นอน" จะเป็นอย่างไร อีกครั้งไม่ว่าคุณจะสามารถใช้ประโยชน์จากส่วนผสมที่มีน้ำหนักติดลบได้หรือไม่นั้นก็ขึ้นอยู่กับว่าคุณต้องการใช้ตัวอย่างอย่างไร
whuber

1
นี่ไม่ได้ตอบคำถามของคุณ แต่คุณอาจสนใจอ่านเกี่ยวกับการสุ่มตัวอย่างจากบันทึกความน่าจะเป็นของ สถิติ stats.stackexchange.com/a/260248/35989
ทิม

คำตอบ:


5

ฉันงงงวยกับคำถามนี้ แต่ไม่เคยมาพร้อมกับโซลูชั่นที่น่าพอใจ

คุณสมบัติหนึ่งที่เป็นไปได้ในการใช้งานคือถ้าความหนาแน่นเขียน โดยที่คือ a ความหนาแน่นเช่นว่า , การจำลองจากและการปฏิเสธการจำลองเหล่านี้ด้วยความน่าจะเป็นมอบจำลองจากFในกรณีปัจจุบันเป็นเวอร์ชันปกติของส่วนประกอบน้ำหนักบวก และคือส่วนที่เหลือ

f(x)=g(x)ωh(x)1ωω>0
gg(x)ωh(x)gωh(x)/g(x)fg
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=αi<0αifi(x)/αi<0αi
นี่เป็นเรื่องจริงที่พบได้ในพระคัมภีร์จำลองของ Devroye, การสร้างตัวแปรแบบสุ่มที่ไม่สม่ำเสมอมาตรา II.7.4 แต่ต่อจากเหตุผลการยอมรับที่ปฏิเสธง่าย

ข้อเสียเปรียบการคำนวณครั้งแรกของวิธีการนี้คือแม้ว่าจะจำลองเป็นครั้งแรกจากองค์ประกอบที่เลือกผลรวมทั้งและจะต้องคำนวณสำหรับขั้นตอนการปฏิเสธ หากผลรวมไม่มีที่สิ้นสุดโดยไม่มีเวอร์ชันฟอร์มปิดนี่จะทำให้วิธีการยอมรับปฏิเสธไม่สามารถใช้งานได้figh

ปัญหาที่สองคือเนื่องจากทั้งสองผลรวมของน้ำหนักมีลำดับเดียวกัน อัตราการปฏิเสธไม่มีขีด จำกัด บน จริง ๆ แล้วถ้าซีรีส์ที่เกี่ยวข้องกับไม่ได้มาบรรจบกันอย่างแน่นอนความน่าจะเป็นที่ยอมรับได้นั้นจะเป็นศูนย์! และวิธีการไม่สามารถนำมาใช้ในสถานการณ์นี้

αi>0αi=1αi<0αi
1ϱaccept=αi<0|αi|/i|αi|
αi

ในกรณีของการเป็นตัวแทนผสมถ้าสามารถเขียนเป็น ส่วนประกอบสามารถเลือกได้ก่อนจากนั้นวิธีที่ใช้กับส่วนประกอบนั้น แต่สิ่งนี้อาจมีความละเอียดอ่อนในการใช้งานการระบุคู่ที่พอดีกับจากผลรวมอนันต์อาจไม่จำเป็นต้องเป็นไปได้f

f(x)=i=1αigi(x)ωih(xi)1ωiωi>0
(gi,hi)gi(x)ωih(xi)>0

ฉันคิดว่าการแก้ปัญหาที่มีประสิทธิภาพมากขึ้นอาจมาจากการนำเสนอตัวเอง Devroye, การสร้างชุดตัวแปรสุ่มแบบไม่สม่ำเสมอมาตรา IV.5, มีวิธีการอนุกรมที่หลากหลาย สำหรับอินสแตนซ์อัลกอริทึมต่อไปนี้สำหรับชุดข้อมูลสำรองของเป้าหมาย เมื่อ ' s รวมเป็นศูนย์ด้วยและคือความหนาแน่น:

f(x)=κh(x){1a1(x)+a2(x)}
ai(x)nhวิธีการทางเลือกของ Devroye

ปัญหาที่เกิดขึ้นได้รับการพิจารณาเร็ว ๆ นี้ในบริบทของ debiasing ประมาณลำเอียงสำหรับ MCMC ที่เป็นตัวอย่างในวิธี Glynn-รีฮ์ และตัวประมาณรูเล็ตรัสเซีย (ด้วยการเชื่อมต่อกับปัญหาโรงงานของเบอร์นูลี) และวิธีการ MCMC เป็นกลาง แต่ไม่มีการหลบหนีจากปัญหาสัญญาณ ... ซึ่งทำให้การใช้งานมีความท้าทายเมื่อประเมินความหนาแน่นเช่นเดียวกับวิธีหลอกหลอก

เมื่อคิดต่อไปข้อสรุปของฉันคือไม่มีวิธีทั่วไปในการสร้างแบบจำลองที่เกิดขึ้นจริงจากซีรีส์นี้[แทนที่จะเป็น ส่วนผสมที่กลายเป็นเรียกชื่อผิด] โดยไม่ต้องกำหนดโครงสร้างเพิ่มเติมไปยังองค์ประกอบของซีรีส์เช่นเดียวกับ ขั้นตอนวิธีการดังกล่าวข้างต้นจากพระคัมภีร์ Devroye ของ แน่นอนเนื่องจากความหนาแน่นส่วนใหญ่ (?) อนุญาตให้มีการขยายตัวของชุดข้างต้นนี้จะหมายถึงการดำรงอยู่ของเครื่องจำลองแบบสากล ...


ขอบคุณ! ฉันขอขอบคุณการอ้างอิงเพิ่มเติมด้วย
πr8

1
ขอขอบคุณเพิ่มเติมสำหรับการตอบสนองและการอ้างอิงอย่างละเอียด ฉันยินดีที่จะยอมรับคำตอบนี้เมื่อประสบความสำเร็จในการสร้างตัวอย่างที่แน่นอนจากในเวลาที่ จำกัด ฉันจะคิดเกี่ยวกับปัญหาต่อไปในระดับหนึ่ง ความคิดเพิ่มเติมเดียวที่ฉันมีซึ่งดูเหมือนว่ามีแนวโน้มคือการดูการสุ่มตัวอย่างจากเป็นการสุ่มตัวอย่าง , ตามเงื่อนไขบน , และอาจมีบางรูปทรงเรขาคณิต ข้อมูลเชิงลึกซึ่งมีประโยชน์สำหรับการอธิบายลักษณะนี้ (ฉันคิดว่าเป็นตัวอย่างชิ้นบน ) ไชโย! pp=λgμhXgλgμh{(x,y):μh(x)<y<λg(x)}
πr8

1
ฉันอธิบายตัวอย่างที่มีเงื่อนไขค่อนข้างแย่ การกำหนดลักษณะที่ตั้งไว้ค่อนข้างชัดเจน (ตามความเห็นของฉัน) ประเด็นสำคัญของฉันคือถ้าคุณสามารถสุ่มตัวอย่างอย่างสม่ำเสมอจากชุดสองมิติในบรรทัดสุดท้ายมันจะตามมาว่า -coordinate มีการแจกแจงที่ถูกต้อง การระบุลักษณะนี้จะมีประโยชน์สำหรับการผสมที่ไม่เหมาะสมที่อิงกับผลรวมอีกต่อไปหรือไม่ (x,y)x
πr8

1
ฉันยังนึกถึงชิ้นตัวอย่าง แต่นี่ไม่ใช่ "แน่นอน" ในแง่ของการจำลอง
ซีอาน

1

ฉันมีร่างความคิดที่สามารถทำงานได้ มันไม่ถูกต้องแต่หวังว่าจะแน่นอนอย่างแน่นอน ในการเปลี่ยนเป็นวิธีการที่เข้มงวดมาก ๆ ซึ่งสามารถควบคุมการประมาณได้หรือบางสิ่งเกี่ยวกับมันที่พิสูจน์ได้อาจจำเป็นต้องใช้งานจำนวนมาก

ครั้งแรกตามที่กล่าวไว้โดยซีอานคุณสามารถจัดกลุ่มน้ำหนักเชิงบวกในมือข้างหนึ่งและน้ำหนักเชิงลบในมืออื่น ๆ ดังนั้นในที่สุดปัญหาก็มีการแจกแจงเพียงสองและ :gh

p=λgμh

กับ 1 โปรดทราบว่าคุณมี1λμ=1λ1

ความคิดของฉันมีดังต่อไปนี้ คุณต้องการตัวอย่างสังเกตจากหน้าทำ:Np

  • ตัวอย่างค่าจากและเก็บไว้ในรายการλNg
  • สำหรับแต่ละค่าตัวอย่างจากให้ลบเพื่อนบ้านที่ใกล้เคียงที่สุด (เหลือ) ออกจากรายการμNh

ในตอนท้ายคุณจะได้รับคะแนน ไม่จำเป็นต้องเป็นเพื่อนบ้านที่ใกล้ที่สุดแต่เป็นเพียงจุดที่ "ใกล้พอ" ขั้นตอนแรกก็เหมือนกับการสร้างเรื่อง ขั้นตอนที่สองเหมือนกับการสร้างปฏิสสารและปล่อยให้มันชนกันและยกเลิกกับสสาร วิธีนี้ไม่ถูกต้อง แต่ฉันเชื่อว่าภายใต้เงื่อนไขบางอย่างมันเป็น asymptotically ที่แน่นอนสำหรับขนาดใหญ่(เพื่อให้เกือบแน่นอนสำหรับขนาดเล็กคุณต้องใช้มีขนาดใหญ่ก่อนจากนั้นจึงสุ่มส่วนเล็ก ๆ ของรายการสุดท้าย) . ฉันให้ข้อโต้แย้งที่ไม่เป็นทางการซึ่งเป็นคำอธิบายมากกว่าการพิสูจน์(λμ)N=NNnN

พิจารณาในช่องว่างการสังเกตและปริมาณขนาดเล็กรอบมีปริมาณเกอ\หลังจากการสุ่มตัวอย่างจากจำนวนขององค์ประกอบในรายการที่ยังอยู่ในเป็น approximativelyแลมบ์ดาอึ้ง หลังจากขั้นตอนที่สอง approximativelyจะถูกลบออกจากมันและคุณมี approximatively จำนวนที่ต้องการNpสำหรับสิ่งนี้คุณต้องสมมติว่าจำนวนคะแนนในไดรฟ์ข้อมูลมีขนาดใหญ่เพียงพอxvxϵgvλNg(x)ϵμNh(x)ϵNp(x)ϵ

วิธีนี้ไม่น่าจะต่อต้านขนาดใหญ่หรือพยาธิวิทยาของและแต่อาจทำงานในขนาดเล็กและเรียบพอสมควรการแจกแจง "สม่ำเสมอพอ"gh

หมายเหตุเกี่ยวกับวิธีการที่แน่นอน:

ครั้งแรกที่ฉันคิดถึงสิ่งนี้สำหรับการแจกแจงแบบไม่ต่อเนื่องและชัดเจนในกรณีที่วิธีการไม่แน่นอนเนื่องจากสามารถสร้างตัวอย่างที่มีความน่าจะเป็น 0 ฉันมีสัญชาตญาณที่แข็งแกร่งว่าวิธีการที่แน่นอนไม่สามารถทำได้ด้วยเวลาการประมวลผล จำกัด เป็นไปไม่ได้ที่จะพิสูจน์ได้ว่าอย่างน้อยก็สำหรับการกระจายแบบไม่ต่อเนื่อง กฎของเกมคือการที่คุณได้รับอนุญาตเท่านั้นที่จะใช้ที่แน่นอน "พยากรณ์" ตัวอย่างสำหรับและแต่ไม่ทราบและการทำงานของxเพื่อจำกัดความเรียบง่ายของการแจกแจงเบอร์นูลลี การไม่มีวิธีที่แน่นอนเกี่ยวข้องกับทฤษฎีของBernoulli Factory : หากคุณสามารถสร้าง -coin จาก aghghx(λpμq)p-coin และ -coin แล้วคุณสามารถสร้าง -coin จาก -coin ซึ่งเป็นที่รู้จักกันเป็นไปไม่ได้สำหรับ 1qλppλ>1


1
ฉันพิจารณาสิ่งนี้ แต่ปฏิเสธเพราะความพยายามเริ่มแรกของฉันที่จะแสดงให้เห็นว่ามันสามารถทำงานได้นำไปสู่การตระหนักว่าสิ่งที่ดีที่สุดคือการประมาณและอาจแย่ ใช่ใช้งานไม่ได้ แต่ไม่ตรงตามคำขอของ OP สำหรับการสุ่มตัวอย่าง "แน่นอน" จากการแจกแจง
whuber

ประสิทธิภาพของวิธีการนี้เป็นไปในแบบเดียวกันกับวิธีการยอมรับอย่างแน่นอน
ซีอาน

1
ตกลง พวกเขาแตกต่างกันมาก ยอมรับ-ปฏิเสธวิธีการตอบสนองความต้องการในการคำนวณและการทำงานของxฉันเน้นที่การใช้การสุ่มตัวอย่างจากและเป็นตัวอย่าง "oracle" เท่านั้นในส่วนผสมที่แท้จริง ยิ่งฉันคิดถึงมันมากเท่าไหร่ฉันก็ยิ่งเชื่อมั่นมากขึ้นว่าวิธีการที่แม่นยำจากการสุ่มตัวอย่างออราเคิลนั้นไม่มีอยู่จริง ghxgh
เบอนัวต์ซานเชซ

1
ฉันคิดว่าถูกต้องโดยทั่วไป แต่อาจมีชั้นเรียนที่มีประโยชน์ของกรณีพิเศษที่มีวิธีการที่แน่นอนเช่นนี้อยู่ นั่นเป็นเพราะ (1) ในบางกรณีการคำนวณนั้นง่ายและ (2) คุณไม่จำเป็นต้องคำนวณทั้งและคุณเพียงแค่ต้องคำนวณอัตราส่วนนี้ g/(g+h)gh
whuber

@BenoitSanchez ขอบคุณสำหรับคำตอบในเชิงลึกของคุณ ฉันขอขอบคุณอย่างยิ่งที่ความคิดเห็นในตอนท้ายเกี่ยวกับความเป็นไปไม่ได้ (ที่มีศักยภาพ) ของความถูกต้อง ฉันเคยเจอโรงงาน Bernoulli ในอดีตและพบว่าพวกเขาค่อนข้างท้าทาย ฉันจะลองทบทวนหัวข้อนั้นอีกครั้งและดูว่ามีข้อมูลเชิงลึกหรือไม่
πr8
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.