มีการแจกแจงแบบ univariate ใด ๆ ที่เราไม่สามารถสุ่มตัวอย่างได้หรือไม่?


12

เรามีวิธีการที่หลากหลายสำหรับการสร้างแบบสุ่มจากการแจกแจงแบบไม่มีตัวแปร (การแปลงผกผันยอมรับ - ปฏิเสธมหานคร - เฮสติ้งส์เป็นต้น) และดูเหมือนว่าเราสามารถสุ่มตัวอย่างจากการแจกแจงที่ถูกต้องใด ๆ

คุณสามารถให้ตัวอย่างของการแจกแจงแบบไม่แปรซึ่งเป็นไปไม่ได้ที่จะสุ่มสร้างจากอะไร ผมคิดว่าตัวอย่างเช่นว่าที่มันเป็นไปไม่ได้ไม่ได้อยู่ (?) จึงขอบอกว่าโดย "ไปไม่ได้" เราหมายถึงยังมีกรณีที่มีมาก computationally แพงเช่นที่จำลองความต้องการแรงเดรัจฉานเช่นการวาดภาพจำนวนมากของกลุ่มตัวอย่างที่จะยอมรับเพียง ไม่กี่คน

ถ้าตัวอย่างดังกล่าวไม่ได้อยู่ที่เราสามารถจริงพิสูจน์ว่าเราสามารถสร้างแบบสุ่มดึงออกมาจากใด ๆ ที่จัดจำหน่ายถูกต้อง? ฉันแค่อยากรู้อยากเห็นหากมีตัวอย่างตัวอย่างสำหรับเรื่องนี้


6
มันลงมากับสิ่งที่คุณหมายถึงโดย "ไม่สามารถ / เป็นไปไม่ได้" ฉันคิดว่า มีหลายกรณีที่ cdf และ pdf มีราคาแพงมากในการประเมินซึ่งจะทำให้วิธีการส่วนใหญ่เป็นสิ่งต้องห้ามและมันก็ไม่ยากที่จะเกิดขึ้นกับรูปแบบการกระจายที่มีขอบเขตซองจดหมายที่ดีใน pdf (สำหรับการยอมรับว่า หลีกเลี่ยงการประเมินฟังก์ชั่นส่วนใหญ่) ไม่พร้อมใช้งาน ดังนั้นมันจะล้มเหลวในกรณีที่คุณแยกออกไปแล้วและเราสามารถทำให้มีราคาแพงกว่า (ต่อค่าเบี่ยงเบนโดยเฉลี่ย) ในการคำนวณกว่าใช้ accept-reject (ซึ่งจะไม่รวมการพยายามใช้ตัวเลขผกผันของ cdf)F
Glen_b

3
เราไม่สามารถสุ่มตัวอย่างแบบสุ่มจากชุดของจำนวนอตรรกยะในช่วงเวลา (0,1) โดยใช้คอมพิวเตอร์ หลักฐานที่เหลือเป็นแบบฝึกหัดสำหรับผู้อ่าน
หน้าผา AB

2
@Cliff AB สิ่งนี้สามารถจัดการได้โดยการคำนวณช่วงเวลา กำหนดช่วงเวลา (ที่เล็กที่สุด) รอบ ๆ จุดที่ประเมินได้ (เหตุผล) ของคอมพิวเตอร์แต่ละเครื่องซึ่งจะครอบคลุมทั้งหมด [0,1] โดยช่วงเวลาเหล่านี้ สำหรับคอมพิวเตอร์แต่ละเครื่องที่ประเมิน "สม่ำเสมอ" วาดประเมิน t (มีการปัดเศษออกด้านนอก) ผกผันช่วง rhe ของฟังก์ชันการแจกแจงสะสมในอาร์กิวเมนต์ช่วงเวลานี้ ที่จะสร้างตัวอย่างช่วงเวลาของตัวแปรสุ่มรับประกัน 100% เพื่อให้มีตัวอย่างจริง
Mark L. Stone

2
สิ่งที่ฉันได้รับคือเนื่องจากคุณนับการยอมรับที่ไม่มีประสิทธิภาพเพียงพอที่จะยอมรับว่า "เป็นไปไม่ได้" ถ้าคุณทำให้มันแพงพอที่วิธีการอื่น ๆ ที่คุณรู้จะแย่กว่านั้น (ต้องมีการคำนวณมากขึ้น) การสร้าง F ที่มีราคาแพงเพื่อประเมิน F และ F นั้นไม่ใช่เรื่องยากและทำให้พวกเขาดังนั้นวิธีที่ชัดเจนในการหลีกเลี่ยงการคำนวณจริง ๆ ว่าเวลาส่วนใหญ่ก็ไม่มีประสิทธิภาพเช่นกัน ,,, ctd
Glen_b

1
ctd ... (แต่เป็นกลุ่มคนที่มีความคิดสร้างสรรค์ดังนั้นสิ่งที่ดูเหมือนว่ายากมากในหนึ่งวันอาจเป็นไปได้ถ้าคุณคิดด้วยความคิดที่ดีที่จะแก้ไขปัญหาส่วนใหญ่) หากเราพูดว่า "การประมาณความถูกต้องเช่นนั้นดี" ความยากลำบากเหล่านี้สามารถเกิดขึ้นได้ในหลายกรณี (ตัวอย่างเช่นหนึ่งอาจสร้างตารางการค้นหาขนาดใหญ่ / การสร้างจากฮิสโทแกรมขนาดใหญ่ได้เช่น ซึ่งส่วนใหญ่คุณจะสร้างค่าประมาณอย่างรวดเร็วพอสมควร)
Glen_b -Reinstate Monica

คำตอบ:


15

ถ้าคุณรู้ว่าฟังก์ชั่นการแจกแจงสะสม,แล้วคุณสามารถกลับมันไม่ว่าจะเป็นการวิเคราะห์หรือตัวเลขและใช้ผกผันเปลี่ยนวิธีการสุ่มตัวอย่างในการสร้างตัวอย่างที่สุ่มhttps://en.wikipedia.org/wiki/Inverse_transform_samplingF(x)

กําหนดy) สิ่งนี้จะจัดการการแจกแจงใด ๆ ไม่ว่าจะต่อเนื่องแยกหรือรวมกัน สิ่งนี้สามารถแก้ไขได้เป็นตัวเลขและอาจวิเคราะห์ได้ ให้ U เป็นตัวอย่างจากตัวแปรสุ่มที่แจกจ่ายเป็น Uniform [0,1] คือจากตัวสร้างตัวเลขสุ่ม [0,1] จากนั้น ที่กำหนดไว้ข้างต้นเป็นตัวอย่างที่สุ่มจากตัวแปรสุ่มที่มีการกระจาย(x) F - 1 ( U ) F ( x )F1(y)=inf(x:F(x)y)F1(U)F(x)

นี่อาจไม่ใช่วิธีที่เร็วที่สุดในการสร้างตัวอย่างแบบสุ่ม แต่เป็นวิธีที่สันนิษฐานว่าเป็นที่รู้จักกันในชื่อ F (x)

หากไม่รู้จัก F (x) แสดงว่าเป็นอีกเรื่องหนึ่ง


2
ถ้าไม่เป็นที่รู้จักก็เป็นที่รู้จักกันอย่างชัดเจนว่าเกี่ยวข้องถ้าคุณไม่รู้อะไรเลยคุณจะไม่สามารถทำอะไรได้ถ้าคุณรู้อะไรบางอย่างมันก็ขึ้นอยู่กับว่ามีอะไรอยู่F(x
Mark L. Stone

@Tim ความจริงมันเป็นเรื่องธรรมดาที่เราไม่รู้ F (X) แต่เราสามารถสร้างตัวอย่างจากมันได้ นั่นเป็นสถานการณ์ทั่วไปในการจำลอง Monte Carlo (สุ่ม)
Mark L. Stone

@Tim: ถ้าคุณไม่สนใจเรื่องนี้มันไม่ชัดเจนว่าคุณสนใจเรื่องใดในการตอบสนองต่อความคิดเห็นของ Glen_b คุณบอกว่าคุณไม่ได้เกี่ยวข้องกับการสุ่มตัวอย่างที่ไม่มีประสิทธิภาพ วิธีนี้ในขณะที่ไม่มีประสิทธิภาพจะช่วยให้คุณสามารถสุ่มตัวอย่างจาก pdf ใด ๆ (สมมติว่ามันไม่ได้มีพฤติกรรมที่แย่มากที่การรวมตัวเลขล้มเหลว แต่ฉันไม่คิดว่ามีใครสนใจที่จะใช้การแจกแจงแบบนี้) ดังนั้นหากคุณสนใจพูดว่าการแจกแจงที่ไม่ต่อเนื่องในสถานที่ที่ไม่มีที่สิ้นสุดนี้ควรเป็นคำตอบสำหรับคำถามของคุณ: ใช่เราทำได้
หน้าผา AB

ที่จริงแล้วถ้าเป็นที่รู้จัก แต่ไม่ใช่นี่เป็นปัญหา F - 1FF1
ซีอาน

1
มันขึ้นอยู่กับว่าคุณหมายถึงอะไรโดยปัญหา ถ้าเป็นที่รู้จักกันในชื่อดังนั้นต่อคำตอบของฉันมักจะถูกกำหนดไว้อย่างดีและสามารถแก้ไขตัวเลขได้ มันอาจไม่เร็วอย่างที่คุณต้องการดังนั้นถ้านั่นคือสิ่งที่คุณหมายถึงปัญหาตกลงถ้าไม่ใช่สิ่งที่คุณหมายถึงแล้วปัญหาคืออะไร? F - 1 ( y ) = ฉันn f ( x : F ( x ) y )FF1(y)=inf(x:F(x)y)
Mark L. Stone

7

เมื่อการแจกแจงถูกกำหนดโดยช่วงเวลาที่สร้างฟังก์ชันหรือตามหน้าที่ฟังก์ชั่น , มันเป็นเรื่องยากที่จะหาวิธีการที่ก่อให้เกิดการกระจายจากคนเหล่านั้นΦ ( t ) = E [ exp { i t X } ]ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

ตัวอย่างที่เกี่ยวข้องทำจากเสถียรดิสทริบิวชันซึ่งไม่มีแบบฟอร์มที่รู้จักกันสำหรับความหนาแน่นหรือ cdf ไม่มีฟังก์ชันการสร้างช่วงเวลา แต่ฟังก์ชั่นปิดคุณสมบัติแบบฟอร์มα

ในสถิติแบบเบย์การแจกแจงหลังที่เกี่ยวข้องกับความน่าจะเป็นที่ดื้อดึงหรือชุดข้อมูลที่มีขนาดใหญ่เกินไปที่จะใส่ลงในคอมพิวเตอร์เครื่องเดียวสามารถมองเห็นได้ว่าเป็นไปไม่ได้ที่จะจำลอง


หากคุณเพิ่งรู้ว่าฟังก์ชั่นสร้างโมเมนต์คุณสามารถใช้การประมาณแบบอานม้าแล้วทำการจำลองจากนั้น
kjetil b halvorsen

1
@ ซีอานคุณออกคำว่า "มีประสิทธิภาพ" ในกรณีที่เลวร้ายที่สุดคุณสามารถย้อนกลับการแปลงตัวเลขที่เป็นตัวเลข ที่จะทำงานอาจจะไม่ "มีประสิทธิภาพ" แต่จะทำ
Mark L. Stone

3
@kjetilbhalvorsen: การประมาณ saddlepoint เป็นวิธีแก้ปัญหาที่เสนอในลิงค์ที่ฉันใส่ แต่มันเป็นการประมาณ!
ซีอาน

2

สมมติว่าคุณอ้างถึงการแจกแจงแบบต่อเนื่อง โดยใช้หนึ่งน่าจะเปลี่ยนคุณสามารถจำลองจากการจำหน่ายใด ๆ univariateโดยการจำลองและจากนั้นการ(U) ดังนั้นเราสามารถจำลองชุดแล้วส่วนนั้นจะทำ สิ่งเดียวที่อาจขัดขวางการจำลองจากคือคุณไม่สามารถคำนวณค่าผกผันมันได้ แต่สิ่งนี้จะต้องเกี่ยวข้องกับความยากลำบากในการคำนวณมากกว่าสิ่งเชิงทฤษฎีu ( 0 , 1 ) F - 1 ( u ) F F - 1Fu(0,1)F1(u)FF1


1

ตอนนี้คำถามของคุณพัฒนาเป็น "ยากที่จะสุ่มตัวอย่างจาก" เพียงนำโมเดลใด ๆ ที่มีโอกาสในการดื้อดึงมากำหนดการแจกจ่ายก่อนหน้านี้ให้กับพารามิเตอร์โมเดลและ สมมติว่าคุณมีความสนใจในการกระจายหลังขอบของหนึ่งในรายการ\นี่ก็หมายความว่าคุณต้องสุ่มตัวอย่างจากคนหลังซึ่งเป็นเรื่องยากเนื่องจากความสามารถในการหยั่งรู้ของโอกาสθ เจθ=(θ1,...,θd)θj

มีวิธีการประมาณตัวอย่างจากหลังนี้ในบางกรณี แต่ไม่มีวิธีการทั่วไปที่แน่นอนอยู่ในขณะนี้


... แต่คำถามนี้เกี่ยวกับการแจกแจงที่ไม่แปร มีตัวอย่างมากมายของโมเดลที่ซับซ้อนที่ MCMC ไม่สามารถบรรจบกันได้แม้ว่าจะมีการทำซ้ำจำนวนมหาศาล
ทิม

@Tim และนั่นคือเหตุผลที่ฉันพูดว่าคนข้างหลังซึ่งหมายความว่าunivariate ... ดูเหมือนว่าสำหรับฉันคุณไม่ชัดเจนว่าคุณกำลังถามอะไร คำตอบสองข้อแรกนั้นชัดเจนในทางทฤษฎีมันเป็นไปได้ที่จะสุ่มตัวอย่างจากการแจกแจงใด ๆ ที่คุณรู้
โนอาห์

1
ฉันโหวตให้คำถามนี้ [ON HOLD] จนกระทั่ง OP ชี้แจงสิ่งที่เขาถามและหยุดเปลี่ยนคำถามทุกครั้งที่มีคำตอบใหม่ปรากฏขึ้นเพื่อให้คำตอบไม่เหมาะสม
โนอาห์

ฉันไม่ได้เปลี่ยนคำถามของฉัน "ทุกครั้งที่มีคำตอบใหม่ปรากฏขึ้น" ... แบบจำลองทางสถิติที่มีความเป็นไปได้และก่อนหน้านี้ไม่ได้ถูกเปลี่ยนแปลงเนื่องจากมีการประกาศในแง่ของการแจกแจงแบบมีเงื่อนไข มันไม่ได้แปรผันถ้าคุณสุ่มตัวอย่างจากคนหลัง แต่ฉันเดาว่าคุณคิดว่าเรามีการกระจายตัวอยู่เล็กน้อยดังนั้นจึงไม่มีปัญหากับคนหลังที่ไม่สามารถรักษาได้
ทิม

1
R

1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1


0

คุณสามารถให้ตัวอย่างของการแจกแจงแบบไม่แปรซึ่งเป็นไปไม่ได้ที่จะสุ่มสร้างจากอะไร

cc

หากคุณสนใจในการสุ่มตัวอย่างตัวแปรสุ่มที่ค่าสามารถประมาณได้อย่างสมเหตุสมผลด้วยตัวเลขทศนิยม 64 บิตหรือคุณมีความอดทนที่คล้ายคลึงกันสำหรับข้อผิดพลาดอัน จำกัด ในค่าและคุณไม่ได้แสดงตัวอย่างของเครื่องจักรทัวริงเลย , พิจารณาสิ่งนี้:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-แกน. ฉันไม่แน่ใจว่าการสุ่มตัวอย่างใดที่ยากที่สุดดังนั้นให้เลือกคนที่คุณชอบมากที่สุด ;-)

สมมติว่าโดย "เป็นไปไม่ได้" เราหมายถึงกรณีที่มีค่าใช้จ่ายในการคำนวณสูงเช่นที่ต้องใช้การจำลองแบบเดรัจฉานเช่นวาดตัวอย่างจำนวนมากเพื่อรับตัวอย่างเพียงไม่กี่ตัวอย่าง

ในกรณีนี้คำตอบที่ชัดเจนดูเหมือนชัดเจน:

  • nn
  • ตัวอย่าง preimages ของฟังก์ชันการเข้ารหัสลับ (เช่นสร้าง bitcoin และ break git และ mercurial)
  • ตัวอย่างชุดกลยุทธ์ Go ที่ดีที่สุด (ด้วยกฎจีน Superko ซึ่งทำให้เกมทุกเกมมีขอบเขต - เท่าที่ฉันเข้าใจ)

อย่างเป็นทางการอีกเล็กน้อย: ฉันให้ตัวอย่างปัญหา NP-complete ขนาดใหญ่ (หรือ EXP-complete ฯลฯ ) ให้คุณและขอให้คุณสุ่มตัวอย่างชุดของโซลูชันให้ฉันอย่างสม่ำเสมอ

R1

คุณสามารถตรวจสอบได้อย่างง่ายดายว่าการมอบหมายความจริงใด ๆ ได้รับการตอบสนองอินสแตนซ์ SAT ของฉันหรือไม่และตรวจสอบพวกเขาทุกอย่างที่คุณรู้ว่ามีใครทำหรือไม่ดังนั้นฉันได้ระบุ CDF อย่างสมบูรณ์โดยให้สูตรบูลีน คุณจะต้องกลายเป็นบางสิ่งบางอย่างอย่างน้อยก็ทรงพลังเช่นเดียวกับออราเคิลที่แก้ปัญหา SAT ได้


ดังนั้นฉันจึงให้หมายเลขที่ไม่สามารถคำนวณได้ซึ่งควรขว้างทรายในอุปกรณ์ของคุณและฉันให้ CDF ที่จะทำการคำนวณได้ช้า บางทีคำถามที่ชัดเจนต่อไปที่จะถามคืออะไรเช่นนี้: มี CDF ที่แสดงในรูปแบบที่มีประสิทธิภาพ (เช่นสามารถประเมินในเวลาพหุนาม) ซึ่งมันยากที่จะสร้างตัวอย่างที่มีการแจกแจงนั้นหรือไม่? ฉันไม่รู้คำตอบของสิ่งนั้น ฉันไม่รู้คำตอบของสิ่งนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.