Latin Hypercube Sampling Asymptotics


11

ฉันกำลังพยายามสร้างหลักฐานสำหรับปัญหาที่ฉันกำลังทำอยู่และหนึ่งในข้อสมมติที่ฉันทำคือชุดของจุดที่ฉันสุ่มตัวอย่างจากนั้นหนาแน่นทั่วทั้งพื้นที่ ในทางปฏิบัติฉันใช้การสุ่มตัวอย่าง hypercube แบบละตินเพื่อให้ได้คะแนนจากพื้นที่ตัวอย่างทั้งหมด สิ่งที่ฉันอยากรู้คือถ้าตัวอย่าง hypercube ละตินมีความหนาแน่นมากกว่าพื้นที่ทั้งหมดถ้าคุณปล่อยให้ขนาดตัวอย่างของคุณมีแนวโน้มที่จะ ? ถ้าเป็นเช่นนั้นการอ้างอิงสำหรับความจริงนี้จะได้รับการชื่นชมอย่างมาก


4
ใช่สมมติให้มีการกระจายอย่างต่อเนื่องเพราะสำหรับการใด ๆคุณสามารถกำหนดจำนวนของหน่วยงานที่จะเป็นเช่นนั้นทุกช่วงเวลาต่อตัวแปรที่มีความกว้าง 2 ดังนั้นอย่างน้อยหนึ่ง hyperinterval (เช่นปริมาณตัวอย่าง) จะถูก จำกัด โดยความกว้าง hypercube รอบจุดที่คุณเลือก (ความคิดเห็นไม่ใช่คำตอบเท่าที่ฉันรู้เกี่ยวกับ LHS มาจากวิกิพีเดียเมื่อสิบนาทีที่แล้ว ... )ϵ>0<ϵ/2ϵ
Creosote

นี่เป็นเรื่องจริง แต่ฉันไม่คิดว่ามันจะถูกนำมาใช้เพื่อแสดงความหนาแน่นของตัวอย่าง Hypercube ละตินขนาดใหญ่ได้อย่างง่ายดาย เหตุผลสำหรับสิ่งนี้คือจุดตัวอย่างใน LHS ไม่เป็นอิสระ: การมีอยู่ของจุดตัวอย่างภายในไฮเปอร์เทอร์แวลเฉพาะทำให้ไม่มีจุดตัวอย่างอื่น ๆ ปรากฏในแถว / คอลัมน์เดียวกัน .
S. Catterall Reinstate Monica

@Creosote คุณคิดว่าคุณสามารถทำเป็นทางการตอบเพิ่มเติมได้หรือไม่

@RealStatistician โปรดขยายโพสต์เปิดของคุณเพื่ออธิบายอย่างเป็นทางการตามที่คุณต้องการพิสูจน์สิ่งที่คุณหมายถึงโดย "ชุดของจุดที่ฉันสุ่มตัวอย่างจากนั้นหนาแน่นไปทั่วทั้งพื้นที่" ขอบคุณ
Creosote

หากฉันใช้ตัวอย่างละตินไฮเปอร์คิวบ์เริ่มต้นโดยที่มีขนาดใหญ่มากเราถือว่ามันไม่สำคัญเลยนั่นคือตัวอย่างที่หนาแน่นหรือไม่? n

คำตอบ:


6

คำตอบสั้น ๆ : ใช่ในความน่าจะเป็น มันเป็นไปได้ที่จะแสดงให้เห็นว่าเมื่อใดก็ตามที่มีระยะทางเซตย่อยจำกัดใด ๆของพื้นที่ตัวอย่างและ 'ความอดทน'กำหนดไว้สำหรับขนาดตัวอย่างที่มีขนาดใหญ่ แน่ใจว่าน่าจะเป็นที่มีจุดตัวอย่างภายในระยะไกลของเป็นสำหรับทุกม.{ x 1 , , x m } δ > 0 ϵ x i > 1 - δ i = 1 , , mϵ>0{x1,,xm}δ>0ϵxi>1δi=1,,m

คำตอบยาว: ฉันไม่ทราบถึงการอ้างอิงที่เกี่ยวข้องโดยตรง (แต่ดูด้านล่าง) วรรณกรรมส่วนใหญ่เกี่ยวกับ Latin Hypercube Sampling (LHS) เกี่ยวข้องกับคุณสมบัติการลดความแปรปรวน ปัญหาอื่นคือขนาดของกลุ่มตัวอย่างมีแนวโน้มที่จะเป็นหมายความว่าอย่างไร สำหรับการสุ่มตัวอย่าง IID อย่างง่าย ๆ ตัวอย่างของขนาดสามารถรับได้จากตัวอย่างขนาดโดยต่อท้ายตัวอย่างอิสระเพิ่มเติม สำหรับ LHS ฉันไม่คิดว่าคุณสามารถทำได้เนื่องจากมีการระบุจำนวนตัวอย่างล่วงหน้าเป็นส่วนหนึ่งของกระบวนการ ดังนั้นจึงปรากฏว่าคุณจะต้องใช้การสืบทอดของอิสระตัวอย่าง LHS ขนาด...n n - 1 1 , 2 , 3 , . .nn11,2,3,...

นอกจากนี้ยังมีความต้องการที่จะเป็นวิธีการแปลความหมายของ 'หนาแน่นในขีด จำกัด บางอย่างในขณะที่ขนาดของกลุ่มตัวอย่างมีแนวโน้มที่จะ\ความหนาแน่นดูเหมือนจะไม่เป็นไปตามที่กำหนดไว้สำหรับ LHS เช่นในสองมิติคุณสามารถเลือกลำดับของตัวอย่าง LHS ที่มีขนาดเช่นที่พวกเขาทั้งหมดยึดติดกับเส้นทแยงมุมของ 2 ดังนั้นการนิยามความน่าจะเป็นบางอย่างจึงจำเป็น อนุญาตสำหรับทุก ๆ ,เป็นตัวอย่างของขนาดสร้างขึ้นตามกลไกสุ่ม สมมติว่าสำหรับแตกต่างกันตัวอย่างเหล่านี้เป็นอิสระ จากนั้นเพื่อกำหนดความหนาแน่นแบบอะซิมโทติคเราอาจต้องการสิ่งนั้นสำหรับทุกตัวและสำหรับทุกคน1,2,3,...[0,1)2nXn=(Xn1,Xn2,...,Xnn)nnϵ>0xในพื้นที่ตัวอย่าง (สันนิษฐานว่าเป็น ) เรามี ( เป็น )[0,1)dP(min1knXnkxϵ)0n

ถ้าตัวอย่างจะได้รับโดยการกลุ่มที่เป็นอิสระจากการกระจาย ( 'IID สุ่มสุ่มตัวอย่าง') แล้วที่คือปริมาตรของลูกมิติรัศมี\แน่นอนว่าการสุ่มตัวอย่างของ IID นั้นมีความหนาแน่นแบบเชิงเส้นกำกับXnnU([0,1)d)

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

ตอนนี้ให้พิจารณากรณีที่ตัวอย่างได้มาจาก LHS ทฤษฎีบท 10.1 เหล่านี้ในบันทึกระบุว่าสมาชิกของกลุ่มตัวอย่างจะกระจายทั้งหมดเป็นง) อย่างไรก็ตามการเรียงสับเปลี่ยนที่ใช้ในคำจำกัดความของ LHS (แม้ว่าจะเป็นอิสระสำหรับมิติที่แตกต่างกัน) ทำให้เกิดการพึ่งพาระหว่างสมาชิกของกลุ่มตัวอย่าง ( ) ดังนั้นจึงไม่ชัดเจนว่าสมบัติความหนาแน่นของซีมโทติคXnXnU([0,1)d)Xnk,kn

แก้ไขและ d กำหนดepsilon) เราต้องการที่จะแสดงให้เห็นว่า0 ในการทำเช่นนี้เราสามารถใช้ประโยชน์จากข้อเสนอ 10.3 ในบันทึกย่อเหล่านั้นซึ่งเป็นทฤษฎีบทขีด จำกัด กลางสำหรับการสุ่มตัวอย่าง Hypercube แบบละติน กำหนดโดยถ้าอยู่ในลูกบอลรัศมีรอบ ,มิฉะนั้น จากนั้นข้อเสนอ 10.3 บอกเราว่าโดยที่และϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0f:[0,1]dRf(z)=1zϵxf(z)=0Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni){พรรณี})

ใช้เวลา 0 ในที่สุดมีขนาดใหญ่พอสำหรับเราจะมี-L ดังนั้นในที่สุดเราจะมี-L) ดังนั้นโดยที่เป็นมาตรฐาน cdf ปกติ เนื่องจากเป็นแบบสุ่มมันจึงตามมาว่าตามต้องการL>0nnμ<LPn=P(Yn=nμ)P(Yn<L)lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

นี่เป็นการพิสูจน์ความหนาแน่นของ asymptotic (ตามที่นิยามไว้ข้างต้น) สำหรับทั้งการสุ่มตัวอย่างแบบสุ่มและการสุ่ม หมายความว่าเมื่อใดก็ตามที่และใด ๆในพื้นที่สุ่มตัวอย่างความน่าจะเป็นที่กลุ่มตัวอย่างได้ภายในของนั้นใกล้เคียงกับ 1 ตามที่คุณต้องการโดยเลือกขนาดตัวอย่างที่มีขนาดใหญ่พอสมควร มันง่ายที่จะขยายแนวคิดเรื่องความหนาแน่นของ asymptotic เพื่อนำไปใช้กับขอบเขตย่อยของพื้นที่ตัวอย่าง - โดยการใช้สิ่งที่เรารู้แล้วไปยังแต่ละจุดในเซตย่อย จำกัด อย่างเป็นทางการมากขึ้นซึ่งหมายความว่าเราสามารถแสดง: สำหรับและเซตย่อยที่ จำกัดของพื้นที่ตัวอย่างϵxϵxϵ>0{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1 (เป็น )n


ฉันมีคำถามสองข้อ: 1) ถ้าคุณมีตัวอย่างขนาดที่มีขนาดใหญ่นั่นจะเปลี่ยนอาร์กิวเมนต์หรือไม่? และ 2) ตัวอย่าง hypercubes ละตินสามารถอยู่ในช่วงของค่าใด ๆ (ไม่จำเป็นต้องเป็นเพียง (0,1)) ดังนั้นสิ่งนั้นก็เปลี่ยนคำตอบด้วยเช่นกัน? nn

นอกจากนี้คุณยินดีที่จะอธิบายว่าทำไมถึงมีขนาดใหญ่พอเราจะมี ? ผมถือว่าหมายความว่าว่าสำหรับขนาดใหญ่ ,ไปที่ศูนย์เพราะในการจัดจำหน่ายจะเป็น ? nnμnμ^LHSN(0,Σ)

@RealStatistician ทุกอย่างถูกกำหนดในแง่ของตัวอย่าง จำกัด เช่นแต่มีขนาดใหญ่ ฉันได้เพิ่มคำอธิบายเพิ่มเติมในตอนท้ายเพื่ออธิบายว่าเกิดอะไรขึ้น ช่วงของค่าอื่น ๆ สามารถรองรับได้ง่าย ((0,1) ไม่พิเศษ) ตราบใดที่ปริมาตรของพื้นที่ตัวอย่างมี จำกัด n<
S. Catterall Reinstate Monica

คุณสามารถอธิบายคำตอบสั้น ๆ ของคุณได้อย่างละเอียดหรือไม่?

@RiskStatistician คำตอบสั้น ๆ เป็นบทสรุปอย่างไม่เป็นทางการของคำตอบยาว ๆ ของฉันซึ่งฉันคิดว่าคุณจะเห็นด้วยมีความซับซ้อนอยู่แล้ว! ดังนั้นตามที่แนะนำข้างต้นมันจะดีถ้าคุณสามารถเขียนคำถามของคุณในเงื่อนไขที่เป็นทางการมากขึ้นเพื่อให้ฉันรู้ว่าคำตอบที่พยายามของฉันอยู่ในเส้นทางที่ถูกต้อง (ในแง่ของการตอบคำถามที่คุณตั้งใจ) หรือไม่
S. Catterall Reinstate Monica

3

ฉันไม่แน่ใจว่านี่เป็นสิ่งที่คุณต้องการหรือไม่ แต่นี่จะไป

คุณกำลังสุ่มตัวอย่าง LHSแต้มจากพูด เราจะเถียงมากอย่างไม่เป็นทางการว่าสำหรับการใด ๆจำนวนที่คาดหวังของว่าง (มากเกินไป) รูปทรงสี่เหลี่ยมขนาดในแต่ละมิติไปเป็นศูนย์nn[0,1)dϵ>0ϵn

ปล่อยดังนั้นถ้าเราแบ่งสม่ำเสมอเป็นลูกบาศก์เล็ก ๆ - microcuboidsพูด - จากความกว้างแล้วทุกความกว้าง - cuboid ประกอบด้วย อย่างน้อยหนึ่ง microcuboid ดังนั้นหากเราสามารถแสดงให้เห็นว่าจำนวน microcuboids ที่ไม่ได้สุ่มตัวอย่างที่คาดหวังนั้นเป็นศูนย์ในจำนวนที่ จำกัด เป็นเราก็เสร็จแล้ว (โปรดทราบว่าmicrocuboidsของเราถูกจัดเรียงในตารางปกติ แต่ -cuboids สามารถอยู่ในตำแหน่งใดก็ได้)m=2/ϵ[0,1)dmd1/mϵnϵ

โอกาสที่จะหายไปอย่างสิ้นเชิงจาก microcuboid ที่มีจุดตัวอย่างแรกคือซึ่งเป็นอิสระจากเนื่องจากพิกัดตัวอย่างชุดแรก (จุดตัวอย่างแรก) สามารถเลือกได้อย่างอิสระ เนื่องจากจุดตัวอย่างแรก ๆ ไม่ได้รับ microcuboid จุดตัวอย่างที่ตามมาจะพบว่ามันยากที่จะพลาด (โดยเฉลี่ย) ดังนั้นโอกาสของจุดทั้งหมดที่หายไปนั้นน้อยกว่า .1mdndn(1md)n

มีmicrocuboidsในดังนั้นจำนวนที่คาดหวังที่พลาดจะถูก จำกัด โดย - เนื่องจากความคาดหวังเพิ่ม - ซึ่งเป็น ศูนย์ในขีด จำกัด เป็นnmd[0,1)dmd(1md)nn


อัปเดต ...

(1) นี่คือภาพที่แสดงวิธีการสำหรับคุณสามารถเลือกใหญ่พอเพื่อที่ของ "microcuboids" (สี่เหลี่ยมในภาพประกอบ 2 มิตินี้) รับประกันว่ามีอย่างน้อยหนึ่ง microcuboid ภายในanyขนาดภูมิภาค ฉันได้แสดงสองภูมิภาค"แบบสุ่ม" - เลือกและมีสีม่วงสอง microcuboids ที่มีสีϵmm×m ϵ×ϵϵ×ϵ

ป้อนคำอธิบายรูปภาพที่นี่

(2) พิจารณา microcuboid ใด ๆ โดยเฉพาะ มันมีปริมาณ , เศษส่วนของพื้นที่ทั้งหมด ดังนั้นตัวอย่าง LHS แรก - ซึ่งเป็นเพียงคนเดียวที่ได้รับการแต่งตั้งอย่างสมบูรณ์ได้อย่างอิสระ - จะพลาดไม่ได้กับความน่าจะเป็นd} ความจริงที่สำคัญเพียงอย่างเดียวคือว่านี่เป็นค่าคงที่ (เราจะแจ้งให้แต่เก็บคงที่) ที่น้อยกว่า1(1/m)dmd1mdnm1

(3) ตอนนี้คิดว่าเกี่ยวกับจำนวนของจุดตัวอย่างม. ฉันแสดงให้เห็นในภาพ LHS ทำงานในตาข่ายเล็ก ๆ เหล่านี้ขนาด "nanocuboids" (ถ้าคุณต้องการ) ไม่ใช่ขนาดใหญ่กว่า "microcuboids" ขนาด แต่ที่จริงแล้วมันไม่สำคัญในการพิสูจน์ การพิสูจน์ต้องการเพียงคำสั่งที่โบกมือเล็กน้อยซึ่งโดยเฉลี่ยแล้วจะค่อยๆยากขึ้นเรื่อย ๆ เพื่อที่จะไม่ได้รับ microcuboid ที่กำหนดในขณะที่คุณทิ้งคะแนนมากขึ้น ดังนั้นจึงน่าจะเป็นสำหรับจุด LHS แรกที่หายไป แต่น้อยกว่าสำหรับทั้งหมดที่หายไป: นั่นคือศูนย์ในขีด จำกัด ที่เป็นn>mn=6mn1×n1m1×m11md(1md)n nnn

(4) epsilons เหล่านี้ทั้งหมดเป็นสิ่งที่ดีสำหรับการพิสูจน์ แต่ไม่ดีสำหรับสัญชาตญาณของคุณ ดังนั้นนี่คือภาพสองภาพที่แสดงตัวอย่างจุดและด้วยพื้นที่สี่เหลี่ยมที่ว่างเปล่าที่ใหญ่ที่สุด (ตารางเป็นตารางสุ่มตัวอย่าง LHS - "nanocuboids" ที่อ้างถึงก่อนหน้านี้) มันควรจะเป็น "ชัดเจน" (ในความรู้สึกที่เข้าใจง่ายคลุมเครือ) ว่าพื้นที่ว่างที่ใหญ่ที่สุดจะหดเป็นขนาดเล็กโดยพลตามจำนวนจุดตัวอย่าง\n=10n=50n

ป้อนคำอธิบายรูปภาพที่นี่


อาร์กิวเมนต์นี้มีไว้สำหรับช่วงเวลาทั่วไปหรือไม่? แทนที่จะเป็น ? [0,1)

ใช่สำหรับมิติที่ จำกัด ใด ๆ มันควรจะชัดเจนกว่าตอนนี้ที่ฉันได้แก้ไขหลักฐานแล้ว
Creosote

เป็นไปได้หรือไม่ที่จะให้ภาพ 1-d หรือ 2-d ของหลักฐานนี้ ฉันหลงทางอยู่

เสร็จสิ้น ยินดีที่จะตอบคำถามเพิ่มเติมหากจำเป็น
Creosote

ขอบคุณมาก! แน่นอนว่าตอนนี้ช่วยได้ด้วยสัญชาตญาณ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.