ตัวเลขสุ่มชุดปลอม: กระจายอย่างเท่าเทียมกันมากกว่าข้อมูลชุดที่แท้จริง


43

ฉันกำลังมองหาวิธีการสร้างตัวเลขสุ่มที่ปรากฏจะได้รับเครื่องแบบกระจาย - และทุกการทดสอบจะแสดงให้พวกเขาเป็นเครื่องแบบ - ยกเว้นว่าพวกเขาจะกระจายกว่าข้อมูลเครื่องแบบจริงอย่างสม่ำเสมอมากขึ้น

ปัญหาที่ฉันมีกับเครื่องแบบ "จริง" คือพวกเขาจะจัดกลุ่มเป็นครั้งคราว เอฟเฟกต์นี้แข็งแกร่งกว่าขนาดตัวอย่างที่ต่ำ Roughly พูดว่า: เมื่อฉันวาด randoms Uniform สองตัวใน U [0; 1] โอกาสอยู่ที่ประมาณ 10% ซึ่งอยู่ในช่วง 0.1 และ 1% ที่อยู่ภายใน 0.01

ดังนั้นฉันกำลังมองหาวิธีที่ดีในการสร้างตัวเลขสุ่มที่มีการกระจายกว่า randoms

ใช้ตัวอย่างกรณี: บอกว่าฉันทำเกมคอมพิวเตอร์และฉันต้องการวางสมบัติแบบสุ่มบนแผนที่ (ไม่สนใจสิ่งอื่นใด) ฉันไม่ต้องการให้สมบัติอยู่ในที่เดียวมันควรอยู่ทั่วแผนที่ ถ้าผมใส่พูดว่าแรนดอมเครื่องแบบ 10 ชิ้นโอกาสที่จะไม่ต่ำมากที่มี 5 หรือใกล้เคียงกันมาก นี่อาจทำให้ผู้เล่นคนหนึ่งได้เปรียบกว่าผู้เล่นคนอื่น นึกถึงเรือกวาดทุ่นระเบิดโอกาส (แม้ว่าจะต่ำถ้ามีเหมืองมากพอ) คุณคิดว่าคุณโชคดีมากและชนะด้วยการคลิกเพียงครั้งเดียว

แนวทางที่ไร้เดียงสามากสำหรับปัญหาของฉันคือการแบ่งข้อมูลออกเป็นกริด ตราบใดที่จำนวนมีขนาดใหญ่พอ (และมีปัจจัย) ก็สามารถบังคับใช้ความสม่ำเสมอเป็นพิเศษได้ด้วยวิธีนี้ ดังนั้นแทนที่จะวาด 12 ตัวแปรสุ่มจาก U [0; 1], ฉันสามารถวาด 6 จาก U [0; .5] และ 6 จาก U [0.5; 1], หรือ 4 จาก U [0; 1/3] + 4 จาก U [1/3; 2/3] + 4 จาก U [2/3; 1]

มีวิธีใดที่ดีกว่าในการเพิ่มความสมดุลให้กับชุดเครื่องแบบนี้หรือไม่? อาจใช้ได้กับแบทช์แรนด์เท่านั้น (เมื่อวาดแบบสุ่มเดี่ยวฉันต้องพิจารณาช่วงทั้งหมด) โดยเฉพาะอย่างยิ่งฉันสามารถสลับการบันทึกอีกครั้งหลังจากนั้น (ไม่ใช่สี่ครั้งแรกจากสามครั้งแรก)

วิธีการเกี่ยวกับการทำมันทีละน้อย? ดังนั้นสิ่งแรกคือใน U [0; 1], สองจากแต่ละครึ่งหนึ่งจากแต่ละสามหนึ่งจากแต่ละสี่? สิ่งนี้ได้รับการตรวจสอบแล้วและมันดีแค่ไหน? ฉันอาจต้องระมัดระวังในการใช้เครื่องกำเนิดไฟฟ้าที่แตกต่างกันสำหรับ x และ y เพื่อไม่ให้มีความสัมพันธ์ (xy แรกมักจะอยู่ในครึ่งล่างเสมอที่สองในครึ่งซ้ายและล่างที่สามที่สามในศูนย์ที่สามและที่สามบน .. ดังนั้นอย่างน้อยก็จำเป็นต้องมีการสับเปลี่ยน bin แบบสุ่มอีกด้วยและในระยะยาวฉันก็เดาด้วยซ้ำ

ในฐานะที่เป็นโหนดด้านข้างมีการทดสอบที่รู้จักกันดีว่าการแจกแจงบางอย่างมีการกระจายอย่างสม่ำเสมอเกินไปที่จะเหมือนกันอย่างแท้จริงหรือไม่? ดังนั้นการทดสอบ "ชุดเหมือนจริง" กับ "บางคนยุ่งกับข้อมูลและกระจายรายการอย่างเท่าเทียมกัน" ถ้าฉันจำได้อย่างถูกต้องสถิติของฮอปกินส์สามารถวัดได้ แต่มันสามารถใช้สำหรับการทดสอบได้หรือไม่ นอกจากนี้ยังมีการทดสอบ KS แบบผกผัน: หากค่าเบี่ยงเบนที่ใหญ่ที่สุดต่ำกว่าเกณฑ์ที่คาดไว้ข้อมูลจะกระจายอย่างสม่ำเสมอหรือไม่


7
คุณเคยได้ยินเรื่องของลำดับ Haltonหรือไม่? สำหรับ "อย่างสม่ำเสมอ" ผู้คน (เริ่มต้นด้วยการสอบสวนของฟิชเชอร์เกี่ยวกับผลการทดสอบถั่วของเมนเดล) ได้อ้างถึงสถิติไคสแควร์ (ปกติ) ที่หางล่างของการแจกแจงไคสแควร์
whuber

วิธีหนึ่งในการอย่างเป็นทางการนี้จะเป็นที่จะต้องการการกระจายเช่นว่า (1) กรัม( ) marginalizes ไป1กว่าx 1 , . . , x n - 1 (2) กรัมสมมาตรคือX 1 , . . , X nเป็นที่แลกเปลี่ยนและ (3) กรัม( x 1 ,g(x1,...,xn)g()1x1,...,xn1gX1,...,Xnที่มีขนาดใหญ่เมื่อ x 1 , . . , x nถูกแยกย้ายกันไป ฉันคิดว่ามีปัญหาจริงกับ (2) และ (3) เนื่องจากลำดับการแลกเปลี่ยนที่ไม่มีที่สิ้นสุดใน Rไม่สามารถมีความสัมพันธ์เชิงลบดังนั้น n ที่ใหญ่กว่าที่เราต้องการใช้แรงผลักที่น้อยกว่าที่เราสามารถบังคับใช้ ในทางกลับกันสำหรับ nขนาดใหญ่เราควรมีการแพร่กระจายที่ดีอย่างไรก็ตาม g(x1,...,xn)x1,...,xnRnn
คนที่แต่งตัวประหลาด

ลำดับ Halton ค่อนข้างใกล้เคียงกับวิธีการที่ฉันคิด รวมถึงการข้ามสองสามรายการแรกเพื่อลดความเสี่ยงของความสัมพันธ์ ฉันยังคิดที่จะใช้วิธีการเรียงสับเปลี่ยนแบบสุ่มสำหรับแต่ละระดับ ขอบคุณสำหรับตัวชี้นี้เพราะนี่เป็นจุดที่ดีสำหรับฉันในการค้นหาวิธีการที่เกี่ยวข้อง!
Anony-Mousse

WRT ลำดับ Halton อีกครั้ง ฉันต้องให้พวกเขาไม่ จำกัด อย่างน้อยยกเว้นเมล็ดเริ่มต้น ฉันเห็นสองวิธีที่นี่ ฉันสามารถทำการเปลี่ยนแบบวงกลมโดยการสุ่มออฟเซ็ต + ขนาดเริ่มต้นแบบสุ่ม + ขนาดขั้นตอน ปัญหาคือแน่นอนว่า "สมบัติ" ที่ยังคงอยู่กับตัวอย่างของเกมไม่ควรอยู่ในตำแหน่งเดียวกันที่สัมพันธ์กันในแต่ละครั้ง หรือฉันสามารถใช้วิธีแบบสม่ำเสมอจากช่วงย่อยที่ฉันมีในคำถามของฉันเพื่อเพิ่มจำนวน "การหมุนแบบสุ่ม" บางส่วน ดังนั้นจะพูดว่า: Halton ดูเหมือนจะคาดเดาได้อีกครั้งและเป็นปกติสำหรับการใช้ของฉัน
Anony-Mousse

3
en.wikipedia.org/wiki/Low-discrepancy_sequenceหรือmathworld.wolfram.com/QuasirandomSequence.html การทดสอบทั่วไปหลายชุดของเครื่องแบบ RNG (เช่นในชุดทดสอบแบตเตอรี่ Diehard / Dieharder) มีความไวต่อสิ่งเหล่านี้ ตัวอย่างเช่นมี 'ระยะทางเล็ก' น้อยเกินไประหว่างจุด
Glen_b

คำตอบ:


60

ใช่มีหลายวิธีในการสร้างลำดับของตัวเลขที่กระจายอย่างสม่ำเสมอมากกว่าเครื่องแบบแบบสุ่ม ในความเป็นจริงมีทั้งสนามทุ่มเทให้กับคำถามนี้ มันเป็นกระดูกสันหลังของquasi-Monte Carlo (QMC) ด้านล่างนี้เป็นการทัวร์สั้น ๆ เกี่ยวกับข้อมูลเบื้องต้นแบบสัมบูรณ์

การวัดความสม่ำเสมอ

มีหลายวิธีในการทำเช่นนี้ แต่วิธีที่พบบ่อยที่สุดมีรสชาติที่แข็งแกร่งและใช้งานง่ายเรขาคณิต สมมติว่าเรามีความกังวลกับการสร้างจุดx 1 , x 2 , ... , x nใน[ 0 , 1 ] dสำหรับบางจำนวนเต็มบวกd กำหนด ที่คือสี่เหลี่ยมในเช่นนั้นnx1,x2,,xn[0,1]dd

Dn:=supRR|1ni=1n1(xiR)vol(R)|,
R[a1,b1]××[ad,bd][0,1]d0aibi1และคือชุดของรูปสี่เหลี่ยมผืนผ้าทั้งหมด ในระยะแรกภายในโมดูลัสคือ "ข้อสังเกต" สัดส่วนของจุดภายในและระยะที่สองคือระดับเสียงของ ,Ä_i)RRRvol(R)=i(biai)

ปริมาณมักจะเรียกว่าแตกต่างหรือความแตกต่างมากของชุดของจุด(x_i)โดยสังหรณ์ใจเราพบว่าสี่เหลี่ยม "เลวร้ายที่สุด"ซึ่งสัดส่วนของจุดเบี่ยงเบนมากที่สุดจากสิ่งที่เราคาดหวังภายใต้ความสม่ำเสมอที่สมบูรณ์แบบDn(xi)R

นี่เป็นเรื่องยากในทางปฏิบัติและยากต่อการคำนวณ ส่วนใหญ่คนชอบที่จะทำงานร่วมกับความแตกต่างดาว , ข้อแตกต่างเพียงอย่างเดียวคือเซตซึ่งใช้ supremum มันเป็นชุดของการยึดสี่เหลี่ยม (ที่จุดกำเนิด) คือที่0

Dn=supRA|1ni=1n1(xiR)vol(R)|.
Aa1=a2==ad=0

แทรก :สำหรับทุก , dพิสูจน์ มือซ้ายผูกไว้เป็นที่ชัดเจนตั้งแต่R ทางด้านขวามือ - มัดดังนี้เพราะทุกสามารถประกอบผ่านทางสหภาพแรงงานทางแยกและเติมเต็มไม่เกินสี่เหลี่ยมยึด (กล่าวคือใน )DnDn2dDnnd
ARRR2dA

ดังนั้นเราจะเห็นว่าและเทียบเท่ากันในแง่ที่ว่าถ้ามีขนาดเล็กพอ ๆ กับที่เติบโตขึ้น นี่คือภาพ (การ์ตูน) ที่แสดงรูปสี่เหลี่ยมของผู้สมัครสำหรับแต่ละความคลาดเคลื่อนDnDnn

ความคลาดเคลื่อนสุดขั้วและดาว

ตัวอย่างของลำดับ "ดี"

ลำดับดาวคลาดเคลื่อนต่ำ verifiablyมักจะเรียกว่าแปลกใจลำดับความคลาดเคลื่อนต่ำDn

ฟานเดอร์ Corput นี่อาจเป็นตัวอย่างที่ง่ายที่สุด สำหรับลำดับ van der Corput จะเกิดขึ้นโดยการขยายจำนวนเต็มในเลขฐานสองและจากนั้น "สะท้อนตัวเลข" รอบจุดทศนิยม อีกอย่างเป็นทางการนี้จะทำกับผกผันรุนแรงฟังก์ชั่นในฐาน , ที่และเป็นตัวเลขในฐานการขยายตัวของฉันฟังก์ชั่นนี้เป็นพื้นฐานสำหรับลำดับอื่น ๆ อีกมากมายเช่นกัน ตัวอย่างเช่นในไบนารีคือและอื่น ๆd=1ib

ϕb(i)=k=0akbk1,
i=k=0akbkakbi41101001a0=1 , , , ,และ1 ดังนั้นจุดที่ 41 ในแวนเดอร์ลำดับ Corput เป็น37/64a1=0a2=0a3=1a4=0a5=1x41=ϕ2(41)=0.100101(base 2)=37/64

โปรดทราบว่าเนื่องจากบิตอย่างมีนัยสำคัญน้อยที่สุดของ oscillates ระหว่างและจุดสำหรับแปลกอยู่ในในขณะที่จุดสำหรับแม้แต่อยู่ใน2)i01xii[1/2,1)xii(0,1/2)

ลำดับ Halton ในบรรดาที่นิยมมากที่สุดของลำดับคลาสสิกที่มีความคลาดเคลื่อนต่ำเหล่านี้คือส่วนขยายของลำดับ van der Corput เป็นหลายมิติ ให้เป็นนายกที่เล็กที่สุดของจากนั้นจุดที่ของลำดับ -dimensional Halton คือ ต่ำเหล่านี้ทำงานได้ค่อนข้างดี แต่มีปัญหาในมิติที่สูงขึ้นpjjixid

xi=(ϕp1(i),ϕp2(i),,ϕpd(i)).
d

Halton ลำดับความพึงพอใจง) พวกเขายังมีความสุขเพราะพวกเขาจะขยายในว่าการก่อสร้างของจุดที่ไม่ได้ขึ้นอยู่ในเบื้องต้นทางเลือกของความยาวของลำดับnDn=O(n1(logn)d)n

ลำดับ Hammersley นี่เป็นการแก้ไขลำดับของ Halton ที่ง่ายมาก เราใช้ อาจจะแปลกใจข้อดีคือว่าพวกเขามีความแตกต่างที่ดีกว่าดาว{d-1})

xi=(i/n,ϕp1(i),ϕp2(i),,ϕpd1(i)).
Dn=O(n1(logn)d1)

นี่คือตัวอย่างของลำดับ Halton และ Hammersley ในสองมิติ

Halton และ Hammersley

Faure-permuted ลำดับ พีชคณิตชุดพิเศษ (คงที่ในฐานะฟังก์ชันของ ) สามารถนำไปใช้กับการขยายตัวหลักสำหรับแต่ละเมื่อสร้างลำดับ Halton สิ่งนี้จะช่วยแก้ไข (ในระดับหนึ่ง) ปัญหาที่กล่าวถึงในมิติที่สูงขึ้น แต่ละวิธีเรียงสับเปลี่ยนมีคุณสมบัติที่น่าสนใจในการรักษาและเป็นจุดคงที่iaki0b1

กฎตาข่าย ให้เป็นจำนวนเต็ม รับ ที่หมายถึงส่วนที่เป็นเศษส่วนของYตัวเลือกที่ชาญฉลาดของค่าให้คุณสมบัติความสม่ำเสมอที่ดี ตัวเลือกที่ไม่ดีสามารถนำไปสู่ลำดับที่ไม่ดี พวกเขายังไม่สามารถขยายได้ นี่คือสองตัวอย่างβ1,,βd1

xi=(i/n,{iβ1/n},,{iβd1/n}),
{y}yβ

โปรยที่ดีและไม่ดี

(t,m,s)มุ้ง อวนในฐานคือชุดของจุดที่ทุก ๆ รูปสี่เหลี่ยมผืนผ้าของปริมาตรในมีจุดอยู่ นี่คือรูปแบบที่แข็งแกร่งของความสม่ำเสมอ เล็กคือเพื่อนของคุณในกรณีนี้ ลำดับ Halton, Sobol 'และ Faure เป็นตัวอย่างของตาข่ายเหล่านี้ยืมตัวเองอย่างเพื่อสุ่มตัวอย่างผ่าน scrambling สุ่ม scrambling (ทำขวา) ของอัตราผลตอบแทนสุทธิอีกสุทธิ มิ้นท์โครงการช่วยให้คอลเลกชันของลำดับดังกล่าว(t,m,s)bbtm[0,1]sbtt(t,m,s)(t,m,s)(t,m,s)

การสุ่มแบบง่าย: ผลัด ให้เป็นลำดับของคะแนน Let(0,1) จากนั้นจุดมีการกระจายอย่างสม่ำเสมอใน dxi[0,1]dUU(0,1)x^i={xi+U}[0,1]d

นี่คือตัวอย่างที่มีจุดสีฟ้าเป็นจุดเดิมและจุดสีแดงเป็นจุดที่มีการหมุนซึ่งมีเส้นเชื่อมต่อกัน (และแสดงให้เห็นโดยรอบเมื่อเหมาะสม)

Cranley Patterson

ลำดับสิ้นเชิงกระจายอย่างสม่ำเสมอ นี่คือความคิดที่แข็งแกร่งยิ่งขึ้นของความสม่ำเสมอที่บางครั้งเข้ามาเล่น Letเป็นลำดับของคะแนนในและตอนนี้ในรูปแบบบล็อกขนาดที่ทับซ้อนกันที่จะได้รับตามลำดับ(x_i)ดังนั้นถ้าเรารับดังนั้นฯลฯ ถ้าสำหรับทุก ,แล้วกล่าวจะสมบูรณ์กระจายอย่างสม่ำเสมอ กล่าวอีกนัยหนึ่งลำดับจะให้คะแนนของชุดใด ๆ(ui)[0,1]d(xi)s=3x1=(u1,u2,u3)x2=(u2,u3,u4) s1Dn(x1,,xn)0(ui)ส่วนข้อมูลที่มีคุณสมบัติต้องการDn

ตัวอย่างเช่นลำดับแวนเดอร์คอร์พุตไม่ได้กระจายอย่างสม่ำเสมอตั้งแต่ , จุดอยู่ในจตุและจุดอยู่ใน2) ดังนั้นมีจุดไม่มีในตารางซึ่งหมายความว่าสำหรับ ,สำหรับทุกns=2x2i(0,1/2)×[1/2,1)x2i1[1/2,1)×(0,1/2)(0,1/2)×(0,1/2)s=2Dn1/4n

การอ้างอิงมาตรฐาน

เอกสารของNiederreiter (1992)และข้อความFang and Wang (1994)เป็นสถานที่ที่จะไปสำรวจเพิ่มเติม


4
คำตอบนี้ยอดเยี่ยมและฉันแค่อยากจะชื่นชมความพยายามของคุณ ขอขอบคุณ!
Anony-Mousse

1
คำถามติดตามหนึ่งข้อเล็กน้อย ลำดับ Halton ดูดีเพราะพวกมันดูเหมือนจะไม่ปกติเกินไป เรื่องขัดแตะนั้นเป็นเรื่องปกติสำหรับฉันและลำดับของแฮมเมอร์สลีย์ดูเหมือนว่าจะมีวัตถุมากมายบนเส้นผ่านจุดกำเนิด เป็นวิธีที่ดีในการควบคุมความสมดุลระหว่างชุดที่แท้จริงและชุดปลอมคืออะไร? เพียงรับผลงาน 80% จาก Halton + ชุดสุ่ม 20%?
Anony-Mousse

1
+ 10k และแน่นอนด้วยคำตอบที่ต่ำมาก (87 !!!!)! โอ้และฉันชอบโพสต์นี้มาก ฉันทำบุ๊กมาร์กคำถามเพราะจริงๆแล้ว ทำได้ดีมาก @ cardinal
มาโคร

@Macro: ขอบคุณสำหรับความคิดเห็นที่ดี! คุณใจดีมาก ๆ. ฉันคิดว่าสิ่ง 10K นี้อาจชั่วคราวสำหรับฉัน ฉันสงสัยว่าฉันจะลดลงต่ำกว่า 10K ทันทีที่คะแนนของ Procrastinator เปลี่ยนกลับ ฉันประหลาดใจที่เรื่องนี้ยังไม่เกิดขึ้น ฉันเชื่อว่าพวกเขาลงคะแนนเกือบ 3000 คะแนนในเว็บไซต์นี้ ขอบคุณสำหรับการโพสต์ที่นี่; อย่างใดฉันไม่เคยเห็นคำถามติดตามของ Anony-Mousse!
พระคาร์ดินัล

@ Anony-Mousse: ขออภัยในความล่าช้าอย่างรุนแรงในการตอบสนอง ฉันต้องมองข้ามความคิดเห็นเหล่านี้ ฉันคิดว่าการสร้างสมดุลจะขึ้นอยู่กับเป้าหมายของคุณ ในทางทฤษฎีการพูดแนะนำจุดสุ่มใด ๆ ถูกผูกไว้เพื่อทำลายคุณสมบัติที่ดีที่สุดของตัวอย่างเช่น ในทางปฏิบัติมันอาจดีกว่าที่จะใช้ Jitter เล็ก ๆ น้อย ๆ ของจุด QMC ที่ Jitter ถูกเลือกตามคุณสมบัติของลำดับ คุณสามารถแนะนำการแปลงร่างแบบแข็งเกร็งในทุกจุดเช่นการเลื่อนและการหมุนประสานงาน DD
พระคาร์ดินัล

3

วิธีหนึ่งในการทำเช่นนี้คือการสร้างตัวเลขสุ่มแบบสม่ำเสมอจากนั้นทดสอบ "ความใกล้ชิด" โดยใช้วิธีการใด ๆ ที่คุณต้องการแล้วลบรายการแบบสุ่มที่ใกล้เคียงกับผู้อื่นมากเกินไปและเลือกชุดเครื่องแบบสุ่มอีกชุดเพื่อชดเชย

การแจกจ่ายดังกล่าวจะผ่านการทดสอบที่สม่ำเสมอทุกครั้งหรือไม่ ฉันหวังว่าจะไม่! มันไม่ได้กระจายอย่างสม่ำเสมออีกต่อไปตอนนี้มันเป็นการกระจายตัวอื่น ๆ

ความน่าจะเป็นด้านหนึ่งที่ไม่เข้าใจง่ายคือโอกาสนั้นเป็นก้อน มีการสุ่มข้อมูลมากกว่าที่ผู้คนคิดว่าจะมี ฉันคิดว่า Tversky ได้ทำการวิจัยบางอย่างเกี่ยวกับเรื่องนี้ (เขาค้นคว้ามาก ๆ ว่ามันยากที่จะจำได้)


2
หนึ่งในปัญหา (มาก) ด้วยวิธีนี้คือมันยากมากที่จะระบุลักษณะการกระจายผล
whuber

OP น่าจะเกี่ยวข้องกับตัวอย่างขนาดเล็กที่สุด สิ่งนี้จะแนะนำว่าเขาไม่จำเป็นต้องสนใจเรื่องการกระจายทั้งหมด สมมติว่าคุณมีชุดของพิกัดที่คุณสร้างอีกแล้วคำนวณระยะทางแบบยุคลิดที่เกี่ยวกับคนอื่น ๆ ทั้งหมด หากระยะทางที่เล็กที่สุดอยู่ต่ำกว่าระดับที่กำหนดให้โยนตัวเลขนั้นออกและสร้างใหม่ ฉันคิดว่าทางออกของปีเตอร์ใช้ได้ดี
จอห์น

@whuber เขาดูเหมือนจะไม่สนใจในเรื่องนั้นแม้ว่าฉันอาจจะผิด
Peter Flom - Reinstate Monica

2
ให้ฉันกล่าวคำคัดค้านของฉันให้ชัดเจนยิ่งขึ้น Peter: เมื่อคุณลบและ / หรือปรับค่า pseudorandom ในแบบเฉพาะกิจเพื่อประมาณคุณสมบัติที่ต้องการเช่นขาดการจัดกลุ่มมันยากที่จะมั่นใจได้ว่าผลลัพธ์ที่ได้นั้นมีใด ๆคุณสมบัติที่พึงประสงค์ ยกตัวอย่างเช่นวิธีการของคุณคุณสามารถบอกเราได้ว่าช่วงเวลาแรกของกระบวนการที่เกิดขึ้นคืออะไร (นั่นคือคุณช่วยให้เรามั่นใจได้ว่าความเข้มนั้นเหมือนกันหรือไม่) ในวินาทีที่สอง? โดยปกติแล้วสิ่งเหล่านี้เป็นข้อมูลขั้นต่ำที่จำเป็นในการใช้ลำดับอย่างมีประสิทธิภาพสำหรับการอนุมาน
whuber

2
ตกลง แต่ในตัวอย่างในคำถามเขาต้องการวางสมบัติบนแผนที่ในเกม ที่จะไม่เกี่ยวข้องกับการอนุมานหรือช่วงเวลาหรืออะไรก็ตาม ฉันยอมรับวิธีการของฉันจะไม่ดีสำหรับวัตถุประสงค์มากมาย แต่ฉันคิดว่ามันตรงกับตัวอย่าง แน่นอนบางทีตัวอย่างอาจไม่ใช่สิ่งที่เขาต้องการ .... บางทีเขาอาจต้องการสิ่งที่เป็นทางการมากกว่าซึ่งในกรณีนี้ควรดูคำตอบอื่น ๆ ทั้งหมด
Peter Flom - Reinstate Monica

3

สิ่งนี้เรียกว่ากระบวนการจุดปัวซง "ฮาร์ดคอร์" ซึ่งตั้งชื่อโดย Brian Ripley ในปี 1970; นั่นคือคุณต้องการให้มันเป็นแบบสุ่ม แต่คุณไม่ต้องการให้คะแนนอยู่ใกล้กันเกินไป "ฮาร์ดคอร์" สามารถจินตนาการได้ว่าเป็นเขตกันชนรอบ ๆ ซึ่งจุดอื่นไม่สามารถก้าวก่าย

ลองนึกภาพคุณกำลังบันทึกตำแหน่งของรถยนต์บางคันในเมือง - แต่คุณจะบันทึกเฉพาะจุดที่กึ่งกลางของรถ ในขณะที่พวกเขาอยู่บนถนนไม่มีคู่สองจุดใดสามารถเข้ามาใกล้กันได้เพราะคะแนนนั้นได้รับการปกป้องโดย "ฮาร์ดคอร์" ของตัวถังรถ - เราจะไม่สนใจตำแหน่งที่มีศักยภาพสูงในที่จอดรถหลายชั้น :-)

มีขั้นตอนสำหรับการสร้างกระบวนการจุดดังกล่าว - วิธีหนึ่งคือการสร้างจุดอย่างสม่ำเสมอและจากนั้นลบสิ่งที่อยู่ใกล้กันเกินไป

สำหรับรายละเอียดบางอย่างเกี่ยวกับกระบวนการดังกล่าวให้อ้างอิงตัวอย่างนี้


2

สำหรับการสร้างแบตช์ล่วงหน้าฉันจะสร้างชุดตัวแปร pseudorandom จำนวนมากแล้วทดสอบกับชุดทดสอบเช่นการทดสอบ Kolmogorov-Smirnov คุณจะต้องเลือกชุดที่มีค่า p มากที่สุด (เช่นเหมาะที่สุด) โปรดทราบว่าสิ่งนี้จะช้า แต่เมื่อขึ้นมันอาจมีความจำเป็นน้อยลง p1N

ในแง่ของการสร้างที่เพิ่มขึ้นนั้นคุณกำลังมองหาซีรีส์ที่มีความสัมพันธ์เชิงลบในระดับปานกลาง ฉันไม่แน่ใจว่าวิธีที่ดีที่สุดในการทำเช่นนี้จะเป็นอย่างไรเนื่องจากฉันมีประสบการณ์ จำกัด กับอนุกรมเวลา แต่ฉันสงสัยว่ามีอัลกอริทึมที่มีอยู่สำหรับสิ่งนี้

สำหรับการทดสอบสำหรับ "เกินไป" การทดสอบใด ๆ ว่าตัวอย่างตามการแจกแจงที่เฉพาะเจาะจง (เช่น KS ที่ระบุไว้ด้านบน) จะทำอย่างไรคุณเพียงแค่ต้องการตรวจสอบว่ามากกว่า วิธีการมาตรฐาน ผมเขียนเกี่ยวกับตัวอย่างของวิธีทางเลือกนี้ที่นี่: ไคสแควร์เสมอทดสอบด้านเดียว p>(1α)


1

ฉันจะทำให้ปัญหาของคุณเป็นทางการด้วยวิธีนี้: คุณต้องการกระจายไปทั่วซึ่งความหนาแน่นคือสำหรับบางตัวชี้วัดความน่าเชื่อถือของคะแนน[0,1]nf(x)e(1kij|xixj|k)1kk<0

วิธีง่ายๆในการสร้างเวกเตอร์ดังกล่าวคือทำการสุ่มตัวอย่างจากกิ๊บส์


คุณสามารถทำอย่างละเอียดเกี่ยวกับเรื่องนี้? การสุ่มตัวอย่างของกิ๊บส์ดูเหมือนจะไม่ช่วยที่นี่เช่นเดียวกับการแจกแจงแบบมีเงื่อนไข = การกระจายเล็กน้อย = เครื่องแบบ? หรือข้อเสนอแนะของคุณที่จะใช้ตัวอย่างก่อนหน้านี้ในการผลิต "หลุม" ในการจัดจำหน่ายเพื่อเป็นตัวอย่างจาก?
Anony-Mousse

เลือกเวกเตอร์สุ่มที่มีรูปแบบเหมือนกันแล้วเลือกดัชนีและสุ่มซ้ำอีกครั้ง คำนวณอัตราส่วนของก่อนและหลังการ resampling และปฏิเสธ resampling ของคุณด้วยอัตราต่อรองRนี่เป็นคำตอบที่เร็วกว่าคำตอบอื่น ๆ ที่คุณได้รับเมื่อคุณมีเวกเตอร์ที่ยาวมากเพราะคุณแสดงผลในพื้นที่มากกว่าที่จะถูกปฏิเสธทั่วโลก ixirf(x)r
Neil G
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.