ขอบเขตล่างสำหรับการทดสอบความใกล้ชิดในบรรทัดฐาน


11

ฉันสงสัยว่ามีขอบเขตต่ำกว่า (ในแง่ของความซับซ้อนตัวอย่าง) ที่ทราบสำหรับปัญหาต่อไปนี้:

ให้ oracle เข้าถึงตัวอย่างการแจกแจงที่ไม่รู้จักสองD1 , D2ใน{1,,n} , ทดสอบ (whp)

  • D1=D2
  • d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

บาตูและคณะ [BFR + 00]พบว่าตัวอย่างเพียงพอ แต่ฉันไม่พบการพูดถึงขอบเขตล่างเลย?O(1ϵ4)

ฉันคิดว่าคนหนึ่งสามารถแสดงโดยลดภาระของการแยกแยะความยุติธรรมเทียบกับอิงเหรียญกับปัญหานี้ (จำลองการกระจายที่รองรับเพียงสอง ชี้และตอบคำถามของผู้ทดสอบตามการโยนเหรียญ iid) แต่ยังคงมีช่องว่างกำลังสอง ...ϵΩ(1ϵ2)ϵ

(อีกประเด็นที่ฉันสนใจคือขอบเขตที่ต่ำกว่าในการประมาณ (ขึ้นกับสารเติมแต่ง ) ระยะทางนี้- อีกครั้งฉันไม่พบการอ้างอิงถึงผลลัพธ์ดังกล่าวในวรรณคดี)L 2ϵL2

ขอบคุณสำหรับความช่วยเหลือของคุณ,


ปัญหาสัญญานี้ดูเหมือนจะคล้ายกับความแตกต่างทางสถิติที่เรียกว่าSahai และ Vadhan ซึ่งเป็นปัญหาที่สมบูรณ์สำหรับชั้นเรียน SZK (ศูนย์ความรู้ทางสถิติ); อย่างไรก็ตามพวกเขาใช้ระยะทางcs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf (แก้ไข: นอกจากนี้ฉันคิดว่าพวกเขากำลังสมมติว่าคุณมีวงจรคำนวณการกระจายไม่ใช่การเข้าถึง oracle)L1
usul

สวัสดีตามที่กล่าวไว้ในความคิดเห็นของอีกความแตกต่างระหว่างและบรรทัดฐานเป็นจริงที่สำคัญที่นี่ - เพิ่มเติมในกระดาษบิดาพวกเขาตั้งขึ้นอย่างชัดเจน (และไม่พล) เกณฑ์ (หนึ่งในคำพูดที่ พวกเขาอธิบายว่าเกณฑ์นี้จำเป็นต้องตอบสนองข้อ จำกัด บางประการ); และต้องการแยกแยะความแตกต่างเทียบกับ (ซึ่งใกล้เคียงกับการทดสอบ / การประมาณระยะทางที่อดทนมากกว่า "การทดสอบปกติ" ซึ่งคุณต้องการทดสอบกับ (แต่สำหรับใด ๆ ที่คงที่) L 1 τ = 1 / 3 d 1τ d 21 - τ d 2 = 0 d 2ε εL2L1τ=1/3d1τd21τd2=0d2ϵϵ
ผ่อนผัน C.

คำตอบ:


6

ปรากฏว่าตัวอย่าง - ตามที่ usul แสดงไว้ด้านล่าง - ก็เพียงพอสำหรับการทดสอบเพื่อให้ความซับซ้อนของตัวอย่างนั้นแน่นอน ; อันที่จริงแล้วปรากฎว่าเรามีตัวอย่างจำนวนมากพอที่จะเรียนรู้จนถึงสารเติมแต่ง wrtปกติΘ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


ปล่อยเป็นฟังก์ชันความหนาแน่นเชิงประจักษ์ที่ได้จากการวาดตัวอย่าง iidและการตั้งค่า จากนั้น โดยที่(k)) เมตรs1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk's (สำหรับ ) ไม่เป็นอิสระ แต่เราสามารถเขียน ดังนั้นสำหรับ , และการใช้อสมการของมาร์คอฟ k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(ฉันหมายถึงคำตอบของ usul ที่เริ่มต้นด้วย"ฉันจะพยายามแก้ไขข้อผิดพลาดก่อนหน้าโดยแสดงบางสิ่งที่ตรงกันข้าม [... ]" - ซึ่งอยู่เหนือความจริงข้อนี้ฉันไม่ได้คาดหวังสิ่งนี้ :)) สำหรับการเรียนรู้ บนขอบเขตมันจะแสดงให้เห็นว่าอัลกอริธึมไร้เดียงสาที่สุด (นั่นคือสิ่งที่ดึงตัวอย่างและเอาท์พุทความหนาแน่นเชิงประจักษ์ที่กำหนด) ทำให้การกระจายซึ่ง คือด้วยความน่าจะเป็นคงที่ - ใกล้ในระยะD ε D L 2m=O(1/ϵ2)D^ϵDL2
ผ่อนผัน C.

@DW ฉันเพิ่งแก้ไขคำตอบของฉัน
ผ่อนผัน C.

3

ฉันจะพยายามแก้ไขข้อผิดพลาดก่อนหน้าโดยแสดงสิ่งที่ตรงกันข้าม - นั่นตัวอย่างเพียงพอ (ขอบเขตล่างของเกือบจะแน่น)! ดูว่าคุณคิดอย่างไร1/ϵ2Θ~(1ϵ2)1/ϵ2

สัญชาตญาณที่สำคัญเริ่มต้นจากการสังเกตสองครั้ง อันดับแรกเพื่อให้การแจกแจงมีระยะทางของจะต้องมีจุดที่มีความน่าจะเป็นสูง ( ) ตัวอย่างเช่นถ้าเรามีความน่าจะเป็นจุดเราจะมี<\ ε โอห์ม( ε 2 ) 1 / ε 3 ε 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

ประการที่สองพิจารณาการกระจายสม่ำเสมอกับระยะทาง\ถ้าเรามีจุดที่น่าจะเป็นแล้วพวกเขาแต่ละคนจะแตกต่างกันโดยและตัวอย่างจะพอเพียง ในทางตรงกันข้ามถ้าเรามีคะแนนพวกเขาแต่ละคนจะต้องแตกต่างกันโดยและอีกตัวอย่าง (จำนวนคงที่ต่อ จุด) พอเพียง ดังนั้นเราอาจหวังว่าในบรรดาคะแนนความน่าจะเป็นสูงที่กล่าวถึงก่อนหน้านี้มักจะมีบางจุดที่แตกต่างกัน "พอ" ที่ดึงความแตกต่างออกมา ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

ขั้นตอนวิธี ได้รับและความเชื่อมั่นพารามิเตอร์ให้2) วาดตัวอย่างจากการแจกแจงแต่ละครั้ง ให้จะสูงขึ้นตามลำดับลดจำนวนตัวอย่างสำหรับการจุดฉันหากมีประเด็นใดที่ซึ่งและให้ประกาศ การแจกแจงที่แตกต่างกัน มิฉะนั้นให้ประกาศเหมือนกันM X = บันทึกM ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) aฉัน,ฉันฉันฉัน[n]aฉันXXϵ2ai,biii[n]ฉัน-ฉันaiX8aibiaiX4

ความถูกต้องและความเชื่อมั่นของขอบเขต ( ) ขึ้นอยู่กับการแทรกต่อไปนี้ที่บอกว่าทั้งหมดของการเบี่ยงเบนในระยะทางมาจากจุดที่มีความน่าจะแตกต่างกันโดย2) L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

ข้อเรียกร้อง สมมติว่า\ Let. ให้\} จากนั้น δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|ฉัน S k δ 2 ฉันϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

พิสูจน์ เรามี ขอให้เรา จำกัด ผลรวมที่สอง เราต้องการที่จะขยายภายใต้2 ตั้งแต่ฟังก์ชั่นเป็นอย่างเคร่งครัดนูนและเพิ่มขึ้นเราสามารถเพิ่มวัตถุประสงค์โดยการใด ๆและเพิ่มโดยลดลงในขณะโดย\ดังนั้นเป้าหมายจะถูกขยายให้มากที่สุดโดยมีคำให้มากที่สุดเท่าที่จะเป็นไปได้ที่ค่าสูงสุดและที่เหลือคือΣฉันS k δ 2 ฉัน ΣฉันS k δฉัน2xx2δฉันδเจδฉันγδเจγ0 ε 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. ค่าสูงสุดของแต่ละเทอมคือและมีจำนวนมากที่สุดข้อกำหนดของค่านี้ (เนื่องจากผลรวมสูงสุด ) ดังนั้น 2kϵ2k 2ฉันSkδ 2 ฉัน2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

ข้อเรียกร้อง ให้\} ถ้ามีอยู่อย่างน้อยหนึ่งจุดด้วยและ{2}D 1 - D 2 2ε ฉัน[ n ] หน้าฉัน > ε 2pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

พิสูจน์ ขั้นแรกคะแนนทั้งหมดในมีตามคำจำกัดความ (และไม่สามารถว่างสำหรับโดยการอ้างสิทธิ์ก่อนหน้า)Skpiδi>ϵ2kSkk>2

ที่สองเนื่องจากเรามี หรือจัดเรียงใหม่ ดังนั้นความไม่เท่าเทียม ถือสำหรับอย่างน้อยหนึ่งจุดในS_kตอนนี้รับ 4 ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

การเรียกร้อง (บวกเท็จ) หากอัลกอริทึมของเราบอกพวกเขาแตกต่างกับความน่าจะเป็นที่มากที่สุด(M)}D1=D2eΩ(M)

ร่าง พิจารณาสองกรณีและ\ ในกรณีแรกจำนวนตัวอย่างของจะไม่เกินจากการแจกแจง: จำนวนเฉลี่ยของตัวอย่างคือและหางผูกบอกว่าด้วยความน่าจะเป็น , 's ตัวอย่างไม่เกินค่าเฉลี่ยของพวกเขาโดยสารเติมแต่ง ; หากเราระมัดระวังที่จะเก็บค่าไว้ในหางที่ถูกผูกไว้เราสามารถรวมเข้าด้วยกันได้ไม่ว่าจะมีกี่จุดเช่นนั้น (โดยสังหรณ์ใจpi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

ในกรณีเราสามารถใช้ขอบเขตเชอร์นอฟ: มันบอกว่าเมื่อเราใช้เวลาตัวอย่างและเป็นจุดที่ถูกวาดด้วยความน่าจะน่าจะเป็นของที่แตกต่างจากค่าเฉลี่ยของโดยที่มากที่สุด2)} นี่ให้ดังนั้นความน่าจะเป็นที่สิ้นสุดโดย(M)}piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

ดังนั้นด้วยความน่าจะเป็น , (สำหรับการแจกแจงทั้งคู่) จำนวนตัวอย่างของอยู่ภายในค่าเฉลี่ยของ2} ดังนั้นการทดสอบของเราจะไม่จับประเด็นเหล่านี้ (พวกเขาอยู่ใกล้กันมาก) และเราสามารถรวมกันทั้งหมดของพวกเขา 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

การเรียกร้อง (เชิงลบเท็จ) หากอัลกอริทึมของเราบอกพวกเขาเหมือนกันกับความน่าจะเป็นที่มากที่สุด(M)}D1D22ϵϵ2eΩ(M)

ร่าง มีบางประเด็นก็คือกับและ 2 Chernoff เดียวกันกับที่กล่าวอ้างก่อนหน้านี้ว่าด้วยความน่าจะเป็นจำนวนตัวอย่างของแตกต่างจากค่าเฉลี่ยโดยมากที่สุด{16} นั่นคือการแจกแจง (WLOG)ซึ่งมี ; แต่มีความน่าจะเป็นที่ลดลงของจำนวนตัวอย่างของจากการแจกแจงipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 แตกต่างจากค่าเฉลี่ยของจำนวนสารเติมแต่งนี้ (เนื่องจากค่าเฉลี่ยและความแปรปรวนต่ำกว่า)

ดังนั้นด้วยความน่าจะเป็นสูงจำนวนตัวอย่างของจากการแจกแจงแต่ละครั้งจะอยู่ภายในของค่าเฉลี่ย; แต่ความน่าจะเป็นของพวกเขาแตกต่างกันโดยดังนั้นวิธีการของพวกเขาจึงแตกต่างกันโดย ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

ดังนั้นมีโอกาสสูงสำหรับจุดจำนวนของกลุ่มตัวอย่างแตกต่างกันโดยอย่างน้อย{4} i#samples(1)X4

เพื่อให้ร่างภาพสมบูรณ์เราจะต้องแสดงให้เห็นอย่างจริงจังว่าสำหรับใหญ่พอจำนวนตัวอย่างของใกล้เคียงกับค่าเฉลี่ยของมันเมื่ออัลกอริทึมใช้มากกว่ามันไม่เปลี่ยนแปลงอะไรเลย (ซึ่งควรจะตรงไปตรงมาโดยออกจากห้องเลื้อยในค่าคงที่)Mi#samplesmean


สวัสดีขอบคุณสำหรับสิ่งนี้ - ฉันมีคำถามสองสามข้อเกี่ยวกับอัลกอริทึมและการวิเคราะห์ (เกี่ยวกับประเด็นสองสามข้อที่ฉันไม่แน่ใจว่าจะได้รับ): สมมติว่าฉันต้องการในตอนท้ายเท่านั้นความน่าจะเป็นคงที่ของความสำเร็จคงที่ถ้าฉันเข้าใจถูกต้อง (ยกเว้นว่าฉันไม่ได้รับ ) ดังนั้นในกรณีนี้การเปลี่ยนเป็น : ตามอัลกอริทึมมันจะกลายเป็น - ถูกต้องหรือไม่ 2/3MMXΘ(log1ϵ)
ผ่อนผัน C.

@ClementC ขอโทษฉันไม่ชัดเจน! การเรียกร้องคือถ้าเราวาดตัวอย่างความน่าจะเป็นที่จะผิดคือดังนั้นสำหรับ ความน่าจะเป็นค่าคงที่ของถูกผิดมันตัวอย่าง 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

ตกลงนั่นคือสิ่งที่ฉันรวบรวม ฉันจะผ่านการพิสูจน์ด้วยสิ่งนี้ในใจ - ขอบคุณอีกครั้งสำหรับเวลาที่คุณใช้ไปกับเรื่องนี้!
ผ่อนผัน C.

1

คุณอาจเริ่มต้นด้วยการพยายามที่จะแก้ปัญหานี้สำหรับกรณีที่ 2 ฉันค่อนข้างแน่ใจว่าตัวอย่างจะมีความจำเป็นและเพียงพอในกรณีนี้n=2Θ(1/ϵ2)

เป็นไปได้ที่คุณอาจพบว่ามีประโยชน์ในการดูการแปลงระหว่างระยะทางและระยะทาง (ระยะทางความแปรปรวนทั้งหมด)L2L1

  • เป็นที่ทราบกันว่าหากมีการแจกแจงที่ทราบแล้วว่ามีตัวอย่างหนึ่งการกระจายระยะทางรวมทั้งหมดนั้นจะเป็นข้อได้เปรียบที่สามารถแยกแยะจากได้อย่างสมบูรณ์ ดังนั้นหากระยะการแปรผันรวมมีขนาดใหญ่และการกระจายนั้นเป็นที่รู้จักเราสามารถสร้างการทดสอบที่ถูกต้องโดยมีความน่าจะเป็นสูง หากระยะห่างของการแปรผันโดยรวมเล็กจะไม่สามารถทำได้ ฉันไม่รู้ว่าจะพูดอะไรเกี่ยวกับกรณีที่ความแปรปรวนรวมมีขนาดใหญ่ แต่ไม่ทราบการแจกแจงD1D2

  • ถัดไปคุณอาจจะดูที่การกระจายสินค้า,และ n ใช้ระยะทางรูปแบบรวม (ระยะทาง) มีไม่ดูเหมือนจะมีขอบเขตที่ดีใด ๆ ที่เกี่ยวข้องเพื่อD_2 แต่เมื่อใช้ระยะทาง, ผมเชื่อว่ามีการประมาณการที่ดีของเป็นหน้าที่ของD_2 (น่าเสียดายที่ฉันไม่สามารถขุดการอ้างอิงเฉพาะกับค่าประมาณ / ขอบเขตเหล่านั้นได้ดังนั้นฉันหวังว่าฉันจะไม่ทำการลบข้อมูลผิด) นอกจากนี้ยังมีขอบเขตที่รู้จักที่อนุญาตให้คุณประเมินระยะทางเป็นฟังก์ชันของระยะทาง .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • ดังนั้นหนึ่งวิธีการที่คุณอาจจะพยายามที่จะผูกแล้วจากว่าการที่ถูกผูกไว้บนD_2||D1nD2n||2||D1nD2n||1

ฉันไม่รู้ว่าสิ่งนี้จะนำไปสู่ทุกที่ดีหรือไม่; มันเป็นแค่ความคิด อาจเป็นผู้เขียนบทความที่คุณอ้างถึงแล้วจะได้ลองหรือพิจารณาบางอย่างเช่นนี้

อาจอ้างอิงที่เป็นประโยชน์:


สวัสดีขอบคุณสำหรับคำตอบของคุณ! แต่ผมกำลังสนใจในเชิงผูกพันลดลงเมื่อnโดยเฉพาะอย่างยิ่งความสัมพันธ์ระหว่างและบรรทัดฐานเกี่ยวข้องกับปัจจัย - ความหมายพวกเขาเป็นจริงเทียบเท่าคงที่ แต่ asymptotically ที่แตกต่างกันมาก การใช้ dstance เป็นพร็อกซี่ไม่ใช่ตัวเลือกเท่าที่ฉันสามารถบอกได้ (สำหรับการทดสอบความใกล้ชิดในระยะทางความซับซ้อนที่แน่นอนเรียกได้ว่า [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Clement C.

0

แก้ไข: นี่ไม่ถูกต้อง! ดูการสนทนาในความคิดเห็น - ฉันจะชี้ให้เห็นข้อบกพร่องด้านล่าง

ฉันคิดว่าเราสามารถพูดได้ว่าจำเป็น1ϵ4

ชุดขวา) ให้เป็นชุดการแจกแจง (ความน่าจะเป็นของแต่ละจุด ) และปล่อยให้แตกต่างจากชุดเครื่องแบบด้วยจำนวนสารเติมแต่งที่แต่ละจุด ตรวจสอบว่าระยะคือ\n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

ดังนั้นเราจะต้องแยกความแตกต่างเหรียญยุติธรรมด้านเดียวจากด้านเดียวเหรียญ -biased ฉันคิดว่านี่น่าจะเป็นเรื่องยากพอ ๆ กับการบอกเหรียญยุติธรรมด้านจากเหรียญด้านเหรียญธรรมดาซึ่งต้องใช้ตัวอย่าง แก้ไข:นี่ไม่ถูกต้อง! เหรียญนั้นเพิ่มพื้นฐาน แต่มันมีอคติคูณด้วยปัจจัยคงที่ เป็นจุด DW ออกนั่นหมายความว่าจำนวนคงที่ของตัวอย่างต่อจุดที่แตกต่างจากD_2nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


ขอให้สังเกตว่านั้นไกลเท่าที่เราจะสามารถโต้เถียงกันได้ เป็นรูปธรรมเช่นสมมติว่าเราพยายามที่จะเพิ่มเพื่อพูด,3} ในการจัดจำหน่ายเครื่องแบบแต่ละจุดมีความน่าจะเป็น 3 แต่ในเราจะต้องจุดแต่ละจุดจะแตกต่างจากชุดโดย{2.5} ว่าเป็นไปไม่ได้ตั้งแต่ 31ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

เพิ่มเติม abstractly สมมติว่าเราต้องการแต่ละจุดจะแตกต่างจากชุดโดย k แล้วที่สุดที่เราสามารถตั้งค่าเพื่อจะk} เพื่อให้ได้ระยะทางของเราต้องทำให้แน่ใจว่าสแควร์รูทของผลรวมของระยะทางคือดังนั้นดังนั้นดังนั้น , และเราได้รับ2}ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

นอกจากนี้ฉันคิดว่าอาร์กิวเมนต์เดียวกันบอกว่าถ้าเราสนใจระยะทางด้วยเราต้องการดังนั้นเราจะเลือกดังนั้นจำนวนของกลุ่มตัวอย่างจะเป็น{p-1}} ผมคิดว่านี้ทำให้รู้สึกว่าเป็นความผูกพันที่เป็นอิสระจากnแนวทางอินฟินิตี้เป็น1 หากคุณพยายามแยกความแตกต่างสองดิสทริบิวชันที่ระยะทางของโดยไม่มีข้อผูกมัดกับฉันจะทำให้มีขนาดใหญ่มากและกระจายความแตกต่างแบบบางไปโดยพลการLpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnนั่นคือไม่มีจำนวนตัวอย่างเพียงพอสำหรับทุก ) นอกจากนี้ยังใกล้เป็น ; เรื่องนี้ทำให้รู้สึกว่าถูกผูกไว้เพราะสำหรับบรรทัดฐานเราสามารถตั้งและปล่อยให้ทุกจุดแตกต่างโดย ; เราจำเป็นที่จะลิ้มลองบางจุดครั้งเพื่อให้แน่ใจว่ามันแตกต่างจากชุดซึ่งจะใช้เวลาตัวอย่างn1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. คุณหมายถึงว่าแตกต่างจากชุดเครื่องแบบโดยในแต่ละจุดหรือไม่? ฉันสงสัยว่าเป็นพิมพ์ผิดและคุณหมายถึง 2 D2±1/ϵ2±ϵ2
DW

1
2. ฉันไม่ได้ซื้อที่แตกต่างจากต้องตัวอย่าง ดูเหมือนว่าฉันตัวอย่างเพียงพอแล้ว คำอธิบาย (ปรีชา): สมมติว่าเรารวบรวมตัวอย่างและนับจำนวนครั้งที่เป็นไปได้ที่จะเกิดค่าแต่ละครั้ง หากมาจากแต่ละรายการควรเกิดขึ้น 100 ครั้ง (ด้วย std dev 10) หากพวกเขามาจากแต่ละคนควรเกิดขึ้น 200 ครั้ง (std dev 14) สำหรับครึ่งหนึ่งของพวกเขา / 0 ครั้ง (std dev 0) สำหรับอีกครึ่งหนึ่ง นั่นคือได้อย่างง่ายดายมากพอที่จะแยกแยะความแตกต่างระหว่างสองถ้าคุณรู้ว่าคุณกำลังจัดการกับทั้งหรือD_2D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) คุณพูดถูก! แก้ไขแล้ว. (2) ในขณะที่คุณใส่มันฉันเห็นด้วย แต่ฉันคิดว่าการเลือกค่าคงที่ที่แตกต่างกันมันยากกว่า ฉันกำลังนึกภาพสิ่งนี้:ดังนั้นทำให้ความน่าจะเป็นในแต่ละจุด จากนั้นแตกต่างกันในแต่ละจุด (ตรวจสอบว่าระยะทางคือ ) ดังนั้นจึงทำให้มีความน่าจะเป็นหรือในแต่ละจุด n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
ฉันคิดว่าตัวอย่างยังพอเพียง รวบรวมตัวอย่างและนับจำนวนครั้งที่เป็นไปได้ที่จะเกิดค่าแต่ละค่า สำหรับแต่ละรายการควรเกิดขึ้น 1,000,000 ครั้ง (std dev ) สำหรับแต่ละควรเกิดขึ้น 900,000 ครั้ง (std dev ) หรือ 1,100,000 ครั้ง (std dev ) นั่นง่ายพอที่จะแยกความแตกต่างระหว่างสองถ้าเรารู้ว่าเรากำลังติดต่อกับหรือเพราะความแตกต่างระหว่าง 1,000,000 ถึง 1,100,000 นั้นคือ 100 ส่วนเบี่ยงเบนมาตรฐานนั่นคือมาก m = 10 6 n D 1 1,000 D 21,000 1,000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW ฉันคิดถึงมันมากกว่านี้ - คุณพูดถูก หากค่าเฉลี่ยของพวกเขาแตกต่างกันโดยปัจจัยคูณคงที่จำนวนตัวอย่างต่อจุดคงที่ควรแยกพวกเขา มันเป็นตัวคูณที่ไม่ใช่สารเติมแต่งที่สำคัญ วิธีการนี้แล้วเพียง แต่ช่วยให้ผูกไว้ที่ต่ำกว่าของ 2 1/ϵ2
usul
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.