การสรุป "เคล็ดลับมัธยฐาน" ให้มีขนาดสูงขึ้นหรือไม่


21

สำหรับอัลกอริธึมแบบสุ่มการรับค่าที่แท้จริง "เคล็ดลับมัธยฐาน" เป็นวิธีที่ง่ายในการลดความน่าจะเป็นที่จะเกิดความล้มเหลวในธรณีประตูใด ๆในราคาเพียง multiplicativeค่าใช้จ่าย กล่าวคือถ้าผลลัพธ์ของตกลงไปใน "ช่วงที่ดี"มีความน่าจะเป็น (อย่างน้อย)จากนั้นเรียกใช้สำเนาอิสระและรับค่ามัธยฐานของเอาท์พุทจะส่งผลให้ค่าลดลงในด้วยความน่าจะเป็นอย่างน้อยโดย Chernoff / HoeffdingAδ>0ฉัน=[,]2/31,...,เสื้อ1,...,ทีผม1-δt=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

มีการวางนัยของ "กลอุบาย" นี้ในมิติที่สูงกว่าหรือไม่พูดซึ่งช่วงที่ดีนั้นเป็นเซตนูน (หรือลูกบอลหรือชุดที่ดีและมีโครงสร้างเพียงพอ) หรือไม่? นั่นคือให้อัลกอริธึมแบบสุ่มเอาท์พุทค่าใน\ mathbb {R} ^ dและ "ดีเซต" S \ subseteq \ mathbb {R} ^ dเช่นนั้น\ mathbb {P} _r \ {\ mathcal {A} (x, r) \ in S \} \ geq 2/3สำหรับทุกxวิธีหนึ่งสามารถเพิ่มความน่าจะเป็นที่จะประสบความสำเร็จเป็น1- \ deltaโดยมีค่าลอการิทึมเพียง1 / \ delta ?R d S R d P R {(x,R)S}2 / 3x1-δ1 / δRdARdSRdPr{A(x,r)S}2/3x1δ1/δ

(วลีที่แตกต่าง: ได้รับการแก้ไข, arbiraryด้วยการรับประกันว่าอย่างน้อยของเป็นของมีขั้นตอนหรือไม่ ส่งออกค่าจากหรือไม่ถ้าใช่มีประสิทธิภาพหรือไม่)2 ta1,,atRd aiSS2t3aiSS

และสมมติฐานขั้นต่ำที่ต้องการสำหรับเพื่อให้สามารถบรรลุได้คืออะไร?S

ขออภัยถ้าสิ่งนี้กลายเป็นเรื่องไม่สำคัญ - ฉันไม่พบการอ้างอิงสำหรับคำถามนี้ ...


3
ในกรณีพิเศษที่เป็นลูกบาศก์มันทำงานได้ไหมถ้าคุณใช้เคล็ดลับมัธยฐานในแต่ละมิติทีละรายการ? ดังนั้นลิ้มพวงของจุดแล้วใช้ค่ามัธยฐานของพิกัดของพวกเขาในมิติที่ 1, 2, ... , d และจากนั้นคุณจะได้รับจุดใน d บางทีคุณอาจต้องการตัวอย่างด้วยกลยุทธ์นี้ R d O ( บันทึก( d / ϵ ) )SRdO(log(d/ϵ))
Robin Kothari

1
ในกรณีหนึ่งมิติปกติคุณรู้แต่ไม่ใช่ช่วงเวลาที่แน่นอน (แม้ว่าแม้ว่าคุณจะไม่ทราบ-เคล็ดลับเฉลี่ยยังคงทำงาน) เราควรสมมติว่าเรารู้จักSแต่ขึ้นอยู่กับการแปลเท่านั้น? ขึ้นอยู่กับการแปลและปรับขนาด? babaS
Sasho Nikolov

@SashoNikolov ฉันคิดว่านี่จะเป็น "ภาพรวมทั่วไป" ที่สุดแน่นอน (เช่นเรารู้เพียงว่าคือ "ลูกบอลขนาดเส้นผ่าศูนย์กลางε " ที่ดี) Sε
ผ่อนผัน C.

1
สิ่งที่โทมัสเขียนไว้ในคำตอบของเขานั้นเป็นเรื่องทั่วไปมากขึ้นเขาสันนิษฐานว่า ( Gในคำตอบของเขา) เป็นเซตนูนที่ไม่รู้จัก SG
Sasho Nikolov

คำตอบ:


17

สิ่งที่คุณกำลังมองหาคือแนวโน้มกลางที่แข็งแกร่ง เกือบเหมือนกัน: วิธีการลดปริมาณเมฆของจุดข้อมูลเป็นจุดเดียวเช่นถ้าจุดข้อมูลจำนวนมากใกล้เคียงกับ "ความจริงพื้นฐาน" แต่ส่วนที่เหลือ อยู่ไกลโดยพลการจากนั้นผลลัพธ์ของคุณก็จะใกล้เคียงกับความจริงพื้นฐาน "จุดแตกหัก" ของวิธีการดังกล่าวคือเศษส่วนของค่าผิดปกติที่ไม่ดีตามอำเภอใจที่สามารถทนได้ ความแตกต่างคือในกรณีของคุณคุณต้องการแทนที่ "ใกล้กับ" โดย "ภายในเปลือกนูนของ"

วิธีหนึ่งในการจับภาพสิ่งนี้คือแนวคิดของความลึกของ Tukey จุดหนึ่งมีความลึก Tukey (เทียบกับชุดของจุดข้อมูลnที่กำหนด) หากทุกครึ่งพื้นที่ที่มีจุดที่กำหนดนั้นมีจุดข้อมูลอย่างน้อยp nด้วย หากมี subspace นูนที่ดีที่คุณต้องการอยู่ภายในจุดที่มี Tukey depth pจะอยู่ข้างในตราบใดที่มีจุดข้อมูลอย่างน้อย( 1 - p ) nของจุดภายใน จุดแตกหักของวิธีนี้คือค่าpที่ใหญ่ที่สุดที่คุณสามารถทำได้pnpnp(1p)np

น่าเสียดายที่จุดแตกหักนี้คือไม่ใกล้กับ 1/2 ทั้งที่ความลึกของ Tukey และปัญหาของคุณ นี่คือเหตุผล: หากข้อมูลของคุณมีการจัดกลุ่มใกล้กับจุดยอดd + 1ของ simplex ดังนั้นตราบใดที่เศษส่วนน้อยกว่า1 / ( d + 1 )ของพวกเขาเป็นค่าผิดปกติ (แต่คุณไม่รู้ว่าอันไหน) เริมจะปลอดภัยที่จะเลือกเพราะมันจะอยู่ในเปลือกนูนของผู้ที่ไม่ใช่คนผิด แต่ถ้ามากกว่า1 / ( d + 1 )1/(d+1)d+11/(d+1)1/(d+1) ของคะแนนอาจเป็นค่าผิดปกติไม่มีที่ไหนที่ปลอดภัยในการเลือก: จุดใดก็ตามใน simplex ที่คุณเลือกค่าผิดปกติอาจเป็นคะแนนทั้งหมดจากจุดสุดยอดเริมที่อยู่ใกล้ที่สุดและคุณอยู่นอกลำเรือที่ไม่ใช่ ค่าผิดปกติ

หากคุณยินดีที่จะทนต่อจุดแตกหักที่เลวร้ายยิ่งขึ้นเช่นมีวิธีการแบบสุ่มสำหรับค้นหาจุดลึกที่มีพหุนามทั้งnและd : ดูกระดาษของฉันO(1/d2)nd

ประมาณจุดกึ่งกลางด้วยคะแนนเรดอนซ้ำ, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant และ S.-H Teng, ACM Symp ที่ 9 คอมพ์ Geom , San Diego, 1993, pp. 91–98, Int. J. คอมพ์ Geom & Appl 6 (3): 357–377, 1996, http://kenclarkson.org/center/p.pdf


อ๋อ นอกจากนี้ฉันจะพูดถึงว่าเราสามารถใช้ eps-nets eps-approximations และเพื่อนต่าง ๆ ของพวกเขาเป็นวิธีการรับตัวอย่างเล็ก ๆ ที่ใกล้เคียงกับการวัดความลึกเช่นกัน คุณไม่ได้รับจุดเดียว แต่คุณได้รับข้อมูลเพิ่มเติม
Sariel Har-Peled

ด้วยคำศัพท์ของกระดาษของคุณมีวิธีที่มีประสิทธิภาพเป็นที่รู้จักในการตรวจสอบ อ้างสิทธิ์ -center สำหรับจำนวนตรรกยะβββ?

ถ้าหาก "มีประสิทธิภาพ" คุณหมายถึงพหุนามในมิติผมก็ไม่รู้ผลลัพธ์เช่นนั้น กระดาษของฉันพบเพียงจุดเดียวเท่านั้นมันไม่ได้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการกระจายความลึกของอวกาศ (เช่น Sariel alludes ถึงด้านบน)
David Eppstein

ขอขอบคุณ! เมื่อพิจารณาถึงประสิทธิภาพ (ตอนนี้) ดูเหมือนว่าในกรณีทั่วไปของเซตนูนโดยพลการไม่มีวิธีใดที่จะเพิ่มความน่าจะเป็นคงที่ให้เป็นความน่าจะเป็นตามอำเภอใจ? (เนื่องจากส่วนของคะแนนที่ดีจะต้องมากกว่า ? (หรือฉันพลาดอะไรบางอย่าง - มองย้อนกลับไปมันให้ความรู้สึกเหมือนสูตรที่สองที่ฉันไม่ได้เก็บไว้ในแนวคิดของ "การทำซ้ำอย่างอิสระ" ซึ่งเราจะมีคะแนนหลายชุดอยู่ในมือแต่ละชุดมีอย่างน้อย2/3ส่วนของจุดที่ดี).11d+12/3
ผ่อนผันซี

1
หนึ่งจุดหลายจุดหรือไม่ถ้าสิ่งที่คุณรู้คือมีชุดนูน แต่ไม่ใช่ตำแหน่งนั้นและคุณต้องการเพิ่มความน่าจะเป็นที่จะอยู่ในเซตที่ถูกต้องให้ดีขึ้นแล้ว d / (d + 1) ดังนั้นเศษส่วนของคะแนนที่ดีจะต้องมีอย่างน้อย d / (d + 1) เพื่อให้ได้ตัวอย่างที่ง่าย ฝ่ายตรงข้ามอาจให้ข้อมูลในรูปของซิมเพล็กซ์และเลือกสุ่มเอปไซลอน - ละแวกละหนึ่งหน้าของซิมเพล็กซ์เป็นเซตนูน แม้ว่าคุณจะคาดเดาจุดที่อยู่ใกล้จุดสุดยอดของซิมเพล็กซ์แบบสุ่มคุณจะมีความน่าจะเป็นอย่างน้อย 1 / (d + 1) ในการเลือกที่ไม่ถูกต้อง
David Eppstein

14

นี่เป็นคำถามที่เรียบร้อยและฉันเคยคิดมาก่อน นี่คือสิ่งที่เราเกิดขึ้น:

คุณเรียกใช้อัลกอริทึมของคุณครั้งเพื่อรับเอาต์พุตx 1 , , x nR dและคุณรู้ว่ามีความน่าจะเป็นสูงเศษส่วนขนาดใหญ่ของx iตกอยู่ในเซตG ที่ดี คุณไม่รู้ว่าGคืออะไรมันคือนูน ข่าวดีก็คือมีวิธีที่จะได้คะแนนในGโดยไม่มีข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ สอบถามประเด็นนี้F ( x 1 , , x n )nx1,,xnRdxiGGGf(x1,,xn)

ทฤษฎีบท. สำหรับตัวเลขธรรมชาติทั้งหมดและdมีฟังก์ชั่นf : ( R d ) nR dซึ่งมีดังต่อไปนี้ ให้x 1 . . x nR dและให้G R dเป็นเซตนูนที่ทำให้พอใจ1ndf:(Rd)nRdx1...xnRdGRd จากนั้นF(x1,...,xn)G นอกจากนี้คือคำนวณในเวลาพหุนามในnd
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

โปรดทราบว่าสำหรับเราสามารถตั้งค่าfให้เป็นค่ามัธยฐาน ดังนั้นนี้แสดงให้เห็นวิธีการที่จะพูดคุยเฉลี่ยสำหรับd > 1d=1fd>1

ก่อนที่จะพิสูจน์ผลนี้ทราบว่ามันแน่น: Let และให้x 1 , , x dเป็นองค์ประกอบพื้นฐานมาตรฐานและx d + 1 = 0 เซตย่อยใด ๆ ของdของคะแนนจะอยู่ในเลียนแบบพื้นที่Gของมิติd - 1 (ซึ่งถูกกำหนดโดยจุดเหล่านั้นโดยเฉพาะ) แต่ไม่มีประเด็นอยู่ในพื้นที่เลียนแบบทั้งหมด ดังนั้นจึงมีGนูนบางส่วนที่มีn d / ( d +n=d+1x1,,xdxd+1=0dGd1Gคะแนน แต่ไม่มี f ( x 1 , , x n )ไม่ว่าจะใช้ค่าอะไรก็ตามnd/(d+1)=df(x1,,xn)

พิสูจน์ เราใช้ผลลัพธ์ต่อไปนี้

ทฤษฎีบทของ Helly Let เป็นส่วนย่อยนูนR d สมมติว่าจุดตัดของใด ๆd + 1 K ฉันคือว่าง จากนั้นจุดตัดของK iทั้งหมดนั้นจะเป็นสิ่งที่ไม่ว่างเปล่าK1...KmRdd+1 KiKi

คลิกที่นี่เพื่อดูบทพิสูจน์ทฤษฎีบทของ Helly

ตอนนี้เพื่อพิสูจน์ทฤษฎีบทของเรา:

ให้เป็นขอบเขตบนของจำนวนของจุดที่ไม่ได้อยู่ในG พิจารณา halfspaces ปิดทุกภาค 1 . . K mR dบรรจุอย่างน้อยn - kจุดที่มีขอบเขตประกอบด้วยชุดของคะแนนสูงสุด (นี่คือจำนวน จำกัด ของพื้นที่ครึ่งหนึ่งเมื่อแต่ละK iถูกกำหนดโดยd + 1คะแนนบนขอบเขตของมัน)k<n/(d+1)GK1...KmRdnkKid+1

การเติมเต็มของแต่ละมีมากที่สุดkคะแนน โดยการรวมกันจุดตัดใด ๆd + 1 K ฉันมีอย่างน้อยn - k ( d + 1 ) > 0 คะแนน โดยทฤษฎีบท Helly ของ (ตั้งแต่ halfspaces นูน) มีจุดในการตัดของทั้งหมดที่K ฉัน s เราปล่อยให้Fเป็นฟังก์ชันที่คำนวณจุดโดยพลการในจุดตัดของที่K ฉัน sKikd+1 Kink(d+1)KisfKi

ทั้งหมดที่เหลืออยู่คือการแสดงให้เห็นว่าจุดตัดของ s ที่มีอยู่ในGKiG

โดยไม่สูญเสียความสามารถทั่วไปเป็นตัวเรือนูนของเซตย่อยของคะแนนที่มีอันดับเต็ม นั่นคือเราสามารถแทนที่Gด้วยฮัลล์นูนของจุดที่มี หากสิ่งนี้ไม่มีอันดับสมบูรณ์เราสามารถใช้ทฤษฎีบทของเราในมิติที่ต่ำกว่าได้GG

แต่ละใบหน้าของกำหนดพื้นที่ครึ่งหนึ่งโดยที่Gคือจุดตัดของพื้นที่ครึ่งหลังเหล่านี้ แต่ละ halfspaces เหล่านี้มีGและด้วยเหตุนี้มีอย่างน้อยn - kจุด ขอบเขตของช่องว่างครึ่งหนึ่งเหล่านี้ประกอบด้วยใบหน้าของGดังนั้นจึงมีชุดของจุดสูงสุด ดังนั้นแต่ละ halfspaces เหล่านี้เป็นKฉัน ดังนั้นจุดตัดของK iทั้งหมดจึงอยู่ในGตามที่ต้องการGGGnkGKiKiG

ในการคำนวณให้ตั้งค่าโปรแกรมเชิงเส้นตรงที่ข้อ จำกัด เชิงเส้นตรงกับK i s และวิธีแก้ปัญหาที่เป็นไปได้สอดคล้องกับจุดหนึ่งในจุดตัดของK iทั้งหมด QEDfKiKi

น่าเสียดายที่ผลลัพธ์นี้ไม่ได้ใช้งานได้จริงในการตั้งค่ามิติสูง คำถามที่ดีคือว่าเราสามารถคำนวณอย่างมีประสิทธิภาพมากขึ้นf

เปิดปัญหา พิสูจน์ทฤษฎีบทดังกล่าวข้างต้นมีข้อสรุปที่เพิ่มเติมที่สามารถคำนวณได้ในเวลาพหุนามในnและd fnd

ด้านข้าง:เราสามารถเปลี่ยนปัญหาเพื่อให้ได้ทางออกที่มีประสิทธิภาพ: ถ้ามีคุณสมบัติที่มากกว่าครึ่งหนึ่งอยู่ในลูกบอลB ( y , ε )อย่างเคร่งครัดแล้วเราสามารถหาจุดzที่โกหกในB ( Y , 3 ε )ในเวลาพหุนามในnและd โดยเฉพาะอย่างยิ่งเราสามารถตั้งค่าz = x iสำหรับiใดก็ได้ที่มากกว่าครึ่งหนึ่งของคะแนนอยู่ในBx1,,xnB(y,ε)zB(y,3ε)ndz=xii )B(z,2ε)


ฉันคิดว่าคุณสร้างนวัตกรรมใหม่โดยความลึกของ Tukey ในขณะที่ David Eppstein แสดงไว้ด้านล่าง :)
Suresh Venkat

7

มีความคิดของค่ามัธยฐานของชุดของจุดในมิติสูงและบรรทัดฐานทั่วไปซึ่งเป็นที่รู้จักกันภายใต้ชื่อต่าง ๆ มันเป็นเพียงจุดที่ลดผลรวมของระยะทางไปยังจุดทั้งหมดในชุด เป็นที่ทราบกันว่ามีคุณสมบัติการขยายความมั่นใจที่คล้ายกันเหมือนกับค่ามัธยฐานปกติที่มีการเพิ่มขึ้นเล็กน้อยระยะทาง คุณสามารถค้นหารายละเอียดในทฤษฎีบท 3.1 ของเอกสารนี้: http://arxiv.org/pdf/1308.1334.pdf

สิ่งหนึ่งที่ดีที่บทความนี้แสดงคือปัจจัยที่ระยะทางเพิ่มขึ้นสามารถทำให้ค่าคงที่ใด ๆ > 1 ถ้าคุณสามารถขยายจากความเชื่อมั่นสูง (แต่คงที่ <1) โดยพลการ

แก้ไข: มีบทความล่าสุดอีกเรื่องเกี่ยวกับหัวข้อโดย Hsu และ Sabato http://arxiv.org/pdf/1307.1827v6.pdf ส่วนใหญ่เป็นการวิเคราะห์และใช้ขั้นตอนที่จุดในชุดที่มีระยะห่างมัธยฐานที่เล็กที่สุดกับส่วนที่เหลือ ของคะแนนที่ใช้ ขั้นตอนนี้สามารถใช้กับตัวชี้วัดใด ๆ แต่ให้ปัจจัยประมาณ 3 เท่านั้น


ขอบคุณนี่ดูดี! ฉันแค่อ่านมันจนถึงตอนนี้ แต่ (ยกเว้นว่าฉันเข้าใจผิดหรือข้ามเร็วเกินไป) มันเกี่ยวข้องกับกรณีเฉพาะของที่เป็นp- ball; ถูกต้องหรือไม่ Sp
ผ่อนผัน C.

1
ไม่ได้จริงๆ ผลลัพธ์ถูกระบุสำหรับช่องว่าง Banach ทั้งหมด สำหรับร่างกายใดก็ตามที่มีจุดกำเนิดที่กึ่งกลางและสมมาตรรอบจุดศูนย์กลางของมันจะมีบรรทัดฐานที่สอดคล้องกันซึ่งร่างนี้คือลูกบอลหน่วย เนื่องจากจุดประสงค์ของคำถามของคุณเราสามารถสรุปได้โดยไม่สูญเสียความคิดทั่วไปที่ร่างกายนูนเป็นศูนย์กลางกำเนิดเราได้รับผลการรักษาสำหรับร่างกายนูนสมมาตรส่วนกลางทุกประการ บางทีด้วยความพยายามเล็กน้อยผลที่ได้สามารถขยายไปยังร่างกายนูนทั่วไป
Vitaly

1
คุณจำเป็นต้องรู้บรรทัดฐานเพื่อที่จะคำนวณ minimizer สำหรับบรรทัดฐานนั้น - ถ้าคุณรู้เพียงว่ามีบรรทัดฐาน แต่ไม่ใช่ว่าคุณเป็นใคร
David Eppstein

1
คุณพูดถูกแล้วเดวิด คุณจำเป็นต้องรู้บรรทัดฐาน (นี่แปลว่ารู้ว่าร่างกายนูนไปถึงกึ่งกลางและขยายขนาด)
Vitaly

ฉันคิดถึงวิธีการนี้ แต่จากนั้นให้คิดถึงตัวอย่างตัวอย่างนี้สำหรับเซตนูนโดยพลการ มันเล่นกับผลลัพธ์เหล่านี้ได้อย่างไร? ขอให้จะกระจายในเครื่องบินดังต่อไปนี้ด้วยความน่า0.9 , เครื่องแบบ( - 1 , 0 )และ( + 1 , 0 )ด้วยความน่าจะเป็น0.1เท่ากับ( 0 , 0.0001 ) ชุด "ดี" นูนเป็นเส้นจาก( - 1 , 0 )ถึง( 1 , 0 )X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0). แต่ถ้าเรานำตัวอย่างจำนวนมากแล้วเฉลี่ยทั่วไปจะเป็นหนึ่งในจุดตัวอย่างตั้งอยู่ที่ ) พูดคุยเรื่องนี้กับมิติที่สูงขึ้นได้อย่างง่ายดายโดยใช้ไฮเปอร์เพลนและจุดชดเชยเล็กน้อย (0,0.0001)
usul
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.