ลูกและการวิเคราะห์ช่องเก็บของใน


23

mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2ถังขยะแยกอิสระ2คู่ อาร์กิวเมนต์นี้ (ไม่ใช่แบบสมบูรณ์) ทำให้เราคาดหวังว่าช่องว่างระหว่างXmaxและXminคือΘ(mlogn/n)มีความน่าจะเป็นสูง

ฉันสนใจในช่องว่างระหว่างXmaxและXsecmax{วินาทีสูงสุด}} อาร์กิวเมนต์ที่แสดงด้านบนแสดงให้เห็นว่าXmaxXsecmax=O(mlogn/n)มีความน่าจะเป็นสูง แต่ปัจจัยlognดูเหมือนไม่เกี่ยวข้อง . มีอะไรที่รู้เกี่ยวกับการกระจายของXmaxXsecmax ?

มากกว่าปกติสมมติว่าแต่ละลูกมีความเกี่ยวข้องกับที่ไม่ใช่เชิงลบคะแนนสำหรับแต่ละถังและเรามีความสนใจในคะแนนรวมของแต่ละถังหลังจากการขว้างปาmลูก ปกติสอดคล้องกับสถานการณ์ที่คะแนนของแบบฟอร์ม(0,,0,1,0,,0)0) สมมติว่าการกระจายความน่าจะเป็นของคะแนนคือคงอยู่ภายใต้การเปลี่ยนแปลงของถัง (ในสถานการณ์ปกติตรงนี้ความจริงที่ว่าถังขยะทั้งหมดที่มี equiprobable) ได้รับการกระจายของคะแนนที่เราสามารถใช้วิธีการของย่อหน้าแรกที่จะได้รับสิ่งที่ดีที่ถูกผูกไว้ในXmaxXminนาที} ขอบเขตจะมีปัจจัยlognที่มาจากการรวมกลุ่ม (ผ่านความน่าจะเป็นหางของตัวแปรปกติ) ปัจจัยนี้จะลดลงได้ไหมถ้าเราสนใจที่จะ จำกัด ขอบเขต ?XmaxXsecmax


แต่ละคะแนนอยู่ใน [0,1]?
Neal Young

มันไม่ได้เรื่องจริงๆคุณก็สามารถปรับขนาดเพื่อให้มันอยู่ใน[0,1] ]
Yuval Filmus

คำตอบ:


21

คำตอบ: Θ(mnlogn) )

การประยุกต์ทฤษฎีการ จำกัด ขอบเขตแบบหลายมิติเราได้ว่าเวกเตอร์(X1,,Xn)มีการแจกแจงแบบเกาส์หลายตัวแปรแบบไม่มีเส้นกำกับด้วย และ Coวี(Xฉัน,XJ)=-เมตร/n2 เราจะสมมติว่าด้านล่างXเป็นเวกเตอร์แบบเกาส์เซียน (และไม่เพียงประมาณเวกเตอร์เกาส์เซียน) ขอให้เราเพิ่ม Gaussian ตัวแปรสุ่มZกับความแปรปรวนเมตร/n2ทุกXฉัน(Zมีความเป็นอิสระจากทุกXฉัน) นั่นคือปล่อยให้ ( Y 1 Y 2

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi เราได้รับเวกเตอร์เสียน(Y1,...,Yn) ตอนนี้แต่ละYฉันมีความแปรปรวนเมตร/n: VR[Yฉัน]=VR[Xฉัน]+ 2 C o
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
(Y1,,Yn)Yim/n และYฉันมีความเป็นอิสระ: Coวี(Yฉัน,YJ)=Coวี(Xฉัน,XJ)+ C o วี ( X ฉัน , Z ) + C o v ( X j , Z )
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

โปรดทราบว่าเจ ดังนั้นปัญหาเดิมของเราเทียบเท่ากับปัญหาในการหาY m x - Y s อี- x ขอให้เราเป็นครั้งแรกสำหรับความเรียบง่ายในการวิเคราะห์กรณีเมื่อทุกY ฉันมีความแปรปรวน1YiYj=XiXjYmaxYsecmaxYi1

ปัญหา. เราจะได้รับ RV Gaussian อิสระγ 1 , ... , γ nมีค่าเฉลี่ยμและความแปรปรวน1 ประเมินความคาดหวังของγ m x - γ s อี- ม. xnγ1,,γnμ1γmaxγsecmax

คำตอบ: )Θ(1logn)

หลักฐานทางการ นี่เป็นวิธีแก้ปัญหาอย่างไม่เป็นทางการสำหรับปัญหานี้ (ไม่ยากที่จะทำให้เป็นทางการ) ตั้งแต่คำตอบไม่ได้ขึ้นอยู่กับค่าเฉลี่ยเราคิดว่า 0 ให้ˉ ไว ( T ) = Pr [ γ > T ]ที่γ ~ N ( 0 , 1 ) เรามี (สำหรับขนาดใหญ่ปานกลางT ) ˉ ไวμ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

สังเกตได้ว่า

  • มีการกระจายอย่างสม่ำเสมอและเป็นอิสระใน [Φ(γi) ,[0,1]

  • มีขนาดเล็กที่สุดในหมู่ Φ (Φ(γmax) ,Φ(γi)

  • เป็นที่เล็กที่สุดสองในหมู่ ΦΦ(γsecmax) )Φ(γi)

ดังนั้นอยู่ใกล้กับ1 / nและΦ ( γ m a x )อยู่ใกล้กับ2 / n (ไม่มีสมาธิ แต่ถ้าเราไม่สนใจค่าคงที่การประมาณเหล่านี้ดีพอ; อันที่จริงแล้ว พวกเขายังค่อนข้างดีถ้าเราใส่ใจค่าคงที่ - แต่นั่นต้องมีเหตุผล) โดยใช้สูตรสำหรับˉ ไว ( T )เราได้รับที่ 2 ˉ ไวΦ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

ดังนั้นเป็นΘ ( 1 ) WHP ทราบว่าγ เมตรxγ s อี- ม.γmax2γsecmax2Θ(1) ) เรามี γ m x -γ s อี- ม. xγmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

เราได้รับ

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
ขอบคุณ! ฉันจะจำให้ลองใช้การประมาณแบบเกาส์หลายตัวแปรในครั้งต่อไป
Yuval Filmus

5
Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi

1
X1,,XnCov(Xi,Xj) new random variable Z ทั้งหมด Xผม such that the sums are independent. Also, if the variables have positive correlation and again all covariances Cov(Xi,Xj) are equal then we can subtract a single r.v. Z from all of them so that all the differences are independent; but now Z is not independent from Xi but rather Z=α(X1++Xn) for some scaling parameter α.
Yury

1
Ah I see. at least algebraically, all it rests on is the pairwise independence of Z and each Xi. very cool.
Suresh Venkat

1
This argument now appears (with attribution) in an EC'14 paper: dl.acm.org/citation.cfm?id=2602829.
Yuval Filmus

13

For your first question, I think you can show that w.h.p. XmaxXsec-max is

o(mnlog2lognlogn).
Note that this is o(m/n).

Compare your random experiment to the following alternative: Let X1 be the maximum load of any of the first n/2 buckets. Let X2 be the maximum load of any of the last n/2 buckets.

On consideration, |X1X2| is an upper bound on XmaxXsecmax. Also, with probability at least one half, |X1X2|=XmaxXsecmax. So, speaking roughly, XmaxXsecmax is distributed similarly to |X1X2|.

To study |X1X2|, note that with high probability m/2±O(m) balls are thrown into the first n/2 bins, and likewise for the last n/2 bins. So X1 and X2 are each distributed essentially like the maximum load when throwing m=m/2±o(m) balls into n=n/2 bins.

This distribution is well-studied and, luckily for this argument, is tightly concentrated around its mean. For example, if mnlog3n, then with high probability X1 differs from its expectation by at most the quantity displayed at the top of this answer [Thm. 1]. (Note: this upper bound is, I think, loose, given Yuri's answer.) Thus, with high probability X1 and X2 also differ by at most this much, and so Xmax and Xmaxsec differ by at most this much.

Conversely, for a (somewhat weaker) lower bound, if, for any t, say, Pr[|X1X2|t]3/4, then Pr[XmaxXsec-maxt] is at least

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
which (by the naive union bound) is at least 1(1/4)(1/2)=1/4. I think this should give you (for example) the expectation of XmaxXsec-max within a contant factor.

Looking at Thm. 1, the difference from the expectation is O((m/n)loglogn), and not what you wrote. That's still much better than O((m/n)logn).
Yuval Filmus

By Thm. 1 (its 3rd case), for any ϵ>0, with probability 1o(1), the maximum in any bin (m balls in n bins) is
mn+2mlognn1(1±ϵ)loglogn2logn.
By my math (using 1δ=1O(δ)), the ±ϵ term expands to an additive absolute term of
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
What am I doing wrong?
Neal Young

Ah - I guess you're right. I subtracted inside the square root and that's how I got my figure.
Yuval Filmus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.