ผลรวมของตัวแปรสุ่มของ Rademacher


9

ให้เป็นตัวแปรสุ่มอิสระที่รับค่าหรือโดยมีความน่าจะเป็น 0.5 แต่ละตัว พิจารณาผลรวมy_j ฉันต้องการที่จะผูกไว้บนน่าจะเป็นt) ขอบเขตที่ดีที่สุดที่ฉันมีตอนนี้คือโดยที่cคือค่าคงที่สากล นี่คือความสำเร็จโดยการจำกัดความน่าจะเป็นที่ต่ำกว่า(| x_1 + \ จุด + x_n | <\ sqrt {t})และPr (| y_1 + \ จุด + y_n | <\ sqrt {t})โดยการประยุกต์ใช้ขอบเขต Chernoff ง่าย ๆ ฉันหวังว่าจะได้รับสิ่งที่ดีกว่าขอบเขตนี้อย่างมากหรือไม่ อย่างน้อยฉันก็จะได้รับx1xa,y1yb+11S=i,jxi×yjP(|S|>t)2ectmax(a,b)cPr(|x1++xn|<t)Pr(|y1++yn|<t)ectab{AB}}} ถ้าฉันได้หางย่อยแบบเกาส์เซียนที่น่าจะดีที่สุด แต่เราคาดหวังได้ไหม (ฉันไม่คิดอย่างนั้น แต่ไม่สามารถคิดเรื่องโต้แย้งได้)


คุณคิดว่าจะนำ Chernoff ไปใช้กับSโดยตรงSหรือไม่? คุณสามารถทำอะไรกับ
E[exp(λS]=E[λijXiYj]=E[λ(iXi)(jYj)]
Dilip Sarwate

มีการปรับปรุงอย่างชัดเจนในขอบเขตของคุณสำหรับดังนั้นความน่าจะเป็นต้องเป็นศูนย์ ดูเหมือนว่าสำหรับฉันนั่นคือหาง "sub-Gaussian" :-) นอกจากนี้ดูเหมือนว่าขอบเขตของคุณไม่ถูกต้อง: ตัวแปรที่ต่อเนื่องเป็นไปตามเงื่อนไขของคำถามนี้ สำหรับและน่าจะเป็นแต่ผูกพันของคุณเป็น asymptoticallyเป็นเติบโตขนาดใหญ่ t>ab1a=bt=a2112exp(ca)0a
whuber

ความน่าจะเป็นของตัวแปรทั้งหมดที่เป็น 1 ลดลงอย่างมาก ฉันไม่คิดว่าฉันเข้าใจความคิดเห็นของคุณ สำหรับและ ขอบเขตที่ฉันกล่าวนั้นค่อนข้างเป็นความจริงเนื่องจากความน่าจะเป็นของผลรวมที่มากกว่าคือa=bt=a21t212(a1)eln(2)c(a1/a)
user1189053

1
ฉันเสียใจจริงๆเกี่ยวกับความผิดพลาดของฉัน ฉันคิดว่าฉันได้กล่าวถึงข้างต้นเหมือนกัน ดังนั้น p = 1/2 และเราสามารถใช้ a และ b ใหญ่กว่าค่าคงที่ใด ๆ (ถ้าจำเป็น) สำหรับความไม่เสมอภาคที่จะถือ
user1189053

2
คุณกำลังพิจารณาผลรวมของผลิตภัณฑ์ไม่ใช่ผลบวก :-)
สำคัญ

คำตอบ:


7

ความสัมพันธ์เกี่ยวกับพีชคณิต

S=i,jxiyj=ixijyj

แสดงเป็นผลิตภัณฑ์ของผลรวมอิสระสองรายการ เนื่องจากและเป็นตัวแปรอิสระ Bernoulli ,เป็นตัวแปรBinomialซึ่ง ได้รับสองเท่าและเปลี่ยน ดังนั้นค่าเฉลี่ยของมันคือและความแปรปรวนของมันคือ ในทำนองเดียวกันมีค่าเฉลี่ยอยู่ที่และความแปรปรวนของขเรามาสร้างมาตรฐานพวกเขาตอนนี้ด้วยการนิยามS(xi+1)/2(yj+1)/2(1/2)X=i=1axi(a,1/2)0aY=j=1byj0b

Xa=1ai=1axi,

จากไหน

S=abXaXb=abZab.

ถึงระดับความแม่นยำสูง (และเชิงปริมาณ) ในขณะขนาดใหญ่ที่เติบโตขึ้นใกล้กับการแจกแจงแบบปกติมาตรฐาน ดังนั้นเราจึงประมาณเป็นคูณผลคูณของมาตรฐานสองมาตรฐานaXaSab

ขั้นตอนต่อไปคือการสังเกตว่า

Zab=XaXb=12((Xa+Xb2)2(XaXb2)2)=12(U2V2).

มีหลายความแตกต่างของกำลังสองของตัวแปรอิสระปกติมาตรฐานและVการกระจายตัวของสามารถคำนวณวิเคราะห์ (โดยinverting ฟังก์ชั่นลักษณะ ): รูปแบบไฟล์ PDF ที่เป็นสัดส่วนกับฟังก์ชั่นของการสั่งซื้อ Bessel ศูนย์K_0เนื่องจากฟังก์ชั่นนี้มีก้อยชี้แจงเราจึงสรุปได้ทันทีว่าสำหรับและขนาดใหญ่และคงที่จึงไม่มีการประมาณที่ดีกว่าสำหรับกว่าที่ให้ไว้ในคำถามUVZabK0(|z|)/πabtPra,b(S>t)

มีห้องพักสำหรับการปรับปรุงบางยังคงอยู่เมื่อหนึ่ง (อย่างน้อย) ของและมีขนาดไม่ใหญ่หรือที่จุดในหางของใกล้กับAB การคำนวณโดยตรงของการกระจายตัวของแสดงโค้งเรียวออกจากความน่าจะเป็นที่จุดหางมีขนาดใหญ่กว่าประมาณเกินB)} บันทึกการแปลงเชิงเส้นของ CDF ของสำหรับค่าต่างๆของ (ที่ระบุในชื่อ) และ (แปรผันตามค่าเดียวกันกับ , แยกตามสีในแต่ละพล็อต) แสดงสิ่งที่เกิดขึ้น สำหรับการอ้างอิงกราฟของการ จำกัดabS±abSababmax(a,b)SabaK0การกระจายจะแสดงเป็นสีดำ (เพราะมีความสมมาตรประมาณ ,ดังนั้นจึงพอมองหางเชิงลบได้)S0Pr(S>t)=Pr(S<t)

ตัวเลข

เมื่อโตขึ้น CDF ก็จะโตขึ้นใกล้กับบรรทัดอ้างอิงb

การหาลักษณะและการหาปริมาณความโค้งนี้จะต้องใช้การวิเคราะห์ที่ละเอียดยิ่งขึ้นของการประมาณปกติของตัวแปรทวินาม

คุณภาพของการประมาณฟังก์ชั่น Bessel จะชัดเจนขึ้นในส่วนที่ขยายเหล่านี้ (ของมุมขวาบนของแต่ละพล็อต) เราค่อนข้างห่างไกลจากหาง แม้ว่าขนาดแนวตั้งลอการิทึมสามารถซ่อนความแตกต่างอย่างมีนัยสำคัญอย่างชัดเจนตามเวลาที่ได้ถึงประมาณเป็นสิ่งที่ดีสำหรับ{ข}a500|S|<ab

ขุ่น


รหัส R เพื่อคำนวณการกระจายตัวของS

ต่อไปนี้จะใช้เวลาสองสามวินาทีในการดำเนินการ (มันคำนวณความน่าจะเป็นหลายล้าน 36 การรวมกันของและ .) บนเครื่องช้าลงละเว้นขนาดใหญ่หนึ่งหรือสองค่าและและเพิ่มขีด จำกัด วางแผนที่ลดลงจากประมาณ160}abab1030010160

s <- function(a, b) {
  # Returns the distribution of S as a vector indexed by its support.
  products <- factor(as.vector(outer(seq(-a, a, by=2), seq(-b, b, by=2))))
  probs <- as.vector(outer(dbinom(0:a, a, 1/2), dbinom(0:b, b, 1/2)))
  tapply(probs, products, sum)
}

par(mfrow=c(2,3))
b.vec <- c(51, 101, 149, 201, 299, 501)
cols <- terrain.colors(length(b.vec)+1)
for (a in c(50, 100, 150, 200, 300, 500)) {
  plot(c(-sqrt(a*max(b.vec)),0), c(10^(-300), 1), type="n", log="y", 
       xlab="S/sqrt(ab)", ylab="CDF", main=paste(a))
  curve(besselK(abs(x), 0)/pi, lwd=2, add=TRUE)
  for (j in 1:length(b.vec)) {
    b <- b.vec[j]
    x <- s(a,b)
    n <- as.numeric(names(x))
    k <- n <= 0
    y <- cumsum(x[k])
    lines(n[k]/sqrt(a*b), y, col=cols[j], lwd=2)
  }
}

1
ทำได้ดีมาก! หนึ่งสามารถขอรับแบบฟอร์มที่แน่นอนสำหรับ CDF ของผลิตภัณฑ์ 2 Normals มาตรฐาน .. 1/2 (1 + y BesselK[0,-y] StruveL[-1, y] - y BesselK[1,-y] StruveL[0, y])สำหรับหางเชิงลบที่มันเป็น มันน่าสนใจที่จะเห็นว่า: (a) ขอบเขตของ OP และและ (b) การประมาณปกติของคุณมีประสิทธิภาพอย่างไรสำหรับกรณีที่เราดูข้างต้นคือได้มาโดยใช้วิธีการแยก PMF ที่แน่นอน a=5,b=7
wolfies

1
@wolfies ใช่ฉันได้รับการแสดงออกที่มากเกินไปมันรวมหางของK_0เนื่องจากการกระจายตัวที่แน่นอนออกไปจากมันในส่วนท้ายสุดมันจึงไม่คุ้มค่าที่จะนำการวิเคราะห์ส่วนประกอบหนึ่งไปใช้อีก ขั้นตอนต่อไปที่เป็นตรรกะคือการวิเคราะห์ที่ชาญฉลาดมากขึ้นซึ่งหมายถึงเกินกว่าการประมาณปกติ K0
whuber

3

ความคิดเห็น:ฉันแก้ไขชื่อในความพยายามที่จะสะท้อนให้เห็นถึงดีกว่าชนิดของ rv ที่จะพิจารณาในคำถาม ทุกคนรู้สึกอิสระที่จะแก้ไขอีกครั้ง

แรงจูงใจ:ฉันเดาว่าไม่จำเป็นต้องยุติขอบเขตบนหากเราสามารถหาการกระจายของ. (อัปเดต :เราไม่สามารถเห็นความคิดเห็นและคำตอบของ Whuber ได้)|Sab|

แสดงว่าkมันเป็นเรื่องง่ายที่จะตรวจสอบว่า 's มีการกระจายเช่นเดียวกับ ' s และ 's ฟังก์ชั่นสร้างช่วงเวลาคือZk=XiYj,k=1,...,abZXY

MZ(t)=E[ezt]=12et+12et=cosh(t)

นอกจากนี้ค่าเริ่มต้นของคือคู่ที่มีความเป็นอิสระ: ตัวแปร (ดัชนีอาจเป็นของหลักสูตรใดก็ได้) มีการสนับสนุนโดยมีความน่าจะเป็นที่สอดคล้องกัน\} ฟังก์ชั่นการสร้างช่วงเวลาของมันคือZW=Z1+Z2{2,0,2}{1/4,1/2,1/4}

MW(t)=E[e(z1+z2)t]=14e2t+12+14e2t==14(e2t+1)+14(e2t+1)=142etcosh(t)+142etcosh(t)=cosh(t)cosh(t)=MZ1(t)MZ2(t)

ฉันจะพยายามที่จะสงสัยว่าเป็นอิสระเต็มที่ถือดังต่อไปนี้ (มันเป็นที่ชัดเจนกับคนที่ฉลาดหรือไม่): สำหรับส่วนนี้แสดงว่าZ_จากนั้นตามกฎลูกโซ่ Zij=XiYj

P[Zab,...,Z11]=P[ZabZa,b1,...,Z11]...P[Z13Z12,Z11]P[Z12Z11]P[Z11]

โดยอิสระคู่ฉลาดเรามี{12}] พิจารณา {11}] และเป็นเงื่อนไขแบบอิสระบนดังนั้นเราจึงมี ความเท่าเทียมกันครั้งที่สองโดยความเป็นอิสระคู่ แต่นี่ก็หมายความว่าP[Z12Z11]=P[Z12]
P[Z13,Z12Z11]Z13Z12Z11

P[Z13Z12,Z11]=P[Z13Z11]=P[Z13]

P[Z13Z12,Z11]P[Z12Z11]P[Z11]=P[Z13,Z12,Z11]=P[Z13]P[Z12]P[Z11]

ฯลฯ (ฉันคิดว่า) ( ปรับปรุง : ฉันคิดว่าผิดความเป็นอิสระอาจจะเก็บไว้สำหรับ triplet ใด ๆ แต่ไม่ใช่สำหรับทั้งกลุ่มดังนั้นสิ่งต่อไปนี้เป็นเพียงการได้มาของการกระจายของการเดินแบบสุ่มง่าย ๆ และไม่ใช่คำตอบที่ถูกต้องสำหรับคำถาม - ดู Wolfies 'และ คำตอบของ Whuber)

หากความเป็นอิสระเต็มรูปแบบถือเป็นจริงเรามีหน้าที่ในการได้รับการกระจายของผลรวมของ iid dichotomous rv ของ

Sab=k=1abZk

ซึ่งดูเหมือนว่าจะเป็นการสุ่มเดินเรียบ ๆแม้ว่าจะไม่มีการตีความที่ชัดเจนของลำดับหลัง

ถ้าการสนับสนุนของจะเป็นจำนวนเต็มคู่ในรวมถึงศูนย์ในขณะที่ถ้าการสนับสนุนของจะเป็นจำนวนเต็มคี่ในโดยไม่มีศูนย์ ab=evenS[ab,...,ab]ab=oddS[ab,...,ab]

เราปฏิบัติต่อกรณีของAB แสดงว่าจะเป็นจำนวน 's สละค่า-1จากนั้นการสนับสนุนของสามารถเขียนได้\} สำหรับการใด ๆ ที่ได้รับเราได้รับค่าไม่ซ้ำกันสำหรับSนอกจากนี้เนื่องจากความน่าจะเป็นสมมาตรและความเป็นอิสระ (หรือเพียงแค่ exchangeability?) ทุกคนเข้าใจร่วมกันเป็นไปได้ของ -variablesมี equiprobable เราจึงนับและพบว่าฟังก์ชันความน่าจะเป็นของคือab=odd
mZ1SS{ab2m;mZ+{0};mab}mSZ{Z1=z1,...,Zab=zab}S

P(S=ab2m)=(abm)12ab,0mab

การกำหนด , และเลขคี่โดยการสร้างและองค์ประกอบทั่วไปของการสนับสนุนของเรามีsab2mS

P(S=s)=(ababs2)12ab

ย้ายไปที่เนื่องจากถ้าการแจกแจงของนั้นมีความสมมาตรรอบศูนย์โดยไม่มีการจัดสรรความน่าจะเป็นให้เป็นศูนย์และดังนั้นการกระจายของได้มาจากการ "พับ" กราฟความหนาแน่นรอบแกนแนวตั้งโดยหลักแล้วจะเพิ่มความน่าจะเป็นสองเท่าสำหรับค่าบวก|S|ab=oddS|S|

P(|S|=|s|)=(ababs2)12ab1

จากนั้นฟังก์ชั่นการกระจายคือ

P(|S||s|)=12ab11is,iodd(ababi2)

ดังนั้นสำหรับจริงใด ๆ , เราได้รับความน่าจะเป็นที่ต้องการ t1t<ab

P(|S|>t)=1P(|S|t)=112ab11it,iodd(ababi2)

โปรดทราบว่าการบ่งชี้รับประกันว่าผลรวมจะทำงานได้ถึงค่าที่รวมอยู่ในการสนับสนุนของ- ตัวอย่างเช่นหากเราตั้งค่า ,จะยังคงทำงานได้ถึงเนื่องจากมันถูกกำหนดให้เป็นเลขคี่ด้านบนของการเป็นจำนวนเต็มi=odd|S|t=10.5i9


จำนวนค่าลบในจะต้องเท่ากัน ดังนั้นตัวแปรสุ่มสี่ตัวนี้ (ฉันคิดว่ามันคือสี่ของของคุณ- สัญกรณ์ไม่ชัดเจน) จึงไม่เป็นอิสระ (X1Y1,X1Y2,X2Y1,X2Y2)Z
whuber

@whuber ขอบคุณ ปัญหา (ปัญหาของฉันคือ) คือฉันได้รับความเป็นอิสระในตัวอย่างเฉพาะที่ฉันออกกำลังกาย ฉันจะทำงานกับตัวแปรสี่ตัวที่คุณเขียน
Alecos Papadopoulos

ใช่มันเป็นเรื่องยุ่งยากเพราะความแตกต่างของเป็นอิสระจากกันและฉันเชื่อว่าสามแตกต่างนั้นเป็นอิสระเช่นกัน (ฉันยกระดับคำตอบของคุณเนื่องจากการโจมตีที่สร้างสรรค์ในปัญหาและฉันหวังว่าฉันเข้าใจผิดในการประเมินการขาดความเป็นอิสระของฉัน!)ZZ
whuber

@ whuber ขอบคุณอีกครั้ง whuber นั่นเป็นกำลังใจจริงๆ ฉันคิดว่าสิ่งที่เราต้องการเพื่อให้การกระจายตัวของนั้นถูกต้องนั่นคือเหตุการณ์ทั้งหมดนั้นติดตั้งได้ เป็นไปได้หรือไม่ที่ทรัพย์สินจะถูกถือครองไว้ขณะที่ความเป็นอิสระร่วมกันล้มเหลว? ฉันหมายถึงความเป็นอิสระร่วมกันนั้นเพียงพอสำหรับความสามารถในการสวมใส่ได้ แต่จำเป็นหรือไม่ S{k=1abZk}
Alecos Papadopoulos

ฉันเกรงว่าฉันไม่เข้าใจเอกสารของคุณซึ่งดูเหมือนจะอ้างถึงจุดตัดของตัวแปรสุ่ม (สิ่งที่อาจหมายถึง)
whuber

3

ไม่ใช่คำตอบ แต่เป็นความคิดเห็นเกี่ยวกับคำตอบที่น่าสนใจของ Alecos ที่ยาวเกินกว่าจะใส่ลงในกล่องความคิดเห็นได้

อนุญาตเป็นตัวแปรสุ่ม Rademacher อิสระและปล่อยให้เป็นตัวแปรสุ่ม Rademacher อิสระ Alecos ตั้งข้อสังเกตว่า:(X1,...,Xa)(Y1,...,Yb)

Sab=k=1abZkwhereZk=XiYj

"... ดูเหมือนว่าเป็นการสุ่มแบบง่าย ๆ " ถ้ามันเหมือนกับการเดินแบบเรียบง่ายแบบง่ายการกระจายตัวของจะเป็น 'รูปทรงกลมเหมือนระฆัง' แบบสมมาตรรอบ ๆ 0S

เพื่อแสดงให้เห็นว่ามันไม่ใช่การเดินแบบสุ่มง่าย ๆ นี่คือการเปรียบเทียบ Monte Carlo อย่างรวดเร็วของ:

  • จุดสามเหลี่ยม: การจำลอง Monte Carlo ของ pmf ของให้และSa=5b=7
  • จุดกลม: การจำลองแบบมอนติคาร์โลของการเดินสุ่มแบบง่ายด้วยขั้นตอนn=35

ป้อนคำอธิบายรูปภาพที่นี่

เห็นได้ชัดว่าไม่ใช่การเดินสุ่มแบบง่าย ๆ โปรดทราบด้วยว่าSไม่ได้ถูกกระจายในจำนวนเต็มคู่ (หรือคี่) ทั้งหมดS

Monte Carlo

นี่คือรหัส (ในMathematica ) ที่ใช้ในการสร้างการวนซ้ำเดียวของผลรวมโดยกำหนดและ :Sab

 SumAB[a_, b_] :=  Outer[Times, RandomChoice[{-1, 1}, a], RandomChoice[{-1, 1}, b]] 
                         // Flatten // Total 

จากนั้น 500,000 เส้นทางดังกล่าวเมื่อสามารถและด้วย:a=5b=7

 data57 = Table[SumAB[5, 7], {500000}];

โดเมนของการสนับสนุนสำหรับการรวมกันของและคือ:ab

{-35, -25, -21, -15, -9, -7, -5, -3, -1, 1, 3, 5, 7, 9, 15, 21, 25, 35}

1
+1 การจำลอง (หรือตัวอย่างที่เป็นรูปธรรมดังกล่าว) เป็นสิ่งจำเป็นมานานเพื่อให้การอ้างอิงกับเราสำหรับการวิเคราะห์เพิ่มเติม จำลองของคุณสามารถทำให้มีประสิทธิภาพมากขึ้น (ประมาณ 25 ครั้งได้เร็วขึ้น) โดยสังเกตว่าเป็นปัจจัยขวา) นั่นอธิบายได้ทันทีว่าทำไมไม่มีค่าไพรม์ขนาดใหญ่พอที่จะปรากฏในแผนภูมิรูปสามเหลี่ยมของคุณและแสดงให้เห็นว่าการบังคับใช้โดยนั้นไม่สามารถมีการกระจายแบบ "สุ่มเดิน" (สเกลแบบทวินาม) S(ixi)(jyj)S
whuber

1
แทนที่จะเป็นการจำลองคุณสามารถรับคำตอบที่ถูกต้องได้อย่างรวดเร็ว (สำหรับaและbน้อยกว่า 1,000 ต่อไป) เหมือนrademacher[a_] := Transpose[{Range[-a, a, 2], Array[Binomial[a, #] &, a + 1, 0] /2^a}]; s[a_, b_] := {#[[1, 1]], Total[#[[;; , 2]]]} & /@ GatherBy[Flatten[Outer[Times, rademacher[a], rademacher[b], 1], 1], First]; ListLogPlot[s[5, 7]] ลองพูดs[100,211]ด้วย
whuber

@ ความคิดเห็นเกี่ยวกับครั้งแรกของคุณอีกครั้ง - ตัวประกอบของคุณประณีตมาก! :) บน Mac ของฉันการใช้: ......... WHuberSumAB[a_, b_] := Total[RandomChoice[{-1, 1}, a]] * Total[RandomChoice[{-1, 1}, b]]... มันเร็วเป็นสองเท่าของOuterวิธีการ อยากรู้ว่าคุณใช้รหัสอะไรอยู่? [แน่นอนว่าทั้งสองวิธีสามารถทำได้เร็วขึ้นโดยใช้ParallelTableฯลฯ ]
wolfies

sum[n_, a_, b_] := Block[{w, p}, w[x_] := Array[Binomial[x, #] &, x + 1, 0] /2^x; p[x_] := RandomChoice[w[x] -> Range[-x, x, 2], n]; p[a] p[b]]ลองนี้: เวลาTally[sum[500000, 5, 7]]นั้น สำหรับRaficianodos ต่อไปนี้จะเป็นสิ่งเดียวกันและใช้เวลาเพียง 50% นานกว่าMathematicas <- function(n, a, b) (2 * rbinom(n, a, 1/2) - a)*(2 * rbinom(n, b, 1/2) - b); system.time(x <- table(s(5*10^5, 5, 7))); plot(log(x), col="#00000020") :
whuber

@whuber - แสดงความคิดเห็นอีกครั้ง 2 - pmf ที่แน่นอน: ดังนั้นคุณมีซึ่งผลรวมของ Rademacher คือ Binomial ดังนั้นเราจึงมี ผลิตภัณฑ์ของ 2 Binomials ทำไมไม่ลองเขียนคำตอบนี้ดู! - มันสวย, เรียบร้อย, สง่างามและมีประโยชน์ ...S=(iXi)(jYj)
wolfies
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.