เป็นไปได้ไหมที่จะมีตัวแปรสุ่มแบบเกาส์ซึ่งเป็นการกระจายข้อต่อไม่ใช่เกาส์เซียน


91

ใครบางคนถามคำถามนี้กับฉันในการสัมภาษณ์งานและฉันตอบว่าการกระจายข้อต่อเป็นแบบเกาส์น ฉันคิดว่าฉันสามารถเขียนเกาส์ไบรอาริเอตด้วยวิธีและความแปรปรวนและความแปรปรวนร่วมได้ ฉันสงสัยว่าอาจมีกรณีที่น่าจะเป็นร่วมกันของ Gaussians สองไม่ Gaussian?


4
ตัวอย่างจากอีกวิกิพีเดีย แน่นอนว่าถ้าตัวแปรนั้นมีความเป็นอิสระและเสียเปรียบกันเสียอีก

คำตอบ:


138

การแจกแจงแบบปกติแบบ bivariate เป็นข้อยกเว้นไม่ใช่กฎ!

สิ่งสำคัญคือต้องตระหนักว่าการแจกแจงร่วม "เกือบทั้งหมด" ที่มีระยะขอบปกติไม่ใช่การกระจายตัวแบบปกติแบบสองตัวแปร นั่นคือมุมมองทั่วไปที่การแจกแจงร่วมกับระยะขอบปกติที่ไม่ใช่ค่า bivariate ปกติเป็นอย่างใด "พยาธิวิทยา" เป็นบิตเข้าใจผิด

แน่นอนว่าหลายตัวแปรปกติมีความสำคัญอย่างยิ่งเนื่องจากความเสถียรของมันภายใต้การแปลงเชิงเส้นและได้รับความสนใจจำนวนมากในการใช้งาน

ตัวอย่าง

การเริ่มต้นด้วยตัวอย่างมีประโยชน์ รูปด้านล่างประกอบด้วยแผ่นความร้อนของการแจกแจง bivariate หกรูปซึ่งทั้งหมดนั้นมีระยะขอบปกติมาตรฐาน ด้านซ้ายและกลางในแถวบนสุดเป็นบรรทัดฐานของ bivariate ส่วนที่เหลือไม่ได้ (ตามที่ควรจะเป็น) พวกเขากำลังอธิบายเพิ่มเติมด้านล่าง

ตัวอย่างการแจกแจงไบวาริเอทที่มีมาร์จิ้นปกติมาตรฐาน

กระดูกเปลือยของ copulas

คุณสมบัติของการพึ่งพาอาศัยกันมักจะมีการวิเคราะห์อย่างมีประสิทธิภาพโดยใช้copulas เชื่อม bivariateเป็นเพียงชื่อแฟนซีสำหรับการกระจายความน่าจะเป็นในหน่วยตารางกับเครื่องแบบมาร์จิน[0,1]2

สมมติว่าเป็น copula แบบ bivariate จากนั้นเราจะรู้ทันทีว่าC ( u , v ) 0 , C ( u , 1 ) = uและC ( 1 , v ) = v , ตัวอย่างเช่นC(u,v)C(u,v)0C(u,1)=uC(1,v)=v

เราสามารถสร้างตัวแปรสุ่มแบบ bivariate บนระนาบแบบยุคลิดด้วยระยะขอบที่กำหนดไว้ล่วงหน้าโดยการแปลงรูปแบบของบิวริเอตแบบง่าย ๆ ขอให้และF 2จะกำหนดแจกแจงร่อแร่สำหรับคู่ของตัวแปรสุ่ม( X , Y ) จากนั้นถ้าC ( u , v )เป็น copula bivariate, F ( x , y ) = C ( F 1 ( x ) , F 2 ( y ) )F1F2(X,Y)C(u,v)

F(x,y)=C(F1(x),F2(y))
เป็นฟังก์ชั่นการกระจายสองตัวแปรที่มีมาร์จินและF 2 หากต้องการดูข้อเท็จจริงล่าสุดนี้โปรดทราบว่า อาร์กิวเมนต์เดียวกันการทำงานสำหรับF_2F1F2
P(Xx)=P(Xx,Y<)=C(F1(x),F2())=C(F1(x),1)=F1(x).
F2

อย่างต่อเนื่องและ , ทฤษฎีบท Sklar ของอ้างสนทนาหมายความเอกลักษณ์ นั่นคือจากการแจกแจงไบวาริเอทมีมาร์ต่อเนื่อง , , copula ที่สอดคล้องกันนั้นมีลักษณะเฉพาะ (บนพื้นที่พิสัยที่เหมาะสม)F1F2F(x,y)F1F2

ค่าปกติของไบวาเรียเป็นพิเศษ

ทฤษฎีบทของ Sklar บอกเรา (โดยหลักแล้ว) ว่ามีเพียงโคคูล่าเพียงตัวเดียวที่สร้างการกระจายตัวแบบไบวาเรียปกติ นี่คือชื่อ aptly ตัวเกาส์เกาส์ซึ่งมีความหนาแน่นใน ที่ตัวเศษคือการแจกแจงปกติแบบ bivariate ที่มีสหสัมพันธ์ประเมินที่และ(V)[0,1]2

cρ(u,v):=2uvCρ(u,v)=φ2,ρ(Φ1(u),Φ1(v))φ(Φ1(u))φ(Φ1(v)),
ρΦ1(u)Φ1(v)

แต่มีจำนวนมากของ copulas อื่น ๆ และทั้งหมดของพวกเขาจะให้การกระจายสองตัวแปรที่มีมาร์จินปกติซึ่งเป็นไม่ bivariate ปกติโดยใช้การเปลี่ยนแปลงที่อธิบายไว้ในส่วนก่อนหน้านี้

รายละเอียดบางอย่างเกี่ยวกับตัวอย่าง

โปรดทราบว่าถ้าเป็น am copula โดยพลการที่มีความหนาแน่น , ความหนาแน่นของ bivariate ที่สอดคล้องกับระยะขอบปกติมาตรฐานภายใต้การแปลงคือ C(u,v)c(u,v)F(x,y)=C(Φ(x),Φ(y))

f(x,y)=φ(x)φ(y)c(Φ(x),Φ(y)).

โปรดทราบว่าด้วยการใช้เกาส์เกาส์ในสมการข้างต้นเราจะได้ค่าความหนาแน่นปกติที่เท่ากัน แต่สำหรับทางเลือกอื่น ๆ ของเราจะไม่c(u,v)

ตัวอย่างในรูปถูกสร้างขึ้นดังนี้ (ข้ามแต่ละแถวทีละหนึ่งคอลัมน์):

  1. Bivariate ปกติพร้อมส่วนประกอบอิสระ
  2. bivariate ปกติ-0.4ρ=0.4
  3. ตัวอย่างที่กำหนดในคำตอบนี้ของดิลลิป Sarwate มันสามารถเห็นได้อย่างง่ายดายว่าจะถูกเหนี่ยวนำโดย copulaด้วยความหนาแน่น1)})C(u,v)c(u,v)=2(1(0u1/2,0v1/2)+1(1/2<u1,1/2<v1))
  4. สร้างขึ้นจากเชื่อมแฟรงก์กับพารามิเตอร์2θ=2
  5. สร้างขึ้นจากเชื่อมเคลย์ตันกับพารามิเตอร์1θ=1
  6. ที่สร้างขึ้นจากการปรับเปลี่ยนไม่สมมาตรของเคลย์ตันเชื่อมกับพารามิเตอร์3θ=3

7
+1 สำหรับหมายเหตุว่าค่าความหนาแน่นปกติ bivariate เป็นกรณีพิเศษ!
Dilip Sarwate

บางทีฉันอาจจะขาดอะไรบางอย่าง แต่ถ้าเราเริ่มต้นจาก , การแจกแจงร่วมจะถูกกำหนดโดยอัตโนมัติโดยไม่ขึ้นอยู่กับโครงสร้างของโคคูล่าใด ๆ การสร้างแบบเกาส์โคคูล่าให้กับ CDF ของพวกเขามันเป็นความจริงที่เราจะได้รับ CDFไม่ใช่แบบเกาส์แต่ฟังก์ชั่นนี้โดยทั่วไปจะไม่เป็น CDF ของตัวแปรสุ่มคู่เราเริ่มต้นด้วยขวา ? X1,X2N(0,1)(X1,X2)F(x1,x2)X,X2
RandomGuy

ตัวอย่างวิธีการจำลองในแผงด้านล่างขวา: library(copula) kcf <- khoudrajiCopula(copula2 = claytonCopula(6), shapes = fixParam(c(.4, 1), c(FALSE, TRUE))) # force normal margins evil <- mvdc(kcf, c("norm", "norm"), list(list(mean = 0, sd =1), list(mean = 0, sd = 1))) contour(evil, dMvdc, xlim = c(-3, 3), ylim=c(-3, 3))
Half-pass

1
@RandomGuy คุณกำลังขาดหายไปสมมติฐานอันเป็นที่1) หากคุณถือว่าพวกเขาเป็นอิสระแล้วใช่คุณรู้ว่าการกระจายข้อต่ออยู่แล้ว หากไม่มีข้อสันนิษฐานที่เป็นอิสระการรู้ว่าการแจกแจงร่อแร่ไม่ได้ให้ข้อมูลเพียงพอที่จะระบุการแจกแจงร่วม X1,X2independentN(0,1)
MentatOfDune

25

มันเป็นความจริงที่แต่ละองค์ประกอบของเวกเตอร์ปกติหลายตัวแปรนั้นมีการกระจายตัวตามปกติและคุณสามารถอนุมานค่าเฉลี่ยและความแปรปรวนได้ อย่างไรก็ตามมันไม่เป็นความจริงที่ว่าตัวแปรสุ่มของ Guassian ใด ๆ จะถูกกระจายกันตามปกติ นี่คือตัวอย่าง:

แก้ไข: ในการตอบสนองต่อฉันทามติว่าตัวแปรสุ่มที่เป็นมวลจุดสามารถคิดว่าเป็นตัวแปรกระจายตามปกติด้วยฉันกำลังเปลี่ยนตัวอย่างของฉันσ2=0


ปล่อยให้และให้โดยที่คือตัวแปรสุ่ม นั่นคือแต่ละคนมีความน่าจะเป็น1/2Y = X ( 2 B - 1 )XN(0,1)Y=X(2B1)BBernoulli(1/2)Y=±X1/2

ก่อนอื่นเราแสดงว่ามีการแจกแจงแบบปกติมาตรฐาน Yโดยกฎหมายของความน่าจะรวม ,

P(Yy)=12(P(Yy|B=1)+P(Yy|B=0))

ต่อไป,

P(Yy|B=0)=P(Xy)=1P(Xy)=1Φ(y)=Φ(y)

ที่เป็นมาตรฐาน CDF ในทำนองเดียวกันΦ

P(Yy|B=1)=P(Xy)=Φ(y)

ดังนั้น,

P(Yy)=12(Φ(y)+Φ(y))=Φ(y)

ดังนั้น CDF ของเป็นจึง(0,1)YΦ()YN(0,1)

ตอนนี้เราแสดงให้เห็นว่าไม่ได้กระจายกันตามปกติ X,Yเมื่อ @ cardinal ชี้ให้เห็นว่าการจำแนกลักษณะหลายตัวแปรตามปกติคือการรวมกันเชิงเส้นขององค์ประกอบทั้งหมดจะกระจายตามปกติ ไม่มีคุณสมบัตินี้ตั้งแต่X,Y

Y+X={2Xif B=10if B=0.

ดังนั้นคือการผสมของตัวแปรสุ่มและมวลจุดที่ 0 ดังนั้นจึงไม่สามารถกระจายได้ตามปกติY+X50/50N(0,4)


4
ฉันไม่เห็นด้วยกับคำตอบนี้ มวลจุดด้อยของที่มักจะถูกพิจารณาว่าเป็นตัวแปรสุ่มแบบเกาส์เสื่อมที่มีค่าความแปรปรวนเป็นศูนย์ นอกจากนี้จะไม่ต่อเนื่องกันแม้ว่าจะต่อเนื่องกันเล็กน้อย สำหรับตัวอย่างของตัวแปรสุ่มแบบต่อเนื่องร่วมกันสองตัวที่เป็นแบบเกาส์เล็กน้อย แต่ไม่ได้รวมกันแบบเกาส์เซียนให้ดูตัวอย่างเช่นครึ่งหลังของคำตอบนี้ 1μ(X,X)
Dilip Sarwate

4
@DilipSarwate คำถามคือให้ตัวอย่าง (ถ้ามี) ของสองตัวแปรที่มีการกระจายตามปกติ แต่การกระจายร่วมของพวกเขาไม่ได้หลายตัวแปรปกติ นี่คือตัวอย่าง คำจำกัดความมาตรฐานส่วนใหญ่ของการแจกแจงแบบปกติ (เช่น wikipedia en.wikipedia.org/wiki/Normal_distribution ) ต้องการความแปรปรวนที่เป็นบวกอย่างเคร่งครัดจึงไม่รวมมวลจุดเป็นส่วนหนึ่งของตระกูลการแจกแจงแบบปกติ
แมโคร

4
มาตรฐานลักษณะของหลายตัวแปร Gaussian คือเป็นหลายตัวแปร Gaussian ถ้าหากนั้นเป็น Gaussian สำหรับทั้งหมด ตามที่ @Dilip บอกเป็นนัยก็ควรพิจารณาว่าเรื่องนี้เป็นจริงสำหรับตัวอย่างของคุณหรือไม่ XRnaTXaRn
พระคาร์ดินัล

6
เนื่องจากคุณไม่ชอบการอุทธรณ์ต่อเหตุผล ;-) แล้วการอุทธรณ์ต่อผู้มีอำนาจล่ะ? (นั่นเป็นเรื่องตลกถ้ามันไม่ชัดเจน) ฉันเพิ่งเกิดขึ้นโดยบังเอิญโดยที่ฉันกำลังมองหาอย่างอื่น: ตัวอย่าง 2.4หน้า 22 ของ GAF Seber และ AJ Lee การวิเคราะห์การถดถอยเชิงเส้นอันดับ 2 เอ็ด. ไวลีย์ มันอ้างถึง: "ปล่อยให้และวาง ... ดังนั้นมีการแจกแจงแบบหลายตัวแปรปกติ" YN(μ,σ2)Y=(Y,Y)Y
พระคาร์ดินัล

5
การสนทนาเป็นเรื่องเกี่ยวกับคำจำกัดความ เห็นได้ชัดว่าถ้าเมทริกซ์ความแปรปรวนร่วมโดยนิยามไม่จำเป็นต้องเป็นมาโครเอกพจน์ให้ตัวอย่าง แต่นี่ไม่ใช่ตัวอย่างตามนิยามเสรีนิยมที่ @cardinal อ้างถึงเช่นกัน เหตุผลหนึ่งที่ดีที่ต้องการความหมายแบบเสรีมากขึ้นก็คือการแปลงเชิงเส้นทั้งหมดของตัวแปรปกติเป็นเรื่องปกติ โดยเฉพาะอย่างยิ่งในการถดถอยเชิงเส้นที่มีข้อผิดพลาดปกติค่าคงที่มีการแจกแจงปกติร่วม แต่เมทริกซ์ความแปรปรวนร่วมนั้นเป็นเอกพจน์
NRH

5

โพสต์ต่อไปนี้มีโครงร่างของการพิสูจน์เพียงเพื่อให้แนวคิดหลักและเริ่มต้นใช้งาน

ปล่อยให้เป็นสองตัวแปรสุ่มเกาส์เซียนอิสระและให้เป็น z=(Z1,Z2)x=(X1,X2)

x=(X1X2)=(α11Z1+α12Z2α21Z1+α22Z2)=(α11α12α21α22)(Z1Z2)=Az.

แต่ละตัวแต่เนื่องจากทั้งคู่รวมกันเป็นเส้นตรงของ r.vs อิสระเดียวกันพวกเขาจึงต้องพึ่งพากันXiN(μi,σi2)

นิยาม คู่ของ r.vsจะกล่าวว่าเป็น bivariate กระจายตามปกติ IFF ก็สามารถเขียนเป็นเส้นตรงกันอิสระปกติ r.vsZ_2)x=(X1,X2)x=Azz=(Z1,Z2)

เล็มม่า ถ้าเป็นตัวแปรแบบเกาส์เบียสแล้วการรวมกันเชิงเส้นอื่น ๆ ของพวกมันจะเป็นตัวแปรสุ่มแบบปกติอีกครั้งx=(X1,X2)

พิสูจน์ ไม่สำคัญเลยข้ามเพื่อไม่ให้ใครขุ่นเคือง

คุณสมบัติ ถ้าไม่มีความสัมพันธ์กันแสดงว่าพวกเขาเป็นอิสระและในทางกลับกันX1,X2

การกระจายของX1|X2

สมมติว่าเป็น Gaussian r.vs เหมือนเดิม แต่สมมติว่าพวกมันมีความแปรปรวนในเชิงบวกและไม่มีค่าเฉลี่ยสำหรับความเรียบง่ายX1,X2

หากเป็นพื้นที่ว่างที่ถูกขยายโดยให้และS}SX2X1S=ρσX1σX2X2X1S=X1X1S

X1และเป็นการรวมกันเชิงเส้นของดังนั้นก็เช่นกัน พวกเขาอยู่ด้วยกันเสียนไม่เกี่ยวข้อง (พิสูจน์) และเป็นอิสระX2zX2,X1S

การสลายตัว ถือกับ

X1=X1S+X1S
E[X1|X2]=ρσX1σX2X2=X1S

V[X1|X2]=V[X1S]=E[X1ρσX1σX2X2]2=(1ρ)2σX12.

จากนั้น

X1|X2N(X1S,(1ρ)2σX12).

ตัวแปรสุ่มแบบเกาส์สองตัวแปรที่ไม่แปรนั้นเป็นแบบเกาส์ร่วมกันหากเงื่อนไขและก็เป็น Gaussian ด้วยเหมือนกันX | Y Y | XX,YX|YY|X


2
ไม่ชัดเจนว่าการสังเกตนี้ตอบคำถามอย่างไร เนื่องจากกฎผลิตภัณฑ์เป็นคำจำกัดความของการแจกแจงแบบมีเงื่อนไขจึงไม่ใช่เรื่องพิเศษสำหรับการแจกแจงแบบทวิภาค คำสั่งที่ตามมา "ตามลำดับ ... " ไม่ได้ให้เหตุผลใด ๆ : ทำไมการแจกแจงแบบมีเงื่อนไขต้องเป็นปกติด้วย?
whuber

ฉันกำลังตอบคำถามหลัก: "ฉันสงสัยว่าอาจมีกรณีที่ความน่าจะเป็นร่วมของสอง Gaussians ไม่ใช่ Gaussian หรือไม่" ดังนั้นคำตอบคือ: เมื่อเงื่อนไขไม่ปกติ -
อุปกรณ์เสริม

2
คุณสาธิตให้จบได้ไหม? ตอนนี้เป็นเพียงการยืนยันในส่วนของคุณโดยไม่มีข้อพิสูจน์ ไม่ชัดเจนเลยว่าถูกต้อง นอกจากนี้ยังไม่สมบูรณ์เนื่องจากคุณจำเป็นต้องมีอยู่: นั่นคือคุณต้องแสดงให้เห็นว่าเป็นไปได้จริง ๆ ที่การกระจายการร่วมจะมีระยะขอบปกติ แต่อย่างน้อยหนึ่งเงื่อนไขไม่ปกติ ในความเป็นจริงนั้นเป็นเรื่องจริงเล็กน้อยเพราะคุณสามารถเปลี่ยนแปลงการแจกแจงแบบมีเงื่อนไขในแต่ละชุดของศูนย์การวัดโดยไม่ต้องเปลี่ยนระยะขอบ - แต่ความเป็นไปได้นั้นดูเหมือนจะขัดแย้งกับการยืนยันของคุณ
whuber

สวัสดี @whuber ฉันหวังว่านี่จะช่วยได้มากขึ้น คุณมีข้อเสนอแนะหรือการแก้ไขที่ต้องทำ? ฉันเขียนสิ่งนี้อย่างรวดเร็วในขณะที่ฉันไม่ได้มีเวลามาก :-) แต่ฉันจะให้ความสำคัญกับข้อเสนอแนะหรือการปรับปรุงที่คุณสามารถทำได้ ดีที่สุด
อุปกรณ์เสริม

(1) คุณพยายามพิสูจน์อะไร (2) เนื่องจากคำถามถามว่าเมื่อใดที่การแจกแจงแบบมีส่วนร่วมแบบเกาส์เซียนนั้นไม่ได้ร่วมกันแบบเกาส์เซียนผมไม่เห็นเลยว่าข้อโต้แย้งนี้นำไปสู่สิ่งใดที่เกี่ยวข้องกัน
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.