ค่าเฉลี่ยตัวแปรสุ่มแบบตัวแปรไม่แปรจะเท่ากับจำนวนอินทิกรัลของฟังก์ชันควอไทล์เสมอหรือไม่?


17

ฉันเพิ่งสังเกตเห็นว่าการรวมฟังก์ชั่นควอไทล์ของตัวแปรสุ่ม (ตัวแปรผกผัน cdf) แบบ univariate จาก p = 0 ถึง p = 1 ทำให้เกิดค่าเฉลี่ยของตัวแปร ฉันไม่เคยได้ยินความสัมพันธ์นี้มาก่อนดังนั้นฉันจึงสงสัยว่า: เป็นเช่นนี้เสมอหรือไม่ ถ้าเป็นเช่นนั้นความสัมพันธ์นี้เป็นที่รู้จักกันอย่างกว้างขวาง?

นี่คือตัวอย่างในไพ ธ อน:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

คำตอบ:


26

ให้Fเป็น CDF ของตัวแปรสุ่มXดังนั้น CDF ผกผันสามารถเขียนF1ได้ อินทิกรัลของคุณทำการแทนp=F(x) , dp=F(x)dx=f(x)dxเพื่อรับ

01F1(p)dp=xf(x)dx=EF[X].

สิ่งนี้ใช้ได้สำหรับการแจกแจงแบบต่อเนื่อง ต้องใช้ความระมัดระวังสำหรับการแจกแจงอื่น ๆ เนื่องจาก CDF ผกผันไม่ได้นิยามที่ไม่ซ้ำ

แก้ไข

FxPrF(x)x

รูปที่ 1

ตัวเลขนี้แสดงให้เห็นว่า CDF ของน Bernoulliการกระจายปรับขนาดโดย2นั่นคือตัวแปรสุ่มมีความน่าจะเป็นของเท่ากับและน่าจะเป็นของของเท่ากับ2ความสูงของการกระโดดที่และให้ความน่าจะเป็น ความคาดหวังของตัวแปรนี้เห็นได้ชัดว่ามีค่าเท่ากับ3/42(2/3)21/302/32020×(1/3)+2×(2/3)=4/3

เราสามารถกำหนด "inverse CDF"โดยต้องการF1

F1(p)=x if F(x)p and F(x)<p.

นี่หมายความว่าเป็นฟังก์ชันขั้นตอนด้วย สำหรับท่านใดที่เป็นไปได้ค่าของตัวแปรสุ่มจะบรรลุค่ามากกว่าช่วงเวลาของความยาว(x) ดังนั้นมันจึงได้มาจากการรวมค่าซึ่งเป็นเพียงความคาดหวัง x F - 1 x Pr F ( x ) x Pr F ( x )F1xF1xPrF(x)xPrF(x)

รูปที่ 2

นี่คือกราฟของ CDF ผกผันของตัวอย่างก่อนหน้า การกระโดดของและใน CDF กลายเป็นเส้นแนวนอนของความยาวเหล่านี้ที่ความสูงเท่ากับและซึ่งเป็นค่าที่ความน่าจะเป็นที่สอดคล้องกัน (Inverse CDF ไม่ได้กำหนดไว้เกินช่วงเวลา ) อินทิกรัลคือผลรวมของรูปสี่เหลี่ยมผืนผ้าสองอันหนึ่งในความสูงและฐานอีกอันหนึ่งของความสูงและฐานรวมเป็นเหมือนก่อน1/32/302[0,1]01/322/34/3

โดยทั่วไปแล้วสำหรับการผสมของการกระจายอย่างต่อเนื่องและไม่ต่อเนื่องเราจำเป็นต้องกำหนดผกผัน CDF ให้ขนานกับสิ่งก่อสร้างนี้: ในการกระโดดแต่ละจุดของความสูงเราจะต้องสร้างเส้นแนวนอนยาวตามสูตรก่อนหน้านี้pp


คุณทำผิดพลาดในการเปลี่ยนแปลงของตัวแปร x มาจากไหน?
Mascarpone

3
@Marparpone โปรดอ่านข้อความก่อนหน้าสมการ ฉันไม่คิดว่าจะมีความผิดพลาดในการเปลี่ยนแปลงของตัวแปร :-) แต่ถ้าคุณคิดว่ามันจะทำให้การอธิบายชัดเจนขึ้นฉันก็ยินดีที่จะชี้ให้เห็นว่าเมื่อแล้ว(P) ฉันไม่คิดว่ามันจำเป็น p=F(x)x=F1(p)
whuber

ตอนนี้ฉันได้รับแล้ว),
Mascarpone

+1 Whuber: ขอบคุณ! คุณสามารถอธิบายรายละเอียดเพื่อที่จะใช้สูตรที่คุณให้ไว้ได้อย่างไรวิธีดูแลการแจกแจงอื่นที่ CDF ผกผันไม่มีคำจำกัดความเฉพาะ
StackExchange สำหรับทั้งหมด

1
เพื่อหลีกเลี่ยงการพิจารณาไม่สบายใจดังกล่าวเกี่ยวกับแปรผกผันกันหลอกแปรผกผันกันและชอบและพร้อมสำหรับการทั่วไปในทุกช่วงเวลาให้ดูที่นี่
ทำ

9

ผลลัพธ์ที่เท่าเทียมกันเป็นที่รู้จักกันดีในการวิเคราะห์การอยู่รอด : อายุการใช้งานที่คาดไว้คือที่ฟังก์ชั่นการอยู่รอดคือวัดตั้งแต่แรกเกิดที่ 0 (สามารถขยายได้อย่างง่ายดายเพื่อครอบคลุมค่าลบของ .)S ( t ) = Pr ( T > t ) t = 0 t

t=0S(t)dt
S(t)=Pr(T>t)t=0t

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเราสามารถเขียนสิ่งนี้เป็นแต่นี่คือ ตามที่ปรากฏในภาพสะท้อนต่าง ๆ ของพื้นที่ที่เป็นปัญหา1 q = 0 F - 1 ( q )

t=0(1F(t))dt
q=01F1(q)dq

ป้อนคำอธิบายรูปภาพที่นี่


1
ฉันชอบรูปภาพและโดยสัญชาตญาณรู้สึกว่ามีความคิดที่ดีแฝงตัวอยู่ที่นี่ - ฉันรักความคิดนั้น - แต่ฉันไม่เข้าใจสิ่งเหล่านี้โดยเฉพาะ คำอธิบายจะเป็นประโยชน์ สิ่งหนึ่งที่หยุดฉันในเส้นทางของฉันคือความคิดของการพยายามขยายอินทิกรัลของเป็น : มันต้องแตกต่าง - (1F(t))dt
whuber

@whuber: หากคุณต้องการขยายเป็นลบคุณจะได้รับdtโปรดทราบว่าหากสิ่งนี้มาบรรจบกับสมมาตรการกระจายประมาณนั่นคือดังนั้นจึงง่ายที่จะเห็นว่าความคาดหวังนั้นเป็นศูนย์ รับผลรวมมากกว่าความแตกต่างให้เบี่ยงเบนสัมบูรณ์เฉลี่ยประมาณ0T = 0 ( 1 - F ( T ) )t0 F ( T ) = 1 - F ( - T ) T = 0 ( 1 - F ( T ) )t=0(1F(t))dtt=0F(t)dt0F(t)=1F(t)t=0(1F(t))dt+t=0F(t)dt0
Henry

ถ้าคุณชอบไดอะแกรมคุณอาจจะสนใจในบทความนี้ปี 1988 โดยลี: คณิตศาสตร์ของส่วนเกินของความคุ้มครองการสูญเสียและวิธีการจัดอันดับย้อนหลัง-A แบบกราฟิก
Avraham

4

เรากำลังประเมิน:

enter image description here

ลองเปลี่ยนตัวแปรง่ายๆ:

enter image description here

และเราสังเกตเห็นว่าตามคำนิยามของ PDF และ CDF:

enter image description here

เกือบทุกที่ ดังนั้นเราจึงมีความหมายของค่าที่คาดหวัง:

enter image description here


ในบรรทัดสุดท้ายฉันอธิบายความหมายของค่าที่คาดหวังได้ชัดเจนขึ้น เกือบทุกที่อ้างถึงสมการข้างต้นล่าสุด en.wikipedia.org/wiki/Almost_everywhere
Mascarpone

1
แก้ไข, thanx :)
Mascarpone

3

สำหรับตัวแปรใด ๆ จริงมูลค่าสุ่มกับ CDF Fมันเป็นที่รู้จักกันดีว่าF - 1 ( U )มีกฎหมายเดียวกันกว่าXเมื่อUเป็นเครื่องแบบ( 0 , 1 ) ดังนั้นความคาดหวังของXเมื่อใดก็ตามที่มีอยู่ก็เหมือนกับความคาดหวังของF - 1 ( U ) : E ( X ) = E ( F - 1 ( U ) ) =XF F1(U)XU(0,1)XF1(U) การเป็นตัวแทนX F - 1 (U)ถือสำหรับ cdfFทั่วไปโดยให้ F - 1เป็นอินเวอร์สผกผันด้านซ้ายอย่างต่อเนื่องของFในกรณีที่Fไม่สามารถย้อนกลับได้

E(X)=E(F1(U))=01F1(u)du.
XF1(U)FF1FF

1

โปรดทราบว่าถูกกำหนดเป็นP ( X x )และเป็นฟังก์ชั่นต่อเนื่องทางขวา F - 1ถูกกำหนดให้เป็น F - 1 ( P ) = นาที( x | F ( x ) P ) นาทีทำให้รู้สึกเพราะของความต่อเนื่องทางด้านขวา Let Uจะเป็นเครื่องแบบกระจายบน[ 0 , 1 ] คุณสามารถยืนยันได้อย่างง่ายดายว่าFF(x)P(Xx)F1

F1(p)=min(x|F(x)p).
minU[0,1]มี CDF เดียวกับXซึ่งเป็นF สิ่งนี้ไม่ต้องการให้Xต่อเนื่อง ดังนั้นE(X)=E( F - 1 (U))=1 0 F - 1 (P) dพี อินทิกรัลคือRiemann – Stieltjes อินทิกรัล ข้อสมมติฐานเดียวที่เราต้องการคือค่าเฉลี่ยของXมีอยู่ (E | X | <F1(U)XFXE(X)=E(F1(U))=01F1(p)dpX )E|X|<

นั่นเป็นคำตอบเดียวกับฉัน
Stéphane Laurent
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.