ข้อผิดพลาดการคาดการณ์ที่คาดหวัง - มา


20

ฉันกำลังพยายามเข้าใจถึงข้อผิดพลาดที่คาดการณ์ไว้ต่อไปนี้ (ESL) โดยเฉพาะอย่างยิ่งเกี่ยวกับการสืบทอดมาของ 2.11 และ 2.12 (การปรับเงื่อนไขขั้นตอนสู่จุดต่ำสุดที่ฉลาด) พอยน์เตอร์หรือลิงค์ใด ๆ ชื่นชมมาก

ด้านล่างฉันกำลังรายงานข้อความที่ตัดตอนมาจาก ESL pg 18. สองสมการแรกคือตามลำดับสมการ 2.11 และ 2.12


Let XRpแสดงว่ามูลค่าที่แท้จริงเวกเตอร์การป้อนข้อมูลแบบสุ่มและYRตัวแปรการส่งออกมีมูลค่าที่แท้จริงสุ่มที่มีการกระจายร่วมPr(X,Y) ) เราพยายามที่ฟังก์ชั่นf(X)ในการทำนายค่ากำหนดของการป้อนข้อมูลXทฤษฎีนี้ต้องการฟังก์ชั่นการสูญเสียสำหรับการลงโทษข้อผิดพลาดในการทำนายและโดยทั่วไปที่สะดวกที่สุดคือการสูญเสียข้อผิดพลาดกำลังสอง : 2 สิ่งนี้ทำให้เรามีเกณฑ์สำหรับการเลือกYX L(Y,f(X))L ( Y , f ( X ) ) = ( Y - f (L(Y,f(X))=(Yf(X))2f,

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

ข้อผิดพลาดการคาดการณ์ (กำลังสอง) ที่คาดไว้ โดยการ จำกัด บนXเราสามารถเขียน EPE เป็น

EPE(f)=EXEY|X([Yf(X)]2|X)

และเราเห็นว่าพอเพียงเพื่อลดจุดที่ชาญฉลาดของ EPE:

f(x)=argmincEY|X([Yc]2|X)

ทางแก้คือ

f(x)=E(Y|X=x)

ความคาดหวังตามเงื่อนไขหรือที่เรียกว่าฟังก์ชันการถดถอย


การสลับและYในสมการแรกในบทความ Wikipedia เกี่ยวกับLaw of Total Expectationจะให้ความสมดุลของ (2.9) และ (2.11) อ่านบทความนั้นเพื่อพิสูจน์ (2.12) ได้ทันทีในความเข้าใจว่าจะเลือกfเพื่อลด EPE ให้น้อยที่สุด XYf
whuber

3
หมายเหตุด้านข้าง: สิ่งนี้มาจากองค์ประกอบของการเรียนรู้ทางสถิติ
Zhubarb

2
สำหรับผู้ที่ยังอ่านหนังสือเล่มนี้ลองดูบันทึกย่อที่ครอบคลุมโดย Weathermax และ Epstein
Dodgie

@Dodgie ลิงก์นั้นเสียชีวิต: (
Matthew Drury

2
@MatthewDrury โชคดี googling ของ "Weathermax และ Epstein สถิติ" กลับลิงค์เป็นผลแรก;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/ …
Dodgie

คำตอบ:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
ฉันเข้าใจสิ่งที่คุณเขียน แต่คุณคิดว่าถ้า OP สับสนด้วยคำที่มาในคำถามว่าเขา / เธอจะเข้าใจคำตอบของคุณหรือไม่ แน่นอนฉันเข้าใจมาจากที่แสดงในคำถาม
Mark L. Stone

ฉันมาที่นี่จาก google ด้วยคำถามเดียวกันและจริง ๆ แล้วพบว่าสิ่งนี้เป็นสิ่งที่ฉันต้องการ
เซมิโคลอนและเทปพันสาย

1
@ MarkL.Stone - นี่อาจเป็นคำถามที่โง่ แต่คุณสามารถอธิบายสิ่งที่มีความหมายโดยและมันจะกลายเป็นp ( x , y ) d x d y ได้อย่างไร? ขอบคุณพวงPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
What is meant by the former is the latter. I think it is more common to instead use dP(x,y) or dF(x,y). In 1D, you will often see dF(x) to mean f(x)dx, where f(x) is the probability density function, but the notation can also allow for discrete probability mass function (in summation) or even a mixture of continuous density and discrete probability mass.
Mark L. Stone

Wouldn't be more precise to say (last formula) EX(EY|X([Yf(X)]2|X=x)) ?
D1X

12

The equation (2.11) is a consequence of the following little equality. For any two random variables Z1 and Z2, and any function g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

EZ1,Z2EZ1Z2 essentially says "integrate over the conditional distribution of Z1 as if Z2 was fixed".

It's easy to verify this in the case that Z1 and Z2 are discrete random variables by just unwinding the definitions involved

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take Z1=Y, Z2=X, and g(x,y)=(yf(x))2. Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

EXEYX(Yf(X))2

where we are free to choose f as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose f to minimize

y(yf(x))2Pr(Y=yX=x)

individually for each discrete value of x. This is exactly the content of what ESL is claiming, only with fancier notation.


8

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.