ความคลาดเคลื่อนเฉลี่ยสูงสุด (การกระจายระยะทาง)


15

ฉันมีชุดข้อมูลสองชุด (แหล่งข้อมูลและข้อมูลเป้าหมาย) ซึ่งเป็นไปตามการแจกแจงที่แตกต่างกัน ฉันกำลังใช้ MMD - นั่นคือการกระจายระยะทางแบบไม่อิงพารามิเตอร์ - เพื่อคำนวณการกระจายระยะขอบระหว่างข้อมูลต้นทางและเป้าหมาย

แหล่งข้อมูล Xs

ข้อมูลเป้าหมาย Xt

การปรับเมทริกซ์ A

* ข้อมูลที่คาดการณ์ไว้ Zs = A '* Xs และ Zt = A' Xt

* MMD => ระยะทาง (P (Xs), P (Xt)) = | Mean (A'Xs) - mean (A ' Xt) |

นั่นหมายถึง: ระยะห่างของการกระจายระหว่างข้อมูลต้นทางและปลายทางในพื้นที่ดั้งเดิมเท่ากับระยะห่างระหว่างวิธีการของแหล่งข้อมูลที่คาดการณ์และข้อมูลเป้าหมายในพื้นที่ฝังตัว

ฉันมีคำถามเกี่ยวกับแนวคิดของ MMD

ในสูตร MMD ทำไมระยะทางในการคำนวณในพื้นที่แฝงเราสามารถวัดระยะการกระจายในพื้นที่ดั้งเดิมได้

ขอบคุณ


คุณยังไม่ได้ถามคำถามเลย: คุณเพิ่งบอกเราว่าคุณสับสน!
whuber

คำตอบ:


44

อาจช่วยให้ภาพรวมของ MMD เพิ่มขึ้นเล็กน้อย

โดยทั่วไป MMD ถูกกำหนดโดยแนวคิดของการแสดงระยะทางระหว่างการแจกแจงเป็นระยะทางระหว่างค่าเฉลี่ยของคุณลักษณะ นั่นคือการบอกว่าเรามีการกระจายและกว่าชุด X MMD ถูกกำหนดโดยคุณลักษณะแผนที่โดยที่คือสิ่งที่เรียกว่าเคอร์เนลพื้นที่ทำซ้ำของฮิลแบร์ต โดยทั่วไป MMD คือ PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

เป็นตัวอย่างหนึ่งเราอาจจะมีและx ในกรณีนั้น: ดังนั้น MMD นี้จึงเป็นระยะห่างระหว่างค่าเฉลี่ยของการแจกแจงสองแบบ การจับคู่การแจกแจงเช่นนี้จะตรงกับความหมายของพวกเขาแม้ว่าพวกเขาอาจแตกต่างกันในความแปรปรวนหรือในวิธีอื่น ๆX=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

กรณีของคุณแตกต่างออกไปเล็กน้อย: เรามีและกับโดยที่คือเมทริกซ์ ดังนั้นเราจึงมี MMD นี้คือความแตกต่างระหว่างการคาดการณ์ที่แตกต่างกันสองค่าของค่าเฉลี่ย หากหรือการแมปไม่สามารถย้อนกลับได้X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA กว่าก่อนหน้านี้: มันไม่ได้แยกความแตกต่างระหว่างการแจกแจงบางอย่างที่ก่อนหน้านี้ทำ

คุณยังสามารถสร้างระยะทางที่แข็งแกร่งขึ้น ตัวอย่างเช่นถ้าและคุณใช้ดังนั้น MMD จะกลายเป็นและสามารถแยกความแตกต่างไม่เพียง แต่การกระจายด้วยวิธีการที่แตกต่างกัน แต่ด้วยความแตกต่างที่แตกต่างกันเช่นกันX=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

และคุณสามารถแข็งแกร่งกว่านั้นได้ถ้าหากจับคู่กับพื้นที่ทำซ้ำของเคอร์เนล Hilbert จากนั้นคุณสามารถใช้เคล็ดลับเคอร์เนลเพื่อคำนวณ MMD และปรากฎว่าเมล็ดหลายแห่งรวมถึงเคอร์เนล Gaussian นำไปสู่ ​​MMD เป็นศูนย์ถ้าและมีเพียงการกระจายเท่านั้นที่เหมือนกันφ

โดยเฉพาะให้ , คุณได้รับ ซึ่งคุณสามารถประมาณตัวอย่างได้อย่างตรงไปตรงมาk(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


อัปเดต: นี่คือที่มาของชื่อ "สูงสุด"

คุณลักษณะแผนที่แมปลงในเคอร์เนลพื้นที่ทำซ้ำของฮิลแบร์ต เหล่านี้เป็นช่องว่างของฟังก์ชั่นและตอบสนองความคุณสมบัติที่สำคัญ (ที่เรียกว่าการทำซ้ำคุณสมบัติ ):สำหรับการใด ๆชั่วโมงφ:XHf,φ(x)H=f(x)fH

ในตัวอย่างที่ง่ายที่สุดด้วยเราดูแต่ละเป็นฟังก์ชันที่สอดคล้องกับบางโดย x ดังนั้นการสร้างสมบัติควรสมเหตุสมผลX=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

ในการตั้งค่าที่ซับซ้อนยิ่งขึ้นเช่นเคอร์เนลเกาส์เซียนเป็นฟังก์ชั่นที่ซับซ้อนมากขึ้น แต่คุณสมบัติการทำซ้ำยังคงมีอยู่f

ตอนนี้เราสามารถให้ทางเลือกลักษณะของ MMD: บรรทัดที่สองเป็นข้อเท็จจริงทั่วไปเกี่ยวกับบรรทัดฐานในช่องว่างของ Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=gจะทำได้โดย\ ประการที่สี่ขึ้นอยู่กับเงื่อนไขทางเทคนิคที่รู้จักกันในชื่อการบูรณาการ Bochner แต่เป็นเรื่องจริงเช่นสำหรับเมล็ดที่มีขอบเขตหรือการกระจายด้วยการสนับสนุนที่ถูกผูกไว้ จากนั้นในตอนท้ายเราจะใช้คุณสมบัติการทำซ้ำf=g/g

บรรทัดสุดท้ายนี้คือสาเหตุที่เรียกว่า "ความคลาดเคลื่อนค่าเฉลี่ยสูงสุด" - เป็นค่าสูงสุดซึ่งเกินฟังก์ชั่นการทดสอบในลูกบอลหน่วยของซึ่งเป็นความแตกต่างเฉลี่ยระหว่างการแจกแจงสองแบบfH


ขอบคุณสำหรับคำอธิบายของคุณมันชัดเจนมากขึ้นสำหรับฉัน ถึงกระนั้นฉันก็ยังไม่ได้รับแนวคิดนี้ในตอนแรกคุณพูดว่า: "MMD ถูกกำหนดโดยความคิดในการแสดงระยะทางระหว่างการแจกแจงเป็นระยะทางระหว่างการฝังค่าเฉลี่ยของคุณลักษณะ" ทำไมความคิดนี้จึงเป็นจริง
Mahsa

"MMD ถูกกำหนดโดยความคิดในการแสดงระยะทางระหว่างการแจกแจงเป็นระยะทางระหว่างค่าเฉลี่ยของการตกแต่งภาพ" ทำไมความคิดนี้จึงเป็นจริงหรือไม่มันเกี่ยวข้องกับพื้นที่ RKHS หรือไม่?
Mahsa

1
มันเป็นแค่นิยาม: คุณสามารถเปรียบเทียบการกระจายได้โดยการเปรียบเทียบค่าเฉลี่ย หรือคุณสามารถเปรียบเทียบการกระจายได้โดยการเปรียบเทียบการแปลงค่าเฉลี่ย หรือโดยการเปรียบเทียบวิธีการและผลต่าง หรือโดยการเปรียบเทียบค่าเฉลี่ยของแผนที่คุณลักษณะอื่น ๆ รวมถึงแผนที่ RKHS
Dougal

ขอบคุณสำหรับคำตอบของคุณ; ฉันจะอ่านเพิ่มเติมเกี่ยวกับแผนที่คุณลักษณะ RKHS; ฉันสงสัยว่าเหตุใดระยะทางที่กำหนด MMD ในแผนที่คุณลักษณะ RKHS ฉันหมายถึงอะไรคือประโยชน์ของ RKHS ในการกำหนดระยะทาง MMD?
Mahsa

คำอธิบายที่นี่ให้ความสำคัญกับ "ความคลาดเคลื่อนเฉลี่ย" ซึ่งตรงข้ามกับ "ความคลาดเคลื่อนเฉลี่ยสูงสุด" ใครบ้างที่สามารถอธิบายรายละเอียดในส่วน "การเพิ่มประสิทธิภาพ"?
Jiang Xiang

5

นี่คือวิธีที่ฉันตีความ MMD การแจกแจงสองแบบจะคล้ายกันหากช่วงเวลาของพวกเขาใกล้เคียงกัน ด้วยการใช้เคอร์เนลฉันสามารถแปลงตัวแปรเช่นนั้นทุกช่วงเวลา (แรกสองสาม ฯลฯ ) ถูกคำนวณ ในพื้นที่แฝงฉันสามารถคำนวณความแตกต่างระหว่างช่วงเวลากับค่าเฉลี่ย สิ่งนี้จะให้การวัดความคล้ายคลึงกัน / ความแตกต่างระหว่างชุดข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.