อาจช่วยให้ภาพรวมของ MMD เพิ่มขึ้นเล็กน้อย
โดยทั่วไป MMD ถูกกำหนดโดยแนวคิดของการแสดงระยะทางระหว่างการแจกแจงเป็นระยะทางระหว่างค่าเฉลี่ยของคุณลักษณะ นั่นคือการบอกว่าเรามีการกระจายและกว่าชุด X MMD ถูกกำหนดโดยคุณลักษณะแผนที่โดยที่คือสิ่งที่เรียกว่าเคอร์เนลพื้นที่ทำซ้ำของฮิลแบร์ต โดยทั่วไป MMD คือ
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
เป็นตัวอย่างหนึ่งเราอาจจะมีและx ในกรณีนั้น:
ดังนั้น MMD นี้จึงเป็นระยะห่างระหว่างค่าเฉลี่ยของการแจกแจงสองแบบ การจับคู่การแจกแจงเช่นนี้จะตรงกับความหมายของพวกเขาแม้ว่าพวกเขาอาจแตกต่างกันในความแปรปรวนหรือในวิธีอื่น ๆX=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
กรณีของคุณแตกต่างออกไปเล็กน้อย: เรามีและกับโดยที่คือเมทริกซ์ ดังนั้นเราจึงมี
MMD นี้คือความแตกต่างระหว่างการคาดการณ์ที่แตกต่างกันสองค่าของค่าเฉลี่ย หากหรือการแมปไม่สามารถย้อนกลับได้X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ กว่าก่อนหน้านี้: มันไม่ได้แยกความแตกต่างระหว่างการแจกแจงบางอย่างที่ก่อนหน้านี้ทำ
คุณยังสามารถสร้างระยะทางที่แข็งแกร่งขึ้น ตัวอย่างเช่นถ้าและคุณใช้ดังนั้น MMD จะกลายเป็นและสามารถแยกความแตกต่างไม่เพียง แต่การกระจายด้วยวิธีการที่แตกต่างกัน แต่ด้วยความแตกต่างที่แตกต่างกันเช่นกันX=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
และคุณสามารถแข็งแกร่งกว่านั้นได้ถ้าหากจับคู่กับพื้นที่ทำซ้ำของเคอร์เนล Hilbert จากนั้นคุณสามารถใช้เคล็ดลับเคอร์เนลเพื่อคำนวณ MMD และปรากฎว่าเมล็ดหลายแห่งรวมถึงเคอร์เนล Gaussian นำไปสู่ MMD เป็นศูนย์ถ้าและมีเพียงการกระจายเท่านั้นที่เหมือนกันφ
โดยเฉพาะให้ , คุณได้รับ
ซึ่งคุณสามารถประมาณตัวอย่างได้อย่างตรงไปตรงมาk(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
อัปเดต: นี่คือที่มาของชื่อ "สูงสุด"
คุณลักษณะแผนที่แมปลงในเคอร์เนลพื้นที่ทำซ้ำของฮิลแบร์ต เหล่านี้เป็นช่องว่างของฟังก์ชั่นและตอบสนองความคุณสมบัติที่สำคัญ (ที่เรียกว่าการทำซ้ำคุณสมบัติ ):สำหรับการใด ๆชั่วโมงφ:X→H⟨f,φ(x)⟩H=f(x)f∈H
ในตัวอย่างที่ง่ายที่สุดด้วยเราดูแต่ละเป็นฟังก์ชันที่สอดคล้องกับบางโดย x ดังนั้นการสร้างสมบัติควรสมเหตุสมผลX=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
ในการตั้งค่าที่ซับซ้อนยิ่งขึ้นเช่นเคอร์เนลเกาส์เซียนเป็นฟังก์ชั่นที่ซับซ้อนมากขึ้น แต่คุณสมบัติการทำซ้ำยังคงมีอยู่f
ตอนนี้เราสามารถให้ทางเลือกลักษณะของ MMD:
บรรทัดที่สองเป็นข้อเท็จจริงทั่วไปเกี่ยวกับบรรทัดฐานในช่องว่างของ Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥จะทำได้โดย\ ประการที่สี่ขึ้นอยู่กับเงื่อนไขทางเทคนิคที่รู้จักกันในชื่อการบูรณาการ Bochner แต่เป็นเรื่องจริงเช่นสำหรับเมล็ดที่มีขอบเขตหรือการกระจายด้วยการสนับสนุนที่ถูกผูกไว้ จากนั้นในตอนท้ายเราจะใช้คุณสมบัติการทำซ้ำf=g/∥g∥
บรรทัดสุดท้ายนี้คือสาเหตุที่เรียกว่า "ความคลาดเคลื่อนค่าเฉลี่ยสูงสุด" - เป็นค่าสูงสุดซึ่งเกินฟังก์ชั่นการทดสอบในลูกบอลหน่วยของซึ่งเป็นความแตกต่างเฉลี่ยระหว่างการแจกแจงสองแบบfH