การวิเคราะห์เชิงทฤษฎีที่ดีของทั้งที่มีและไม่มีสคีมาทดแทนในบริบทของอัลกอริธึมแบบวนซ้ำตามการสุ่มจับ (ซึ่งเป็นจำนวนเครือข่าย Deep Neural Discriminative (DNNs) ที่มีการเลือกปฏิบัติ) สามารถพบได้ที่นี่
ในระยะสั้นปรากฎว่าการสุ่มตัวอย่างโดยไม่มีการทดแทนนำไปสู่การลู่เข้าที่เร็วกว่าการสุ่มตัวอย่างด้วยการแทนที่
ฉันจะให้การวิเคราะห์สั้น ๆ ที่นี่ตามตัวอย่างของเล่นที่พวกเขาให้: สมมติว่าเราต้องการเพิ่มประสิทธิภาพฟังก์ชั่นวัตถุประสงค์ต่อไปนี้:
xopt=argminx12∑i=1N(x−yi)2
ที่เป้าหมาย ) ในตัวอย่างนี้เราพยายามที่จะหาค่าx ที่เหมาะสมโดยระบุN label ของy iอย่างชัดเจนyi∼N(μ,σ2)xNyi
ตกลงดังนั้นถ้าเราจะแก้ปัญหาที่ดีที่สุดสำหรับในข้างต้นโดยตรงแล้วเราจะใช้เวลาอนุพันธ์ของฟังก์ชั่นการสูญเสียที่นี่ให้ตั้งเป็น 0 และแก้ปัญหาสำหรับx ดังนั้นสำหรับตัวอย่างข้างต้นการสูญเสียคือxx
L=12∑i=1N(x−yi)2
และมันคืออนุพันธ์อันดับแรกคือ:
δLδx=∑i=1N(x−yi)
การตั้งค่า 0 และแก้สำหรับxอัตราผลตอบแทน:δLδxx
xopt=1N∑i=1Nyi
ในคำอื่น ๆ วิธีการแก้ปัญหาที่ดีที่สุดคืออะไร แต่ค่าเฉลี่ยของกลุ่มตัวอย่างทั้งหมดตัวอย่างYNy
ตอนนี้ถ้าเราไม่สามารถทำการคำนวณข้างต้นทั้งหมดได้ในครั้งเดียวเราจะต้องทำมันซ้ำ ๆ ผ่านสมการการปรับปรุงแบบลาดลงทางลาดด้านล่าง:
xi=xi−1−λi∇(f(xi−1))
และเพียงแค่ใส่เงื่อนไขของเราที่นี่ให้ผลตอบแทน:
xi=xi−1−λi(xi−1−yi)
ถ้าเราทำงานข้างต้นทั้งหมดของเราจะทำการอัพเดทนี้อย่างมีประสิทธิภาพโดยไม่ต้องเปลี่ยนใหม่ จากนั้นกลายเป็นคำถามเราจะได้ค่าx ที่ดีที่สุดด้วยวิธีนี้ได้ไหม? (จำไว้ว่าค่าที่ดีที่สุดของxคืออะไรนอกจากค่าเฉลี่ยตัวอย่างของy ) คำตอบคือใช่ถ้าคุณให้λ ฉัน = 1 /ฉัน หากต้องการดูสิ่งนี้เราขยาย:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
อย่างไรก็ตามสมการสุดท้ายคืออะไรนอกจากสูตรสำหรับค่าเฉลี่ยการวิ่ง! ดังนั้นเมื่อเราวนรอบชุดจาก , i = 2 , ไปจนถึงi = Nเราจะทำการอัปเดตของเราโดยไม่มีการแทนที่และสูตรการอัพเดทของเราจะให้ทางออกที่ดีที่สุดของxซึ่งเป็น ค่าเฉลี่ยตัวอย่าง!i=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
อย่างไรก็ตามในทางกลับกันถ้าเราวาดด้วยการแทนที่แล้วในขณะที่การจับของเราจะเป็นอิสระอย่างแท้จริงค่าที่ปรับให้เหมาะสมจะแตกต่างจากค่าเฉลี่ย (เหมาะสม) μและข้อผิดพลาดของสแควร์จะได้รับจาก:xNμ
E{(xN−μ)2}
ซึ่งจะเป็นค่าบวกและตัวอย่างของเล่นง่าย ๆ นี้สามารถขยายไปยังมิติที่สูงขึ้นได้ นี่คือผลลัพธ์ที่เราต้องการจะทำการสุ่มตัวอย่างโดยไม่ต้องเปลี่ยนเป็นวิธีการแก้ปัญหาที่เหมาะสมที่สุด
หวังว่านี่จะทำให้ชัดเจนมากขึ้น!