ทำไมเราควรพูดถึงพฤติกรรมการลู่เข้าของตัวประมาณที่แตกต่างกันในทอพอโลยีที่แตกต่างกัน?


14

ในบทแรกของหนังสือเกี่ยวกับเรขาคณิตเชิงพีชคณิตและทฤษฎีการเรียนรู้ทางสถิติซึ่งพูดถึงการลู่เข้าของการประมาณค่าในพื้นที่การทำงานที่แตกต่างกันมันกล่าวว่าการประมาณแบบเบย์สอดคล้องกับโทโพโลยีการกระจายแบบชวาร์ตษ์ (ในหน้า 7):

ตัวอย่างเช่น sup-norm, no, ทอพอโลยีแบบอ่อนของ Hilbert space , โทโพโลยีการกระจายแบบชวาร์ตษ์และอื่น ๆ มันขึ้นอยู่กับโทโพโลยีของพื้นที่ฟังก์ชั่นอย่างมากว่าการลู่เข้าถือหรือไม่ การประมาณค่า Bayes สอดคล้องกับโทโพโลยีการแจกแจงแบบชวาร์ตษ์ในขณะที่ความเป็นไปได้สูงสุดหรือวิธีการทางด้านหลังสอดคล้องกับ sup-norm ความแตกต่างนี้มีผลอย่างมากต่อผลการเรียนรู้ในรูปแบบเอกพจน์L 2 K n ( w ) K ( w )LพีL2Kn(W)K(W)

โดยที่และเป็นลำดับเชิงประจักษ์ KL-divergence (ผลรวมของการสังเกต) และ KL-divergence จริง (integral wrt การกระจายข้อมูล) ระหว่างโมเดลจริงและโมเดลพารามิเตอร์ (พร้อมพารามิเตอร์w )K ( w ) wKn(W)K(W)W

ใครสามารถให้คำอธิบายหรือบอกใบ้ให้ฉันว่าที่ใดในหนังสือที่มีเหตุผล? ขอขอบคุณ.

อัปเดต : ลบเนื้อหาที่มีลิขสิทธิ์


สิ่งที่เป็นKและKn ?
เทย์เลอร์

@Taylor ฉันเพิ่มข้อมูลที่จำเป็นบางอย่าง
ziyuang

ฉันจะตอบคำถามของคุณในภายหลังฉันรู้ว่าหนังสือของ watanabe ค่อนข้างดี แต่ฉันไม่ชอบวิธีที่คุณอ้างถึงหนังสืออย่างมาก อาจทำให้เกิดปัญหาลิขสิทธิ์หากคุณใส่หัวข้อไว้ที่นี่ การใช้หมายเลขหน้าและการพิมพ์การอ้างอิงด้วย bib ที่เหมาะสมจะเป็นทางเลือกที่ดีกว่า
Henry.L

@ Henry.L ขอบคุณและเนื้อหาลิขสิทธิ์จะถูกลบออก
ziyuang

@Henry: ในขณะที่ฉันเชื่อว่ามีค่าในการระมัดระวังและมีมโนธรรมในการทำซ้ำบางส่วนของงานที่มีลิขสิทธิ์ฉันคิดว่าในกรณีนี้ ziyuang ไม่มีอะไรต้องกังวลอย่างแน่นอน การใช้ข้อความที่ตัดตอนมาเล็ก ๆ ของคำวิจารณ์เชิงวิชาการตกอยู่ในคำสอน "การใช้อย่างยุติธรรม" อย่างยุติธรรม (US) แท้จริงแล้วการมีการทำสำเนาที่แน่นอนนั้นบางครั้งอาจมีค่าอย่างยิ่งเนื่องจากเป็นการลบความคลุมเครือใด ๆ ที่อาจเกิดขึ้นได้จากการคืนเนื้อหา (ทั้งหมดที่กล่าวว่า IANAL.)
สำคัญ

คำตอบ:


2

เพื่อให้เข้าใจการสนทนาของวาตานาเบะเป็นสิ่งสำคัญที่ต้องตระหนักว่าสิ่งที่เขาหมายถึงโดย "ความเป็นเอกเทศ" ความแปลกประหลาด (เข้มงวด) เกิดขึ้นพร้อมกับแนวคิดทางเรขาคณิตของการวัดเชิงเอกพจน์ในทฤษฎีของเขา

p.10 [Watanabe]: "แบบจำลองทางสถิติถูกกล่าวว่าเป็นปกติถ้ามันสามารถระบุได้และมีตัวชี้วัดเชิงบวกแน่นอนถ้าแบบจำลองทางสถิติไม่ปกติก็จะเรียกว่าเอกพจน์อย่างเคร่งครัด"พี(x|W)

ในทางปฏิบัติภาวะเอกฐานมักเกิดขึ้นเมื่อตัวชี้วัดข้อมูลฟิชเชอร์เกิดขึ้นจากแบบจำลองในรูปแบบที่เสื่อมโทรมในรูปแบบที่กำหนดโดยแบบจำลองเช่นกรณีระดับต่ำหรือกระจัดกระจายในงาน "การเรียนรู้เครื่อง"

สิ่งที่วาตานาเบะพูดเกี่ยวกับการลู่เข้าของการเบี่ยงเบนของเคแอลเชิงประจักษ์กับค่าทางทฤษฎีสามารถเข้าใจได้ดังนี้ ต้นกำเนิดหนึ่งของแนวคิดเรื่องความแตกต่างมาจากสถิติที่แข็งแกร่ง M- ประมาณซึ่งรวมถึง MLE เป็นกรณีพิเศษที่มีฟังก์ชั่นความคมชัดมักจะกล่าวถึงการใช้โทโพโลยีที่อ่อนแอ มันมีเหตุผลที่จะหารือเกี่ยวกับพฤติกรรมการลู่เข้าโดยใช้โทโพโลยีที่อ่อนแอเหนือพื้นที่ (ความหลากหลายของมาตรการที่เป็นไปได้ทั้งหมดที่กำหนดไว้ในพื้นที่โปแลนด์ ) เพราะเราต้องการศึกษาพฤติกรรมความทนทานของ MLE ทฤษฎีบทคลาสสิกใน [Huber] ระบุว่ามีการแยกออกจากกันได้ดีฟังก์ชั่นแตกต่างเดลต้า)M ( X ) X D ( θ 0 , θ ) = E θ 0 ρ ( θ , δ ) inf | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D (ρ(θ,δ(X))=-เข้าสู่ระบบพี(X|θ)M(X)XD(θ0,θ)=Eθ0ρ(θ,δ)sup θ | 1

INF|θ-θ0|ε(|D(θ0,θ)-D(θ0,θ0)|)>0
และการประมาณค่าเชิงประจักษ์ที่ดีของการความแตกต่าง, พร้อมกับความสม่ำเสมอเราสามารถสร้างความมั่นคงในความรู้สึก จะมาบรรจบกันที่ในความน่าtheta_0} ผลลัพธ์นี้ต้องใช้เงื่อนไขที่แม่นยำยิ่งขึ้นหากเราเปรียบเทียบกับผลลัพธ์ของ Doob [Doob] ในความสม่ำเสมอของตัวประมาณค่าแบบเบย์ ^ θ n :=arg
จีบθ|1nΣผมρ(θ,δ(Xผม))-D(θ0,θ)|0,n
θn^=aRก.ม.ผมnθρ(θ,δ(Xn))
θ0Pθ0

ดังนั้นที่นี่ตัวประมาณแบบเบย์และ MLE diverges หากเรายังคงใช้โทโพโลยีที่อ่อนแอเพื่อหารือเกี่ยวกับความสอดคล้องของตัวประมาณค่าแบบเบส์มันไม่มีความหมายเพราะตัวประมาณแบบเบย์จะเสมอ ดังนั้นโทโพโลยีที่เหมาะสมกว่าคือโครงสร้างการกระจายแบบชวาตซ์ซึ่งอนุญาตให้ทฤษฎีอนุพันธ์ที่อ่อนแอและทฤษฎีของ von Mises เข้ามามีบทบาทได้ Barron มีรายงานทางเทคนิคที่ดีมากในหัวข้อนี้ว่าเราสามารถใช้ทฤษฎีบท Schwartz เพื่อให้ได้ความสอดคล้องกันได้อย่างไร

ในอีกมุมมองตัวประมาณแบบเบย์คือการแจกแจงและโทโพโลยีของพวกเขาควรมีความแตกต่าง ถ้าเช่นนั้นแล้ว divergenceบทบาทอย่างไรในทอพอโลยีแบบนั้น? คำตอบคือกำหนดการสนับสนุน KL ของนักบวชซึ่งทำให้ตัวประมาณ Bayesian มีความสอดคล้องกันอย่างยิ่งD

"ผลการเรียนรู้เอกพจน์" นั้นได้รับผลกระทบเพราะอย่างที่เราเห็นทฤษฎีบทความมั่นคงของ Doob ทำให้แน่ใจว่าตัวประมาณแบบเบย์มีความอ่อนตัวสม่ำเสมอ (แม้ในรูปแบบเอกพจน์) ในโครงสร้างที่อ่อนแอในขณะที่ MLE

คำเดียว [Watanabe] ไม่ใช่สำหรับผู้เริ่มต้น มันมีความหมายลึกซึ้งในชุดการวิเคราะห์จริงซึ่งต้องการวุฒิภาวะทางคณิตศาสตร์มากกว่านักสถิติส่วนใหญ่จึงอาจไม่ควรอ่านโดยไม่มีแนวทางที่เหมาะสม

อ้างอิง

[Watanabe] Watanabe, Sumio เรขาคณิตเชิงพีชคณิตและทฤษฎีการเรียนรู้ทางสถิติ ฉบับ 25. สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2552

[Huber] Huber, Peter J. "พฤติกรรมของการประเมินความเป็นไปได้สูงสุดภายใต้เงื่อนไขที่ไม่เป็นมาตรฐาน" การประชุมทางวิชาการของเบิร์กลีย์ครั้งที่ห้าในสถิติและความน่าจะเป็นทางคณิตศาสตร์ ฉบับ 1. ลำดับ 1. 1967

[Doob] Doob, Joseph L. "การประยุกต์ใช้ทฤษฎี martingales" มีการคำนวณความน่าจะเป็นและการประยุกต์ใช้ (1949): 23-27


ฉันกำลังพยายามที่จะให้สัญชาตญาณบางส่วนของคำตอบดังนั้นแก้ไขให้ถูกต้องถ้าฉันผิด ตัวประมาณค่าแบบเบย์นั้นสอดคล้องกันหากเราเห็นว่าเป็นตัวประมาณค่าแบบจุด (MAP แทนที่จะเป็นการแจกแจงความน่าจะเป็น) มันต้องการเงื่อนไขที่น้อยกว่าเพื่อความมั่นคงมากกว่า MLE อย่างสังหรณ์ใจเพราะก่อนหน้านี้ทำหน้าที่เป็นมาตรฐาน ในอีกทางหนึ่ง, โครงสร้างการแจกแจงแบบชวาร์ตษ์เหมาะสมกว่าเมื่อเราเห็นตัวประมาณค่าแบบเบส์เป็นตัวกระจายมันยังช่วยสร้างความสัมพันธ์ที่ใกล้ชิดระหว่างความมั่นคงของตัวประมาณค่า MLE และตัวแบบเบย์เพื่อให้กรณีที่ .
ziyuang

ขออภัยฉันไม่คิดว่าคำอธิบายของคุณถูกต้อง การกระทำก่อนหน้านี้เป็นการทำให้เป็นมาตรฐาน แต่ไม่จำเป็นต้องควบคุมอัตราการลู่เข้า อันที่จริงแล้วบรรดานักบวชแบนราบช้าลงจริงๆ พวกเขาเป็นเพียงสองโครงสร้างที่แตกต่างกัน
Henry.L
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.