แรงจูงใจสำหรับระยะทาง Kolmogorov ระหว่างการแจกแจง


45

มีหลายวิธีในการวัดความคล้ายคลึงกันของการแจกแจงความน่าจะเป็นสองแบบ ในบรรดาวิธีการที่ได้รับความนิยม (ในแวดวงที่แตกต่างกัน) คือ:

  1. ระยะ Kolmogorov: ระยะทางระหว่างฟังก์ชันการกระจาย;

  2. ระยะทาง Kantorovich-Rubinstein: ความแตกต่างสูงสุดระหว่างความคาดหวังของ wrt ทั้งสองของการแจกแจงฟังก์ชันกับค่าคงที่ Lipschitz 1ซึ่งกลายเป็นระยะทางL1ระหว่างฟังก์ชันการแจกแจง

  3. ล้อมรอบ-Lipschitz ระยะทาง: เช่นระยะ KR แต่ฟังก์ชั่นนอกจากนี้ยังจะต้องมีค่าสัมบูรณ์ที่มากที่สุด11

สิ่งเหล่านี้มีข้อดีและข้อเสียต่างกัน การบรรจบกันในความหมายของ 3. จริง ๆ แล้วสอดคล้องกับการบรรจบกันในการกระจาย; การบรรจบกันในความหมายของ 1 หรือ 2 นั้นโดยทั่วไปแข็งแกร่งขึ้นเล็กน้อย (โดยเฉพาะถ้าXn=1nมีความน่าจะเป็น1จากนั้นXnจะแปลงเป็น0ในการแจกแจง แต่ไม่ใช่ในระยะ Kolmogorov อย่างไรก็ตามหากการกระจายขีด จำกัด นั้นต่อเนื่องดังนั้นพยาธิวิทยานี้จะไม่เกิดขึ้น)

จากมุมมองของความน่าจะเป็นเบื้องต้นหรือทฤษฎีการวัด 1. มีความเป็นธรรมชาติมากเพราะมันเปรียบเทียบความน่าจะเป็นของการอยู่ในบางชุด ในทางกลับกันมุมมองความน่าจะเป็นที่ซับซ้อนมากขึ้นมีแนวโน้มที่จะมุ่งเน้นไปที่ความคาดหวังมากกว่าความน่าจะเป็น นอกจากนี้จากมุมมองของการวิเคราะห์การทำงานระยะทางเช่น 2 หรือ 3 ขึ้นอยู่กับความเป็นคู่กับพื้นที่ฟังก์ชั่นบางอย่างน่าสนใจมากเพราะมีเครื่องมือทางคณิตศาสตร์จำนวนมากสำหรับการทำงานกับสิ่งต่าง ๆ

อย่างไรก็ตามความประทับใจของฉัน (แก้ไขฉันถ้าฉันผิด!) คือในสถิติระยะทาง Kolmogorov เป็นวิธีที่นิยมใช้ในการวัดความคล้ายคลึงกันของการแจกแจง ฉันเดาได้ว่าเหตุผลข้อหนึ่ง: หากการแจกแจงอย่างใดอย่างหนึ่งไม่ต่อเนื่องโดยมีการสนับสนุน จำกัด - โดยเฉพาะถ้าเป็นการกระจายของข้อมูลในโลกแห่งความจริง - จากนั้นระยะทาง Kolmogorov กับการกระจายแบบจำลองนั้นง่ายต่อการคำนวณ (ระยะทาง KR นั้นจะยากกว่าในการคำนวณเล็กน้อยและระยะทาง BL อาจเป็นไปไม่ได้ในแง่ของการใช้งานจริง)

ดังนั้นคำถามของฉัน (ในที่สุด) คือมีเหตุผลอื่นไม่ว่าจะเป็นในทางปฏิบัติหรือทางทฤษฎีเพื่อสนับสนุนระยะทาง Kolmogorov (หรือระยะทางอื่น ๆ ) เพื่อวัตถุประสงค์ทางสถิติ


1
ฉันชอบคำถามอาจมีคำตอบที่เป็นไปได้มากที่สุดในคำถาม ... คุณมีความคิดเกี่ยวกับประเภทของคำตอบ / การพัฒนาที่คุณต้องการหรือไม่?
robin girard

1
ไม่เฉพาะเจาะจงมาก ฉันไม่รู้สถิติค่อนข้างมากและหนึ่งในเหตุผลที่ฉันถามคือเรียนรู้ว่านักสถิติแบบใดที่จะใช้เลือกระหว่างตัวชี้วัดที่แตกต่างกัน เนื่องจากฉันได้อธิบายถึงข้อได้เปรียบทางปฏิบัติที่สำคัญข้อหนึ่งของ 1 (คุณสามารถคำนวณได้จริง) ฉันสนใจในแรงจูงใจเชิงทฤษฎีเป็นพิเศษ บอกว่าเป็นข้อมูลที่ได้จากการประมาณระยะทาง Kolmogorov บ่อยครั้งที่ใช้โดยตรงในแอปพลิเคชันหรือไม่
Mark Meckes

ฉันลืมที่จะจบความคิดเห็นก่อนหน้านี้ของฉันกับชัดเจนมากขึ้นหรือน้อยลง: และถ้าเป็นเช่นนั้นได้อย่างไร
Mark Meckes

ฉันเพิ่งอ่านความคิดเห็นยาว ๆ ของฉันข้างบนและรู้ว่าคำถามสุดท้ายที่ฉันถามนั้นเป็นการพิจารณาเชิงปฏิบัติตามทฤษฎี ไม่ว่าในกรณีใดนั่นเป็นปัญหาหนึ่งในประเภทที่ฉันสนใจที่จะเรียนรู้
Mark Meckes

ฉันรู้ว่าคุณไม่ได้ตั้งใจอย่างถี่ถ้วน แต่คุณสามารถเพิ่มสถิติที่รักของ Anderson (ดูen.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ) สิ่งนี้ทำให้ฉันนึกถึงบทความจาก Jager และ Wellner (ดูprojecteuclid.org/ … ) ซึ่งขยาย / generalises Anderson ที่รักสถิติ (และรวมถึงการวิจารณ์ที่สูงขึ้นโดยเฉพาะของ Tukey) ...
robin girard

คำตอบ:


12

เครื่องหมาย,

เหตุผลหลักที่ฉันตระหนักถึงการใช้ KS เป็นเพราะมันเกิดขึ้นตามธรรมชาติจากทฤษฎีบท Glivenko-Cantelli ในกระบวนการเชิงประจักษ์ การอ้างอิงเดียวที่ฉันแนะนำคือ AWvan der Vaart "Asymptotic Statistics", ch. 19. เอกสารขั้นสูงคือ "การบรรจบกันอย่างอ่อนและกระบวนการเชิงประจักษ์" โดย Wellner และ van der Vaart

ฉันจะเพิ่มบันทึกย่อสองรายการ:

  1. การวัดระยะทางอื่นที่ใช้กันทั่วไปในการแจกแจงแบบ univariate คือระยะทาง Cramer-von Mises ซึ่งเป็นระยะทาง L ^ 2;
  2. ในปริภูมิเวกเตอร์ทั่วไปใช้ระยะทางต่างกัน พื้นที่ที่น่าสนใจในเอกสารจำนวนมากเป็นเงา การแนะนำที่ดีมากคือ "การบรรจบกันของมาตรการความน่าจะเป็น" ของ Billingsley

ฉันขอโทษถ้าฉันไม่เจาะจงมากขึ้น ฉันหวังว่านี่จะช่วยได้.


2
บันทึกย่อสองรายการในบันทึกย่อของคุณ 1. ระยะทาง C-vM เป็นลูกพี่ลูกน้อง L ^ 2 ของ Kolmogorov (L ^ infinity) และ (univariate) KR (L ^ 1) ระยะทางและด้วยเหตุนี้ interpolates ระหว่างพวกเขา 2. ข้อดีอย่างหนึ่งที่ฉันไม่ได้กล่าวถึงระยะทาง KR และ BL คือว่าพวกเขาพูดคุยกับพื้นที่มิติที่สูงขึ้นอย่างเป็นธรรมชาติ
Mark Meckes

เกี่ยวกับ 1. ถูกต้อง เกี่ยวกับ 2. ตามหลักการระยะทางทั้งหมดข้างต้นสามารถส่งผ่านไปยัง R ^ n ได้ แต่ฉันไม่รู้การทดสอบแบบไม่อิงพารามิเตอร์ยอดนิยมตามระยะทางใด ๆ มันจะน่าสนใจที่จะรู้ว่ามี
สวัสดี

8

ปัญหาการคำนวณเป็นข้อโต้แย้งที่แข็งแกร่งที่สุดที่ฉันเคยได้ยินมาทางใดทางหนึ่ง ข้อได้เปรียบที่ใหญ่ที่สุดเพียงอย่างเดียวของระยะทาง Kolmogorov ก็คือมันง่ายในการคำนวณเชิงวิเคราะห์สำหรับ CDF ใด ๆ ตัวชี้วัดระยะทางอื่น ๆ ส่วนใหญ่ไม่มีนิพจน์แบบปิดยกเว้นในกรณีของ Gaussian

ระยะทางของ Kolmogorov ของตัวอย่างก็มีการแจกแจงตัวอย่างที่เป็นที่รู้จักด้วย CDF (ฉันไม่คิดว่าคนอื่นทำมากที่สุด) ซึ่งจบลงด้วยการเกี่ยวข้องกับกระบวนการ Wiener นี่เป็นพื้นฐานสำหรับการทดสอบ Kolmogorov-Smirnoff สำหรับการเปรียบเทียบตัวอย่างกับการแจกแจงหรือสองตัวอย่างต่อกัน

ในบันทึกการวิเคราะห์การทำงานที่มากขึ้นบรรทัดฐาน sup นั้นดีในเรื่องนั้น สิ่งนี้ทำให้คุณมีการบรรจบกันของบรรทัดฐานที่บ่งบอกถึงการบรรจบกันของจุดและดังนั้นหากคุณฉลาดเกี่ยวกับวิธีที่คุณกำหนดลำดับฟังก์ชั่นของคุณคุณสามารถทำงานภายใน RKHS และใช้เครื่องมือที่ดีทั้งหมดที่มีให้


8

โดยสรุปแล้วคำตอบของฉันคือ: ถ้าคุณมีการแสดงออกที่ชัดเจนหรือสามารถหาได้ว่าระยะทางของคุณวัดได้อย่างไร อีกวิธีหนึ่งในการวิเคราะห์และเปรียบเทียบการทดสอบดังกล่าวคือทฤษฎีมินิแมกซ์

ในตอนท้ายการทดสอบบางอย่างจะเป็นการดีสำหรับทางเลือกและสำหรับการทดสอบอื่น ๆ สำหรับชุดของตัวเลือกที่กำหนดบางครั้งเป็นไปได้ที่จะแสดงว่าการทดสอบของคุณมีคุณสมบัติที่ดีที่สุดในกรณีที่เลวร้ายที่สุดหรือไม่: นี่คือทฤษฎีขั้นต่ำสุด


รายละเอียดบางอย่าง

ดังนั้นคุณสามารถบอกเกี่ยวกับคุณสมบัติของการทดสอบสองแบบที่แตกต่างกันโดยพิจารณาจากชุดของตัวเลือกที่พวกมันเป็น minimax (ถ้ามีทางเลือกอื่น): (ใช้คำของ Donoho และ Jin) โดยเปรียบเทียบ "การตรวจจับที่เหมาะสมที่สุด" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492

ให้ฉันไปตามระยะทาง:

  1. ระยะทาง KS ได้รับการคำนวณความแตกต่างระหว่างค่าสูงสุดของ cir และ cdf การเป็น suppremum นั้นจะมีความไวสูงต่อทางเลือกในท้องถิ่น (การเปลี่ยนแปลงใน cdf) แต่ไม่ใช่การเปลี่ยนแปลงของโลก (อย่างน้อยการใช้ระยะทาง L2 ระหว่าง cdf จะน้อยกว่าในท้องถิ่น (ฉันเปิดประตูใช่ไหม?)) อย่างไรก็ตามสิ่งที่สำคัญที่สุดคือการใช้ cdf สิ่งนี้แสดงถึงความไม่สมดุล: คุณให้ความสำคัญกับการเปลี่ยนแปลงในส่วนท้ายของการกระจายของคุณ

  2. Wassertein metric (สิ่งที่คุณต้องการโดย Kantorovitch Rubinstein?) http://en.wikipedia.org/wiki/Wasserstein_metricนั้นแพร่หลายและยากที่จะเปรียบเทียบ

    • สำหรับกรณีพิเศษของ W2 นั้นมีการใช้งานในhttp://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 และเกี่ยวข้องกับระยะ L2 ของ cdf ความเข้าใจของฉันคือว่ามันให้น้ำหนักกับหางมากขึ้น แต่ฉันคิดว่าคุณควรอ่านกระดาษให้รู้เพิ่มเติมเกี่ยวกับมัน
    • สำหรับกรณีของระยะทาง L1 ระหว่างฟังก์ชั่นความหนาแน่นมันจะขึ้นอยู่กับว่าคุณประเมินการทำงานของฟันของคุณจากข้อมูลอย่างไร แต่ดูเหมือนว่าจะเป็น "การทดสอบที่สมดุล" ซึ่งไม่ได้ให้ความสำคัญกับก้อย

ในการจำและขยายความคิดเห็นที่ฉันทำซึ่งทำคำตอบให้สมบูรณ์:

ฉันรู้ว่าคุณไม่ได้ตั้งใจอย่างถี่ถ้วน แต่คุณสามารถเพิ่มสถิติที่รักของแอนเดอร์สัน (ดูhttp://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ) สิ่งนี้ทำให้ฉันนึกถึงบทความจาก Jager และ Wellner (ดูhttp://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) ซึ่งขยายออก / สถิติทั่วไปที่รัก คำวิจารณ์ที่สูงขึ้นของ Tukey) การวิจารณ์ที่สูงขึ้นนั้นแสดงให้เห็นว่าเป็น minimax สำหรับทางเลือกที่หลากหลายและ Jager และ Wellner ก็ทำเช่นเดียวกันสำหรับการขยายของพวกเขา ฉันไม่คิดว่ามีการแสดงคุณสมบัติ minimax สำหรับการทดสอบ Kolmogorov อย่างไรก็ตามการทำความเข้าใจกับประเภทการทดสอบทางเลือกของคุณคือ minimax ช่วยให้คุณทราบว่าจุดแข็งนั้นอยู่ที่ไหนดังนั้นคุณควรอ่านกระดาษด้านบน ..


1
ใช่สิ่งที่ฉันเรียกว่าระยะทาง Kantorovitch-Rubinstein เรียกอีกอย่างว่า L ^ 1 ระยะทาง Wasserstein หรือ W1 มันไปด้วยชื่ออื่น ๆ อีกมากมายเช่นกัน
Mark Meckes

3
เพียงชี้แจงให้ทุกคนที่ไม่คุ้นเคยกับระยะทางของ Wasserstein ที่อ่านคำตอบนี้และยินดี: L ^ 2 Wasserstein distance (W2) นั้นไม่เหมือนกับระยะทางของ Cramer-von Mises
Mark Meckes


3

ฉันไม่สามารถให้เหตุผลเพิ่มเติมแก่คุณในการใช้การทดสอบ Kolmogorov-Smirnov แต่ฉันสามารถให้เหตุผลสำคัญแก่คุณที่จะไม่ใช้มัน มันไม่พอดีกับหางของการกระจายที่ดี ในเรื่องนี้การทดสอบการกระจายตัวที่ดีเยี่ยมคือ Anderson-Darling อันดับสองรองจากการทดสอบ Chi Square นั้นค่อนข้างดี ทั้งสองถือว่าดีกว่าการทดสอบ KS ในเรื่องนี้


2

จากมุมมองของฟังก์ชั่นการวิเคราะห์และทฤษฎีการวัดระยะทางชนิดไม่ได้กำหนดเซตที่วัดได้ในช่องว่างของฟังก์ชั่น นี่เป็นการตัดสิทธิ์การตีความใด ๆ ที่วัดได้ของระยะทางของตัวเลือก 2 และ 3 อย่างแน่นหนาLp

แน่นอนว่า Kolomogorov นั้นสดใสกว่าพวกเราทุกคนที่โพสต์ บิตที่ฉลาดคือขณะที่ระยะทางในการทดสอบ KS นั้นเป็นของหลากหลายมาตรฐานแบบสม่ำเสมอนั้นไม่ได้ใช้เพื่อกำหนดชุดที่วัดได้ ค่อนข้างชุดเป็นส่วนหนึ่งของการกรองสุ่มบนความแตกต่างระหว่างการกระจายการประเมินที่ค่าสังเกต; ซึ่งเทียบเท่ากับปัญหาเวลาหยุดL0

ในระยะสั้นชุดระยะทางปกติของทางเลือกที่ 1 เป็นที่นิยมเพราะการทดสอบหมายถึงเทียบเท่ากับปัญหาเวลาหยุดซึ่งทำให้เกิดความน่าจะเป็นที่คำนวณได้ง่าย โดยที่ตัวเลือก 2 & 3 ไม่สามารถกำหนดฟังก์ชั่นย่อยที่วัดได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.