จะพิสูจน์ได้อย่างไรว่าข้อสมมติฐานที่หลากหลายนั้นถูกต้อง?


9

ในการเรียนรู้ของเครื่องมันมักจะสันนิษฐานว่าชุดข้อมูลอยู่บนท่อร่วมที่มีมิติต่ำเรียบ (สมมติฐานของท่อร่วม) แต่มีวิธีใดที่จะพิสูจน์ว่าสมมติว่าเงื่อนไขเป็นที่พอใจแล้วชุดข้อมูลจะถูกสร้างขึ้นโดยประมาณ จากท่อเรียบแบบมิติต่ำ?

ตัวอย่างเช่นกำหนดลำดับข้อมูล {X1Xn} ที่ไหน XiRd (พูดลำดับของภาพใบหน้าที่มีมุมต่างกัน) และลำดับฉลากที่เกี่ยวข้อง {y1yn} ที่ไหน y1y2yn (พูดมุมของลำดับใบหน้า) สมมติว่าเมื่อXi และ Xi+1 อยู่ใกล้มากป้ายกำกับของพวกเขา yi และ yi+1 อยู่ใกล้มากเราสามารถจินตนาการได้ว่ามันเป็นไปได้ว่า {X1Xn}นอนบนหลากหลายมิติ มันเป็นเรื่องจริงเหรอ? ถ้าเป็นเช่นนั้นเราจะพิสูจน์มันได้อย่างไร? หรือเงื่อนไขใดที่จำเป็นต้องมีการจัดลำดับเพื่อให้สมมติฐานที่หลากหลายสามารถพิสูจน์ได้ว่าเป็นจริง

คำตอบ:


10

มันจะกลายเป็นชัดเจนโดยการดูที่หลายบัญชีของ "สมมติฐานมากมาย" ที่นักเขียนหลายคนสะดุดตาเลอะเทอะเกี่ยวกับความหมายของมัน ผู้ที่ระมัดระวังยิ่งกว่านั้นกำหนดด้วยคำเตือนที่ละเอียดอ่อน แต่สำคัญอย่างยิ่งนั่นคือข้อมูลอยู่บนหรือใกล้กับท่อร่วมไอดีที่มีมิติต่ำ

แม้ผู้ที่ไม่รวม "หรือใกล้เคียงกับ" ประโยคอย่างชัดเจนนำมาใช้สมมติฐานต่าง ๆ นานาเป็นนิยายโดยประมาณที่สะดวกสำหรับการดำเนินการวิเคราะห์ทางคณิตศาสตร์เพราะงานของพวกเขาจะต้องพิจารณาการเบี่ยงเบนระหว่างข้อมูลและนานาโดยประมาณ อันที่จริงนักเขียนหลายคนในภายหลังได้แนะนำกลไกที่ชัดเจนสำหรับการเบี่ยงเบนเช่นการไตร่ตรองการถดถอยของy ต่อต้าน x ที่ไหน xถูกบังคับให้นอนบนท่อร่วมไอดีMkRd แต่ yอาจรวมถึงการเบี่ยงเบนแบบสุ่ม สิ่งนี้เทียบเท่ากับสมมติว่าสิ่งอันดับ(xi,yi)อยู่ใกล้ๆ แต่ไม่จำเป็นว่าจะต้องแช่อยู่kมิติต่าง ๆ ของแบบฟอร์ม

(x,f(x))Mk×RRd×RRd+1

สำหรับฟังก์ชั่นเรียบเนียน (การถดถอย) f:RdR. เนื่องจากเราอาจดูจุดรบกวนทั้งหมด(x,y)=(x,f(x)+ε)ซึ่งอยู่ใกล้กับกราฟของf (ก kนานามิติ) เช่นนอนอยู่บนk+1หลายมิติมิติ Mk×Rสิ่งนี้ช่วยอธิบายว่าทำไมความเลอะเทอะเกี่ยวกับการแยก "on" จาก "ใกล้กับ" อาจไม่สำคัญในทางทฤษฎี

ความแตกต่างระหว่าง "เปิด" และ "ใกล้กับ" มีความสำคัญอย่างมากสำหรับแอปพลิเคชัน "ใกล้กับ" อนุญาตให้ข้อมูลอาจเบี่ยงเบนไปจากท่อร่วมไอดี ดังนั้นหากคุณเลือกที่จะประมาณค่าจำนวนนั้นค่าเบี่ยงเบนปกติระหว่างข้อมูลและจำนวนนั้นสามารถนับจำนวนได้ หนึ่งนานาติดตั้งจะดีกว่าอีกเมื่อมูลค่าโดยทั่วไปของการเบี่ยงเบนน้อยceteris paribus

รูป

รูปที่แสดงให้เห็นถึงสองรุ่นของสมมติฐานต่าง ๆ สำหรับข้อมูล (จุดสีฟ้าขนาดใหญ่): manifold สีดำค่อนข้างง่าย (ต้องการพารามิเตอร์ที่สี่เท่านั้นเพื่ออธิบาย) แต่มา "ใกล้" ข้อมูลในขณะที่ manifold ประสีแดงพอดีกับข้อมูล สมบูรณ์แบบ แต่มีความซับซ้อน (จำเป็นต้องมีพารามิเตอร์ 17 ตัว)

เช่นเดียวกับในปัญหาดังกล่าวมีข้อเสียระหว่างความซับซ้อนในการอธิบายความหลากหลายและความดีของความพอดี (ปัญหาการ overfitting) มันเป็นเสมอกรณีที่นานาหนึ่งมิติสามารถพบได้เพื่อให้พอดีกับจำนวน จำกัด ใด ๆ ของข้อมูลในRdอย่างสมบูรณ์ (เช่นเดียวกับจุดประสีแดงในรูปเพียงวิ่งโค้งเรียบผ่านจุดทั้งหมดในลำดับใด ๆ : เกือบจะแน่นอนว่ามันจะไม่ตัดกันเอง แต่ถ้าเป็นเช่นนั้นจะรบกวนเส้นโค้งในละแวกนั้น กำจัดมัน) ในอีกระดับหนึ่งหากอนุญาตให้มีคลาสของแมนิโฟลด์ที่ จำกัด (เช่นไฮพอยด์แบบตรงแบบยุคลิดเท่านั้น) ความพอดีที่ดีอาจเป็นไปไม่ได้โดยไม่คำนึงถึงขนาดและความเบี่ยงเบนทั่วไประหว่างข้อมูล

สิ่งนี้นำไปสู่วิธีการที่ตรงไปตรงมาและใช้งานได้จริงเพื่อประเมินสมมติฐานที่หลากหลาย:หากตัวแบบ / ตัวทำนาย / ตัวจําแนกที่พัฒนาขึ้นจากข้อสมมติที่หลากหลายนั้นทํางานได้ดีพอยอมรับได้ ดังนั้นเงื่อนไขที่เหมาะสมที่ต้องการในคำถามคือว่ามาตรการที่เกี่ยวข้องกับความดีของความพอดีมีขนาดเล็กพอสมควร (มาตรการใดขึ้นอยู่กับปัญหาและเท่ากับการเลือกฟังก์ชั่นการสูญเสีย)

เป็นไปได้ว่านานามิติที่แตกต่างกัน (ที่มีข้อ จำกัด ที่แตกต่างกันเกี่ยวกับความโค้ง) อาจพอดีกับข้อมูล - และทำนายข้อมูลที่ถูกจัดเก็บไว้ - ดีพอ ๆ กัน ไม่มีอะไรที่สามารถ "พิสูจน์ได้" เกี่ยวกับ "พื้นฐาน" ที่หลากหลายโดยเฉพาะอย่างยิ่งเมื่อทำงานกับชุดข้อมูลขนาดใหญ่ยุ่งเหยิงของมนุษย์ สิ่งที่เรามักจะคาดหวังก็คือมันเป็นอุปกรณ์ที่เหมาะสม

หากคุณไม่ได้มีโมเดล / ตัวพยากรณ์ / ลักษณนามที่ดีแสดงว่าสมมติฐานที่หลากหลายนั้นไม่ถูกต้องคุณกำลังสมมติว่ามีมิติน้อยเกินไปหรือคุณดูไม่หนักพอหรือดีพอ


1
+1 ดีมาก ให้ฉันเพิ่ม (โดยไม่ได้บอกให้คุณแบ่งปันมุมมองของฉัน) ว่านี่แสดงให้เห็นอีกครั้งว่าทำไมความคิดที่มีหลักการ แต่ไม่เชื่อและมักจะไม่แน่นอนซึ่งได้รับการปลูกฝังในสถิติเป็นเวลาหลายปีเป็นสิ่งสำคัญมาก ของเล่นโลกแห่งการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล
Momo

5

เซตของจุดจำกัดใด ๆสามารถใส่ลงในหลาย ๆ อัน (จำเป็นต้องมีการอ้างอิงทฤษฎีบทฉันไม่สามารถจำได้ว่าทฤษฎีบทคืออะไรฉันจำความจริงข้อนี้ได้จาก uni)

หากไม่มีใครต้องการให้ระบุจุดทั้งหมดส่วนที่เล็กที่สุดที่เป็นไปได้คือ 1

ยกตัวอย่างง่ายๆเมื่อได้รับคะแนน N 2d มีพหุนามคำสั่ง N - 1 อยู่จำนวนหนึ่งซึ่งมีจุด N ทั้งหมดอยู่บนพหุนาม ดังนั้นเราจึงมี 1d manifold สำหรับชุดข้อมูลใด ๆ 2d ฉันคิดว่าตรรกะของมิติโดยพลการนั้นคล้ายคลึงกัน

ดังนั้นนั่นไม่ใช่ปัญหาสมมติฐานที่แท้จริงอยู่บนโครงสร้าง / ความเรียบง่ายของท่อร่วมไอดีโดยเฉพาะอย่างยิ่งเมื่อทำการเชื่อมต่อท่อร่วม Riemannian เป็นพื้นที่เมตริก ฉันได้อ่านบทความเกี่ยวกับเรื่องนี้แล้วและถ้าคุณอ่านอย่างระมัดระวังมีข้อสันนิษฐานที่น่าสนใจเกิดขึ้น!

สมมติฐานที่เกิดขึ้นคือเมื่อคำจำกัดความที่เกิดขึ้นของ "ความใกล้ชิด" ถูกสันนิษฐานว่า "เก็บรักษาข้อมูลในชุดข้อมูลของเรา" แต่เนื่องจากสิ่งนี้ไม่ได้กำหนดอย่างเป็นทางการในข้อกำหนดทางทฤษฎีสารสนเทศคำจำกัดความที่เกิดขึ้น โดยเฉพาะอย่างยิ่งในปัญหาดูเหมือนว่าจะได้รับการเก็บรักษาไว้ "ความใกล้ชิด" เช่นสองจุดปิดอยู่ใกล้ แต่ "ไม่ชัดเจน" และอีกสอง "ไกล" จุดอยู่ไม่ไกล

โดยสรุปแล้วฉันจะระวังกลอุบายดังกล่าวในการเรียนรู้ของเครื่องเว้นแต่ว่าชุดข้อมูลนั้นจะเป็นแบบยุคลิดตามธรรมชาติเช่นการจดจำรูปแบบภาพ ฉันจะไม่พิจารณาวิธีการเหล่านี้ที่เหมาะสมสำหรับปัญหาทั่วไปมากขึ้น


ขอบคุณ! คำตอบของคุณช่วยให้ฉันเข้าใจปัญหาได้ดีขึ้น คุณสามารถแนะนำเอกสารบางอย่างเกี่ยวกับสมมติฐานที่หลากหลายที่คุณพูดถึงที่นี่ได้ไหม
thinkbear

ขออภัยไม่สามารถจำได้ว่า Google ควรจะสามารถช่วย :)
samthebest
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.