มันจะกลายเป็นชัดเจนโดยการดูที่หลายบัญชีของ "สมมติฐานมากมาย" ที่นักเขียนหลายคนสะดุดตาเลอะเทอะเกี่ยวกับความหมายของมัน ผู้ที่ระมัดระวังยิ่งกว่านั้นกำหนดด้วยคำเตือนที่ละเอียดอ่อน แต่สำคัญอย่างยิ่งนั่นคือข้อมูลอยู่บนหรือใกล้กับท่อร่วมไอดีที่มีมิติต่ำ
แม้ผู้ที่ไม่รวม "หรือใกล้เคียงกับ" ประโยคอย่างชัดเจนนำมาใช้สมมติฐานต่าง ๆ นานาเป็นนิยายโดยประมาณที่สะดวกสำหรับการดำเนินการวิเคราะห์ทางคณิตศาสตร์เพราะงานของพวกเขาจะต้องพิจารณาการเบี่ยงเบนระหว่างข้อมูลและนานาโดยประมาณ อันที่จริงนักเขียนหลายคนในภายหลังได้แนะนำกลไกที่ชัดเจนสำหรับการเบี่ยงเบนเช่นการไตร่ตรองการถดถอยของy ต่อต้าน x ที่ไหน xถูกบังคับให้นอนบนท่อร่วมไอดีMk⊂Rd แต่ yอาจรวมถึงการเบี่ยงเบนแบบสุ่ม สิ่งนี้เทียบเท่ากับสมมติว่าสิ่งอันดับ(xi,yi)อยู่ใกล้ๆ แต่ไม่จำเป็นว่าจะต้องแช่อยู่kมิติต่าง ๆ ของแบบฟอร์ม
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
สำหรับฟังก์ชั่นเรียบเนียน (การถดถอย) f:Rd→R. เนื่องจากเราอาจดูจุดรบกวนทั้งหมด(x,y)=(x,f(x)+ε)ซึ่งอยู่ใกล้กับกราฟของf (ก kนานามิติ) เช่นนอนอยู่บนk+1หลายมิติมิติ Mk×Rสิ่งนี้ช่วยอธิบายว่าทำไมความเลอะเทอะเกี่ยวกับการแยก "on" จาก "ใกล้กับ" อาจไม่สำคัญในทางทฤษฎี
ความแตกต่างระหว่าง "เปิด" และ "ใกล้กับ" มีความสำคัญอย่างมากสำหรับแอปพลิเคชัน "ใกล้กับ" อนุญาตให้ข้อมูลอาจเบี่ยงเบนไปจากท่อร่วมไอดี ดังนั้นหากคุณเลือกที่จะประมาณค่าจำนวนนั้นค่าเบี่ยงเบนปกติระหว่างข้อมูลและจำนวนนั้นสามารถนับจำนวนได้ หนึ่งนานาติดตั้งจะดีกว่าอีกเมื่อมูลค่าโดยทั่วไปของการเบี่ยงเบนน้อยceteris paribus
รูปที่แสดงให้เห็นถึงสองรุ่นของสมมติฐานต่าง ๆ สำหรับข้อมูล (จุดสีฟ้าขนาดใหญ่): manifold สีดำค่อนข้างง่าย (ต้องการพารามิเตอร์ที่สี่เท่านั้นเพื่ออธิบาย) แต่มา "ใกล้" ข้อมูลในขณะที่ manifold ประสีแดงพอดีกับข้อมูล สมบูรณ์แบบ แต่มีความซับซ้อน (จำเป็นต้องมีพารามิเตอร์ 17 ตัว)
เช่นเดียวกับในปัญหาดังกล่าวมีข้อเสียระหว่างความซับซ้อนในการอธิบายความหลากหลายและความดีของความพอดี (ปัญหาการ overfitting) มันเป็นเสมอกรณีที่นานาหนึ่งมิติสามารถพบได้เพื่อให้พอดีกับจำนวน จำกัด ใด ๆ ของข้อมูลในRdอย่างสมบูรณ์ (เช่นเดียวกับจุดประสีแดงในรูปเพียงวิ่งโค้งเรียบผ่านจุดทั้งหมดในลำดับใด ๆ : เกือบจะแน่นอนว่ามันจะไม่ตัดกันเอง แต่ถ้าเป็นเช่นนั้นจะรบกวนเส้นโค้งในละแวกนั้น กำจัดมัน) ในอีกระดับหนึ่งหากอนุญาตให้มีคลาสของแมนิโฟลด์ที่ จำกัด (เช่นไฮพอยด์แบบตรงแบบยุคลิดเท่านั้น) ความพอดีที่ดีอาจเป็นไปไม่ได้โดยไม่คำนึงถึงขนาดและความเบี่ยงเบนทั่วไประหว่างข้อมูล
สิ่งนี้นำไปสู่วิธีการที่ตรงไปตรงมาและใช้งานได้จริงเพื่อประเมินสมมติฐานที่หลากหลาย:หากตัวแบบ / ตัวทำนาย / ตัวจําแนกที่พัฒนาขึ้นจากข้อสมมติที่หลากหลายนั้นทํางานได้ดีพอยอมรับได้ ดังนั้นเงื่อนไขที่เหมาะสมที่ต้องการในคำถามคือว่ามาตรการที่เกี่ยวข้องกับความดีของความพอดีมีขนาดเล็กพอสมควร (มาตรการใดขึ้นอยู่กับปัญหาและเท่ากับการเลือกฟังก์ชั่นการสูญเสีย)
เป็นไปได้ว่านานามิติที่แตกต่างกัน (ที่มีข้อ จำกัด ที่แตกต่างกันเกี่ยวกับความโค้ง) อาจพอดีกับข้อมูล - และทำนายข้อมูลที่ถูกจัดเก็บไว้ - ดีพอ ๆ กัน ไม่มีอะไรที่สามารถ "พิสูจน์ได้" เกี่ยวกับ "พื้นฐาน" ที่หลากหลายโดยเฉพาะอย่างยิ่งเมื่อทำงานกับชุดข้อมูลขนาดใหญ่ยุ่งเหยิงของมนุษย์ สิ่งที่เรามักจะคาดหวังก็คือมันเป็นอุปกรณ์ที่เหมาะสม
หากคุณไม่ได้มีโมเดล / ตัวพยากรณ์ / ลักษณนามที่ดีแสดงว่าสมมติฐานที่หลากหลายนั้นไม่ถูกต้องคุณกำลังสมมติว่ามีมิติน้อยเกินไปหรือคุณดูไม่หนักพอหรือดีพอ