ในโพสต์นี้คุณสามารถอ่านคำสั่ง:
แบบจำลองมักจะถูกแทนที่ด้วยจุดบนมิติที่ จำกัด
ในเรขาคณิตเชิงอนุพันธ์และสถิติโดย Michael K Murray และ John W Riceแนวคิดเหล่านี้อธิบายได้ในร้อยแก้วที่อ่านได้แม้จะไม่สนใจนิพจน์ทางคณิตศาสตร์ น่าเสียดายที่มีภาพประกอบไม่มาก กันไปสำหรับโพสต์นี้ใน MathOverflow
ฉันต้องการขอความช่วยเหลือด้วยการนำเสนอด้วยภาพเพื่อใช้เป็นแผนที่หรือแรงจูงใจในการทำความเข้าใจหัวข้อที่เป็นทางการมากขึ้น
อะไรคือจุดที่หลากหลาย อ้างจากการค้นหาออนไลน์นี้ดูเหมือนจะบ่งบอกว่ามันอาจเป็นจุดข้อมูลหรือพารามิเตอร์การกระจาย:
สถิติเกี่ยวกับแมนิโฟลด์และเรขาคณิตข้อมูลเป็นสองวิธีที่แตกต่างกันซึ่งเรขาคณิตเชิงอนุพันธ์ตรงกับสถิติ ในขณะที่ในสถิติเกี่ยวกับแมนิโฟลด์มันเป็นข้อมูลที่วางอยู่บนท่อร่วมในเรขาคณิตข้อมูลข้อมูลอยู่ในแต่พารามิเตอร์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบพารามิเตอร์ที่น่าสนใจจะได้รับการปฏิบัติเหมือนนานา manifolds ดังกล่าวเรียกว่า manifolds ทางสถิติ
ฉันวาดไดอะแกรมนี้โดยได้แรงบันดาลใจจากคำอธิบายของพื้นที่แทนเจนต์ที่นี่ :
[ แก้ไขเพื่อแสดงความคิดเห็นด้านล่างเกี่ยวกับ : ] บนนานาพื้นที่แทนเจนต์คือเซตของอนุพันธ์ที่เป็นไปได้ทั้งหมด ("ความเร็ว") ที่จุดเกี่ยวข้องกับ ทุกโค้งที่เป็นไปได้บนท่อร่วมไอวิ่งผ่าน นี่จะเห็นได้ว่าเป็นชุดของแผนที่จากทุกโค้งผ่านคือกำหนดเป็นองค์ประกอบ , ด้วยแสดงถึงเส้นโค้ง (ฟังก์ชั่นจากเส้นจริงถึงพื้นผิวของท่อร่วมพี∈ M (ψ: R → M )P P, C ∞ (T)→ R , ( ฉ∘ ψ ) ' (T)ψ M P,F,Fพี) วิ่งผ่านจุดและแสดงเป็นสีแดงบนแผนภาพด้านบน และหมายถึงฟังก์ชั่นทดสอบ "การ iso- " เส้นชั้นความสูงสีขาวแมปไปยังจุดเดียวกันบนเส้นจริงและล้อมรอบจุดP
ความเท่าเทียมกัน (หรือหนึ่งในสิ่งที่เทียบเท่ากับสถิติ) ถูกกล่าวถึงที่นี่และจะเกี่ยวข้องกับคำพูดต่อไปนี้:
หากพื้นที่พารามิเตอร์สำหรับตระกูลเอ็กซ์โพเนนเชียลมีชุดมิติเปิดแบบดังนั้นจะเรียกว่าอันดับเต็ม
ตระกูลเลขชี้กำลังที่ไม่ได้อยู่ในอันดับเต็มโดยทั่วไปเรียกว่าตระกูลเอ็กซ์โพเนนเชียลแบบโค้งเนื่องจากพื้นที่โดยทั่วไปของพารามิเตอร์คือส่วนโค้งในของมิติที่น้อยกว่า s
เรื่องนี้ดูเหมือนจะทำให้การตีความของพล็อตดังนี้: พารามิเตอร์การกระจายตัว (ในกรณีของครอบครัวของการแจกแจงชี้แจง) อยู่บนท่อร่วมไอดี จุดข้อมูลในจะแมปไปยังบรรทัดบนท่อร่วมผ่านฟังก์ชันในกรณีของปัญหาการหาค่าเหมาะที่สุดแบบไม่เชิงเส้น นี่จะเป็นการคำนวณความเร็วของฟิสิกส์ในแบบคู่ขนาน: มองหาอนุพันธ์ของฟังก์ชันตามแนวลาดของ "iso-f" เส้น (อนุพันธ์ทิศทางในสีส้ม):ฟังก์ชั่นจะเล่นบทบาทของการปรับการเลือกพารามิเตอร์การกระจายตัวเป็นเส้นโค้ง ψ : R → Mฉ( ฉ∘ ψ ) ' ( T ) f : M → R ψ fเดินทางไปตามเส้นชั้นความสูงของบนท่อร่วมไอดี
พื้นหลังเพิ่มสิ่งที่:
จากหมายเหตุฉันเชื่อว่าแนวคิดเหล่านี้ไม่ได้เกี่ยวข้องกับการลดมิติข้อมูลที่ไม่ใช่เชิงเส้นใน ML ทันที พวกมันดูเหมือนเรขาคณิตข้อมูลมากขึ้น นี่คือคำพูด:
ที่สำคัญสถิติของแมนิโฟลด์นั้นแตกต่างจากการเรียนรู้ที่หลากหลาย หลังเป็นสาขาหนึ่งของการเรียนรู้เครื่องที่มีเป้าหมายคือการเรียนรู้นานาแฝงจากข้อมูล -valued โดยปกติมิติของใฝหามากมายแฝงน้อยกว่าnท่อร่วมแฝงอาจเป็นแบบเชิงเส้นหรือไม่เชิงเส้นขึ้นอยู่กับวิธีการเฉพาะที่ใช้ n
ข้อมูลต่อไปนี้จากสถิติเกี่ยวกับ Manifolds ที่มีแอปพลิเคชันไปจนถึงการสร้างแบบจำลองรูปร่างโดยOren Freifeld :
ในขณะที่มักจะไม่เชิงเส้นเราสามารถเชื่อมโยงพื้นที่สัมผัสแสดงโดยเพื่อทุกจุดM เป็นพื้นที่เวกเตอร์ที่มีมิติเป็นเช่นเดียวกับที่ของMต้นกำเนิดของที่ หน้าหากถูกฝังในพื้นที่ Euclidean เราอาจคิดว่า เป็น subspace เลียนแบบเช่นนั้น: 1) มันแตะที่ ; 2) อย่างน้อยในพื้นที่อยู่ข้างด้านใดด้านหนึ่งอย่างสมบูรณ์ องค์ประกอบของ TpM เรียกว่าเวกเตอร์แทนเจนต์ทีพีเอ็มพี∈ M T พีเอ็มเอ็มทีพีเอ็มพีเอ็มทีพีเอ็มเอ็มพีเอ็ม
[... ] บนแมนิโฟลด์แบบจำลองทางสถิติมักแสดงในพื้นที่สัมผัส
[ ... ]
[เราพิจารณาสองชุด] ชุดข้อมูลประกอบด้วยคะแนนใน :
;
Letและแทนทั้งสองอาจจะเป็นที่รู้จักในจุดMสันนิษฐานว่าชุดข้อมูลสองชุดเป็นไปตามกฎทางสถิติต่อไปนี้:
[ ... ]
ในคำอื่น ๆ เมื่อจะแสดง (เป็นพาหะสัมผัส) ในพื้นที่สัมผัส (เพื่อ ) ที่ก็สามารถมองเห็นเป็นชุดของตัวอย่าง IID จากศูนย์เฉลี่ยเกาส์ที่มีความแปรปรวน\เช่นเดียวกันเมื่อจะแสดงในพื้นที่สัมผัสที่มันสามารถมองเห็นเป็นชุดของตัวอย่าง IID จากศูนย์เฉลี่ยเกาส์ที่มีความแปรปรวน\นี่เป็นกรณีของยุคลิด
ในการอ้างอิงเดียวกันฉันพบตัวอย่างออนไลน์ (และในทางปฏิบัติเท่านั้น) ที่ใกล้เคียงที่สุดของแนวคิดกราฟิกนี้ที่ฉันถามเกี่ยวกับ:
นี่จะเป็นการบ่งบอกว่าข้อมูลอยู่บนพื้นผิวของท่อร่วมแสดงเป็นเวกเตอร์แทนเจนต์หรือไม่และพารามิเตอร์จะถูกแมปบนระนาบคาร์ทีเซียนหรือไม่?