ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?


239

ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้



5
นี่น่าจะพื้นฐานเกินไปสำหรับคุณ ฉันเขียนชุดบทความบล็อกในหัวข้อของ Euclidean metric ในขนาดที่สูงขึ้นและวิธีที่ส่งผลต่อการค้นหาช่องว่างเวกเตอร์สำหรับการจับคู่ที่ใกล้ที่สุด blogs.msdn.com/b/ericlippert/archive/tags/…
Eric Lippert

1
@ HorstGrünbuschดูคำตอบด้านล่างสำหรับการอ้างอิงบางอย่าง ความแปรปรวนของระยะทางจะน้อยเมื่อเทียบกับค่าเฉลี่ย ในบางจุดคุณพบปัญหาในการเลือกขีด จำกัด น้ำหนักการสั่งซื้อ และคุณอาจพบปัญหาความแม่นยำเชิงตัวเลขเช่นกัน แต่ถ้าข้อมูลของคุณกระจัดกระจายก็เป็นไปได้ว่ามีมิติภายในที่ต่ำกว่ามาก
Anony-Mousse

3
"คำว่ามิติสูง" น่าจะเป็นคำที่ทำให้เข้าใจผิด - คำตอบบางคำกำลังถือว่า 9-12 ว่า "คำว่ามิติสูง" แต่ในพื้นที่อื่นมิติที่สูงอาจหมายถึงพันหรือล้านมิติ (พูดวัดมุมระหว่างเวกเตอร์คำถุงที่ แต่ละมิติคือความถี่ของคำบางคำในพจนานุกรม) และ 100 มิติจะเรียกว่าต่ำไม่สูง
Peteris

2
คำถามนี้สามารถทำได้กับบริบทบางอย่าง ไม่ดีสำหรับอะไร
Szabolcs

คำตอบ:


242

บทสรุปที่ยอดเยี่ยมของผลลัพธ์ที่ไม่เข้าใจง่ายในมิติที่สูงขึ้นมาจาก " สิ่งที่มีประโยชน์น้อยที่ควรรู้เกี่ยวกับการเรียนรู้ของเครื่อง " โดย Pedro Domingos ที่มหาวิทยาลัยวอชิงตัน:

[O] สัญชาตญาณของคุณซึ่งมาจากโลกสามมิติมักจะไม่ใช้กับวัตถุที่มีมิติสูง ในมิติที่สูงมวลส่วนใหญ่ของการแจกแจงแบบเกาส์หลายตัวแปรไม่ได้อยู่ใกล้ค่าเฉลี่ย แต่ใน“ กระสุน” ที่อยู่ไกลขึ้นเรื่อย ๆ รอบตัวมัน และปริมาณของส้มระดับสูงส่วนใหญ่อยู่ในผิวหนังไม่ใช่เยื่อกระดาษ ถ้ามีตัวอย่างจำนวนคงที่กระจายกันอย่างสม่ำเสมอในไฮเปอร์คอยน์มิติสูงเกินกว่ามิติบางส่วนตัวอย่างส่วนใหญ่อยู่ใกล้กับใบหน้าของไฮเปอร์คิวบ์มากกว่าเพื่อนบ้านที่ใกล้ที่สุด และถ้าเราประมาณไฮเปอร์สเฟียร์โดยการจารึกมันไว้ใน hypercube ในมิติที่สูงเกือบทั้งหมดของ hypercube นั้นอยู่นอกไฮเปอร์สเปร์ นี่เป็นข่าวร้ายสำหรับการเรียนรู้ของเครื่องซึ่งรูปร่างของประเภทหนึ่งมักจะประมาณด้วยรูปร่างของอีกประเภทหนึ่ง

บทความนี้เต็มไปด้วยไข่มุกแห่งปัญญาเพิ่มเติมมากมายสำหรับการเรียนรู้ของเครื่อง

แอปพลิเคชั่นอื่นนอกเหนือจากการเรียนรู้ของเครื่องคือการค้นหาเพื่อนบ้านที่ใกล้ที่สุด: เนื่องจากการสังเกตที่น่าสนใจให้ค้นหาเพื่อนบ้านที่ใกล้ที่สุด แต่ในมิติที่สูงปรากฏการณ์ประหลาดที่เกิดขึ้นก็คืออัตราส่วนระหว่างจุดที่ใกล้ที่สุดกับจุดที่ไกลที่สุดคือ 1 นั่นคือจุดที่ห่างกันมาก ปรากฏการณ์นี้สามารถสังเกตได้จากการวัดระยะทางที่หลากหลาย แต่มันก็เด่นชัดกว่าสำหรับการวัดแบบยุคลิดมากกว่าการพูดว่าการวัดระยะทางแบบแมนฮัตตัน หลักฐานของการค้นหาเพื่อนบ้านที่ใกล้ที่สุดคือคะแนน "ใกล้" มีความเกี่ยวข้องมากกว่าคะแนน "ไกลออกไป" แต่หากคะแนนทั้งหมดอยู่ห่างจากกันมากพอ ๆ กันความแตกต่างก็ไม่มีความหมาย

จาก Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " ในพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง ":

มันได้รับการโต้เถียงใน [เควินเบเยอร์โจนาธานโกลด์สตีน Raghu Ramakrishnan ยูริเพลา " เมื่อไหร่ที่ใกล้ที่สุดของเพื่อนบ้านที่มีความหมาย? "] ว่าภายใต้สมมติฐานที่สมเหตุสมผลในการกระจายข้อมูล สำหรับเป้าหมายที่กำหนดในพื้นที่มิติสูงเกือบ 1 สำหรับการกระจายข้อมูลที่หลากหลายและฟังก์ชันระยะทาง ในกรณีเช่นนี้ปัญหาเพื่อนบ้านที่ใกล้ที่สุดจะถูกกำหนดอย่างไม่ถูกต้องเนื่องจากไม่มีความแตกต่างระหว่างระยะทางไปยังจุดข้อมูลที่แตกต่างกัน ในกรณีเช่นนี้แม้แนวคิดเรื่องความใกล้ชิดอาจไม่ได้มีความหมายจากมุมมองเชิงคุณภาพ: ปัญหาที่พื้นฐานยิ่งกว่าความเสื่อมประสิทธิภาพของอัลกอริธึมมิติสูง

... โครงสร้างและอัลกอริธึมการจัดทำดัชนีมิติสูงจำนวนมากใช้ [E] uclidean distance metric เป็นส่วนขยายตามธรรมชาติของการใช้งานแบบดั้งเดิมในแอปพลิเคชันเชิงพื้นที่สองหรือสามมิติ ... ในบทความนี้เราให้ผลในทางทฤษฎีและการทดลองบางอย่างที่น่าแปลกใจในการวิเคราะห์การพึ่งพาของบรรทัดฐานกับค่าของkโดยเฉพาะอย่างยิ่งเราแสดงให้เห็นว่าความแตกต่างสัมพัทธ์ของระยะทางไปยังจุดสอบถามขึ้นอยู่กับเมตริกใช้อย่างมาก แห่งนี้มีหลักฐานว่าคุณค่าของบรรทัดฐานเลวร้ายได้เร็วขึ้นภายในมิติที่เพิ่มขึ้นสำหรับค่าที่สูงขึ้นของkดังนั้นสำหรับปัญหาที่กำหนดด้วยค่าคงที่ (สูง) สำหรับมิติข้อมูล k L k L k k d k L 1 L 2LkkLkLkkdมันอาจจะดีกว่าที่จะใช้ค่าที่ต่ำกว่าของkซึ่งหมายความว่าตัวชี้วัดระยะทาง (ตัวชี้วัดระยะทางแมนฮัตตัน) เป็นที่นิยมที่สุดสำหรับแอปพลิเคชันที่มีมิติสูงตามด้วยตัวชี้วัดแบบยุคลิด ( ) ...kL1L2

ผู้เขียนของ "พฤติกรรมที่น่าแปลกใจ" กระดาษแล้วนำเสนอโดยใช้บรรทัดฐานกับ<1 พวกเขาสร้างผลลัพธ์บางอย่างซึ่งแสดงให้เห็นว่า "บรรทัดฐานเศษส่วน" เหล่านี้แสดงคุณสมบัติของการเพิ่มความแตกต่างระหว่างจุดที่ไกลที่สุดและจุดที่ใกล้ที่สุด นี่อาจเป็นประโยชน์ในบางบริบทอย่างไรก็ตามมีข้อแม้: "เศษส่วนบรรทัดฐาน" เหล่านี้ไม่เหมาะสำหรับการวัดระยะทางเพราะพวกเขาละเมิดความไม่เท่าเทียมกันของสามเหลี่ยม หากความไม่เท่าเทียมกันของรูปสามเหลี่ยมเป็นคุณภาพที่สำคัญที่มีในการวิจัยของคุณการวัดเศษส่วนจะไม่เป็นประโยชน์อย่างมาก k < 1Lkk<1


7
การอ้างอิงนี้ยอดเยี่ยม
แอนทอน

1
อ่านอีกครั้ง ... สวย ...
Richard Hardy

113

ความคิดของระยะทางยุคลิดซึ่งทำงานได้ดีในโลกสองมิติและสามมิติการศึกษาโดยยุคลิดมีคุณสมบัติบางอย่างในมิติที่สูงขึ้นที่ขัดต่อ (อาจจะแค่เราของฉัน ) ปรีชาเรขาคณิตซึ่งเป็นอนุมานจากสองและสาม มิติ

พิจารณาตารางที่มีจุดที่2) วาดวงกลมสี่หน่วยรัศมีศูนย์กลางที่1) "เติม" สแควร์เหล่านี้โดยให้แต่ละวงกลมแตะที่ด้านข้างของสแควร์ที่จุดสองจุดและแต่ละวงกลมแตะที่สองเพื่อนบ้าน ยกตัวอย่างเช่นวงกลมศูนย์กลางที่ ด้าน touches ของตารางที่และและวงการเพื่อนบ้านที่และ(0,1)ถัดไปวาดวงกลมเล็ก ๆ ที่กึ่งกลางที่จุดกำเนิด4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)ที่แตะทั้งสี่วงกลม เนื่องจากส่วนของเส้นตรงที่จุดสิ้นสุดเป็นจุดศูนย์กลางของวงกลมสองวงที่ผ่านจุดที่มีการแกว่งจึงตรวจสอบได้ง่ายว่าวงกลมขนาดเล็กมีรัศมี และสัมผัสกับวงกลมขนาดใหญ่สี่วงที่{2}) โปรดทราบว่าวงกลมขนาดเล็กนั้น "ล้อมรอบอย่างสมบูรณ์" โดยวงกลมขนาดใหญ่สี่วงและยังอยู่ในจัตุรัสอย่างสมบูรณ์ โปรดสังเกตว่าจุดอยู่ในวงกลมเล็ก โปรดสังเกตด้วยว่าจากจุดกำเนิดต้นกำเนิดเราไม่สามารถ "เห็น" จุดบนขอบของจัตุรัสเพราะเส้นสายตาผ่านจุดที่มีการแกว่งของวงกลมสองวง ที่r2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1)และ-1) เหมือนกันสำหรับเส้นสายตาไปยังจุดอื่นที่แกนผ่านทะลุขอบของจัตุรัส(1,1)

ถัดไปให้พิจารณาก้อนกับจุดที่ 2) เราเติมเต็มด้วยหน่วยรัศมีรัศมีที่กึ่งกลางที่จากนั้นใส่ทรงกลม osculating ขนาดเล็กที่อยู่กึ่งกลางที่จุดกำเนิด โปรดทราบว่าทรงกลมเล็ก ๆ มีรัศมี และจุดตั้งอยู่บนพื้นผิวของทรงกลมเล็ก ๆ แต่โปรดสังเกตด้วยว่าในสามมิติหนึ่งสามารถ "เห็น" จุด 4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)จากแหล่งกำเนิด; ไม่มีทรงกลมขนาดใหญ่ที่ใหญ่กว่าปิดกั้นมุมมองที่เกิดขึ้นในสองมิติ เส้นสายตาที่ชัดเจนเหล่านี้จากจุดกำเนิดไปยังจุดที่แกนผ่านพื้นผิวของลูกบาศก์เกิดขึ้นในมิติที่ใหญ่กว่าทั้งหมดเช่นกัน

โดยทั่วไปเราสามารถพิจารณาhypercube แบบมิติของด้าน และเติมด้วย osculating hyperspheres หน่วยรัศมีที่กึ่งกลางที่จากนั้นวาง "เล็กลง" ทรงกลมรัศมีรัศมี ที่จุดกำเนิด จุด อยู่ในทรงกลม "เล็กกว่านี้" แต่สังเกตจากว่าเมื่อ ,และดังนั้นทรงกลม "เล็ก" มีรัศมีหน่วยและดังนั้นจึงไม่สมควรได้รับ soubriquet ของ "เล็ก" สำหรับn42n(±1,±1,,±1)

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. แน่นอนมันจะดีกว่าถ้าเราเรียกมันว่า "ทรงกลมที่ใหญ่กว่า" หรือเพียงแค่ "ทรงกลมกลาง" ตามที่ระบุไว้ในย่อหน้าสุดท้ายมีเส้นสายตาที่ชัดเจนจากจุดกำเนิดถึงจุดที่แกนผ่านทะลุพื้นผิวของ hypercube ที่แย่กว่านั้นเมื่อเรามีที่และทำให้จุด บนทรงกลมกลาง อยู่นอก hypercube ของด้าน แม้ว่ามันจะเป็น "ล้อมรอบอย่างสมบูรณ์" โดยหน่วยรัศมีรัศมีที่ "เติม" hypercube (ในแง่ของการบรรจุมัน)n>9(1)rn>2(rn,0,0,,0)4 ทรงกลมกลาง "นูน" นอก hypercube ในพื้นที่มิติสูง ฉันพบสิ่งนี้ตอบโต้ได้ง่ายมากเพราะการแปลความคิดของฉันเกี่ยวกับระยะทางแบบยุคลิดในมิติที่สูงขึ้นโดยใช้สัญชาตญาณทางเรขาคณิตที่ฉันได้พัฒนาขึ้นจากพื้นที่ 2 และ 3 พื้นที่ที่ฉันคุ้นเคยไม่ได้อธิบายความเป็นจริงของ พื้นที่มิติสูง

คำตอบของฉันสำหรับคำถามของ OP "นอกจากนี้ 'ขนาดสูง' คืออะไร? เป็น9n9



9
@ stackoverflowuser2010: หากคำตอบนี้ไม่สามารถเข้าใจได้อย่างสมบูรณ์คุณจะทราบได้อย่างไรว่าอยู่หรือพยายามตอบคำถามเดิม? วิธีการที่สร้างสรรค์กว่านี้คือการขอให้อธิบายประเด็นใด ๆ ที่คุณพบว่าไม่ชัดเจนแทนที่จะละทิ้งสิ่งทั้งหมดออกจากมือ
Scortchi

8
@ stackoverflowuser2010 เนื่องจากคำตอบนี้มี upvotes มากมายหลายสิบคนมันจะปรากฏว่าหลายคนรู้สึกว่ามันเข้าใจได้อย่างสมเหตุสมผลและตอบสนองด้วยวิธีที่เหมาะสมกับคำถาม บางทีคุณอาจลองวิจารณ์อย่างสร้างสรรค์มากขึ้น - คุณคิดว่าคำตอบนี้จะดีขึ้นอย่างไรโดยเฉพาะ สิ่งที่ควรรวมถึงมันไม่ได้?
Glen_b

1
@Scortchi: บางทีฉันอาจคาดหวังมากเกินไป แต่คำตอบที่ชัดเจนสำหรับคำถามนี้ที่สามารถช่วยชุมชนได้เช่น "ระยะทางแบบยุคลิดไม่ได้เป็นตัวชี้วัดที่ดีเพราะ <X>"
stackoverflowuser2010

7
@ stackoverflow2010 คุณจะไม่เห็นคำตอบที่ "ดี" เช่นนี้เพราะ <สิ่งต่าง ๆ มีความซับซ้อนมากกว่าคำสั่ง if-then หากคุณต้องการคำตอบที่ง่ายอาจเป็นไปได้ว่าผิด เช่นเดียวกับคนโกหก Brexit เจ้ากรรมพวกเขาเก่งในการเสนอคำตอบง่ายๆ (เท็จ แต่ง่าย)
Anony-Mousse

42

มันเป็นเรื่องของการส่งสัญญาณต่อเสียงรบกวน ระยะทางแบบยุคลิดเนื่องจากระยะกำลังสองนั้นไวต่อเสียงรบกวนเป็นพิเศษ แต่แม้ระยะทางแมนฮัตตันและระยะทาง "เศษส่วน" (ไม่ใช่ตัวชี้วัด) ประสบ

ฉันพบการศึกษาในบทความนี้ตรัสรู้อย่างมาก:

Zimek, A. , Schubert, E. และ Kriegel, H.-P. (2012),
การสำรวจการตรวจจับค่าผิดปกติที่ไม่ได้รับอนุญาตในข้อมูลตัวเลขมิติสูง
สถิติการวิเคราะห์ข้อมูลการขุด 5: 363–387 ดอย: 10.1002 / sam.11161

มันทบทวนการสังเกตการณ์ที่เกิดขึ้นเช่นในพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูงโดย Aggarwal, Hinneburg และ Keim ที่เอ่ยถึง @Pat แต่มันก็ยังแสดงให้เห็นว่าการทดลองสังเคราะห์จะทำให้เข้าใจผิดและว่าในความเป็นจริงข้อมูลที่สูงมิติสามารถกลายเป็นเรื่องง่าย หากคุณมีสัญญาณจำนวนมาก (ซ้ำซ้อน) และขนาดใหม่จะเพิ่มสัญญาณรบกวนเล็กน้อย

การอ้างสิทธิ์ครั้งล่าสุดน่าจะชัดเจนที่สุดเมื่อพิจารณาขนาดที่ซ้ำกัน การแม็พชุดข้อมูลของคุณx,yx,y,x,y,x,y,x,y,...,x,yเพิ่มมิติตัวแทน แต่ไม่ได้ทำให้ระยะห่างของปริภูมิแบบยุคลิดล้มเหลว (ดูเพิ่มเติมที่: ขนาดที่แท้จริง )

ดังนั้นในที่สุดมันก็ยังขึ้นอยู่กับข้อมูลของคุณ หากคุณมีคุณสมบัติที่ไร้ประโยชน์มากมายระยะทางแบบยุคลิดจะกลายเป็นสิ่งที่ไร้ประโยชน์ หากคุณสามารถฝังข้อมูลของคุณได้อย่างง่ายดายในพื้นที่ข้อมูลต่ำมิติระยะทางแบบยุคลิดก็ควรทำงานในพื้นที่มิติเต็ม โดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่กระจัดกระจายเช่นเวกเตอร์ TF จากข้อความสิ่งนี้ดูเหมือนจะเป็นกรณีที่ข้อมูลนั้นมีมิติข้อมูลที่ต่ำกว่าแบบจำลองอวกาศของเวกเตอร์

บางคนเชื่อว่าระยะทางโคไซน์ดีกว่า Euclidean ในข้อมูลมิติสูง ฉันไม่คิดอย่างนั้นระยะทางโคไซน์และระยะทางแบบยุคลิดเป็นอย่างไรสัมพันธ์กันอย่างใกล้ชิด ดังนั้นเราต้องคาดหวังให้พวกเขาประสบปัญหาเดียวกัน อย่างไรก็ตามข้อมูลที่เป็นข้อความที่โคไซน์เป็นที่นิยมมักจะกระจัดกระจายและโคไซน์เร็วกว่าข้อมูลที่กระจัดกระจาย - ดังนั้นสำหรับข้อมูลที่กระจัดกระจายมีเหตุผลที่ดีที่จะใช้โคไซน์ และเนื่องจากข้อมูลมีน้อยลงมิติภายในที่แท้จริงจึงน้อยกว่ามิติพื้นที่เวกเตอร์มาก

ดูคำตอบนี้ฉันตอบคำถามก่อนหน้านี้: https://stats.stackexchange.com/a/29647/7828


[1,1]nn

และอะไรคือข้อสรุปจากสิ่งนั้น ใน [-1; 1] ^ d ไม่ควรใช้โคไซน์เพราะมันไม่ได้กำหนดไว้ที่ 0 ค่าเฉลี่ยจะไม่บอกอะไรเราเกี่ยวกับคำสาปและข้อมูลชุดเดียวกันนั้นไม่สมจริง
Anony-Mousse

ตอนนี้ฉันไม่ได้ลอง แต่ฉันเดาว่ามุมนี้ดูคล้ายกับข้อมูลจริง ความจริงที่ว่ามันไม่ได้นิยามไว้ที่ 0 ไม่น่าจะมีความสำคัญเพราะมันเป็นเพียงจุดเดียว ข้อสรุปของฉันคล้ายกับของคุณ: ระยะทางโคไซน์ไม่เหมาะสำหรับพื้นที่ที่มีมิติสูง (แม้ว่าอาจจะมีโดเมนที่ยังใช้งานได้)
Martin Thoma

สถานการณ์ที่เป็นจริงมากขึ้นจะเป็นจุดบนหน่วยทรงกลมแบบไม่ติดลบ และการวัดความสนใจน่าจะแปรปรวนไม่ใช่ค่าเฉลี่ย
Anony-Mousse

ในการไปยังหน่วยทรงกลมที่ไม่เป็นลบคุณเพียงแค่ต้องเพิ่ม +1 และหารด้วย 2 ...
Martin Thoma

34

จุดเริ่มต้นที่ดีที่สุดน่าจะอ่านเกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูงโดย Aggarwal, Hinneburg และ Keim มีลิงค์ทำงานอยู่ที่นี่ในขณะนี้(pdf)แต่มันควรจะเป็น google ได้มากหากแบ่งได้ กล่าวโดยย่อเมื่อจำนวนมิติเพิ่มขึ้นระยะทางแบบยุคลิดแบบสัมพัทธ์ระหว่างจุดหนึ่งในฉากหนึ่งกับเพื่อนบ้านที่อยู่ใกล้ที่สุดและระหว่างจุดนั้นกับเพื่อนบ้านที่อยู่ไกลที่สุดการเปลี่ยนแปลงในรูปแบบที่ไม่ชัดเจน ไม่ว่าสิ่งนี้จะส่งผลกระทบต่อผลลัพธ์ของคุณหรือไม่นั้นขึ้นอยู่กับว่าคุณพยายามทำอะไรให้สำเร็จและข้อมูลของคุณเป็นอย่างไร


6

ระยะทางแบบยุคลิดเป็นระยะทางที่ดีมากที่จะเลือกในการเรียนรู้ของเครื่องและสิ่งนี้จะชัดเจนยิ่งขึ้นในมิติที่สูงขึ้น นี่เป็นเพราะเวลาส่วนใหญ่ในการเรียนรู้ของเครื่องจักรคุณไม่ได้เกี่ยวข้องกับ Euclidean Metric Space แต่เป็น Probabilistic Metric Space ดังนั้นคุณควรใช้ฟังก์ชันความน่าจะเป็นและข้อมูลทางทฤษฎีเช่นเอนโทรปี

มนุษย์ชอบพื้นที่ยูคลิดเพราะมันง่ายต่อการกำหนดแนวคิดนอกจากนี้มันยังง่ายในเชิงคณิตศาสตร์เพราะคุณสมบัติเชิงเส้นซึ่งหมายความว่าเราสามารถใช้พีชคณิตเชิงเส้นได้ หากเรากำหนดระยะทางในแง่ของการพูด Kullback-Leibler Divergence มันก็ยากที่จะมองเห็นและทำงานกับคณิตศาสตร์


2
อาจเป็นปัญหาได้เนื่องจาก KL Divergence ไม่ใช่ตัวชี้วัด :-)
agarie

2
หากต้องการความสมมาตรคุณสามารถใช้ข้อมูลร่วมซึ่งสามารถบอกเป็นนัยในแง่ของ KL
samthebest

3

ลองจินตนาการว่ามีวงกลมอยู่ตรงกลางที่จุดกำเนิด คะแนนมีการกระจายอย่างเท่าเทียมกัน สมมติว่าจุดที่เลือกแบบสุ่มอยู่ที่ (x1, x2) ระยะทางแบบยุคลิดจากจุดกำเนิดคือ ((x1) ^ 2 + (x2) ^ 2) ^ 0.5

ทีนี้ลองจินตนาการว่ามีการกระจายคะแนนไปยังทรงกลมอย่างสม่ำเสมอ จุดเดียวกันนั้น (x1, x2) ตอนนี้น่าจะเป็น (x1, x2, x3) เนื่องจากในการแจกแจงแบบสม่ำเสมอมีเพียงไม่กี่จุดที่มีพิกัดหนึ่งในศูนย์เราจะสมมติว่า [x3! = 0] สำหรับจุดกระจายที่สุ่มเลือกของเรา ดังนั้นจุดสุ่มของเราน่าจะมากที่สุด (x1, x2, x3) และไม่ใช่ (x1, x2, 0)

ผลของสิ่งนี้คือ: ขณะนี้จุดสุ่มใด ๆ อยู่ที่ระยะทาง ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 จากจุดกำเนิดของทรงกลม 3 มิติ ระยะนี้มีขนาดใหญ่กว่านั้นสำหรับจุดสุ่มที่อยู่ใกล้จุดกำเนิดของวงกลม 2 มิติ ปัญหานี้แย่ลงในมิติที่สูงกว่าซึ่งเป็นเหตุผลที่เราเลือกเมตริกอื่น ๆ นอกเหนือจากมิติแบบยุคลิดเพื่อทำงานกับมิติที่สูงขึ้น

แก้ไข: มีคำพูดที่ฉันจำได้ตอนนี้: "ส่วนใหญ่ของสีส้มมิติที่สูงกว่าอยู่ในผิวหนังไม่ใช่เยื่อกระดาษ" ซึ่งหมายความว่าในมิติที่สูงกว่าจุดกระจายสม่ำเสมอเท่ากันคือ "ใกล้" (ระยะทางแบบยุคลิด) กว่าต้นกำเนิด

ด้านหมายเหตุ: ระยะทางแบบยุคลิดไม่ได้เลวร้ายเกินไปสำหรับปัญหาในโลกแห่งความจริงเนื่องจาก 'พรแห่งความไม่เสมอภาค' ซึ่งโดยทั่วไประบุว่าสำหรับข้อมูลจริงข้อมูลของคุณอาจจะไม่ได้รับการกระจายอย่างเท่าเทียมกันในพื้นที่มิติที่สูงขึ้น จะครอบครองเซตย่อยเล็ก ๆ ของพื้นที่ว่าง สิ่งนี้ทำให้รู้สึกอย่างสังหรณ์ใจ: หากคุณวัดปริมาณ 100 อย่างเกี่ยวกับมนุษย์เช่นความสูงน้ำหนัก ฯลฯ การกระจายที่สม่ำเสมอบนพื้นที่มิติก็ไม่สมเหตุสมผลเช่นคนที่มี (ความสูง = 65 นิ้วน้ำหนัก = 150 ปอนด์ avg_calorie_intake = 4000) ซึ่งเป็นไปไม่ได้ในโลกแห่งความเป็นจริง


หากผู้อ่านในอนาคตมีความสนใจในคำพูด "ส้ม / เยื่อกระดาษ" หรือคำพูด "พรแห่งความไม่เสมอภาค" ทั้งสองปรากฏใน "สิ่งที่มีประโยชน์น้อยที่จะเรียนรู้เกี่ยวกับการเรียนรู้ของเครื่อง" ซึ่งเชื่อมโยงกับคำตอบนี้ ด้าย.
Sycorax

1

อีกแง่มุมของคำถามนี้คือ:

บ่อยครั้งที่ปัญหาในมิติที่สูงมาก (เกิดจากการเรียนรู้ของเครื่อง / สถิติ) เป็นผลมาจากคุณสมบัติที่ จำกัด มากเกินไป

ความหมายของส่วนข้อมูลไม่เป็นอิสระ (หรือไม่เกี่ยวข้อง) แต่ตัวชี้วัดแบบยุคลิดถือว่าไม่มีความสัมพันธ์อย่างน้อยที่สุด (อย่างน้อย) ดังนั้นจึงอาจไม่ให้ผลลัพธ์ที่ดีที่สุด

ดังนั้นเพื่อตอบคำถามของคุณจำนวน "มิติสูง" เกี่ยวข้องกับจำนวนฟีเจอร์ที่ได้รับการลดความซ้ำซ้อนหรือซ้ำซ้อนหรือ จำกัด มากเกินไป

นอกจากนี้: มันเป็นทฤษฎีบทโดยCsiszar (et al.)ที่ตัวชี้วัดแบบยุคลิดเป็นผู้สมัคร "ธรรมชาติ" สำหรับการอนุมานเมื่อคุณสมบัติเป็นรูปแบบบางอย่าง


3
การวัดแบบยุคลิดไม่ได้ "สมมติว่า ... ไม่มีความสัมพันธ์" ระยะทางแบบยุคลิดทำงานได้แย่ที่สุดในขนาดที่สูงพร้อมตัวแปรที่ไม่เกี่ยวข้อง พิจารณากรณีที่รุนแรง: คุณมีหลายมิติที่สัมพันธ์กันอย่างสมบูรณ์ r = 1 ตอนนี้ข้อมูลของคุณอยู่ในความจริงมิติเดียวและระยะทางแบบยุคลิดนั้นทำงานได้ดีกับข้อมูลมิติเดียว
gung

ไม่ฉันไม่คิดอย่างนั้นระยะทางแบบยุคลิดตามคำนิยามถือว่าเป็นข้อมูลที่ไม่สัมพันธ์กัน (ยกเว้นถ้าใช้ระยะทางแบบยุคลิดแบบทั่วไปกับความแปรปรวนแบบเมทริกซ์)
Nikos M.

คุณลักษณะที่มีความสัมพันธ์ทั้งหมด (r = 1) เป็นตัวอย่างเล็กน้อยและเทียบเท่ากับ "เมทริกซ์สหสัมพันธ์เล็กน้อย" แต่บางทีฉันผิด
Nikos M.

@gung คุณสามารถตีความการสูญเสียแบบยุคลิดเป็นการสูญเสียเอนโทรปีของ Gaussians ด้วยเมทริกซ์ความแปรปรวนแบบคงที่ของหน่วย isotropic ฉันคิดว่านี่เป็นจุดที่ดี แต่อาจอธิบายได้ดีกว่า
Neil G

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

บทความนี้อาจช่วยให้คุณมากเกินไป "การปรับปรุงการวัดความคล้ายคลึงกัน sqrt-โคไซน์" เยี่ยมชมhttps://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 กระดาษนี้จะอธิบายว่าทำไมระยะทางยุคลิดไม่ได้เป็นตัวชี้วัดที่ดีในมิติสูง data และอะไรคือสิ่งที่ดีที่สุดสำหรับการแทนที่ระยะทางแบบยุคลิดในข้อมูลมิติสูง ระยะทางแบบยุคลิดนั้นคือค่าเฉลี่ย L2 และโดยการลดค่า k ในค่าปกติของ Lk เราสามารถบรรเทาปัญหาระยะทางในข้อมูลมิติสูงได้ คุณสามารถค้นหาข้อมูลอ้างอิงในบทความนี้ได้เช่นกัน


2
ยินดีต้อนรับสู่เว็บไซต์ เราพยายามสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นเราจึงต้องระวังคำตอบเฉพาะลิงก์เนื่องจาก linkrot คุณสามารถโพสต์การอ้างอิงแบบเต็ม & สรุปข้อมูลที่ลิงค์ในกรณีที่มันจะตาย?
gung
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.