ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?


72

ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?


1
บทความนี้มีประโยชน์เช่นกัน ในบทความนี้ผู้เขียนอธิบายถึงปัญหาของความเหมือนโคไซน์ในข้อมูลมิติสูงและเสนอการวัดความเหมือนใหม่เพื่อบรรเทาปัญหานี้ journalofbigdata.springeropen.com/articles/10.1186/…
Sahar

คำตอบ:


33

นี่คือตัวอย่างของเล่นง่ายๆที่แสดงให้เห็นถึงผลกระทบของมิติในปัญหาการเลือกปฏิบัติเช่นปัญหาที่คุณเผชิญเมื่อคุณต้องการพูดว่ามีบางสิ่งที่สังเกตเห็นหรือหากมีการสังเกตผลแบบสุ่มเท่านั้น (ปัญหานี้เป็นคลาสสิกทางวิทยาศาสตร์)

Heuristic ประเด็นสำคัญที่นี่คือบรรทัดฐาน Euclidian ให้ความสำคัญกับทิศทางเดียวกัน สิ่งนี้ถือว่าขาดไปก่อนหน้านี้และอย่างที่คุณรู้ในมิติสูงไม่มีอาหารกลางวันฟรี (เช่นถ้าคุณไม่มีความคิดล่วงหน้าเกี่ยวกับสิ่งที่คุณกำลังค้นหาอยู่แล้วไม่มีเหตุผลว่าทำไมเสียงรบกวนบางอย่างจะไม่ดูเหมือนสิ่งที่คุณเป็น กำลังค้นหานี่คือการพูดซ้ำซาก ... )

ฉันจะบอกว่าสำหรับปัญหาใด ๆ มีข้อ จำกัด ของข้อมูลที่จำเป็นในการค้นหาอย่างอื่นมากกว่าเสียง ข้อ จำกัด นี้เกี่ยวข้องกับ "ขนาด" ของพื้นที่ที่คุณพยายามสำรวจโดยคำนึงถึงระดับ "เสียงรบกวน" (เช่นระดับของเนื้อหาที่ไม่เป็นทางการ)

ในมิติที่สูงหากคุณมีสัญญาณว่ากระจัดกระจายก่อนหน้านี้คุณสามารถลบ (เช่นลงโทษ) เวกเตอร์ที่ไม่กระจายด้วยตัวชี้วัดที่เติมช่องว่างด้วยเวกเตอร์หร็อมแหร็มหรือโดยใช้เทคนิคการนวดข้าว

Frameworkสมมติว่าเป็นเวกเตอร์เกาส์ที่มีค่าเฉลี่ยและความแปรปรวนในแนวทแยง (เป็นที่รู้จัก) และคุณต้องการทดสอบสมมติฐานง่ายๆเข้าพบσ ฉันd σξνσIdσ

θ R n θ

H0:ν=0,VsHθ:ν=θ
(สำหรับรับ )ไม่เป็นที่รู้จักจำเป็นล่วงหน้าθRnθ

สถิติทดสอบด้วยพลังงาน สัญชาตญาณที่คุณมีอย่างแน่นอนคือมันเป็นความคิดที่ดีที่จะประเมินบรรทัดฐาน / พลังงานจากการสังเกตของคุณเพื่อสร้างสถิติทดสอบ จริงๆคุณสามารถสร้างมาตรฐานศูนย์กลาง (ภายใต้ ) เวอร์ชั่นของพลังงาน4}} นั่นทำให้ภูมิภาคสำคัญที่ระดับของฟอร์มสำหรับEn=1ni=1nξi2ξH0TnTn=iξi2σ22nσ4α{Tnv1α}v1α

พลังของการทดสอบและมิติ ในกรณีนี้มันเป็นเรื่องง่ายที่จะออกกำลังกายเพื่อแสดงสูตรต่อไปนี้สำหรับพลังของการทดสอบของคุณ:

Pθ(Tv1α)=P(Zv1α1+2θ22/(nσ2)θ222nσ4+2σ2θ22/(nσ2))
กับเป็นผลรวมของตัวแปรสุ่ม IID กับและ 1ZnE[Z]=0Var(Z)=1

ซึ่งหมายความว่าอำนาจการทดสอบของคุณจะเพิ่มขึ้นตามการใช้พลังงานของสัญญาณของคุณและลดลงโดยnจวนพูดนี้หมายความว่าเมื่อคุณเพิ่มขนาดของปัญหาของคุณถ้ามันไม่ได้เพิ่มความแรงของสัญญาณในเวลาเดียวกันแล้วคุณจะเพิ่มข้อมูล uninformative การสังเกตของคุณ (หรือคุณมีการลดสัดส่วนของข้อมูลที่เป็นประโยชน์ในข้อมูล คุณมี): นี่เป็นการเพิ่มเสียงรบกวนและลดพลังของการทดสอบ (เช่นมีแนวโน้มว่าคุณจะไม่พูดอะไรเลยขณะที่มีบางสิ่ง)θ22nn

ไปยังการทดสอบด้วยสถิติจุดเปลี่ยน หากคุณมีพลังงานไม่มากในสัญญาณของคุณ แต่ถ้าคุณรู้ว่าการแปลงเชิงเส้นที่สามารถช่วยให้คุณมีพลังงานเข้มข้นในส่วนเล็ก ๆ ของสัญญาณของคุณคุณสามารถสร้างสถิติทดสอบที่จะประเมินพลังงานเพียงเล็กน้อย ส่วนหนึ่งของสัญญาณของคุณ หากคุณทราบล่วงหน้าว่ามีความเข้มข้นอยู่ที่ใด (ตัวอย่างเช่นคุณรู้ว่าไม่มีความถี่สูงในสัญญาณของคุณ) จากนั้นคุณสามารถรับพลังงานในการทดสอบก่อนหน้าด้วยแทนที่ด้วยจำนวนเล็กน้อยและเกือบ เหมือนกัน ... หากคุณไม่ทราบล่วงหน้าคุณจะต้องประเมินมันสิ่งนี้นำไปสู่การทดสอบ thresholding ที่รู้จักกันดีnθ22

โปรดทราบว่าการโต้แย้งนี้อยู่ที่รากหลายเอกสารเช่น

  • Antoniadis, F Abramovich, T Sapatinas และ B Vidakovic วิธีเวฟเลตสำหรับการทดสอบในการวิเคราะห์การทำงานของตัวแบบความแปรปรวน วารสารระหว่างประเทศเกี่ยวกับเวฟเล็ตและแอปพลิเคชันของมัน, 93: 1007–1021, 2004
  • MV Burnashef และ Begmatov ในปัญหาการตรวจจับสัญญาณที่นำไปสู่การกระจายที่มั่นคง ทฤษฎีความน่าจะเป็นและการประยุกต์, 35 (3): 556–560, 1990
  • Y. Baraud Non-asymptotic minimax rate ของการทดสอบในการตรวจจับสัญญาณ เบอร์นูลี, 8: 577–606, 2002
  • เจแฟน การทดสอบความสำคัญขึ้นอยู่กับการทำเวฟเล็ตและการตัดทอนของเนย์แมน JASA, 91: 674–688, 1996
  • J. Fan และ SK Lin ทดสอบความสำคัญเมื่อข้อมูลเป็นเส้นโค้ง JASA, 93: 1007–1021, 1998
  • V. Spokoiny การทดสอบสมมติฐานแบบปรับตัวโดยใช้เวฟเล็ต พงศาวดารของสถิติ, 24 (6): 2477–2498, ธันวาคม 1996

51

ฉันเชื่อว่ามันไม่ได้มีความเบาบางมากนัก แต่มิติที่สูงมักเกี่ยวข้องกับข้อมูลที่กระจัดกระจาย แต่บางทีมันก็ยิ่งแย่ลงเมื่อข้อมูลเบาบางมาก เพราะระยะห่างของวัตถุสองวัตถุใด ๆ น่าจะเป็นกำลังสองเฉลี่ยของความยาวของพวกเขาหรือ

limdimd(x,y)=||xy||p||x||2+||y||2

สมการนี้ถือนิดถ้า 0 หากคุณเพิ่มมิติและความกระจัดกระจายให้เพียงพอเพื่อให้มีคุณสมบัติเกือบทั้งหมดความแตกต่างจะน้อยที่สุดixi=0yi=0

ยิ่งแย่ไปกว่านั้น: หากคุณปรับเวกเตอร์ของคุณให้มีความยาวจากนั้นระยะทางแบบยุคลิดของวัตถุสองวัตถุใด ๆ จะเป็นมีความน่าจะเป็นสูง||x||=12

ดังนั้นตามกฎของหัวแม่มือสำหรับระยะทางแบบยุคลิดที่จะใช้งานได้ (ฉันไม่ได้อ้างว่ามีประโยชน์หรือมีความหมาย) วัตถุควรจะไม่เป็นศูนย์ในของคุณลักษณะ จากนั้นควรมีจำนวนแอตทริบิวต์ที่เหมาะสมโดยที่ดังนั้นความแตกต่างของเวกเตอร์จึงมีประโยชน์ นอกจากนี้ยังนำไปใช้กับความแตกต่างที่เกิดจากบรรทัดฐานอื่น ๆ เพราะในสถานการณ์ดังกล่าวข้างต้น3/4|yi||xiyi||xi||xy|p|x+y|

ฉันไม่คิดว่านี่เป็นพฤติกรรมที่พึงประสงค์สำหรับฟังก์ชั่นระยะทางที่จะกลายเป็นอิสระจากความแตกต่างที่เกิดขึ้นจริงหรือความแตกต่างแน่นอนที่มาบรรจบกันกับผลรวมแน่นอน!

วิธีแก้ปัญหาทั่วไปคือการใช้ระยะทางเช่นระยะทางโคไซน์ ข้อมูลบางอย่างทำงานได้ดีมาก พูดโดยประมาณพวกเขาดูเฉพาะคุณลักษณะที่ทั้งเวกเตอร์ไม่ใช่ศูนย์ วิธีการที่น่าสนใจมีการกล่าวถึงในการอ้างอิงด้านล่าง (พวกเขาไม่ได้ประดิษฐ์ แต่ฉันชอบการประเมินผลการทดลองของคุณสมบัติ) คือการใช้เพื่อนบ้านที่ใกล้ที่สุดที่ใช้ร่วมกัน ดังนั้นแม้ว่าเวกเตอร์ x และ y ไม่มีคุณลักษณะร่วมกันพวกเขาอาจมีเพื่อนบ้านทั่วไปบางอย่าง การนับจำนวนวัตถุที่เชื่อมต่อวัตถุสองวัตถุนั้นสัมพันธ์กับระยะทางกราฟอย่างใกล้ชิด

มีการสนทนามากมายเกี่ยวกับฟังก์ชั่นระยะทางใน:

  • ระยะทางที่ใช้ร่วมกันกับเพื่อนบ้านสามารถเอาชนะคำสาปของมิติได้หรือไม่?
    ME Houle, H.-P. Kriegel, P. Kröger, E. Schubert และ A. Zimek
    SSDBM 2010

และถ้าคุณไม่ชอบบทความทางวิทยาศาสตร์ก็มีอยู่ใน Wikipedia: Curse of Dimensionality


2
กระดาษที่น่าสนใจ นอกจากนี้ยังมีอัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับการวัดความคล้ายคลึงกันนี้ เพื่อนบ้านที่ใกล้เคียงที่สุดที่ใช้ร่วมกันสามารถแสดงในเคอร์เนล Mercer ที่ถูกต้องได้หรือไม่?
Seeda

ถ้าผมจำไม่สอดคล้องกับยุคลิดในพื้นที่ ใช่แล้วพวกเขาให้ผลดีเคอร์เนล Rn
Anony-Mousse

44

ฉันขอแนะนำให้เริ่มต้นด้วย ระยะทางโคไซน์ไม่ใช่แบบยุคลิดสำหรับข้อมูลใด ๆ ที่มีเวกเตอร์ส่วนใหญ่เกือบจะเป็นมุมฉาก 0 หากต้องการดูว่าทำไมดูที่ Y ถ้า 0 นี่จะลดไป : การวัดระยะทาง crummy ตามที่ Anony-Mousse ชี้xy
|xy|2=|x|2+|y|22 xy
xy|x|2+|y|2

ระยะทางโคไซน์มีค่าเป็นหรือฉายข้อมูลลงบนพื้นผิวของทรงกลมหน่วยดังนั้นทั้งหมด= 1 จากนั้น แตกต่างกันมากและมักจะดีกว่าเมตริกยูคลิด อาจจะเล็ก แต่ก็ไม่ได้หลอกลวงโดยมีเสียงดัง 2x/|x||x||xy|2=22 xy
xy|x|2+|y|2

xyเป็นส่วนใหญ่ที่อยู่ใกล้ 0 สำหรับข้อมูลที่เบาบาง ตัวอย่างเช่นหากแต่ละและมี 100 คำที่ไม่ใช่ศูนย์และ 900 ศูนย์ทั้งสองจะไม่ใช่ศูนย์ในเวลาเพียง 10 คำเท่านั้น (หากคำที่ไม่ใช่ศูนย์กระจายแบบสุ่ม)xy

การทำให้เป็นมาตรฐาน / =อาจช้าสำหรับข้อมูลที่กระจัดกระจาย มันรวดเร็วใน scikit เรียนรู้x|x|

ข้อมูลสรุป: เริ่มต้นด้วยระยะทางโคไซน์ แต่อย่าคาดหวังว่าจะมีสิ่งมหัศจรรย์ในข้อมูลเก่า ๆ
ตัวชี้วัดที่ประสบความสำเร็จต้องการการประเมินผลการปรับแต่งความรู้โดเมน


1
+1 นี่เป็นการเพิ่มการวิเคราะห์ที่มีประโยชน์และมีประโยชน์ให้กับคำตอบอื่น ๆ
whuber

1
มุมเฉลี่ยของการสุ่มวางจุดในอยู่ใกล้คุณเสมอถึง 90 °สำหรับขนาดใหญ่ (ดูแปลงที่นี่ )[1,1]nn
มาร์ติน Thoma

10

ส่วนหนึ่งของคำสาปของมิติคือข้อมูลเริ่มกระจายออกจากศูนย์กลาง สิ่งนี้เป็นจริงสำหรับหลายตัวแปรปกติและแม้กระทั่งเมื่อส่วนประกอบต่างๆเป็น IID (ทรงกลมปกติ) แต่ถ้าคุณต้องการพูดเกี่ยวกับระยะทางแบบยุคลิดอย่างเคร่งครัดแม้ในพื้นที่ที่มีมิติต่ำหากข้อมูลมีโครงสร้างความสัมพันธ์ระยะทางแบบยุคลิดนั้นไม่ใช่ตัวชี้วัดที่เหมาะสม ถ้าเราสมมติว่าข้อมูลเป็นหลายตัวแปรปกติกับค่าความแปรปรวนที่ไม่ใช่ศูนย์และเพื่อการโต้แย้งสมมติว่าเมทริกซ์ความแปรปรวนร่วมนั้นเป็นที่รู้จักกัน จากนั้นระยะทาง Mahalanobis คือการวัดระยะทางที่เหมาะสมและมันไม่เหมือนกับระยะทางแบบยุคลิดซึ่งมันจะลดลงถ้าเมทริกซ์ความแปรปรวนร่วมเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์


1
ขอขอบคุณสำหรับข้อเสนอแนะของระยะทาง Mahalanobis แทนระยะทางแบบยุคลิดเมื่อข้อมูลมีความสัมพันธ์กัน คุณช่วยอธิบายได้ไหมว่าทำไมระยะทางแบบยุคลิดไม่ได้จัดการกับข้อมูลที่มีความสัมพันธ์เช่นเดียวกับระยะทาง Mahalanobis?
Jubbles

5

ฉันเชื่อว่าสิ่งนี้เกี่ยวข้องกับการสาปแช่งของการวัดขนาด / ความเข้มข้นของการวัด แต่ฉันไม่สามารถหาการสนทนาที่กระตุ้นการพูดนี้ได้อีกต่อไป ฉันเชื่อว่ามีหัวข้อเกี่ยวกับ metaoptimize แต่ฉันทำ Google ล้มเหลว ...

สำหรับข้อมูลตัวอักษรการปรับเวกเตอร์ให้เป็นปกติโดยใช้ TF-IDF แล้วใช้ความคล้ายคลึงโคไซน์น่าจะให้ผลลัพธ์ที่ดีกว่าระยะทางแบบยุคลิดเนื่องจากเอกสารที่มีความยาว (มีหลายคำ) สามารถแบ่งปันหัวข้อเดียวกันได้ดังนั้นจึงคล้ายกับเอกสารสั้น ๆ คำ. การละทิ้งบรรทัดฐานของเวกเตอร์ช่วยในกรณีพิเศษนั้น


4

การวัดที่เป็นจริงของ sparsity คือสิ่งที่เรียกว่านับซึ่งนับจำนวน (แน่นอน) ของรายการที่ไม่เป็นศูนย์ในเวกเตอร์ ด้วยมาตรการนี้เวกเตอร์และมีความเหมือนกัน และไม่เหมือนกันปกติ และ (กระจัดกระจายมาก) มีบรรทัดฐานเดียวกับ เวกเตอร์ที่แบนและไม่เบาบาง และไม่นับรวมกันอย่างแน่นอน0(1,0,0,0)(0,21,0,0)2(1,0,0,0)2(14,14,14,14)0

ฟังก์ชั่นนี้ไม่ใช่ทั้งแบบปกติและแบบควอร์นอร์ ขึ้นอยู่กับโดเมนชื่อของมันคือพยุหะตัวอย่างเช่นฟังก์ชัน cardinality การวัดเชิงตัวเลขหรือเพียงแค่ parsimony หรือ sparsity มันก็มักจะถือว่าเป็นใช้ไม่ได้ผลในทางปฏิบัติตั้งแต่การใช้งานนำไปสู่ปัญหา NP ยาก

ในขณะที่ระยะทางมาตรฐานหรือบรรทัดฐาน (เช่นระยะ Euclidian) เป็นเวไนยมากขึ้นหนึ่งของปัญหาของพวกเขาคือของพวกเขา -homogeneity:สำหรับ0 เรื่องนี้อาจเห็นได้ว่าไม่ใช่ - สัญชาตญาณผลิตภัณฑ์เซนต์คิตส์และเนวิสไม่เปลี่ยนแปลงสัดส่วนของข้อมูลในรายการ (คือ -homogeneneous)21

a.x=|a|x
a000

ดังนั้นในบทสนทนาบางสิ่งที่รวมกันของคำศัพท์ ( ) เช่น lasso, ridge หรือสุทธิที่ยืดหยุ่น บรรทัดฐาน (แมนฮัตตันหรือแท็กซี่ระยะทาง) หรืออวตารเรียบมันเป็นประโยชน์อย่างยิ่ง เนื่องจากผลงานของอีCandèsและคนอื่น ๆ หนึ่งสามารถอธิบายได้ว่าทำไมเป็นการประมาณการที่ดีที่จะ : คำอธิบายทางเรขาคณิต คนอื่น ๆ ทำ ในในราคาของปัญหาที่ไม่นูนp(x)p1110p<1p(x)

อีกเส้นทางที่น่าสนใจคือการคิดความกระจัดกระจายอีกครั้ง หนึ่งในผลงานที่โดดเด่นเมื่อไม่นานมานี้คือการเปรียบเทียบมาตรการแห่ง Sparsityโดย N. Hurley et al. ซึ่งเกี่ยวข้องกับการกระจายของ sparsity จากหกสัจพจน์ (ที่มีชื่อตลก ๆ เช่น Robin Hood, Scaling, Rising Tide, Cloning, Bill Gates และ Babies) ดัชนีดัชนีเบาบางสองตัวเกิดขึ้น: อันหนึ่งอิงจากดัชนี Gini อีกกลุ่มหนึ่งตามอัตราส่วนปกติ สองอัตราส่วนปกติที่แสดงด้านล่าง:12

ป้อนคำอธิบายรูปภาพที่นี่

แม้ว่าจะไม่นูนออกมาพิสูจน์ของการบรรจบกันและบางส่วนอ้างอิงทางประวัติศาสตร์บางส่วนมีรายละเอียดในEuclid ในรถแท็กซี่: เบาบางตาบอด deconvolution กับเรียบ12 regularization


4

กระดาษพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูงกล่าวถึงพฤติกรรมของการวัดระยะทางในพื้นที่มิติสูง

พวกเขาใช้บรรทัดฐานและเสนอเกณฑ์ปกติแมนฮัตตันให้มีประสิทธิภาพสูงสุดในพื้นที่มิติสูงสำหรับการทำคลัสเตอร์ พวกเขายังแนะนำบรรทัดฐานเศษส่วนคล้ายกับบรรทัดฐาน แต่ด้วย(0..1)LkL1 LfLkf(0..1)

ในระยะสั้นพวกเขาแสดงให้เห็นว่าสำหรับพื้นที่มิติสูงโดยใช้บรรทัดฐานแบบยุคลิดซึ่งเป็นค่าเริ่มต้นอาจไม่ใช่ความคิดที่ดี เรามักจะมีสัญชาตญาณเล็กน้อยในพื้นที่ดังกล่าวและการระเบิดแบบเลขชี้กำลังเนื่องจากจำนวนมิตินั้นยากที่จะคำนึงถึงระยะทางแบบยุคลิด


1
ดี. สำหรับเป็นกึ่งบรรทัดฐานแทนบรรทัดฐาน Lf0<f<1
Laurent Duval
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.