คำถามติดแท็ก euclidean

7
ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?
ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

6
ทำไมอัลกอริทึมการจัดกลุ่ม k หมายถึงใช้เฉพาะการวัดระยะทางแบบยุคลิดเท่านั้น
มีจุดประสงค์เฉพาะในแง่ของประสิทธิภาพหรือการทำงานทำไมอัลกอริธึม k - หมายถึงไม่ใช้เช่นโคไซน์ (dis) ความคล้ายคลึงกันเป็นตัวชี้วัดระยะทาง แต่สามารถใช้บรรทัดฐานแบบยุคลิดเท่านั้น? โดยทั่วไปวิธี K-mean จะปฏิบัติตามและถูกต้องเมื่อมีการพิจารณาหรือใช้ระยะทางอื่นนอกเหนือจาก Euclidean หรือไม่? [เพิ่มโดย @ttnphns คำถามคือสองเท่า "(ไม่ใช่) ระยะทางแบบยุคลิด" อาจเกี่ยวข้องกับระยะห่างระหว่างจุดข้อมูลสองจุดหรือระยะห่างระหว่างจุดข้อมูลและจุดศูนย์กลางคลัสเตอร์ ทั้งสองวิธีมีความพยายามในการตอบที่อยู่ในคำตอบจนถึง]

2
ความคล้ายคลึงกันของโคไซน์นั้นเหมือนกับระยะทางแบบยุคลิดแบบยุค l2 หรือไม่?
เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์? แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด

1
การแปลงเมทริกซ์ความคล้ายคลึงกันเป็นเมทริกซ์ระยะทาง (ยูคลิด)
ในอัลกอริธึม Random Forest, Breiman (ผู้เขียน) สร้างเมทริกซ์ความเหมือนกันดังนี้ ส่งตัวอย่างการเรียนรู้ทั้งหมดลงต้นไม้ในป่า ถ้าสองตัวอย่างลงดินในองค์ประกอบที่สอดคล้องกันของการเพิ่มขึ้นของใบไม้เดียวกันในเมทริกซ์ความเหมือนกันทีละ 1 ทำให้เมทริกซ์เป็นปกติด้วยจำนวนต้นไม้ เขาพูดว่า: ความผิดปกติระหว่างเคส n และ k ก่อให้เกิดเมทริกซ์ {prox (n, k)} จากคำจำกัดความมันง่ายที่จะแสดงว่าเมทริกซ์นี้เป็นสมมาตรบวกแน่นอนและล้อมรอบด้วย 1 โดยมีองค์ประกอบเส้นทแยงมุมเท่ากับ 1 มันตามมาว่าค่า 1-prox (n, k) เป็นระยะกำลังสองในยูคลิด พื้นที่ของมิติไม่เกินจำนวนกรณี แหล่ง ในการดำเนินการของเขาเขาใช้sqrt (1-prox)โดยที่proxเป็นเมทริกซ์ความคล้ายคลึงกันเพื่อแปลงเป็นเมทริกซ์ระยะทาง ฉันเดาว่ามันมีบางอย่างเกี่ยวกับ "ระยะทางตอร์เรสในอวกาศยูคลิด" - ยกมาจากข้างบน ใครบางคนสามารถส่องแสงเล็ก ๆ น้อย ๆ ว่าทำไมมันตามมาว่า 1-prox เป็นระยะทางกำลังสองในอวกาศยูคลิดและทำไมเขาใช้รากกำลังสองเพื่อรับเมทริกซ์ระยะทาง

5
ฉันจะแปลงระยะทาง (ยูคลิดแดน) เป็นคะแนนความคล้ายคลึงกันได้อย่างไร
ฉันใช้หมายถึงการรวมกลุ่มเป็นเสียงของกลุ่มลำโพง เมื่อฉันเปรียบเทียบคำพูดกับข้อมูลลำโพงแบบคลัสเตอร์ฉันจะได้รับความผิดเพี้ยนเฉลี่ย (อิงตามปริภูมิแบบยุคลิด) ระยะนี้อาจจะอยู่ในช่วงinfty] ฉันต้องการแปลงระยะทางนี้เป็นคะแนนความเหมือนโปรดแนะนำฉันเกี่ยวกับวิธีที่ฉันสามารถบรรลุสิ่งนี้[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

1
ข้อดีของระยะทางของ Jeffries Matusita
ตามกระดาษที่ฉันกำลังอ่านมีการใช้ระยะทางของ Jeffries และ Matusita แต่ฉันไม่สามารถหาข้อมูลได้มากนักยกเว้นสูตรด้านล่าง JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} มันคล้ายกับระยะทางแบบยุคลิดยกเว้นสแควร์รูท E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} ระยะทาง JM นั้นเชื่อถือได้มากกว่าระยะทางแบบยุคลิดในแง่ของการจำแนกประเภท ทุกคนสามารถอธิบายได้หรือไม่ว่าทำไมความแตกต่างนี้ทำให้ระยะทาง JM ดีขึ้น?

3
ระยะทางที่จะใช้? เช่น manhattan, euclidean, Bray-Curtis เป็นต้น
ฉันไม่ใช่นักนิเวศวิทยาชุมชน แต่วันนี้ฉันกำลังทำงานกับข้อมูลนิเวศวิทยาชุมชน สิ่งที่ฉันไม่เข้าใจนอกเหนือจากคณิตศาสตร์ของระยะทางเหล่านี้คือเกณฑ์สำหรับแต่ละระยะทางที่จะใช้และในสถานการณ์ที่สามารถนำไปใช้ได้ ตัวอย่างเช่นจะใช้กับข้อมูลการนับอย่างไร จะแปลงมุมความชันระหว่างสองตำแหน่งเป็นระยะทางได้อย่างไร หรืออุณหภูมิหรือปริมาณน้ำฝนที่สองสถานที่? สมมติฐานสำหรับแต่ละระยะทางคืออะไรและเมื่อใดที่เหมาะสม

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
เครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิด
ดังนั้นฉันจึงพยายามสอนตัวเองเกี่ยวกับโครงข่ายประสาทเทียม (สำหรับแอพพลิเคชั่นการถดถอยไม่แบ่งภาพแมว) การทดลองครั้งแรกของฉันคือการฝึกอบรมเครือข่ายเพื่อใช้ตัวกรอง FIR และการแปลงฟูริเยร์แบบไม่ต่อเนื่อง (การฝึกอบรมเรื่อง "ก่อน" และ "หลัง") เนื่องจากการดำเนินการเชิงเส้นทั้งสองนั้นสามารถใช้งานได้ในชั้นเดียว ทั้งสองทำงานได้ดี ดังนั้นฉันอยากดูว่าฉันสามารถเพิ่มabs()และทำให้เรียนรู้สเปกตรัมแอมพลิจูด ครั้งแรกที่ฉันคิดเกี่ยวกับจำนวนโหนดที่มันจะต้องอยู่ในชั้นที่ซ่อนอยู่และตระหนักว่า 3 ReLUs นั้นเพียงพอสำหรับการประมาณที่หยาบกabs(x+jy) = sqrt(x² + y²)ร้านดังนั้นฉันจึงทดสอบการทำงานด้วยตัวเองบนตัวเลขที่ซับซ้อนโดดเดี่ยว (2 อินพุต→ 3 ReLU โหนดที่ซ่อนชั้น→ 1 เอาท์พุท) มันทำงานเป็นครั้งคราว: แต่ส่วนใหญ่เวลาที่ฉันลองมันติดอยู่ในขั้นต่ำในท้องถิ่นและล้มเหลวในการหารูปร่างที่เหมาะสม: ฉันลองใช้เครื่องมือเพิ่มประสิทธิภาพและชุดรูปแบบ ReLU ทั้งหมดใน Keras แต่พวกเขาไม่ได้สร้างความแตกต่างมากนัก มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อทำให้เครือข่ายง่าย ๆ เช่นนี้มาบรรจบกันอย่างน่าเชื่อถือ? หรือฉันกำลังเข้าใกล้สิ่งนี้ด้วยทัศนคติที่ไม่ถูกต้องและคุณควรจะทิ้งโหนดมากกว่าที่จำเป็นในปัญหาและถ้าครึ่งหนึ่งของพวกเขาตายมันไม่ถือว่าเป็นเรื่องใหญ่อะไร?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.