คำถามติดแท็ก distance

การวัดระยะทางระหว่างการแจกแจงหรือตัวแปรเช่นระยะทางแบบยุคลิดระหว่างจุดในช่องว่าง

2
การค้นหาศูนย์วงกลมที่รู้จำนวนมากที่สุดซึ่งจะเพิ่มจำนวนคะแนนภายในระยะทางที่แน่นอน
ฉันมีชุดข้อมูล 2 มิติที่ฉันต้องการค้นหาศูนย์กลางของจำนวนศูนย์กลางของวงกลม ( ) ที่ระบุซึ่งจะเพิ่มจำนวนจุดทั้งหมดภายในระยะทางที่กำหนด ( )Rยังไม่มีข้อความNNRRR เช่นฉันมี 10,000 จุดข้อมูลและฉันต้องการที่จะหาศูนย์ของแวดวงที่จับเป็นจุดมากเท่าที่เป็นไปได้ภายในรัศมีของR5 ศูนย์และรัศมี 10 ได้รับล่วงหน้าไม่ได้มาจากข้อมูลN = 5 R = 10( Xผม, วายผม)(Xi,Yi)(X_i, Y_i)ยังไม่มีข้อความ= 5N=5N=5R = 10R=10R=10 การปรากฏตัวของจุดข้อมูลภายในวงกลมเป็นเลขฐานสอง / หรือข้อเสนอ ถ้าไม่มีความแตกต่างของมูลค่าของจุด 11 หน่วยกับ 100 หน่วยในขณะที่ทั้งสอง> 10 ในทำนองเดียวกันกับที่อยู่ในวงกลมไม่มีค่าพิเศษที่จะอยู่ใกล้กับใจกลางและใกล้กับขอบ . จุดข้อมูลอาจอยู่ในหนึ่งในแวดวงหรือออกR = 10R=10R=10 มีอัลกอริทึมที่ดีที่สามารถใช้แก้ปัญหานี้ได้หรือไม่? ดูเหมือนว่าสิ่งเหล่านี้เกี่ยวข้องกับเทคนิคการจัดกลุ่ม แต่แทนที่จะลดระยะทางเฉลี่ยให้น้อยที่สุดฟังก์ชัน "ระยะทาง" คือ 0 ถ้าจุดอยู่ภายในของจุดใด ๆและ 1 เป็นอย่างอื่นNRRRยังไม่มีข้อความNN ความชอบของฉันคือการหาวิธีที่จะทำสิ่งนี้ใน …
10 r  clustering  distance 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
จะค้นหาระยะทางที่คาดหวังระหว่างจุดที่กระจายอย่างสม่ำเสมอสองจุดอย่างไร
หากฉันต้องกำหนดพิกัดและโดยที่(X1,Y1)(X1,Y1)(X_{1},Y_{1})(X2,Y2)(X2,Y2)(X_{2},Y_{2}) X1,X2∼ ยูนิฟ( 0 , 30 ) และ Y1,Y2~ ยูนิฟ( 0 , 40 )X1,X2∼Unif(0,30) and Y1,Y2∼Unif(0,40).X_{1},X_{2} \sim \text{Unif}(0,30)\text{ and }Y_{1},Y_{2} \sim \text{Unif}(0,40). ฉันจะหาค่าที่คาดหวังของระยะทางระหว่างพวกเขาได้อย่างไร ฉันคิดว่าเนื่องจากระยะทางคำนวณโดยค่าที่คาดหวัง เพิ่งจะเป็น ?(X1-X2)2+ (Y1-Y2)2-------------------√)(X1−X2)2+(Y1−Y2)2)\sqrt{(X_{1}-X_{2})^{2} + (Y_{1}-Y_{2})^{2}})( 1 /วันที่ 30 + 1 /วันที่ 30)2+ ( 1 / 40 + 1 / 40)2(1/30+1/30)2+(1/40+1/40)2(1/30 + 1/30)^2 + (1/40+1/40)^2

4
การจัดกลุ่มด้วยการวัดระยะทางแบบอสมมาตร
คุณจัดกลุ่มคุณลักษณะด้วยการวัดระยะทางแบบอสมมาตรอย่างไร ตัวอย่างเช่นสมมติว่าคุณกำลังจัดกลุ่มชุดข้อมูลที่มีวันของสัปดาห์เป็นคุณลักษณะ - ระยะทางตั้งแต่วันจันทร์ถึงวันศุกร์ไม่เหมือนกับระยะทางตั้งแต่วันศุกร์ถึงวันจันทร์ คุณจะรวมสิ่งนี้ลงในการวัดระยะทางของอัลกอริทึมการจัดกลุ่มได้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.