คำถามติดแท็ก algorithms

รายการที่ชัดเจนของขั้นตอนการคำนวณที่เกี่ยวข้องในการหาวิธีแก้ปัญหาให้กับปัญหา

7
หาคู่ที่ใกล้ชิดในพื้นที่มิติที่สูงมากด้วยเวกเตอร์หร็อมแหร็ม
ฉันมีเวกเตอร์คุณลักษณะ (~ a ล้าน) มี (~ ล้าน) คุณสมบัติไบนารีในแต่ละเวกเตอร์เพียง แต่ (~ พัน) ของพวกเขาจะเป็น , ส่วนที่เหลือเป็น0ฉันกำลังหาคู่เวกเตอร์ที่มีคุณสมบัติอย่างน้อย (~ ร้อย) ที่เหมือนกัน (ทั้งคู่) จำนวนคู่ดังกล่าวมีขนาดใกล้เคียงกับ (~ a ล้าน)NNNMMMKKK111000LLL111NNN ฉันคิดว่าสิ่งนี้สามารถเข้าใกล้ได้เมื่อมองหาคู่ที่ใกล้ชิดในพื้นที่ที่มีมิติสูงมาก ฟังก์ชันระยะทางอาจเป็นไปได้ว่ามันขึ้นอยู่กับคุณสมบัติของเวกเตอร์สองตัวที่มีเหมือนกัน แต่มันอาจจะมีประโยชน์กับการวัดระยะทางแบบธรรมดามากขึ้น (เช่น Euclidean) เช่นกัน อัลกอริทึมที่รู้จักกันดีใดที่จะมีประโยชน์สำหรับการเข้าถึงปัญหานี้ อะไรก็ตามที่เป็นกำลังสองในหรือจะไม่สามารถใช้งานได้จริงNNNMMM ตัวอย่างการกำหนดปัญหาในโลกแห่งความจริงคือการพิจารณาว่าคนคนกำลังเคลื่อนที่ระหว่างสถานที่หลายแห่ง หากคนสองคนอยู่ในสถานที่เดียวกันในเวลาเดียวกันเราบอกว่าพวกเขาพบกัน (จำนวนชุดค่าผสมเวลาสถานที่ที่มีอย่างน้อย 1 คนคือ ) เรากำลังมองหาเพื่อน: คนที่พบกันอย่างน้อยครั้งNNNMMMLLL

4
วิธีสุ่มตัวอย่างเมื่อคุณไม่รู้การกระจาย
ฉันค่อนข้างใหม่กับสถิติ (หยิบของหลักสูตร Uni ระดับเริ่มต้น) และสงสัยเกี่ยวกับการสุ่มตัวอย่างจากการแจกแจงที่ไม่รู้จัก โดยเฉพาะถ้าคุณไม่มีความคิดเกี่ยวกับการแจกแจงพื้นฐานมีวิธีใดที่จะ "รับประกัน" ว่าคุณได้รับตัวอย่างตัวแทนหรือไม่? ตัวอย่างเพื่ออธิบาย: สมมติว่าคุณพยายามเข้าใจการกระจายความมั่งคั่งทั่วโลก สำหรับบุคคลใดก็ตามคุณสามารถค้นหาความมั่งคั่งที่แน่นอนของพวกเขา; แต่คุณไม่สามารถ "ตัวอย่าง" ทุกคนบนโลกนี้ได้ สมมุติว่าคุณสุ่มตัวอย่าง n = 1,000 คนโดยการสุ่ม หากตัวอย่างของคุณไม่รวม Bill Gates คุณอาจคิดว่าไม่มีเศรษฐีพันล้านคน หากคุณมีตัวอย่างรวมถึง Bill Gates คุณอาจคิดว่าเศรษฐีมีเงินมากกว่าที่เป็นอยู่จริง ไม่ว่าในกรณีใดคุณไม่สามารถบอกได้ว่าเศรษฐีทั่วไปหรือหายากเป็นอย่างไร คุณอาจไม่สามารถบอกได้ว่ามีอยู่จริงหรือไม่ มีกลไกการสุ่มตัวอย่างที่ดีกว่าสำหรับกรณีเช่นนี้หรือไม่? คุณจะบอกขั้นตอนเบื้องต้นในการใช้ตัวอย่าง (และจำเป็นต้องมีตัวอย่างจำนวนเท่าใด) ฉันคิดว่าคุณอาจจะต้อง "สุ่มตัวอย่าง" เปอร์เซ็นต์ของประชากรจำนวนมากที่จะรู้ว่ามีอะไรเข้าใกล้ความเชื่อมั่นที่สมเหตุสมผลว่าเศรษฐีทั่วไปหรือหายากอยู่บนโลกและสิ่งนี้เกิดจากการกระจายตัวของพื้นฐานค่อนข้างยาก ที่จะทำงานกับ

3
อัลกอริทึม Apriori ในภาษาอังกฤษธรรมดา?
ฉันอ่านบทความเกี่ยวกับ Apriori ฉันมีปัญหาในการทำความเข้าใจกับลูกพรุนและเข้าร่วมขั้นตอน ทุกคนสามารถอธิบายได้ว่าอัลกอริทึม Apriori ทำงานอย่างไรในเงื่อนไขง่าย ๆ (เช่นสามเณรอย่างฉันสามารถเข้าใจได้ง่าย) มันจะดีถ้ามีคนอธิบายกระบวนการทีละขั้นตอนที่เกี่ยวข้อง

3
การขี่จักรยานในอัลกอริทึม k-mean
ตามที่วิกิพีเดียลู่เกณฑ์ใช้กันอย่างแพร่หลายคือ "มอบหมายไม่ได้เปลี่ยนแปลง" ฉันสงสัยว่าการขี่จักรยานอาจเกิดขึ้นได้หรือไม่ถ้าเราใช้เกณฑ์การลู่เข้าเช่นนี้ ฉันยินดีถ้ามีคนอ้างอิงถึงบทความที่ให้ตัวอย่างของการขี่จักรยานหรือพิสูจน์ว่าเป็นไปไม่ได้

3
การจัดกลุ่มที่ประหยัดพื้นที่
อัลกอริธึมการจัดกลุ่มส่วนใหญ่ที่ฉันเคยเห็นเริ่มต้นด้วยการสร้างระยะห่างแต่ละจุดระหว่างจุดทั้งหมดซึ่งกลายเป็นปัญหาในชุดข้อมูลขนาดใหญ่ มีคนที่ไม่ทำเหรอ? หรือมันเป็นวิธีการบางส่วน / โดยประมาณ / เซ? อัลกอริทึมการจัดกลุ่ม / การใช้งานใดที่ใช้พื้นที่น้อยกว่า O (n ^ 2) มีรายการอัลกอริทึมและข้อกำหนดด้านเวลาและสถานที่อยู่หรือไม่?

2
บังคับให้ชุดตัวเลขเป็นเส้นโค้งเบล - เกาส์
( สิ่งนี้เกี่ยวข้องกับคำถามการเขียนโปรแกรมของฉันเกี่ยวกับ Stack Overflow : อัลกอริทึม Bell Curve Gaussian (Python และ / หรือ C #) ) บน Answers.com ฉันพบตัวอย่างง่ายๆนี้: ค้นหาค่าเฉลี่ยเลขคณิต (ค่าเฉลี่ย) => ผลรวมของค่าทั้งหมดในชุดหารด้วยจำนวนองค์ประกอบในชุด ค้นหาผลรวมของกำลังสองของค่าทั้งหมดในชุด หารเอาท์พุทของ (2) กับจำนวนขององค์ประกอบในชุด ลบกำลังสองของค่าเฉลี่ย (1) จากผลลัพธ์ของ (3) นำสแควร์รูทของผลลัพธ์ของ (4) ตัวอย่าง: Set A = {1,3,4,5,7} (1 + 3 + 4 + 5 + 7) / 5 = …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.