คำถามติดแท็ก clustering

5
เป็นไปได้ไหมที่จะทดสอบว่าตัวเลขที่คำนวณได้นั้นเป็นจำนวนตรรกยะหรือจำนวนเต็ม?
เป็นไปได้ไหมที่จะทดสอบอัลกอริธึมว่าจำนวนที่คำนวณได้เป็นจำนวนตรรกยะหรือจำนวนเต็ม? ในคำอื่น ๆ ก็จะมีความเป็นไปได้สำหรับห้องสมุดที่ใช้คำนวณตัวเลขเพื่อให้ฟังก์ชั่นisIntegerหรือisRational? ฉันเดาว่ามันเป็นไปไม่ได้และนี่ก็เกี่ยวข้องกับความจริงที่ว่ามันเป็นไปไม่ได้ที่จะทดสอบว่าตัวเลขสองตัวนั้นเท่ากัน แต่ฉันไม่เห็นวิธีที่จะพิสูจน์มัน แก้ไข: จำนวนที่คำนวณได้ถูกกำหนดโดยฟังก์ชันที่สามารถส่งกลับค่าประมาณด้วยเหตุผลด้วยความแม่นยำ :สำหรับใด ๆ0 รับฟังก์ชั่นดังกล่าวเป็นไปได้หรือไม่ที่จะทดสอบว่าหรือ ?xxxfx(ϵ)fx(ϵ)f_x(\epsilon)xxxϵϵ\epsilon|x−fx(ϵ)|≤ϵ|x−fx(ϵ)|≤ϵ|x - f_x(\epsilon)| \leq \epsilonϵ>0ϵ>0\epsilon > 0x∈Qx∈Qx \in \mathrm{Q}x∈Zx∈Zx \in \mathrm{Z}
18 computability  computing-over-reals  lambda-calculus  graph-theory  co.combinatorics  cc.complexity-theory  reference-request  graph-theory  proofs  np-complete  cc.complexity-theory  machine-learning  boolean-functions  combinatory-logic  boolean-formulas  reference-request  approximation-algorithms  optimization  cc.complexity-theory  co.combinatorics  permutations  cc.complexity-theory  cc.complexity-theory  ai.artificial-intel  p-vs-np  relativization  co.combinatorics  permutations  ds.algorithms  algebra  automata-theory  dfa  lo.logic  temporal-logic  linear-temporal-logic  circuit-complexity  lower-bounds  permanent  arithmetic-circuits  determinant  dc.parallel-comp  asymptotics  ds.algorithms  graph-theory  planar-graphs  physics  max-flow  max-flow-min-cut  fl.formal-languages  automata-theory  finite-model-theory  dfa  language-design  soft-question  machine-learning  linear-algebra  db.databases  arithmetic-circuits  ds.algorithms  machine-learning  ds.data-structures  tree  soft-question  security  project-topic  approximation-algorithms  linear-programming  primal-dual  reference-request  graph-theory  graph-algorithms  cr.crypto-security  quantum-computing  gr.group-theory  graph-theory  time-complexity  lower-bounds  matrices  sorting  asymptotics  approximation-algorithms  linear-algebra  matrices  max-cut  graph-theory  graph-algorithms  time-complexity  circuit-complexity  regular-language  graph-algorithms  approximation-algorithms  set-cover  clique  graph-theory  graph-algorithms  approximation-algorithms  clustering  partition-problem  time-complexity  turing-machines  term-rewriting-systems  cc.complexity-theory  time-complexity  nondeterminism 

2
การตัดสูงสุดแบบยุคลิดในขนาดต่ำ
x1,…,xnx1,…,xnx_1, \ldots, x_nR2R2\mathbb{R}^2∥xi−xj∥2‖xi−xj‖2\|x_i - x_j\|^22323\frac 2 32323\frac 2 3 ตัวอย่างที่เลวร้ายที่สุดที่ฉันสามารถที่จะหาคือ 3 จุดบนรูปสามเหลี่ยมด้านเท่าซึ่งประสบความสำเร็จใน3 โปรดทราบว่าการแบ่งแบบสุ่มจะสร้างแต่ดูเหมือนชัดเจนโดยสัญชาตญาณว่าในมิติที่ต่ำหนึ่งสามารถจัดกลุ่มได้ดีกว่าการสุ่ม2323\frac 2 31212\frac 1 2 จะเกิดอะไรขึ้นสำหรับ max-k-cut สำหรับ k> 2 ขนาด d> 2 เป็นอย่างไร? มีกรอบในการตอบคำถามเหล่านี้หรือไม่? ฉันรู้เกี่ยวกับความไม่เท่าเทียมกันของ Cheeger แต่สิ่งเหล่านั้นนำไปใช้กับการตัดแบบกระจาย (ไม่ใช่การตัดสูงสุด) และใช้ได้กับกราฟปกติเท่านั้น (คำถามได้รับแรงบันดาลใจจากปัญหาการจัดกลุ่มแหล่งกำเนิดแสงในคอมพิวเตอร์กราฟิกส์เพื่อลดความแปรปรวน)

5
อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ใช่มิติ
ฉันมีชุดข้อมูลหลายพันจุดและวิธีการวัดระยะทางระหว่างจุดสองจุดใด ๆ แต่จุดข้อมูลไม่มีมิติข้อมูล ฉันต้องการอัลกอริทึมเพื่อค้นหาศูนย์คลัสเตอร์ในชุดข้อมูลนี้ ฉันจินตนาการว่าเนื่องจากข้อมูลไม่มีมิติศูนย์คลัสเตอร์อาจประกอบด้วยจุดข้อมูลหลายจุดและความอดทนและการเป็นสมาชิกภายในกลุ่มอาจถูกกำหนดโดยค่าเฉลี่ยของระยะทางของจุดข้อมูลไปยังจุดข้อมูลทุกจุดในศูนย์คลัสเตอร์ โปรดยกโทษให้ฉันถ้าคำถามนี้มีวิธีแก้ปัญหาที่รู้จักกันดีฉันรู้น้อยมากเกี่ยวกับปัญหาแบบนี้! การวิจัย (จำกัด มาก) ของฉันเปิดอัลกอริทึมการจัดกลุ่มสำหรับข้อมูลมิติเท่านั้น ขอบคุณ!

2
การจัดกลุ่มอย่างเป็นทางการนอกเหนือจาก K-mean สำหรับข้อมูลที่แบ่งแยกได้
ข้อมูลในโลกแห่งความเป็นจริงบางครั้งมีจำนวนธรรมชาติของกลุ่ม (พยายามที่จะจัดกลุ่มเป็นกลุ่มน้อยกว่าเวทมนตร์ k บางอย่างจะทำให้ค่าใช้จ่ายการจัดกลุ่มเพิ่มขึ้นอย่างมาก) วันนี้ฉันเข้าร่วมการบรรยายโดยดร. อดัมเมย์สันและเขาเรียกข้อมูลประเภทนั้นว่า "ข้อมูลที่แยกกันได้" การทำให้เป็นระเบียบของการจัดกลุ่มบางอย่างนอกเหนือจากวิธี K คืออะไรซึ่งสามารถคล้อยตามอัลกอริธึมการจัดกลุ่ม (การประมาณค่าหรือฮิวริสติก) ที่จะใช้ประโยชน์จากความสามารถในการแยกตามธรรมชาติของข้อมูล

1
การค้นหาเวกเตอร์ที่คล้ายกันในเวลา subquadratic
ปล่อย d: { 0 , 1}k× { 0 , 1}k→ Rd:{0,1}k×{0,1}k→Rd:\{0,1\}^k\times \{0,1\}^k \to \mathbb{R}เป็นหน้าที่ที่เราจะเรียกว่าเป็นฟังก์ชั่นที่คล้ายคลึงกัน ตัวอย่างของฟังก์ชันความคล้ายคลึงกันคือระยะทางโคไซน์ล.2ล.2l_2 norm, ระยะทาง hamming, ความคล้ายคลึงกันของ Jaccard, ฯลฯ พิจารณา nnn เวกเตอร์ไบนารีของความยาว kkk: โวลต์⃗ ∈ ( { 0 , 1)}k)nโวลต์→∈({0,1}k)n\vec{v} \in (\{0,1\}^k)^n. เป้าหมายของเราคือการจัดกลุ่มเวกเตอร์ที่คล้ายกัน ยิ่งกว่านั้นอย่างเป็นทางการเราต้องการคำนวณกราฟความเหมือนกันซึ่งโหนดเป็นเวกเตอร์และขอบแสดงเวกเตอร์ที่คล้ายกัน (d( v , u ) ≤ ϵd(โวลต์,ยู)≤εd(v,u) \leq \epsilon) nnn และ kkk มีจำนวนมากและเปรียบเทียบสองความยาว kkk …

1
ตัดแบ่งชุดของคะแนนเป็นชุดย่อยที่เหมาะสมที่สุดสองชุด
ฉันต้องการแบ่งชุดของคะแนนออกเป็นชุดย่อยที่มีขนาดเท่ากันสองชุดเพื่อให้ผลรวมภายในกำลังสองของกลุ่มน้อยที่สุด เราสามารถสรุปได้ว่าจุดต่าง ๆ นั้นอยู่ในพื้นที่สองมิติแบบยุคลิด ฉันหวังว่าจะได้สิ่งที่เร็วกว่าอัลกอริทึมการจัดกลุ่ม k-mean แบบทั่วไปโดยให้ k = d = 2 ทุกคนสามารถชี้นำฉันไปในทิศทางของอัลกอริทึมที่ดีสำหรับเรื่องนี้? ทางออกที่แน่นอนไม่จำเป็นถ้าเรามีการประมาณที่ดี ขอบคุณ!

4
การจัดกลุ่มอย่างต่อเนื่อง
ดังนั้นฉันมีปัญหาที่ฉันกำลังเผชิญกับการจัดกลุ่มกับข้อมูลสดสตรีมมิ่งอย่างต่อเนื่อง เนื่องจากฉันมีชุดข้อมูลที่เติบโตขึ้นเรื่อย ๆ ฉันไม่แน่ใจว่าวิธีใดที่ดีที่สุดในการจัดกลุ่มที่มีประสิทธิภาพและประสิทธิผล ฉันคิดวิธีแก้ปัญหาที่เป็นไปได้สองสามประการ ได้แก่ : การตั้งค่าขีด จำกัด จำนวนจุดข้อมูลที่จะอนุญาตดังนั้นเมื่อใดก็ตามที่ถึงขีด จำกัด เมื่อจุดข้อมูลอื่นเข้ามาในจุดที่เก่าที่สุดจะถูกลบออก โดยพื้นฐานแล้วสิ่งนี้จะแนะนำว่าข้อมูลที่เก่ากว่านั้นไม่เกี่ยวข้องกับเราอีกต่อไปเพื่อดูแลสิ่งที่เรากำลังสูญเสียโดยการโยนทิ้ง เมื่อมีข้อมูลเพียงพอที่จะทำการจัดกลุ่มที่ดีให้พิจารณา "การตั้งค่า" นี้และเมื่อมีจุดใหม่มาแทนที่การจัดกลุ่มข้อมูลทั้งหมดใหม่เพียงแค่คิดว่าการจัดกลุ่มศูนย์กลางใดที่จุดใหม่อยู่ใกล้ที่สุดและเพิ่มเข้าไป ประโยชน์ที่นี่คือคุณสามารถหลีกเลี่ยงการจัดกลุ่มใหม่ในทุกจุดใหม่และคุณไม่จำเป็นต้องจัดเก็บจุดอื่น ๆ ทั้งหมดเพียงแค่ศูนย์คลัสเตอร์โดยพิจารณาจากการจัดกลุ่มนี้ "ดีพอ" ข้อเสียคือการเรียกใช้อัลกอริทึมใหม่กับจุดข้อมูลทั้งหมดตั้งแต่ต้นอาจมีความแม่นยำมากขึ้น ในขณะที่เหล่านั้นเป็นวิธีแก้ปัญหาที่อาจเกิดขึ้นฉันระดมสมองฉันอยากจะรู้ว่ามีเทคนิคที่รู้จักกันดีกว่าที่จะเผชิญกับปัญหานี้ ฉันคิดว่าไซต์อย่าง Google ต้องจัดการกับมันอย่างใด (และฉันหวังว่า "เพิ่ม ram, เซิร์ฟเวอร์และโปรเซสเซอร์" หรือ "ขยายศูนย์ข้อมูลของคุณอย่างต่อเนื่อง" ไม่ใช่คำตอบเดียวที่มี)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.