วิทยาศาสตร์คอมพิวเตอร์เชิงทฤษฎี clustering

5

เป็นไปได้ไหมที่จะทดสอบว่าตัวเลขที่คำนวณได้นั้นเป็นจำนวนตรรกยะหรือจำนวนเต็ม?

เป็นไปได้ไหมที่จะทดสอบอัลกอริธึมว่าจำนวนที่คำนวณได้เป็นจำนวนตรรกยะหรือจำนวนเต็ม? ในคำอื่น ๆ ก็จะมีความเป็นไปได้สำหรับห้องสมุดที่ใช้คำนวณตัวเลขเพื่อให้ฟังก์ชั่นisIntegerหรือisRational? ฉันเดาว่ามันเป็นไปไม่ได้และนี่ก็เกี่ยวข้องกับความจริงที่ว่ามันเป็นไปไม่ได้ที่จะทดสอบว่าตัวเลขสองตัวนั้นเท่ากัน แต่ฉันไม่เห็นวิธีที่จะพิสูจน์มัน แก้ไข: จำนวนที่คำนวณได้ถูกกำหนดโดยฟังก์ชันที่สามารถส่งกลับค่าประมาณด้วยเหตุผลด้วยความแม่นยำ :สำหรับใด ๆ0 รับฟังก์ชั่นดังกล่าวเป็นไปได้หรือไม่ที่จะทดสอบว่าหรือ ?xxxfx(ϵ)fx(ϵ)f_x(\epsilon)xxxϵϵ\epsilon|x−fx(ϵ)|≤ϵ|x−fx(ϵ)|≤ϵ|x - f_x(\epsilon)| \leq \epsilonϵ>0ϵ>0\epsilon > 0x∈Qx∈Qx \in \mathrm{Q}x∈Zx∈Zx \in \mathrm{Z}

18 computability computing-over-reals lambda-calculus graph-theory co.combinatorics cc.complexity-theory reference-request graph-theory proofs np-complete cc.complexity-theory machine-learning boolean-functions combinatory-logic boolean-formulas reference-request approximation-algorithms optimization cc.complexity-theory co.combinatorics permutations cc.complexity-theory cc.complexity-theory ai.artificial-intel p-vs-np relativization co.combinatorics permutations ds.algorithms algebra automata-theory dfa lo.logic temporal-logic linear-temporal-logic circuit-complexity lower-bounds permanent arithmetic-circuits determinant dc.parallel-comp asymptotics ds.algorithms graph-theory planar-graphs physics max-flow max-flow-min-cut fl.formal-languages automata-theory finite-model-theory dfa language-design soft-question machine-learning linear-algebra db.databases arithmetic-circuits ds.algorithms machine-learning ds.data-structures tree soft-question security project-topic approximation-algorithms linear-programming primal-dual reference-request graph-theory graph-algorithms cr.crypto-security quantum-computing gr.group-theory graph-theory time-complexity lower-bounds matrices sorting asymptotics approximation-algorithms linear-algebra matrices max-cut graph-theory graph-algorithms time-complexity circuit-complexity regular-language graph-algorithms approximation-algorithms set-cover clique graph-theory graph-algorithms approximation-algorithms clustering partition-problem time-complexity turing-machines term-rewriting-systems cc.complexity-theory time-complexity nondeterminism

2

การตัดสูงสุดแบบยุคลิดในขนาดต่ำ

x1,…,xnx1,…,xnx_1, \ldots, x_nR2R2\mathbb{R}^2∥xi−xj∥2‖xi−xj‖2\|x_i - x_j\|^22323\frac 2 32323\frac 2 3 ตัวอย่างที่เลวร้ายที่สุดที่ฉันสามารถที่จะหาคือ 3 จุดบนรูปสามเหลี่ยมด้านเท่าซึ่งประสบความสำเร็จใน3 โปรดทราบว่าการแบ่งแบบสุ่มจะสร้างแต่ดูเหมือนชัดเจนโดยสัญชาตญาณว่าในมิติที่ต่ำหนึ่งสามารถจัดกลุ่มได้ดีกว่าการสุ่ม2323\frac 2 31212\frac 1 2 จะเกิดอะไรขึ้นสำหรับ max-k-cut สำหรับ k> 2 ขนาด d> 2 เป็นอย่างไร? มีกรอบในการตอบคำถามเหล่านี้หรือไม่? ฉันรู้เกี่ยวกับความไม่เท่าเทียมกันของ Cheeger แต่สิ่งเหล่านั้นนำไปใช้กับการตัดแบบกระจาย (ไม่ใช่การตัดสูงสุด) และใช้ได้กับกราฟปกติเท่านั้น (คำถามได้รับแรงบันดาลใจจากปัญหาการจัดกลุ่มแหล่งกำเนิดแสงในคอมพิวเตอร์กราฟิกส์เพื่อลดความแปรปรวน)

12 ds.algorithms graph-algorithms application-of-theory max-cut clustering

5

อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ใช่มิติ

ฉันมีชุดข้อมูลหลายพันจุดและวิธีการวัดระยะทางระหว่างจุดสองจุดใด ๆ แต่จุดข้อมูลไม่มีมิติข้อมูล ฉันต้องการอัลกอริทึมเพื่อค้นหาศูนย์คลัสเตอร์ในชุดข้อมูลนี้ ฉันจินตนาการว่าเนื่องจากข้อมูลไม่มีมิติศูนย์คลัสเตอร์อาจประกอบด้วยจุดข้อมูลหลายจุดและความอดทนและการเป็นสมาชิกภายในกลุ่มอาจถูกกำหนดโดยค่าเฉลี่ยของระยะทางของจุดข้อมูลไปยังจุดข้อมูลทุกจุดในศูนย์คลัสเตอร์ โปรดยกโทษให้ฉันถ้าคำถามนี้มีวิธีแก้ปัญหาที่รู้จักกันดีฉันรู้น้อยมากเกี่ยวกับปัญหาแบบนี้! การวิจัย (จำกัด มาก) ของฉันเปิดอัลกอริทึมการจัดกลุ่มสำหรับข้อมูลมิติเท่านั้น ขอบคุณ!

12 machine-learning lg.learning clustering

2

การจัดกลุ่มอย่างเป็นทางการนอกเหนือจาก K-mean สำหรับข้อมูลที่แบ่งแยกได้

ข้อมูลในโลกแห่งความเป็นจริงบางครั้งมีจำนวนธรรมชาติของกลุ่ม (พยายามที่จะจัดกลุ่มเป็นกลุ่มน้อยกว่าเวทมนตร์ k บางอย่างจะทำให้ค่าใช้จ่ายการจัดกลุ่มเพิ่มขึ้นอย่างมาก) วันนี้ฉันเข้าร่วมการบรรยายโดยดร. อดัมเมย์สันและเขาเรียกข้อมูลประเภทนั้นว่า "ข้อมูลที่แยกกันได้" การทำให้เป็นระเบียบของการจัดกลุ่มบางอย่างนอกเหนือจากวิธี K คืออะไรซึ่งสามารถคล้อยตามอัลกอริธึมการจัดกลุ่ม (การประมาณค่าหรือฮิวริสติก) ที่จะใช้ประโยชน์จากความสามารถในการแยกตามธรรมชาติของข้อมูล

11 lg.learning clustering

1

การค้นหาเวกเตอร์ที่คล้ายกันในเวลา subquadratic

ปล่อย d: { 0 , 1}k× { 0 , 1}k→ Rd:{0,1}k×{0,1}k→Rd:\{0,1\}^k\times \{0,1\}^k \to \mathbb{R}เป็นหน้าที่ที่เราจะเรียกว่าเป็นฟังก์ชั่นที่คล้ายคลึงกัน ตัวอย่างของฟังก์ชันความคล้ายคลึงกันคือระยะทางโคไซน์ล.2ล.2l_2 norm, ระยะทาง hamming, ความคล้ายคลึงกันของ Jaccard, ฯลฯ พิจารณา nnn เวกเตอร์ไบนารีของความยาว kkk: โวลต์⃗ ∈ ( { 0 , 1)}k)nโวลต์→∈({0,1}k)n\vec{v} \in (\{0,1\}^k)^n. เป้าหมายของเราคือการจัดกลุ่มเวกเตอร์ที่คล้ายกัน ยิ่งกว่านั้นอย่างเป็นทางการเราต้องการคำนวณกราฟความเหมือนกันซึ่งโหนดเป็นเวกเตอร์และขอบแสดงเวกเตอร์ที่คล้ายกัน (d( v , u ) ≤ ϵd(โวลต์,ยู)≤εd(v,u) \leq \epsilon) nnn และ kkk มีจำนวนมากและเปรียบเทียบสองความยาว kkk …

9 ds.algorithms graph-algorithms clustering

1

ตัดแบ่งชุดของคะแนนเป็นชุดย่อยที่เหมาะสมที่สุดสองชุด

ฉันต้องการแบ่งชุดของคะแนนออกเป็นชุดย่อยที่มีขนาดเท่ากันสองชุดเพื่อให้ผลรวมภายในกำลังสองของกลุ่มน้อยที่สุด เราสามารถสรุปได้ว่าจุดต่าง ๆ นั้นอยู่ในพื้นที่สองมิติแบบยุคลิด ฉันหวังว่าจะได้สิ่งที่เร็วกว่าอัลกอริทึมการจัดกลุ่ม k-mean แบบทั่วไปโดยให้ k = d = 2 ทุกคนสามารถชี้นำฉันไปในทิศทางของอัลกอริทึมที่ดีสำหรับเรื่องนี้? ทางออกที่แน่นอนไม่จำเป็นถ้าเรามีการประมาณที่ดี ขอบคุณ!

9 ds.algorithms approximation-algorithms clustering

4

การจัดกลุ่มอย่างต่อเนื่อง

ดังนั้นฉันมีปัญหาที่ฉันกำลังเผชิญกับการจัดกลุ่มกับข้อมูลสดสตรีมมิ่งอย่างต่อเนื่อง เนื่องจากฉันมีชุดข้อมูลที่เติบโตขึ้นเรื่อย ๆ ฉันไม่แน่ใจว่าวิธีใดที่ดีที่สุดในการจัดกลุ่มที่มีประสิทธิภาพและประสิทธิผล ฉันคิดวิธีแก้ปัญหาที่เป็นไปได้สองสามประการ ได้แก่ : การตั้งค่าขีด จำกัด จำนวนจุดข้อมูลที่จะอนุญาตดังนั้นเมื่อใดก็ตามที่ถึงขีด จำกัด เมื่อจุดข้อมูลอื่นเข้ามาในจุดที่เก่าที่สุดจะถูกลบออก โดยพื้นฐานแล้วสิ่งนี้จะแนะนำว่าข้อมูลที่เก่ากว่านั้นไม่เกี่ยวข้องกับเราอีกต่อไปเพื่อดูแลสิ่งที่เรากำลังสูญเสียโดยการโยนทิ้ง เมื่อมีข้อมูลเพียงพอที่จะทำการจัดกลุ่มที่ดีให้พิจารณา "การตั้งค่า" นี้และเมื่อมีจุดใหม่มาแทนที่การจัดกลุ่มข้อมูลทั้งหมดใหม่เพียงแค่คิดว่าการจัดกลุ่มศูนย์กลางใดที่จุดใหม่อยู่ใกล้ที่สุดและเพิ่มเข้าไป ประโยชน์ที่นี่คือคุณสามารถหลีกเลี่ยงการจัดกลุ่มใหม่ในทุกจุดใหม่และคุณไม่จำเป็นต้องจัดเก็บจุดอื่น ๆ ทั้งหมดเพียงแค่ศูนย์คลัสเตอร์โดยพิจารณาจากการจัดกลุ่มนี้ "ดีพอ" ข้อเสียคือการเรียกใช้อัลกอริทึมใหม่กับจุดข้อมูลทั้งหมดตั้งแต่ต้นอาจมีความแม่นยำมากขึ้น ในขณะที่เหล่านั้นเป็นวิธีแก้ปัญหาที่อาจเกิดขึ้นฉันระดมสมองฉันอยากจะรู้ว่ามีเทคนิคที่รู้จักกันดีกว่าที่จะเผชิญกับปัญหานี้ ฉันคิดว่าไซต์อย่าง Google ต้องจัดการกับมันอย่างใด (และฉันหวังว่า "เพิ่ม ram, เซิร์ฟเวอร์และโปรเซสเซอร์" หรือ "ขยายศูนย์ข้อมูลของคุณอย่างต่อเนื่อง" ไม่ใช่คำตอบเดียวที่มี)

9 ds.algorithms clustering online-algorithms data-streams

คำถามติดแท็ก clustering