คำถามติดแท็ก clusters

4
จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลของคุณเป็นมาตรฐานก่อนการทำคลัสเตอร์
จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลของคุณเป็นมาตรฐานก่อนคลัสเตอร์ ในตัวอย่างจากscikit learnเกี่ยวกับ DBSCAN ที่นี่พวกเขาทำสิ่งนี้ในบรรทัด: X = StandardScaler().fit_transform(X) แต่ฉันไม่เข้าใจว่าทำไมจึงมีความจำเป็น ท้ายที่สุดการจัดกลุ่มไม่ถือว่าเป็นการกระจายข้อมูลโดยเฉพาะ - มันเป็นวิธีการเรียนรู้ที่ไม่มีผู้ดูแลดังนั้นวัตถุประสงค์ของมันก็คือการสำรวจข้อมูล ทำไมจึงจำเป็นต้องแปลงข้อมูล?

3
อินสแตนซ์กับคอร์เมื่อใช้ EC2
ทำงานกับสิ่งที่มักเรียกว่าโครงการ "ข้อมูลขนาดกลาง" ฉันสามารถทำให้ขนานรหัสของฉัน (ส่วนใหญ่สำหรับการสร้างแบบจำลองและการทำนายใน Python) ในระบบเดียวจาก 4 ถึง 32 แกน ตอนนี้ฉันกำลังมองหาการปรับขนาดของกลุ่มบน EC2 (อาจเป็นกับ StarCluster / IPython แต่เปิดให้มีคำแนะนำอื่น ๆ เช่นกัน) และได้รับการงงงวยโดยวิธีการกระทบยอดการกระจายงานข้ามแกนในกรณีเทียบกับอินสแตนซ์ในคลัสเตอร์ มันยังใช้งานได้จริงในการขนานระหว่างอินสแตนซ์และข้ามคอร์ในแต่ละอินสแตนซ์หรือไม่? ถ้าเป็นเช่นนั้นทุกคนสามารถให้ข้อดีข้อเสียอย่างรวดเร็วของการเรียกใช้อินสแตนซ์จำนวนมากที่มีคอร์ไม่กี่คอร์แต่ละตัวเทียบกับคอร์ที่มีหลายคอร์ได้หรือไม่ มีกฎง่ายๆในการเลือกอัตราส่วนที่ถูกต้องของอินสแตนซ์ต่อคอร์ต่ออินสแตนซ์หรือไม่? แบนด์วิดท์และแรมเป็นข้อกังวลเล็กน้อยในโครงการของฉัน แต่มันง่ายที่จะมองเห็นเมื่อสิ่งเหล่านั้นเป็นปัญหาคอขวดและปรับใหม่ ฉันคิดว่าจะยากกว่าในการเปรียบเทียบการผสมผสานแกนที่ถูกต้องกับอินสแตนซ์โดยไม่ต้องทำการทดสอบซ้ำและโครงการของฉันแตกต่างกันมากเกินไปสำหรับการทดสอบใด ๆ ที่จะนำไปใช้กับทุกสถานการณ์ ขอบคุณล่วงหน้าและถ้าฉันเพิ่งจะ google ไม่ถูกต้องอย่าลังเลที่จะชี้ให้ฉันเห็นคำตอบที่ถูกที่อื่น!
12 parallel  clusters  aws 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.