คำถามติดแท็ก distributed

5
กรณีการใช้งาน Apache Spark vs Hadoop มีอะไรบ้าง
ด้วย Hadoop 2.0 และ YARN Hadoop ไม่ได้ผูกติดกับโซลูชันลดแผนที่เท่านั้นอีกต่อไป ด้วยความก้าวหน้าดังกล่าวกรณีการใช้งานของ Apache Spark vs Hadoop คืออะไรเมื่อพิจารณาทั้งสองอย่างบน HDFS ฉันอ่านเอกสารแนะนำสำหรับ Spark แล้ว แต่ฉันอยากรู้ว่าใครเคยเจอปัญหาที่มีประสิทธิภาพและแก้ปัญหาได้ง่ายกว่า Spark เมื่อเทียบกับ Hadoop

3
เพื่อนบ้านที่ใกล้ที่สุดค้นหาข้อมูลมิติที่สูงมาก
ฉันมีเมทริกซ์กระจัดกระจายขนาดใหญ่ของผู้ใช้และรายการที่พวกเขาชอบ (เรียงตามผู้ใช้ 1M และรายการ 100K ที่มีระดับความเบาบางต่ำมาก) ฉันสำรวจวิธีการที่ฉันสามารถทำการค้นหาด้วย kNN ด้วยขนาดของชุดข้อมูลของฉันและการทดสอบเริ่มต้นที่ฉันทำข้อสมมติฐานของฉันคือวิธีการที่ฉันจะใช้จะต้องขนานหรือกระจาย ดังนั้นฉันจึงพิจารณาวิธีแก้ปัญหาที่เป็นไปได้สองคลาส: อันที่มีอยู่ (หรือนำไปใช้ได้ในวิธีที่ง่ายพอสมควร) บนเครื่องมัลติคอร์เดียวอีกอันในคลัสเตอร์ Spark เช่นเป็นโปรแกรม MapReduce ต่อไปนี้เป็นแนวคิดสามประการที่ฉันพิจารณา: สมมติว่ามีความคล้ายคลึงกันแบบโคไซน์ให้ทำการคูณเมทริกซ์ที่ได้รับการทำให้เป็นมาตรฐานเต็มรูปแบบด้วยทรานสโพส (นำมาใช้เป็นผลรวมของผลิตภัณฑ์ด้านนอก) การใช้การแฮชที่มีความอ่อนไหวต่อท้องที่ (LSH) การลดมิติแรกของปัญหาด้วย PCA ฉันขอขอบคุณความคิดหรือคำแนะนำเกี่ยวกับวิธีการที่เป็นไปได้ที่ฉันสามารถแก้ไขปัญหานี้ได้

3
การคำนวณแบบขนานและแบบกระจาย
ความแตกต่างระหว่างการคำนวณแบบขนานและแบบกระจายคืออะไร เมื่อพูดถึงความสามารถในการปรับขนาดและประสิทธิภาพมันเป็นเรื่องธรรมดามากที่จะเห็นโซลูชันที่เกี่ยวข้องกับการคำนวณในกลุ่มของเครื่องจักรและบางครั้งมันถูกเรียกว่าการประมวลผลแบบขนานหรือการประมวลผลแบบกระจาย ในบางวิธีการคำนวณดูเหมือนจะขนานกันเสมอเนื่องจากมีสิ่งต่าง ๆ ที่ทำงานพร้อมกัน แต่การคำนวณแบบกระจายนั้นเกี่ยวข้องกับการใช้มากกว่าหนึ่งเครื่องหรือมีความเฉพาะเจาะจงเพิ่มเติมใด ๆ ที่ทำให้การประมวลผลทั้งสองประเภทนี้แตกต่างกันหรือไม่? มันจะไม่ซ้ำซ้อนที่จะพูดเช่นการคำนวณที่ขนานและกระจาย ?

4
กำลังมองหาตัวอย่างโครงสร้างพื้นฐานสแต็ค / เวิร์กโฟลว์ / ท่อ
ฉันพยายามที่จะเข้าใจว่าส่วนประกอบ "ข้อมูลขนาดใหญ่" เล่นร่วมกันอย่างไรในกรณีการใช้งานจริงเช่น hadoop, monogodb / nosql, storm, kafka, ... ฉันรู้ว่านี่เป็นเครื่องมือที่ใช้สำหรับ ประเภทต่าง ๆ แต่ฉันต้องการรับทราบเพิ่มเติมเกี่ยวกับการโต้ตอบในแอปพลิเคชันเช่นการเรียนรู้ด้วยเครื่องสำหรับแอพพลิเคชั่นเว็บแอพร้านค้าออนไลน์ ฉันมี vistor / session, data transaction ฯลฯ และเก็บไว้; แต่ถ้าฉันต้องการที่จะให้คำแนะนำได้ทันทีฉันไม่สามารถเรียกใช้แผนที่ช้า / ลดงานสำหรับฐานข้อมูลขนาดใหญ่ของบันทึกที่ฉันมี ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐานได้ที่ไหน ฉันคิดว่าฉันสามารถใช้เครื่องมือส่วนใหญ่ด้วยตนเองได้ แต่การเสียบเข้าด้วยกันดูเหมือนว่าจะเป็นศิลปะของมันเอง มีตัวอย่างสาธารณะ / กรณีใช้งานอื่น ๆ หรือไม่ ฉันเข้าใจว่าแต่ละท่อขึ้นอยู่กับกรณีการใช้งานและผู้ใช้เป็นอย่างมาก แต่เพียงตัวอย่างอาจจะเป็นประโยชน์กับฉัน

2
การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)
ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
อะไรคือความหมายของการแจกจ่ายให้กับห้องสมุดที่มีการไล่ระดับสี
ฉันกำลังตรวจสอบเอกสาร XGBoost และมีการระบุว่า XGBoost เป็นไลบรารีการไล่ระดับสีแบบกระจายที่ปรับให้เหมาะสม การกระจายความหมายคืออะไร ขอให้มีความสุขมาก ๆ ในวันนี้นะ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.