วิทยาศาสตร์ข้อมูล map-reduce

3

เพื่อนบ้านที่ใกล้ที่สุดค้นหาข้อมูลมิติที่สูงมาก

ฉันมีเมทริกซ์กระจัดกระจายขนาดใหญ่ของผู้ใช้และรายการที่พวกเขาชอบ (เรียงตามผู้ใช้ 1M และรายการ 100K ที่มีระดับความเบาบางต่ำมาก) ฉันสำรวจวิธีการที่ฉันสามารถทำการค้นหาด้วย kNN ด้วยขนาดของชุดข้อมูลของฉันและการทดสอบเริ่มต้นที่ฉันทำข้อสมมติฐานของฉันคือวิธีการที่ฉันจะใช้จะต้องขนานหรือกระจาย ดังนั้นฉันจึงพิจารณาวิธีแก้ปัญหาที่เป็นไปได้สองคลาส: อันที่มีอยู่ (หรือนำไปใช้ได้ในวิธีที่ง่ายพอสมควร) บนเครื่องมัลติคอร์เดียวอีกอันในคลัสเตอร์ Spark เช่นเป็นโปรแกรม MapReduce ต่อไปนี้เป็นแนวคิดสามประการที่ฉันพิจารณา: สมมติว่ามีความคล้ายคลึงกันแบบโคไซน์ให้ทำการคูณเมทริกซ์ที่ได้รับการทำให้เป็นมาตรฐานเต็มรูปแบบด้วยทรานสโพส (นำมาใช้เป็นผลรวมของผลิตภัณฑ์ด้านนอก) การใช้การแฮชที่มีความอ่อนไหวต่อท้องที่ (LSH) การลดมิติแรกของปัญหาด้วย PCA ฉันขอขอบคุณความคิดหรือคำแนะนำเกี่ยวกับวิธีการที่เป็นไปได้ที่ฉันสามารถแก้ไขปัญหานี้ได้

17 machine-learning distributed map-reduce dimensionality-reduction

3

Amazon RedShift แทนที่ Hadoop สำหรับข้อมูล ~ 1XTB หรือไม่

มี hype มากมายรอบ ๆ Hadoop และระบบนิเวศ อย่างไรก็ตามในทางปฏิบัติที่ชุดข้อมูลจำนวนมากอยู่ในช่วงเทราไบต์ไม่เหมาะสมที่จะใช้Amazon RedShiftสำหรับการสืบค้นชุดข้อมูลขนาดใหญ่แทนที่จะใช้เวลาและความพยายามในการสร้างคลัสเตอร์ Hadoop หรือไม่ นอกจากนี้ Amazon Redshift เปรียบเทียบกับ Hadoop อย่างไรเกี่ยวกับความซับซ้อนในการตั้งค่าต้นทุนและประสิทธิภาพ

12 apache-hadoop map-reduce aws

3

อัลกอริทึมลดแผนที่เขียนสำหรับ MongoDB สามารถพอร์ตไปยัง Hadoop ในภายหลังได้หรือไม่?

ใน บริษัท ของเราเรามีฐานข้อมูล MongoDB ที่มีข้อมูลที่ไม่มีโครงสร้างจำนวนมากซึ่งเราจำเป็นต้องใช้อัลกอริทึมลดแผนที่เพื่อสร้างรายงานและการวิเคราะห์อื่น ๆ เรามีสองวิธีในการเลือกจากการนำการวิเคราะห์ที่ต้องการไปใช้: วิธีหนึ่งคือการดึงข้อมูลจาก MongoDB ไปยังคลัสเตอร์ Hadoop และทำการวิเคราะห์อย่างสมบูรณ์ในแพลตฟอร์ม Hadoop อย่างไรก็ตามสิ่งนี้ต้องการการลงทุนอย่างมากในการเตรียมแพลตฟอร์ม (ซอฟต์แวร์และฮาร์ดแวร์) และให้ความรู้แก่ทีมเพื่อทำงานกับ Hadoop และเขียนงานลดแผนที่ อีกวิธีหนึ่งคือการใช้ความพยายามของเราในการออกแบบอัลกอริธึมลดแผนที่และเรียกใช้อัลกอริธึมบนฟังก์ชันลดแผนที่ MongoDB ด้วยวิธีนี้เราสามารถสร้างต้นแบบเริ่มต้นของระบบสุดท้ายที่สามารถสร้างรายงาน ฉันรู้ว่าฟังก์ชั่นลดแผนที่ของ MongoDB นั้นช้ากว่ามากเมื่อเทียบกับ Hadoop แต่ปัจจุบันข้อมูลไม่ได้ใหญ่ขนาดนั้นที่ทำให้เกิดปัญหาคอขวดนี้ คำถามคือการใช้วิธีที่สองและเขียนอัลกอริธึมสำหรับ MongoDB พวกเขาสามารถย้ายไปที่ Hadoop ได้ในภายหลังด้วยการปรับเปลี่ยนที่จำเป็นเล็กน้อยและการออกแบบอัลกอริทึมใหม่หรือไม่? MongoDB รองรับ JavaScript แต่ความแตกต่างของภาษาการเขียนโปรแกรมนั้นง่ายต่อการจัดการ อย่างไรก็ตามมีความแตกต่างพื้นฐานในรูปแบบการลดแผนที่ของ MongoDB และ Hadoop ที่อาจบังคับให้เราออกแบบอัลกอริทึมใหม่อย่างมีนัยสำคัญสำหรับการย้ายไปยัง Hadoop หรือไม่?

11 scalability apache-hadoop map-reduce mongodb

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

คำถามติดแท็ก map-reduce