คำถามติดแท็ก scalability

12
ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด
ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

4
เครื่องมือวิทยาศาสตร์ข้อมูลโดยใช้ Scala
ฉันรู้ว่า Spark ได้รวมเข้ากับ Scala อย่างสมบูรณ์ มันใช้กรณีเป็นเฉพาะสำหรับชุดข้อมูลขนาดใหญ่ เครื่องมืออื่นใดที่รองรับสกาลาได้ดี Scala เหมาะสมที่สุดสำหรับชุดข้อมูลขนาดใหญ่กว่านี้หรือไม่? หรือมันยังเหมาะกับชุดข้อมูลที่มีขนาดเล็กลงหรือไม่?

4
กำลังมองหาตัวอย่างโครงสร้างพื้นฐานสแต็ค / เวิร์กโฟลว์ / ท่อ
ฉันพยายามที่จะเข้าใจว่าส่วนประกอบ "ข้อมูลขนาดใหญ่" เล่นร่วมกันอย่างไรในกรณีการใช้งานจริงเช่น hadoop, monogodb / nosql, storm, kafka, ... ฉันรู้ว่านี่เป็นเครื่องมือที่ใช้สำหรับ ประเภทต่าง ๆ แต่ฉันต้องการรับทราบเพิ่มเติมเกี่ยวกับการโต้ตอบในแอปพลิเคชันเช่นการเรียนรู้ด้วยเครื่องสำหรับแอพพลิเคชั่นเว็บแอพร้านค้าออนไลน์ ฉันมี vistor / session, data transaction ฯลฯ และเก็บไว้; แต่ถ้าฉันต้องการที่จะให้คำแนะนำได้ทันทีฉันไม่สามารถเรียกใช้แผนที่ช้า / ลดงานสำหรับฐานข้อมูลขนาดใหญ่ของบันทึกที่ฉันมี ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐานได้ที่ไหน ฉันคิดว่าฉันสามารถใช้เครื่องมือส่วนใหญ่ด้วยตนเองได้ แต่การเสียบเข้าด้วยกันดูเหมือนว่าจะเป็นศิลปะของมันเอง มีตัวอย่างสาธารณะ / กรณีใช้งานอื่น ๆ หรือไม่ ฉันเข้าใจว่าแต่ละท่อขึ้นอยู่กับกรณีการใช้งานและผู้ใช้เป็นอย่างมาก แต่เพียงตัวอย่างอาจจะเป็นประโยชน์กับฉัน

3
อัลกอริทึมลดแผนที่เขียนสำหรับ MongoDB สามารถพอร์ตไปยัง Hadoop ในภายหลังได้หรือไม่?
ใน บริษัท ของเราเรามีฐานข้อมูล MongoDB ที่มีข้อมูลที่ไม่มีโครงสร้างจำนวนมากซึ่งเราจำเป็นต้องใช้อัลกอริทึมลดแผนที่เพื่อสร้างรายงานและการวิเคราะห์อื่น ๆ เรามีสองวิธีในการเลือกจากการนำการวิเคราะห์ที่ต้องการไปใช้: วิธีหนึ่งคือการดึงข้อมูลจาก MongoDB ไปยังคลัสเตอร์ Hadoop และทำการวิเคราะห์อย่างสมบูรณ์ในแพลตฟอร์ม Hadoop อย่างไรก็ตามสิ่งนี้ต้องการการลงทุนอย่างมากในการเตรียมแพลตฟอร์ม (ซอฟต์แวร์และฮาร์ดแวร์) และให้ความรู้แก่ทีมเพื่อทำงานกับ Hadoop และเขียนงานลดแผนที่ อีกวิธีหนึ่งคือการใช้ความพยายามของเราในการออกแบบอัลกอริธึมลดแผนที่และเรียกใช้อัลกอริธึมบนฟังก์ชันลดแผนที่ MongoDB ด้วยวิธีนี้เราสามารถสร้างต้นแบบเริ่มต้นของระบบสุดท้ายที่สามารถสร้างรายงาน ฉันรู้ว่าฟังก์ชั่นลดแผนที่ของ MongoDB นั้นช้ากว่ามากเมื่อเทียบกับ Hadoop แต่ปัจจุบันข้อมูลไม่ได้ใหญ่ขนาดนั้นที่ทำให้เกิดปัญหาคอขวดนี้ คำถามคือการใช้วิธีที่สองและเขียนอัลกอริธึมสำหรับ MongoDB พวกเขาสามารถย้ายไปที่ Hadoop ได้ในภายหลังด้วยการปรับเปลี่ยนที่จำเป็นเล็กน้อยและการออกแบบอัลกอริทึมใหม่หรือไม่? MongoDB รองรับ JavaScript แต่ความแตกต่างของภาษาการเขียนโปรแกรมนั้นง่ายต่อการจัดการ อย่างไรก็ตามมีความแตกต่างพื้นฐานในรูปแบบการลดแผนที่ของ MongoDB และ Hadoop ที่อาจบังคับให้เราออกแบบอัลกอริทึมใหม่อย่างมีนัยสำคัญสำหรับการย้ายไปยัง Hadoop หรือไม่?

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร
มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

1
การเรียนรู้การเข้ารหัสสัญญาณ
ฉันมีตัวอย่างจำนวนมากซึ่งเป็นตัวแทนของกระแสบิตเข้ารหัสแมนเชสเตอร์เป็นสัญญาณเสียง ความถี่ที่พวกเขาถูกเข้ารหัสเป็นส่วนประกอบความถี่หลักเมื่อมันสูงและมีจำนวนเสียงสีขาวในพื้นหลังที่สอดคล้องกัน ฉันถอดรหัสสตรีมเหล่านี้ด้วยตนเอง แต่ฉันสงสัยว่าฉันสามารถใช้เทคนิคการเรียนรู้ของเครื่องบางอย่างเพื่อเรียนรู้โครงร่างการเข้ารหัส สิ่งนี้จะช่วยประหยัดเวลาได้มากในการจดจำโครงร่างเหล่านี้ด้วยตนเอง ความยากลำบากคือสัญญาณที่แตกต่างกันจะถูกเข้ารหัสแตกต่างกัน เป็นไปได้ไหมที่จะสร้างรูปแบบที่สามารถเรียนรู้การถอดรหัสมากกว่าหนึ่งโครงร่างการเข้ารหัส? แบบจำลองดังกล่าวมีความแข็งแกร่งเพียงใดและฉันต้องการใช้เทคนิคแบบใด การวิเคราะห์องค์ประกอบอิสระ (ICA) ดูเหมือนว่าจะมีประโยชน์สำหรับการแยกความถี่ที่ฉันสนใจ แต่ฉันจะเรียนรู้รูปแบบการเข้ารหัสได้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.