คำถามติดแท็ก databases

การรวบรวมข้อมูลที่เกี่ยวข้องอย่างครอบคลุมซึ่งจัดระเบียบเพื่อการเข้าถึงที่สะดวกโดยทั่วไปจะเกี่ยวข้องกับซอฟต์แวร์เพื่ออัปเดตและสืบค้นข้อมูล

9
วิธีจัดการกับการควบคุมเวอร์ชันของข้อมูล (ไบนารี) จำนวนมาก
ฉันเป็นนักศึกษาปริญญาเอกสาขาธรณีฟิสิกส์และทำงานกับข้อมูลภาพจำนวนมาก (หลายร้อย GB, ไฟล์นับหมื่น) ฉันรู้svnและgitค่อนข้างดีและให้คุณค่ากับประวัติโครงการรวมกับความสามารถในการทำงานร่วมกันได้อย่างง่ายดายและมีการป้องกันความเสียหายของดิสก์ ฉันพบว่าgitมีประโยชน์อย่างมากสำหรับการสำรองข้อมูลที่สอดคล้องกัน แต่ฉันรู้ว่า git ไม่สามารถจัดการข้อมูลไบนารีจำนวนมากได้อย่างมีประสิทธิภาพ ในการศึกษาระดับปริญญาโทของฉันฉันทำงานกับชุดข้อมูลที่มีขนาดใกล้เคียงกัน (รวมถึงรูปภาพ) และมีปัญหามากมายในการติดตามเวอร์ชันต่าง ๆ บนเซิร์ฟเวอร์ / อุปกรณ์ที่แตกต่างกัน การกระจาย 100GB ผ่านเครือข่ายไม่สนุกและทำให้ฉันเสียเวลาและความพยายาม ฉันรู้ว่าคนอื่น ๆ ในสาขาวิทยาศาสตร์ดูเหมือนจะมีปัญหาคล้ายกัน แต่ฉันไม่สามารถหาทางออกที่ดีได้ ฉันต้องการใช้สิ่งอำนวยความสะดวกในการจัดเก็บของสถาบันของฉันดังนั้นฉันต้องการสิ่งที่สามารถใช้เซิร์ฟเวอร์ "โง่" ฉันยังต้องการสำรองข้อมูลเพิ่มเติมในฮาร์ดดิสก์แบบพกพาเพราะฉันต้องการหลีกเลี่ยงการถ่ายโอนหลายร้อย GB ผ่านเครือข่ายทุกที่ที่ทำได้ ดังนั้นฉันต้องการเครื่องมือที่สามารถจัดการมากกว่าหนึ่งตำแหน่งระยะไกล สุดท้ายฉันต้องการสิ่งที่นักวิจัยคนอื่นสามารถใช้ได้ดังนั้นมันไม่จำเป็นต้องง่ายสุด ๆ แต่ควรจะเรียนรู้ได้ในเวลาไม่กี่ชั่วโมง ฉันได้ประเมินโซลูชั่นที่แตกต่างกันมากมาย แต่ดูเหมือนว่าไม่มีใครเหมาะสมกับค่าใช้จ่าย: svnค่อนข้างไม่มีประสิทธิภาพและต้องการสมาร์ทเซิร์ฟเวอร์ hg bigfile / largefileสามารถใช้รีโมตเดียวได้ git bigfile / mediaสามารถใช้รีโมตเดียวได้ แต่ก็ไม่ได้มีประสิทธิภาพมากนัก ห้องใต้หลังคาดูเหมือนจะไม่มีบันทึกหรือความสามารถที่แตกต่างกัน bupดูดีมาก แต่ต้องการเซิร์ฟเวอร์ "สมาร์ท" ให้ใช้งานได้ ฉันได้ลองgit-annexแล้วซึ่งทำทุกอย่างที่ฉันต้องการเพื่อทำ …

3
แนวทางปฏิบัติที่ดีที่สุดในการจัดเก็บรูปแบบการเรียนรู้ของเครื่องงู
แนวปฏิบัติที่ดีที่สุดในการบันทึกจัดเก็บและแบ่งปันโมเดลการเรียนรู้ของเครื่องมีอะไรบ้าง ใน Python เรามักจะจัดเก็บการเป็นตัวแทนไบนารีของโมเดลโดยใช้ pickle หรือ joblib แบบจำลองในกรณีของฉันอาจมีขนาดใหญ่ ~ 100Mo นอกจากนี้ joblib สามารถบันทึกรูปแบบหนึ่งไปยังหลายไฟล์ถ้าคุณตั้งcompress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- แกนกลาง ) แต่ถ้าคุณต้องการควบคุมสิทธิ์การเข้าถึงโมเดลและสามารถใช้โมเดลจากเครื่องต่าง ๆ วิธีที่ดีที่สุดในการจัดเก็บคืออะไร ฉันมีตัวเลือกน้อย: เก็บไว้เป็นไฟล์จากนั้นนำไปไว้ในที่เก็บโดยใช้ Git LFS เก็บไว้ในฐานข้อมูล SQL เป็นไฟล์ไบนารี: ตัวอย่างเช่นใน Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB นี่เป็นวิธีที่ทีม SQL Server แนะนำ: https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS


5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Neo4j กับ OrientDB vs Titan
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับการขุดความสัมพันธ์ทางสังคมและต้องการจัดเก็บข้อมูลในฐานข้อมูลกราฟบางตัว ตอนแรกฉันเลือก Neo4j เป็นฐานข้อมูล แต่มันตะเข็บ Neo4j ไม่ได้ปรับขนาดได้ดี ทางเลือกที่ฉันพบคือไททันและ oriebtDB ฉันได้ผ่านนี้เปรียบเทียบทั้งสามฐานข้อมูล แต่ฉันต้องการที่จะได้รับรายละเอียดเพิ่มเติมเกี่ยวกับฐานข้อมูลเหล่านี้ ดังนั้นบางคนสามารถช่วยฉันในการเลือกที่ดีที่สุด ส่วนใหญ่ฉันต้องการเปรียบเทียบประสิทธิภาพการปรับขนาดเอกสารออนไลน์ / แบบฝึกหัดที่มีการสนับสนุนห้องสมุด Python ความซับซ้อนของภาษาคิวรีและการสนับสนุนอัลกอริทึมกราฟของฐานข้อมูลเหล่านี้ มีตัวเลือกฐานข้อมูลที่ดีอื่น ๆ อีกหรือไม่

1
เมื่อฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพดีกว่าไม่มีความสัมพันธ์
เมื่อฐานข้อมูลเชิงสัมพันธ์เช่น MySQL มีประสิทธิภาพที่ดีกว่าไม่มีความสัมพันธ์เช่น MongoDB? ฉันเห็นคำถามเกี่ยวกับ Quora เมื่อวันก่อนเกี่ยวกับสาเหตุที่ Quora ยังคงใช้ MySQL เป็นแบ็กเอนด์และประสิทธิภาพยังคงดี

5
ข้อดีของ pandas dataframe ไปยังฐานข้อมูลเชิงสัมพันธ์ปกติ
ใน Data Science ดูเหมือนว่าหลายคนจะใช้ดาต้าดาต้าเป็นแพนด้าดาต้า อะไรคือคุณสมบัติของหมีแพนด้าที่ทำให้เป็นดาต้าสโตร์ที่เหนือกว่าเมื่อเปรียบเทียบกับฐานข้อมูลเชิงสัมพันธ์แบบปกติเช่นMySQLซึ่งใช้ในการเก็บข้อมูลในด้านอื่น ๆ ของการเขียนโปรแกรม แม้ว่าแพนด้าจะมีฟังก์ชั่นที่มีประโยชน์สำหรับการสำรวจข้อมูล แต่คุณไม่สามารถใช้ SQL และคุณจะสูญเสียคุณสมบัติเช่นการปรับให้เหมาะสมของแบบสอบถามหรือการ จำกัด การเข้าถึง
13 pandas  databases 

3
โมเดลฐานข้อมูลที่มีประสิทธิภาพสำหรับการจัดเก็บข้อมูลที่จัดทำดัชนีโดย n-grams
ฉันกำลังทำงานกับแอปพลิเคชันที่ต้องสร้างฐานข้อมูลขนาดใหญ่มากซึ่งมีอยู่ในคลังข้อความขนาดใหญ่ ฉันต้องการประเภทการดำเนินงานที่มีประสิทธิภาพสามประเภท: การค้นหาและการแทรกดัชนีที่จัดทำโดย n-gram เองและทำการค้นหา n-g ทั้งหมดที่มี sub-n-gram สิ่งนี้ฟังดูเหมือนว่าฐานข้อมูลควรเป็นแผนผังเอกสารขนาดใหญ่และฐานข้อมูลเอกสารเช่น Mongo ควรจะสามารถทำงานได้ดี แต่ฉันไม่เคยใช้มันในระดับใด รู้รูปแบบคำถามของ Exchange Exchange ฉันต้องการชี้แจงว่าฉันไม่ได้ขอคำแนะนำเกี่ยวกับเทคโนโลยีเฉพาะ แต่ควรเป็นฐานข้อมูลประเภทหนึ่งที่ฉันควรมองหาเพื่อนำไปใช้ในระดับนี้
12 nlp  databases 

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
สิ่งใดเร็วกว่า: PostgreSQL vs MongoDB บนชุดข้อมูล JSON ขนาดใหญ่
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีวัตถุ JSON ขนาด 9m ที่แต่ละอันมีขนาดประมาณ 300 ไบต์ ข้อความเหล่านี้เป็นบทความจากตัวรวบรวมลิงก์: โดยทั่วไปลิงก์ (URL, ชื่อและรหัสผู้แต่ง) และความคิดเห็น (ข้อความและ ID ผู้เขียน) + ข้อมูลเมตา พวกเขาอาจเป็นระเบียนเชิงสัมพันธ์ได้ดีในตารางยกเว้นข้อเท็จจริงที่ว่าพวกเขามีเขตข้อมูลแถวเดียวที่มีรหัสที่ชี้ไปยังระเบียนลูก การใช้งานแบบใดที่ดูแข็งแกร่งกว่านี้? วัตถุ JSON ในฐานข้อมูล PostgreSQL (เพียงหนึ่งตารางขนาดใหญ่ที่มีหนึ่งคอลัมน์คือวัตถุ JSON) วัตถุ JSON บน MongoDB ระเบิดวัตถุ JSON เป็นคอลัมน์และใช้อาร์เรย์ใน PostgreSQL ฉันต้องการเพิ่มประสิทธิภาพการรวมสูงสุดดังนั้นฉันสามารถนวดข้อมูลและสำรวจจนกว่าฉันจะพบการวิเคราะห์ที่น่าสนใจ ณ จุดนี้ฉันคิดว่ามันจะเป็นการดีกว่าที่จะแปลงข้อมูลให้เป็นรูปแบบเฉพาะสำหรับการวิเคราะห์แต่ละครั้ง

2
การเปรียบเทียบ Neo4j กับเวลาดำเนินการ RDBMS นั้นถูกต้องหรือไม่
ความเป็นมา:ต่อไปนี้มาจากฐานข้อมูลกราฟหนังสือซึ่งครอบคลุมการทดสอบประสิทธิภาพที่กล่าวถึงในหนังสือNeo4j ในการดำเนินการ : ความสัมพันธ์ในกราฟเป็นเส้นทางแบบธรรมชาติ การสืบค้นหรือการข้ามกราฟเกี่ยวข้องกับเส้นทางดังต่อไปนี้ เนื่องจากลักษณะพื้นฐานของเส้นทางที่มุ่งเน้นของ datamodel ส่วนใหญ่ของการดำเนินการฐานข้อมูลกราฟที่อิงเส้นทางนั้นมีความสอดคล้องอย่างมากกับวิธีการจัดวางข้อมูลทำให้มีประสิทธิภาพมาก ในหนังสือ Neo4j in Action ของพวกเขา Partner และ Vukotic ทำการทดลองโดยใช้ relational store และ Neo4j การเปรียบเทียบแสดงให้เห็นว่าฐานข้อมูลกราฟนั้นเร็วกว่ามากสำหรับข้อมูลที่เชื่อมต่อมากกว่าที่เก็บข้อมูลเชิงสัมพันธ์ส่วนการทดลองและ Vukotic นั้นพยายามค้นหาเพื่อนของเพื่อนในเครือข่ายโซเชียล เมื่อพิจารณาจากคนสองคนที่ได้รับการสุ่มเลือกมีเส้นทางที่เชื่อมโยงพวกเขาซึ่งมีความสัมพันธ์ยาวนานที่สุดถึงห้าครั้ง สำหรับเครือข่ายโซเชียลที่มี 1,000,000 คนโดยแต่ละคนมีเพื่อนประมาณ 50 คนผลลัพธ์แนะนำอย่างยิ่งว่าฐานข้อมูลกราฟเป็นตัวเลือกที่ดีที่สุดสำหรับข้อมูลที่เชื่อมต่อดังที่เราเห็นในตารางที่ 2-1 ตารางที่ 2-1 การค้นหาเพื่อนที่ขยายในฐานข้อมูลเชิงสัมพันธ์กับการค้นหาที่มีประสิทธิภาพใน Neo4j Depth RDBMS Execution time (s) Neo4j Execution time (s) Records returned 2 0.016 0.01 ~2500 …
10 databases  nosql  neo4j 

2
การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน
ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.