วิทยาศาสตร์ข้อมูล sql

11

ฉันใช้ SQL มาตั้งแต่ปี 1996 ดังนั้นฉันอาจจะลำเอียง ฉันใช้ MySQL และ SQLite 3 อย่างกว้างขวาง แต่ก็ใช้ Microsoft SQL Server และ Oracle ด้วย การดำเนินการส่วนใหญ่ที่ฉันเคยทำกับ Pandas นั้นสามารถทำได้ง่ายขึ้นด้วย SQL ซึ่งรวมถึงการกรองชุดข้อมูลการเลือกคอลัมน์เฉพาะสำหรับการแสดงนำฟังก์ชันไปใช้กับค่าและอื่น ๆ SQL มีข้อดีของการมีเครื่องมือเพิ่มประสิทธิภาพและการคงอยู่ของข้อมูล SQL ยังมีข้อความแสดงข้อผิดพลาดที่ชัดเจนและเข้าใจได้ นุ่นมี API ที่ค่อนข้างคลุมเครือซึ่งในบางครั้งก็เหมาะสมที่จะใช้เป็นหนึ่งเดียว[ stuff ]ครั้งอื่น ๆ ที่คุณต้องการและบางครั้งคุณจำเป็นต้องมี[[ stuff ]] .locส่วนหนึ่งของความซับซ้อนของนุ่นเกิดขึ้นจากความจริงที่ว่ามีการบรรทุกเกินพิกัดมากเกินไป ดังนั้นฉันจึงพยายามที่จะเข้าใจว่าทำไมนุ่นถึงได้รับความนิยม

69 pandas sql

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่

ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …

14 python r data-cleaning data sql

3

ภาษาธรรมชาติในการสืบค้น SQL

ฉันทำงานพัฒนาระบบ "การแปลงภาษาธรรมชาติเป็น SQL Query" ฉันได้อ่านคำตอบจากคำถามที่คล้ายกัน แต่ไม่สามารถรับข้อมูลที่ฉันต้องการได้ ด้านล่างคือแผนผังลำดับงานสำหรับระบบดังกล่าวซึ่งฉันได้รับจากAlgorithm เพื่อแปลงภาษาธรรมชาติให้เป็นแบบสอบถาม SQL สำหรับฐานข้อมูลเชิงสัมพันธ์โดย Garima Singh, Arun Solanki ฉันเข้าใจจนเป็นส่วนหนึ่งของขั้นตอนการติดแท็กคำพูด แต่ฉันจะเข้าใกล้ขั้นตอนที่เหลือได้อย่างไร ฉันจำเป็นต้องฝึกเคียวรี SQL ที่เป็นไปได้ทั้งหมดหรือไม่? หรือเมื่อส่วนหนึ่งของการติดแท็กคำพูดเสร็จสิ้นฉันต้องเล่นกับคำและสร้างแบบสอบถาม SQL? แก้ไข: ฉันได้ติดตั้งจาก "ขั้นตอน" ผู้ใช้แบบสอบถาม "ถึง" ส่วนหนึ่งของการติดแท็กคำพูด "สำเร็จแล้ว ขอบคุณ.

13 machine-learning nlp sql natural-language-process

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

เครื่องมือสำหรับการตรวจจับความผิดปกติอัตโนมัติในตาราง SQL?

ฉันมีตาราง SQL ขนาดใหญ่ที่เป็นบันทึก ข้อมูลค่อนข้างซับซ้อนและฉันพยายามค้นหาวิธีการระบุความผิดปกติโดยที่ฉันไม่เข้าใจข้อมูลทั้งหมด ฉันพบเครื่องมือมากมายสำหรับการตรวจจับความผิดปกติ แต่ส่วนใหญ่ต้องการเครื่องมือ "คนกลาง" ประเภทต่าง ๆ เช่น Elastic Search, Splunk เป็นต้น ไม่มีใครรู้เครื่องมือที่สามารถทำงานกับตาราง SQL ที่สร้างพื้นฐานและการแจ้งเตือนของความผิดปกติโดยอัตโนมัติ? สิ่งนี้อาจฟังดูขี้เกียจ แต่ฉันใช้เวลาหลายสิบชั่วโมงในการเขียนสคริปต์การรายงานแต่ละรายการเนื่องจากฉันเรียนรู้ว่าแต่ละประเภทเหตุการณ์หมายถึงอะไรและฟิลด์อื่น ๆ ไปกับแต่ละกิจกรรมและฉันไม่รู้สึกใกล้ชิดกับความสามารถในการเตือนปัญหาจริง ๆ วิธีที่มีความหมาย ตารางมี 41 คอลัมน์และมีจำนวนถึง 500 ล้านแถว (3 ปีของข้อมูล)

10 sql anomaly-detection outlier

3

สิ่งใดเร็วกว่า: PostgreSQL vs MongoDB บนชุดข้อมูล JSON ขนาดใหญ่

ฉันมีชุดข้อมูลขนาดใหญ่ที่มีวัตถุ JSON ขนาด 9m ที่แต่ละอันมีขนาดประมาณ 300 ไบต์ ข้อความเหล่านี้เป็นบทความจากตัวรวบรวมลิงก์: โดยทั่วไปลิงก์ (URL, ชื่อและรหัสผู้แต่ง) และความคิดเห็น (ข้อความและ ID ผู้เขียน) + ข้อมูลเมตา พวกเขาอาจเป็นระเบียนเชิงสัมพันธ์ได้ดีในตารางยกเว้นข้อเท็จจริงที่ว่าพวกเขามีเขตข้อมูลแถวเดียวที่มีรหัสที่ชี้ไปยังระเบียนลูก การใช้งานแบบใดที่ดูแข็งแกร่งกว่านี้? วัตถุ JSON ในฐานข้อมูล PostgreSQL (เพียงหนึ่งตารางขนาดใหญ่ที่มีหนึ่งคอลัมน์คือวัตถุ JSON) วัตถุ JSON บน MongoDB ระเบิดวัตถุ JSON เป็นคอลัมน์และใช้อาร์เรย์ใน PostgreSQL ฉันต้องการเพิ่มประสิทธิภาพการรวมสูงสุดดังนั้นฉันสามารถนวดข้อมูลและสำรวจจนกว่าฉันจะพบการวิเคราะห์ที่น่าสนใจ ณ จุดนี้ฉันคิดว่ามันจะเป็นการดีกว่าที่จะแปลงข้อมูลให้เป็นรูปแบบเฉพาะสำหรับการวิเคราะห์แต่ละครั้ง

10 data-mining bigdata databases sql mongodb

4

วิธีแก้ปัญหาการวิเคราะห์ข้อมูล

ฉันเจอปัญหาต่อไปนี้แล้วซึ่งฉันพบว่าเป็นเรื่องปกติ ฉันมีข้อมูลขนาดใหญ่พูดไม่กี่ล้านแถว ฉันเรียกใช้การวิเคราะห์ที่ไม่สำคัญกับมันเช่นแบบสอบถาม SQL ซึ่งประกอบด้วยแบบสอบถามย่อยหลายรายการ ฉันได้รับผลบางอย่างที่ระบุเช่นคุณสมบัติ X นั้นเพิ่มขึ้นเมื่อเวลาผ่านไป ตอนนี้มีสองสิ่งที่เป็นไปได้ที่อาจนำไปสู่การที่: X เพิ่มขึ้นตามกาลเวลา ฉันมีข้อบกพร่องในการวิเคราะห์ของฉัน ฉันจะทดสอบได้อย่างไรว่าสิ่งที่เกิดขึ้นครั้งแรกไม่ใช่ครั้งที่สอง? ตัวดีบักแบบชาญฉลาดแม้ว่าจะมีอยู่ก็ไม่สามารถช่วยได้เนื่องจากผลลัพธ์ระดับกลางยังคงประกอบด้วยบรรทัดหลายล้านบรรทัด สิ่งเดียวที่ฉันคิดได้ก็คือสร้างชุดข้อมูลสังเคราะห์ขนาดเล็กที่มีคุณสมบัติที่ฉันต้องการทดสอบและเรียกใช้การวิเคราะห์เป็นชุดทดสอบ มีเครื่องมือในการทำเช่นนี้หรือไม่? โดยเฉพาะอย่างยิ่ง แต่ไม่ จำกัด เฉพาะ SQL

10 data-mining sql experiments

คำถามติดแท็ก sql