คำถามติดแท็ก data-analysis

2
อัลกอริทึมสำหรับปัญหาการมอบหมายทั่วไปหลายต่อหลายคน
ฉันดูเหมือนจะไม่พบวรรณกรรมใด ๆ เกี่ยวกับอัลกอริทึมที่สามารถใช้ในการแก้ปัญหาการมอบหมายทั่วไปแบบหลายต่อหลายคน (GAP) เช่นแบบจำลองที่ไม่เพียง แต่สามารถมอบหมายงานเพิ่มเติมให้กับตัวแทนเพียงคนเดียวเท่านั้น มอบหมายให้กับภารกิจเดียว (หนึ่งต่อหนึ่งและหนึ่งต่อหลาย AP ถูกกล่าวถึงในกระดาษโดย Pentico) ฉันรู้ปัญหาเกี่ยวกับการมอบหมายถัดไป แต่ฉันพบปัญหาเช่นนี้ในระหว่างการวิจัยของฉันและต้องการทราบเพิ่มเติมเกี่ยวกับวิธีการแก้ปัญหา เป็นไปได้ไหมที่ GAP หลายต่อหลายคนนั้นเป็นที่รู้จักภายใต้ชื่ออื่นหรือมีเหตุผลที่แตกต่างกันว่าทำไมจึงมีวรรณกรรมน้อยมากที่สามารถพบได้ Pentico, D. ปัญหาการมอบหมายงาน: โกลเด้นฉลองครบรอบการสำรวจ วารสารวิจัยการปฏิบัติการแห่งยุโรป (2550); 176 (2): 774-793

3
แนวปฏิบัติที่ดีที่สุดสำหรับการจัดเก็บข้อมูลการจำลองแบบลำดับชั้น
TL, DR แนวปฏิบัติที่ดีที่สุดที่ได้รับการยอมรับในวงการคำนวณทางวิทยาศาสตร์คืออะไรสำหรับการจัดเก็บข้อมูลที่มีโครงสร้างเป็นลำดับชั้นจำนวนมาก ตัวอย่างเช่น SQL ไม่สามารถเล่นได้ดีกับเมทริกซ์กระจัดกระจายขนาดใหญ่ มีเครื่องมือที่ดีสำหรับการจัดโครงสร้างคลังสินค้าและการวิเคราะห์ข้อมูลประเภทนี้หรือไม่? พวก LHC ใช้อะไร? ใช้รายละเอียดเคส ฉันต้องการจัดเก็บข้อมูลจากการจำลองโปรตีนตามลำดับชั้นดังต่อไปนี้: protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms โปรตีนทุกชนิดควรตระหนักถึงสิ่งตกค้างแต่ละอะตอมทุกอะตอมควรรู้เงื่อนไขที่ใช้ในการจำลองสถานการณ์ ฯลฯ และในทางกลับกัน แต่เดิมฉันคิดว่าฐานข้อมูลเชิงสัมพันธ์จะสมบูรณ์แบบสำหรับแอปพลิเคชันนี้และดังนั้นฉันจึงเขียนโปรแกรมโดยใช้ python และ sqlalchemey ที่เก็บข้อมูลในฐานข้อมูล SQL อย่างไรก็ตามในทางปฏิบัติโปรแกรมนี้ทำงานได้ไม่ดีนัก ปัญหาที่ใหญ่ที่สุดเกี่ยวข้องกับความจริงที่ว่ามีเมทริกซ์ N x N ที่ระดับข้อมูลผู้ตรวจสอบที่เก็บพลังงานที่มีศักยภาพเนื่องจากการมีปฏิสัมพันธ์ระหว่างคู่ที่เป็นไปได้ทุกคู่ที่เป็นไปได้ รายการส่วนใหญ่ในเมทริกซ์เป็นศูนย์ดังนั้นฉันจึงจัดเก็บเมทริกซ์ในตารางแยกต่างหากในฐานข้อมูลในรูปแบบที่กระจัดกระจายหนึ่งแถวต่อรายการ น่าเสียดายที่การจำลองที่เกี่ยวข้องกับผู้ใช้หลายพันคนโต๊ะคู่ยังคงจบลงด้วยแถวหลายแสนแถวและ: a) การสร้างและการสืบค้นช้ามาก (ชั่วโมง) b) ใช้ลำดับความสำคัญของพื้นที่บนฮาร์ดไดรฟ์ของฉันมากกว่าการแสดงข้อความธรรมดาที่เทียบเท่ากันของข้อมูลในฐานะที่เป็นเมทริกซ์ที่ไม่หรี่ c) ใช้หน่วยความจำมากกว่าสิบกิกะไบต์ ตารางถูกอ่านในหน่วยความจำ เป้าหมายสูงสุดของฉันคือการจัดเก็บการวิ่งนับหมื่นนับพัน (มาจากโปรตีนหลายพันภายใต้เงื่อนไขการจำลองหลายโหล) ในฐานข้อมูลเพื่อให้พวกเขาสามารถวิเคราะห์ร่วมกัน นี่หมายความว่าตารางที่แสดงถึงเมทริกซ์การจับคู่ที่น่าจะเติบโตประมาณหนึ่งพันล้านแถว ขณะนี้ดูเหมือนว่าฉันจะต้อง Cray หรือสัตว์ประหลาดหน่วยความจำที่ใช้ร่วมกันอื่น …

4
อัลกอริทึม PCA ที่เร็วที่สุดสำหรับข้อมูลมิติสูง
ฉันต้องการแสดง PCA บนชุดข้อมูลซึ่งประกอบด้วยตัวอย่างประมาณ 40,000 ตัวอย่างแต่ละตัวอย่างแสดงคุณสมบัติประมาณ 10,000 รายการ การใช้ฟังก์ชั่น princomp Matlab ใช้เวลาอย่างต่อเนื่องมากกว่าครึ่งชั่วโมงซึ่งเป็นจุดที่ฉันฆ่ากระบวนการ ฉันต้องการค้นหาการนำไปใช้ / อัลกอริทึมที่ใช้เวลาน้อยกว่า 10 นาที อัลกอริทึมที่เร็วที่สุดคืออะไร ต้องใช้เวลานานเท่าไรกับ i7 dual core / 4GB Ram?

2
ข้อ จำกัด ของ Pandas และทางเลือกใน Python
ฉันอ่านที่ไหนสักแห่งที่Pandasได้รับการพัฒนาเป็นครั้งแรกสำหรับโลกการเงินอย่างน้อยก็ไม่ได้โดยเฉพาะอย่างยิ่งสำหรับวิทยาศาสตร์ธรรมชาติ (ฟิสิกส์ชีววิทยาและอื่น ๆ ) ดังนั้นการวิเคราะห์ข้อมูลใดที่คล้ายกัน Python แพ็คเกจ "วิทยาศาสตร์ธรรมชาติเชิง" ฉันเพิ่งเริ่มใช้ Pandas และฉันพบปัญหาสองอย่างที่ฉันไม่สามารถแก้ไขได้โดยไม่ใช้แพ็คเกจอื่นหรือวิธีแก้ปัญหาแบบโฮมเมด: จะจัดการความไม่แน่นอนได้อย่างไร จะกำหนดหน่วยข้อมูลของฉันได้อย่างง่ายดายได้อย่างไร? อาจมีปัญหาอื่น ๆ แต่ฉันไม่มีประสบการณ์ที่จะแม่นยำมากขึ้น ในตอนนี้ฉันคิดถึงแพ็คเกจความไม่แน่นอนที่จะแก้จุดแรก แต่ฉันไม่แน่ใจว่ามันจะทำงานได้ดีกับนุ่นและจะไม่ลดความเร็วในการคำนวณ ที่จริงแล้วฉันไม่ได้มองหาวิธีการคำนวณด้วยความไม่แน่นอนเพียงวิธีง่ายๆในการจัดเก็บความไม่แน่นอนพร้อมกับข้อมูลที่นำเข้าของฉัน สำหรับจุดที่สองฉันไม่พบทางออกที่ดีไปกว่าการสร้างพจนานุกรมนอกเหนือจาก DataFrame ของฉันเพื่อจัดการหน่วยที่เกี่ยวข้องกับแต่ละข้อมูล หากคุณเคยประสบปัญหาเดียวกันคุณจะแก้ไขได้อย่างไรหรือใช้แพคเกจอื่นใดในการจัดการ / จัดเก็บ / วิเคราะห์ข้อมูลใน Python ในสาขาวิทยาศาสตร์ธรรมชาติ

2
จับคู่รายการที่คล้ายกันจากชุด
ฉันพยายามจับคู่สิ่งของ เมื่อได้ชุดของรายการฉันสามารถจัดอันดับจากระดับ 0 ถึง 100 ของความคล้ายคลึงกัน ตัวอย่างเช่นหากรายการเป็นนมและรายการเป็นนมเช่นกันความคล้ายคลึงกันระหว่างและจะเท่ากับ 100% ถ้าเป็นโซดาความคล้ายคลึงกันระหว่างและก็อาจจะเป็น 80% และอื่น ๆnnnn1n1n_1n2n2n_2n1n1n_1n2n2n_2n3n3n_3n1n1n_1n3n3n_3 ฉันกำลังพยายามหาวิธีจัดกลุ่มรายการเป็นกลุ่มของรายการที่คล้ายกัน แต่มันเป็นปัญหาที่ท้าทาย ฉันพบปัญหาต่อไปนี้: ม้าคล้ายกับวัวซึ่งคล้ายกับแพะซึ่งคล้ายกันในส่วนของชีสแพะซึ่งคล้ายกับชีสซึ่งมีความสัมพันธ์กับแครกเกอร์ อย่างไรก็ตามฉันไม่คิดว่าม้าจะอยู่ในกลุ่มเดียวกับแคร็กเกอร์ แต่ละรายการอาจมีความสัมพันธ์คู่กัน แต่จุดเริ่มต้นและจุดสิ้นสุดอาจไม่ใช่nnn ความคิดใด ๆ

1
ความแตกต่างระหว่างวิทยาศาสตร์คอมพิวเตอร์และวิทยาศาสตร์ข้อมูลคืออะไร? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา พื้นหลัง: ปริญญาเอกของฉันอยู่ใน 'วิทยาศาสตร์การคำนวณ' วิทยานิพนธ์ของฉันอยู่ที่การวิเคราะห์ข้อมูลการเลี้ยวเบนของรังสีเอกซ์และการวิเคราะห์นิวเคลียสที่ถูกรบกวนทางความร้อนในการวิเคราะห์แบบไดนามิกโดยรวมของความหนาแน่นของอิเล็กตรอนโมเลกุลสำหรับฟิสิกส์สถานะของแข็ง Takeaway หรือไม่ มันมีพื้นฐานทางวิทยาศาสตร์เป็นอย่างมาก ในความคิดของฉันวิทยาศาสตร์การคำนวณคือการแสวงหาวิทยาศาสตร์ "... องค์กรที่เป็นระบบที่สร้างและจัดการความรู้ในรูปแบบของคำอธิบายที่ทดสอบได้และคำทำนายเกี่ยวกับจักรวาล" ( วิกิ ) โดยใช้วิธีการคำนวณ อย่างไรก็ตามตำแหน่งส่วนใหญ่สำหรับ 'วิทยาศาสตร์ข้อมูล' ดูเหมือนจะเป็นงานประเภท 'การวิเคราะห์ข้อมูล' มากกว่า นั่นคือคิวรี SQL จำนวนมากโดยใช้โมเดล R และ Python ที่สร้างไว้ล่วงหน้า (การถดถอยเชิงเส้น ฯลฯ ) เพื่อดึงข้อสรุปจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง วิทยาศาสตร์คอมพิวเตอร์เป็นศาสตร์ด้านข้อมูลหรือไม่? พวกเขาใช้แทนกันได้หรือไม่ วิทยาศาสตร์ข้อมูลเป็น 'วิทยาศาสตร์' จริงหรือไม่ วิทยาศาสตร์การคำนวณเป็น 'วิทยาศาสตร์' จริงหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.