คำถามติดแท็ก bigdata

Big data เป็นคำศัพท์สำหรับการรวบรวมชุดข้อมูลที่มีขนาดใหญ่และซับซ้อนจนยากที่จะประมวลผลโดยใช้เครื่องมือการจัดการฐานข้อมูลหรือแอปพลิเคชันการประมวลผลข้อมูลแบบดั้งเดิม ความท้าทายรวมถึงการจับ, การจัดการ, การจัดเก็บ, การค้นหา, การแบ่งปัน, การถ่ายโอน, การวิเคราะห์และการสร้างภาพ

3
การจัดการชุดคุณลักษณะที่เพิ่มขึ้นเป็นประจำ
ฉันกำลังทำงานกับระบบตรวจจับการฉ้อโกง ในฟิลด์นี้การฉ้อโกงใหม่จะปรากฏขึ้นเป็นประจำเพื่อให้มีการเพิ่มฟีเจอร์ใหม่ในโมเดลอย่างต่อเนื่อง ฉันสงสัยว่าอะไรคือวิธีที่ดีที่สุดในการจัดการกับมัน (จากมุมมองกระบวนการพัฒนา) เพียงแค่เพิ่มคุณสมบัติใหม่ลงในเวกเตอร์ฟีเจอร์และการฝึกอบรมตัวจําแนกใหม่ดูเหมือนว่าจะไร้เดียงสาเพราะจะใช้เวลามากเกินไปในการเรียนรู้คุณสมบัติเก่าใหม่อีกครั้ง ฉันคิดว่าวิธีการฝึกอบรมตัวจําแนกสำหรับแต่ละคุณสมบัติ (หรือสองสามคุณสมบัติที่เกี่ยวข้อง) แล้วรวมผลของตัวแยกประเภทเหล่านั้นกับลักษณนามโดยรวม มีข้อเสียของวิธีการนี้หรือไม่? ฉันจะเลือกอัลกอริทึมสำหรับตัวจําแนกโดยรวมได้อย่างไร

4
เหตุใดจึงยากที่จะให้ประสิทธิภาพขณะใช้ห้องสมุด
การประมวลผลฐานข้อมูลขนาดเล็กใด ๆ สามารถจัดการได้อย่างง่ายดายโดยสคริปต์ Python / Perl / ... ที่ใช้ไลบรารีและ / หรือยูทิลิตี้จากภาษาเอง อย่างไรก็ตามเมื่อพูดถึงประสิทธิภาพคนมักจะเข้าถึงภาษา C / C ++ / ระดับต่ำ ความเป็นไปได้ของการปรับแต่งโค้ดให้ตรงกับความต้องการดูเหมือนจะเป็นสิ่งที่ทำให้ภาษาเหล่านี้น่าสนใจสำหรับ BigData ไม่ว่าจะเป็นเรื่องการจัดการหน่วยความจำการขนานการเข้าถึงดิสก์หรือการปรับให้เหมาะสมในระดับต่ำ แน่นอนว่าสิทธิประโยชน์ดังกล่าวจะไม่เกิดขึ้นโดยไม่เสียค่าใช้จ่าย: การเขียนรหัสและบางครั้งแม้แต่การสร้างล้อใหม่อาจมีราคาแพง / น่าเบื่อ แม้ว่าจะมีห้องสมุดจำนวนมากที่มีอยู่ แต่ผู้คนก็มีแนวโน้มที่จะเขียนโค้ดด้วยตนเองทุกครั้งที่พวกเขาต้องการให้ประสิทธิภาพ สิ่งที่ปิดใช้งานการยืนยันผลการดำเนินงานจากการใช้ห้องสมุดในขณะที่การประมวลผลฐานข้อมูลขนาดใหญ่? ตัวอย่างเช่นพิจารณาองค์กรที่รวบรวมข้อมูลหน้าเว็บอย่างต่อเนื่องและแยกวิเคราะห์ข้อมูลที่รวบรวม สำหรับแต่ละหน้าต่างแบบเลื่อนอัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันจะถูกเรียกใช้ตามข้อมูลที่แยกออกมา เหตุใดนักพัฒนาจึงไม่สนใจการใช้ไลบรารี / กรอบงานที่มีอยู่ (ไม่ว่าจะเป็นการรวบรวมข้อมูลการประมวลผลข้อความและการขุดข้อมูล) การใช้สิ่งที่นำไปใช้แล้วไม่เพียง แต่ช่วยลดภาระของการเข้ารหัสกระบวนการทั้งหมด แต่ยังช่วยประหยัดเวลาได้อีกมาก ในนัดเดียว : สิ่งที่ทำให้เขียนโค้ดด้วยตัวเองรับประกันของประสิทธิภาพการทำงาน? ทำไมจึงมีความเสี่ยงในการพึ่งพาเฟรมเวิร์ก / ไลบรารีเมื่อคุณต้องรับประกันประสิทธิภาพสูง?

1
หลีกเลี่ยงการโหลด DataFrame ระหว่างเมล็ดหลามที่แตกต่างกัน
มีวิธีการเก็บรักษาตัวแปร (ตารางขนาดใหญ่ / กรอบข้อมูล) ในหน่วยความจำและใช้ร่วมกันในหลาย ๆ โน๊ตบุ๊ค ipython หรือไม่? ฉันกำลังมองหาบางอย่างที่คล้ายกับแนวคิดของ MATLAB ตัวแปรถาวร มีความเป็นไปได้ที่จะเรียกฟังก์ชั่นที่กำหนดเอง / ห้องสมุดจากบรรณาธิการแต่ละคน (โน๊ตบุ๊ค) และมีฟังก์ชั่นภายนอกแคชบางผลลัพธ์ (หรือตารางขนาดใหญ่) ส่วนใหญ่ฉันต้องการหลีกเลี่ยงการโหลดตารางที่ใช้งานหนัก (ซึ่งโหลดผ่านไลบรารีแบบกำหนดเองที่เรียกจากสมุดบันทึก) เนื่องจากการอ่านจะใช้เวลาประมาณ 2-3 นาทีเมื่อใดก็ตามที่ฉันเริ่มการวิเคราะห์ใหม่

2
การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน
ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.