การเขียนโปรแกรม data-processing

วิธีทำให้เส้นโค้งเรียบในวิธีที่ถูกต้อง?

สมมติว่าเรามีชุดข้อมูลที่อาจได้รับประมาณ import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 ดังนั้นเราจึงมีรูปแบบของชุดข้อมูล 20% ความคิดแรกของฉันคือการใช้ฟังก์ชัน UnivariateSpline ของ scipy แต่ปัญหาคือว่านี่ไม่ได้พิจารณาว่าเสียงเล็ก ๆ ในทางที่ดี หากคุณพิจารณาความถี่พื้นหลังมีขนาดเล็กกว่าสัญญาณดังนั้นเส้นโค้งเพียงจุดตัดอาจเป็นแนวคิด แต่จะเกี่ยวข้องกับการแปลงฟูเรียร์ไปมาซึ่งอาจทำให้เกิดพฤติกรรมที่ไม่ดี อีกวิธีหนึ่งก็คือค่าเฉลี่ยเคลื่อนที่ แต่ก็ต้องมีทางเลือกที่เหมาะสมของความล่าช้า คำแนะนำ / หนังสือหรือลิงก์วิธีแก้ไขปัญหานี้

201 python numpy scipy signal-processing data-processing

การประมวลผลข้อมูลขนาดใหญ่ Hbase เทียบกับ Cassandra [ปิด]

ตามที่กล่าวมาในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบถาม & ตอบของเรา เราคาดหวังว่าคำตอบจะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจก่อให้เกิดการถกเถียงโต้แย้งการสำรวจความคิดเห็นหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงได้และอาจเปิดขึ้นมาใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อรับคำแนะนำ ปิดให้บริการใน8 ปีที่ผ่านมา ฉันเกือบจะถึงที่ Cassandra หลังจากค้นคว้าเกี่ยวกับโซลูชันการจัดเก็บข้อมูลขนาดใหญ่ แต่โดยทั่วไปกล่าวว่า Hbase เป็นทางออกที่ดีกว่าสำหรับการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ ในขณะที่ทั้งสองเป็นที่เก็บคีย์ / ค่าเดียวกันและทั้งคู่ / สามารถรันได้ (Cassandra เมื่อเร็ว ๆ นี้) เลเยอร์ Hadoop สิ่งที่ทำให้ Hadoop เป็นผู้สมัครที่ดีกว่าเมื่อต้องประมวลผล / วิเคราะห์ข้อมูลขนาดใหญ่ ฉันยังพบรายละเอียดที่ดีเกี่ยวกับทั้งสองอย่างที่ http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/ แต่ฉันยังคงมองหาข้อดีที่เป็นรูปธรรมของ Hbase ในขณะที่ฉันเชื่อมั่นมากขึ้นเกี่ยวกับ Cassandra เพราะความเรียบง่ายในการเพิ่มโหนดและการจำลองแบบที่ราบรื่นและไม่มีจุดบกพร่อง และยังคงคุณสมบัติดัชนีทุติยภูมิเพื่อให้เป็นบวกที่ดี

84 nosql hadoop cassandra hbase data-processing

คำถามติดแท็ก data-processing