จากมุมมองของฉันคำถามนี้เหมาะสำหรับคำตอบสองขั้นตอน ส่วนแรกให้เราเรียกว่าการประมวลผลล่วงหน้าแบบนุ่มนวลสามารถนำมาใช้เป็นการใช้อัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันเพื่อประมวลผลข้อมูลล่วงหน้าในลักษณะที่ทำให้เหมาะสำหรับการวิเคราะห์ต่อไป โปรดสังเกตว่านี่อาจเป็นการวิเคราะห์ด้วยตัวเองในกรณีที่เป้าหมายง่ายพอที่จะจัดการในช็อตเดียว
ส่วนที่สองคือการประมวลผลล่วงหน้ายากจริง ๆ แล้วมาก่อนกระบวนการอื่น ๆ และอาจถูกใช้เป็นการใช้เครื่องมือหรือสคริปต์ง่าย ๆ ในการล้างข้อมูลเลือกเนื้อหาเฉพาะที่จะประมวลผล สำหรับปัญหานี้ POSIX มอบชุดเครื่องมือวิเศษที่น่าอัศจรรย์ให้กับเราซึ่งสามารถใช้ในการเขียนสคริปต์ที่รัดกุมและมีประสิทธิภาพมาก
ตัวอย่างเช่นสำหรับผู้ที่จัดการกับข้อมูลที่มาจากเว็บไซต์โซเชียล (twitter, facebook, ... ) การดึงข้อมูลมักจะให้ไฟล์ที่มีรูปแบบที่เฉพาะเจาะจงมาก - แม้ว่าจะไม่ได้มีโครงสร้างที่ดีเสมอไป . สำหรับกรณีเหล่านี้awk
สคริปต์ง่าย ๆสามารถล้างข้อมูลสร้างไฟล์อินพุตที่ถูกต้องสำหรับการประมวลผลในภายหลัง จากชุดมายากลหนึ่งยังอาจชี้ให้เห็นgrep
, sed
, cut
, join
, paste
, sort
และหลากหลายทั้งเครื่องมืออื่น ๆ
ในกรณีที่ไฟล์ต้นฉบับง่ายมีจำนวนมากเกินไปก็อาจจำเป็นต้องสร้างชุดของวิธีการในการล้างข้อมูล ในกรณีดังกล่าวโดยปกติแล้วจะดีกว่าหากใช้ภาษาสคริปต์ (นอกเหนือจากเชลล์) เช่น Python, Ruby และ Perl สิ่งนี้ช่วยให้การสร้างAPIของการเลือกข้อมูลเฉพาะอย่างตรงไปตรงมาและนำมาใช้ใหม่ บางครั้งAPIดังกล่าวบางครั้งจะเผยแพร่ต่อสาธารณะโดยนักเขียนของพวกเขาเช่นIMDbPY , Stack Exchange APIและอื่น ๆ อีกมากมาย
ดังนั้นการตอบคำถาม: มีวิธีปฏิบัติที่ดีที่สุดหรือไม่? มันมักจะขึ้นอยู่กับงานของคุณ หากคุณจะจัดการกับรูปแบบข้อมูลเดิมเสมอควรเขียนสคริปต์ที่มีการจัดระเบียบเพื่อประมวลผลล่วงหน้า ในขณะที่ถ้าคุณเพียงแค่ต้องง่ายและทำความสะอาดอย่างรวดเร็วในชุดข้อมูลที่บางนับบนเครื่องมือ POSIX สคริปต์กระชับเปลือกที่จะดำเนินงานทั้งหมดมากเร็วกว่าสคริปต์ Python หรือดังนั้น เนื่องจากการล้างข้อมูลขึ้นอยู่กับทั้งชุดข้อมูลและตามวัตถุประสงค์ของคุณจึงยากที่จะทำทุกอย่างเรียบร้อยแล้ว ยังมี API จำนวนมากที่ทำให้คุณผ่านพ้นปัญหาไปได้ครึ่งทาง