ฉันจะพยายามที่จะตอบคำถามของคุณ แต่ก่อนที่ผมอยากจะทราบว่าการใช้คำว่า "ชุดใหญ่" เป็นความเข้าใจผิดขณะที่ "ใหญ่" เป็นญาติแนวคิด คุณต้องให้รายละเอียดเพิ่มเติม หากคุณกำลังจัดการกับข้อมูลการเสนอราคาแล้วความเป็นจริงนี้ส่วนใหญ่จะส่งผลกระทบต่อการเลือกของที่ต้องการเครื่องมือ , วิธีการและขั้นตอนวิธีการสำหรับการวิเคราะห์ข้อมูล ฉันหวังว่าความคิดของฉันต่อไปนี้เกี่ยวกับการวิเคราะห์ข้อมูลจะตอบคำถามย่อยของคุณ โปรดทราบว่าการกำหนดหมายเลขคะแนนของฉันไม่ตรงกับการเรียงคำถามย่อยของคุณ อย่างไรก็ตามฉันเชื่อว่ามันสะท้อนถึงขั้นตอนการวิเคราะห์ข้อมูลทั่วไปได้ดีกว่าอย่างน้อยฉันเข้าใจได้อย่างไร
1) ประการแรกฉันคิดว่าคุณต้องมีรูปแบบแนวคิดอย่างน้อยในใจ (หรือดีกว่าบนกระดาษ) รุ่นนี้ควรคำแนะนำแก่คุณในการวิเคราะห์ข้อมูลการสำรวจ (EDA) การมีตัวแปรตาม (DV)ในแบบจำลองหมายความว่าในระยะการเรียนรู้ของเครื่อง (ML)ในการวิเคราะห์คุณจะต้องจัดการกับ ML ที่เรียกว่าภายใต้การดูแลเมื่อเทียบกับ ML ที่ไม่ได้รับการดูแลในกรณีที่ไม่มี DV ที่ระบุ
2) ประการที่สองEDAเป็นส่วนสำคัญ IMHO, EDA ควรมีการทำซ้ำหลายครั้งเพื่อสร้างสถิติเชิงพรรณนาและการสร้างภาพข้อมูลในขณะที่คุณปรับแต่งความเข้าใจเกี่ยวกับข้อมูล ไม่เพียง แต่ระยะนี้จะให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับชุดข้อมูลของคุณ แต่จะดึงข้อมูลระยะที่สำคัญต่อไปของคุณ - การทำความสะอาดและการแปลงข้อมูล เพียงการขว้างปาข้อมูลดิบของคุณลงในแพคเกจซอฟต์แวร์สถิติจะไม่ให้มาก - สำหรับการใด ๆที่ถูกต้องการวิเคราะห์ทางสถิติข้อมูลควรจะทำความสะอาดที่ถูกต้องและสอดคล้องกัน นี่เป็นส่วนที่ใช้เวลาและความพยายามมากที่สุด แต่ก็จำเป็นอย่างยิ่ง สำหรับรายละเอียดเพิ่มเติมในหัวข้อนี้อ่านเอกสารที่ดีเหล่านี้:http://vita.had.co.nz/papers/tidy-data.pdf (โดย Hadley Wickham) และhttp://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (โดย Edwin de Jonge และ Mark van der Loo)
3) ทีนี้เมื่อคุณทำEDAด้วยความหวังเช่นเดียวกับการล้างข้อมูลและการแปลงข้อมูลแล้วคุณพร้อมที่จะเริ่มขั้นตอนที่เกี่ยวข้องกับสถิติแล้ว หนึ่งในขั้นตอนดังกล่าวคือการวิเคราะห์ปัจจัยเชิงสำรวจ (EFA)ซึ่งจะช่วยให้คุณสามารถแยกโครงสร้างพื้นฐานของข้อมูลของคุณ สำหรับชุดข้อมูลที่มีจำนวนมากของตัวแปรที่มีผลด้านบวกของปวงชนคือการลดมิติ และในขณะที่ EFA นั้นคล้ายคลึงกับการวิเคราะห์องค์ประกอบหลัก (PCA)และวิธีการลดขนาดอื่น ๆ ฉันคิดว่า EFA มีความสำคัญมากกว่าที่จะช่วยปรับแต่งแบบจำลองแนวคิดของคุณเกี่ยวกับปรากฏการณ์ที่ข้อมูลของคุณ "อธิบาย" ดังนั้นจึงเหมาะสมกับชุดข้อมูลของคุณ แน่นอนว่านอกเหนือจาก EFA แล้วคุณสามารถ / ควรทำการวิเคราะห์การถดถอยรวมถึงใช้เทคนิคการเรียนรู้ของเครื่องโดยอิงจากสิ่งที่คุณค้นพบในระยะก่อนหน้านี้
ในที่สุดหมายเหตุเกี่ยวกับเครื่องมือซอฟต์แวร์ ในความคิดของฉันสถานะปัจจุบันของแพคเกจซอฟต์แวร์ทางสถิติอยู่ในจุดที่ว่าในทางปฏิบัติแพคเกจซอฟต์แวร์ที่สำคัญใด ๆ ที่มีคุณสมบัติเทียบเท่าข้อเสนอที่ชาญฉลาด หากคุณศึกษาหรือทำงานในองค์กรที่มีนโยบายและการกำหนดค่าตามความชอบในแง่ของเครื่องมือซอฟต์แวร์คุณจะถูกจำกัดโดยพวกเขา แต่ถ้าที่ไม่ได้กรณีที่ฉันจะตุ้ยๆขอแนะนำโอเพนซอร์สซอฟต์แวร์ทางสถิติขึ้นอยู่กับความสะดวกสบายของคุณกับเฉพาะของการเขียนโปรแกรมภาษา , เส้นโค้งการเรียนรู้ของคุณและมุมมองอาชีพ แพลตฟอร์มที่ฉันเลือกคือR Projectซึ่งนำเสนอซอฟต์แวร์ทางสถิติสำหรับผู้ใหญ่ที่มีความยืดหยุ่นยืดหยุ่นและเปิดกว้างพร้อมกับระบบนิเวศที่น่าตื่นตาตื่นใจของแพ็คเกจผู้เชี่ยวชาญและผู้ที่ชื่นชอบ ทางเลือกที่ดีอื่น ๆ ได้แก่งูหลาม , จูเลียและซอฟต์แวร์โอเพนซอร์สที่เฉพาะเจาะจงสำหรับการประมวลผลข้อมูลขนาดใหญ่เช่นHadoop , Spark , NoSQLฐานข้อมูลWEKA สำหรับตัวอย่างเพิ่มเติมของซอฟต์แวร์โอเพนซอร์สสำหรับการทำเหมืองข้อมูลซึ่งรวมถึงทั่วไปและเฉพาะทางสถิติและซอฟแวร์ ML ดูส่วนนี้ของหน้าวิกิพีเดีย: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications
อัพเดท: ลืมพูดถึงRattle ( http://rattle.togaware.com ) ซึ่งเป็นซอฟต์แวร์โอเพ่นซอร์ส R-oriented GUI สำหรับการขุดข้อมูล