ฉันควรใช้ขั้นตอนเริ่มต้นใดเพื่อให้เข้าใจถึงชุดข้อมูลขนาดใหญ่และฉันควรใช้เครื่องมือใด


10

Caveat: ฉันเป็นผู้เริ่มต้นที่สมบูรณ์เมื่อพูดถึงการเรียนรู้ด้วยเครื่องจักร แต่กระตือรือร้นที่จะเรียนรู้

ฉันมีชุดข้อมูลขนาดใหญ่และฉันพยายามค้นหารูปแบบในนั้น อาจมี / อาจไม่มีความสัมพันธ์ข้ามข้อมูลไม่ว่าจะเป็นตัวแปรที่รู้จักหรือตัวแปรที่มีอยู่ในข้อมูล แต่ที่ฉันยังไม่ได้ตระหนักคือตัวแปร / เกี่ยวข้องจริง ๆ

ฉันเดาว่านี่จะเป็นปัญหาที่คุ้นเคยในโลกของการวิเคราะห์ข้อมูลดังนั้นฉันจึงมีคำถามสองสามข้อ:

  1. 'กระสุนเงิน' จะทำให้ข้อมูลทั้งหมดนี้เป็นโปรแกรมวิเคราะห์สถิติ / ข้อมูลและเพื่อบีบอัดข้อมูลที่มองหารูปแบบที่เป็นที่รู้จัก / ไม่รู้จักซึ่งพยายามค้นหาความสัมพันธ์ SPSS เหมาะสมหรือมีแอปพลิเคชันอื่นซึ่งอาจเหมาะสมกว่า

  2. ฉันควรเรียนรู้ภาษาเช่น R และหาวิธีการประมวลผลข้อมูลด้วยตนเอง สิ่งนี้จะไม่ประกอบด้วยการค้นหาความสัมพันธ์เพราะฉันจะต้องระบุสิ่งที่และวิธีการวิเคราะห์ข้อมูลด้วยตนเอง?

  3. นักขุดข้อมูลมืออาชีพจะเข้าถึงปัญหานี้ได้อย่างไรและขั้นตอนใดที่เขา / เธอต้องทำ?

คำตอบ:


11

ฉันจะพยายามที่จะตอบคำถามของคุณ แต่ก่อนที่ผมอยากจะทราบว่าการใช้คำว่า "ชุดใหญ่" เป็นความเข้าใจผิดขณะที่ "ใหญ่" เป็นญาติแนวคิด คุณต้องให้รายละเอียดเพิ่มเติม หากคุณกำลังจัดการกับข้อมูลการเสนอราคาแล้วความเป็นจริงนี้ส่วนใหญ่จะส่งผลกระทบต่อการเลือกของที่ต้องการเครื่องมือ , วิธีการและขั้นตอนวิธีการสำหรับการวิเคราะห์ข้อมูล ฉันหวังว่าความคิดของฉันต่อไปนี้เกี่ยวกับการวิเคราะห์ข้อมูลจะตอบคำถามย่อยของคุณ โปรดทราบว่าการกำหนดหมายเลขคะแนนของฉันไม่ตรงกับการเรียงคำถามย่อยของคุณ อย่างไรก็ตามฉันเชื่อว่ามันสะท้อนถึงขั้นตอนการวิเคราะห์ข้อมูลทั่วไปได้ดีกว่าอย่างน้อยฉันเข้าใจได้อย่างไร

1) ประการแรกฉันคิดว่าคุณต้องมีรูปแบบแนวคิดอย่างน้อยในใจ (หรือดีกว่าบนกระดาษ) รุ่นนี้ควรคำแนะนำแก่คุณในการวิเคราะห์ข้อมูลการสำรวจ (EDA) การมีตัวแปรตาม (DV)ในแบบจำลองหมายความว่าในระยะการเรียนรู้ของเครื่อง (ML)ในการวิเคราะห์คุณจะต้องจัดการกับ ML ที่เรียกว่าภายใต้การดูแลเมื่อเทียบกับ ML ที่ไม่ได้รับการดูแลในกรณีที่ไม่มี DV ที่ระบุ

2) ประการที่สองEDAเป็นส่วนสำคัญ IMHO, EDA ควรมีการทำซ้ำหลายครั้งเพื่อสร้างสถิติเชิงพรรณนาและการสร้างภาพข้อมูลในขณะที่คุณปรับแต่งความเข้าใจเกี่ยวกับข้อมูล ไม่เพียง แต่ระยะนี้จะให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับชุดข้อมูลของคุณ แต่จะดึงข้อมูลระยะที่สำคัญต่อไปของคุณ - การทำความสะอาดและการแปลงข้อมูล เพียงการขว้างปาข้อมูลดิบของคุณลงในแพคเกจซอฟต์แวร์สถิติจะไม่ให้มาก - สำหรับการใด ๆที่ถูกต้องการวิเคราะห์ทางสถิติข้อมูลควรจะทำความสะอาดที่ถูกต้องและสอดคล้องกัน นี่เป็นส่วนที่ใช้เวลาและความพยายามมากที่สุด แต่ก็จำเป็นอย่างยิ่ง สำหรับรายละเอียดเพิ่มเติมในหัวข้อนี้อ่านเอกสารที่ดีเหล่านี้:http://vita.had.co.nz/papers/tidy-data.pdf (โดย Hadley Wickham) และhttp://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (โดย Edwin de Jonge และ Mark van der Loo)

3) ทีนี้เมื่อคุณทำEDAด้วยความหวังเช่นเดียวกับการล้างข้อมูลและการแปลงข้อมูลแล้วคุณพร้อมที่จะเริ่มขั้นตอนที่เกี่ยวข้องกับสถิติแล้ว หนึ่งในขั้นตอนดังกล่าวคือการวิเคราะห์ปัจจัยเชิงสำรวจ (EFA)ซึ่งจะช่วยให้คุณสามารถแยกโครงสร้างพื้นฐานของข้อมูลของคุณ สำหรับชุดข้อมูลที่มีจำนวนมากของตัวแปรที่มีผลด้านบวกของปวงชนคือการลดมิติ และในขณะที่ EFA นั้นคล้ายคลึงกับการวิเคราะห์องค์ประกอบหลัก (PCA)และวิธีการลดขนาดอื่น ๆ ฉันคิดว่า EFA มีความสำคัญมากกว่าที่จะช่วยปรับแต่งแบบจำลองแนวคิดของคุณเกี่ยวกับปรากฏการณ์ที่ข้อมูลของคุณ "อธิบาย" ดังนั้นจึงเหมาะสมกับชุดข้อมูลของคุณ แน่นอนว่านอกเหนือจาก EFA แล้วคุณสามารถ / ควรทำการวิเคราะห์การถดถอยรวมถึงใช้เทคนิคการเรียนรู้ของเครื่องโดยอิงจากสิ่งที่คุณค้นพบในระยะก่อนหน้านี้

ในที่สุดหมายเหตุเกี่ยวกับเครื่องมือซอฟต์แวร์ ในความคิดของฉันสถานะปัจจุบันของแพคเกจซอฟต์แวร์ทางสถิติอยู่ในจุดที่ว่าในทางปฏิบัติแพคเกจซอฟต์แวร์ที่สำคัญใด ๆ ที่มีคุณสมบัติเทียบเท่าข้อเสนอที่ชาญฉลาด หากคุณศึกษาหรือทำงานในองค์กรที่มีนโยบายและการกำหนดค่าตามความชอบในแง่ของเครื่องมือซอฟต์แวร์คุณจะถูกจำกัดโดยพวกเขา แต่ถ้าที่ไม่ได้กรณีที่ฉันจะตุ้ยๆขอแนะนำโอเพนซอร์สซอฟต์แวร์ทางสถิติขึ้นอยู่กับความสะดวกสบายของคุณกับเฉพาะของการเขียนโปรแกรมภาษา , เส้นโค้งการเรียนรู้ของคุณและมุมมองอาชีพ แพลตฟอร์มที่ฉันเลือกคือR Projectซึ่งนำเสนอซอฟต์แวร์ทางสถิติสำหรับผู้ใหญ่ที่มีความยืดหยุ่นยืดหยุ่นและเปิดกว้างพร้อมกับระบบนิเวศที่น่าตื่นตาตื่นใจของแพ็คเกจผู้เชี่ยวชาญและผู้ที่ชื่นชอบ ทางเลือกที่ดีอื่น ๆ ได้แก่งูหลาม , จูเลียและซอฟต์แวร์โอเพนซอร์สที่เฉพาะเจาะจงสำหรับการประมวลผลข้อมูลขนาดใหญ่เช่นHadoop , Spark , NoSQLฐานข้อมูลWEKA สำหรับตัวอย่างเพิ่มเติมของซอฟต์แวร์โอเพนซอร์สสำหรับการทำเหมืองข้อมูลซึ่งรวมถึงทั่วไปและเฉพาะทางสถิติและซอฟแวร์ ML ดูส่วนนี้ของหน้าวิกิพีเดีย: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications

อัพเดท: ลืมพูดถึงRattle ( http://rattle.togaware.com ) ซึ่งเป็นซอฟต์แวร์โอเพ่นซอร์ส R-oriented GUI สำหรับการขุดข้อมูล


1
หลังจากกลับมาที่คำถามนี้ในอีกหนึ่งปีต่อมาฉันสามารถสะท้อนได้อย่างแน่นอนว่าการรู้ข้อมูลของคุณเป็นกุญแจสำคัญและคุณจำเป็นต้องทราบว่าข้อมูล "ดี" และข้อมูล "ไม่ดี" คืออะไร ฉันพยายามใช้โซลูชันที่มีมนต์ขลังเช่นเครือข่ายประสาทเทียม ฯลฯ แต่กระบวนการล้างข้อมูลไม่ใช่เรื่องง่าย (โมเดลมาร์คอฟที่ซ่อนอยู่ดูเหมือนจะตอบสนองต่อสิ่งที่ดีที่สุดในการป้อนข้อมูลสกปรกและสามารถคาดการณ์ผลลัพธ์ที่ดีที่สุด) มันเป็นสิ่งเร้าเพียงแค่เทลงในข้อมูลเป็นเวลาหลายสัปดาห์หลังจาก ML ล้มเหลวและหลังจากทำกราฟหลายภาพ สำคัญ) ที่ฉันสามารถหาวิธีแก้ไขปัญหาของฉันได้!
3791372

@ user3791372 ดีใจที่ได้ยินจากคุณ! เห็นได้ชัดว่าปีนั้นมีประสิทธิผลสำหรับคุณในการทำความเข้าใจที่ดีขึ้นในด้านต่าง ๆ ของวิทยาศาสตร์ข้อมูล ฉันหวังว่าฉันจะมีโอกาสได้เรียนรู้มากขึ้น แต่ในทางกลับกันฉันก็ไม่สามารถบ่นได้เพราะฉันเรียนรู้ค่อนข้างมากเช่นกัน (ไม่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเสมอไป แต่อาจจะดีกว่า) ตามทัน!
Aleksandr Blekh

3
  1. SPSS เป็นเครื่องมือที่ยอดเยี่ยม แต่คุณสามารถใช้ทรัพยากรที่คุณมีอยู่แล้วบนคอมพิวเตอร์เช่น Excel หรือที่ว่างเช่นโครงการ R แม้ว่าเครื่องมือเหล่านี้จะมีประสิทธิภาพและสามารถช่วยคุณระบุรูปแบบได้ แต่คุณต้องมีความเข้าใจข้อมูลของคุณก่อนทำการวิเคราะห์ (ฉันขอแนะนำให้ใช้สถิติเชิงพรรณนาในข้อมูลของคุณและสำรวจข้อมูลด้วยกราฟเพื่อให้แน่ใจว่าทุกอย่าง มันดูเป็นปกติ) กล่าวอีกนัยหนึ่งเครื่องมือที่คุณใช้จะไม่เสนอ "กระสุนเงิน" เนื่องจากเอาต์พุตจะมีค่าเท่ากับอินพุต (คุณรู้คำพูดว่า ... "ขยะเข้าขยะออก") สิ่งที่ฉันพูดมากได้รับการระบุไว้ในการตอบกลับโดยอเล็กซานเดอร์ - จุดบน

  2. R สามารถท้าทายสำหรับพวกเราที่ไม่เข้าใจการเข้ารหัส แต่แหล่งข้อมูลฟรีที่เกี่ยวข้องกับ R และแพ็คเกจมีมากมาย หากคุณฝึกการเรียนรู้โปรแกรมคุณจะได้รับแรงฉุดอย่างรวดเร็ว อีกครั้งคุณจะต้องคุ้นเคยกับข้อมูลของคุณและการวิเคราะห์ที่คุณต้องการเรียกใช้ต่อไปและความจริงนั้นยังคงอยู่โดยไม่คำนึงถึงเครื่องมือทางสถิติที่คุณใช้

  3. ฉันจะเริ่มด้วยการทำความคุ้นเคยกับข้อมูลของฉัน (ทำตามขั้นตอนที่ระบุไว้ในคำตอบจาก Aleksandr สำหรับการเริ่ม) คุณอาจพิจารณาหยิบหนังสือของ John Foreman ที่ชื่อว่า Data Smart มันเป็นหนังสือเชิงปฏิบัติเนื่องจาก John มีชุดข้อมูลและคุณติดตามพร้อมกับตัวอย่างของเขา (ใช้ Excel) เพื่อเรียนรู้วิธีการนำทางและสำรวจข้อมูลที่หลากหลาย สำหรับผู้เริ่มต้นมันเป็นทรัพยากรที่ยอดเยี่ยม


2

Aleksandr ได้ให้คำอธิบายอย่างละเอียด แต่ในเวลาสั้น ๆ นี่คือขั้นตอนต่อไปนี้:

แยกข้อมูล

ทำความสะอาดข้อมูล

การแยกคุณสมบัติ

แบบจำลองอาคาร

การอนุมานผลลัพธ์

ผลการเผยแพร่

ทำซ้ำขั้นตอนที่ 3,4,5 ในลูปจนกว่าคุณจะได้ความถูกต้องที่เหมาะสม


0

R มีGUI ไดอะล็อก pncเช่น SPSS พวกเขาพิมพ์รหัส R เพื่อให้คุณสามารถเรียนรู้และรวมความพยายามของพวกเขา ฉันอยากจะแนะนำ BlueSky เพราะเป็นบทสนทนาสำหรับทุกสิ่งและสั่นสะเทือน ในขณะที่ซอฟต์แวร์เหล่านี้ยอดเยี่ยมสำหรับ EDA สถิติและการสร้างภาพข้อมูลการเรียนรู้ของเครื่องยังทำได้ไม่ดีนัก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.