เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ
เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ
คำตอบ:
ไม่นานมานี้ฉันมีงานสัมภาษณ์ตำแหน่งวิทยาการข้อมูล ฉันได้รับชุดข้อมูลและขอให้สร้างแบบจำลองการทำนายเพื่อทำนายตัวแปรไบนารีบางตัวที่ได้รับจากคนอื่น ๆ โดยมีเวลา จำกัด สองสามชั่วโมง
ฉันผ่านตัวแปรแต่ละตัวในทางกลับกันทำกราฟสร้างกราฟคำนวณสถิติสรุป ฯลฯ และฉันคำนวณความสัมพันธ์ระหว่างตัวแปรตัวเลขด้วย
ท่ามกลางสิ่งที่ฉันพบคือ:
ประเด็นของฉันคือสิ่งเหล่านี้เป็นสิ่งที่ถูกวางไว้อย่างจงใจเพื่อดูว่าผู้คนจะสังเกตเห็นพวกเขาก่อนที่จะพยายามสร้างแบบจำลองหรือไม่ บริษัท ใส่เข้าไปเพราะมันเป็นสิ่งที่สามารถเกิดขึ้นได้ในชีวิตจริงและส่งผลกระทบอย่างมากต่อประสิทธิภาพของโมเดล
ใช่แล้ว EDA นั้นสำคัญเมื่อทำการเรียนรู้ด้วยเครื่อง!
เห็นได้ชัดว่าใช่
การวิเคราะห์ข้อมูลอาจนำคุณไปสู่หลายจุดที่จะทำให้แบบจำลองการทำนายของคุณเสียหาย:
สมมติว่าเรากำลังพูดถึงข้อมูลเชิงปริมาณคุณจะต้องตัดสินใจว่าคุณต้องการละเว้นคอลัมน์ (หากมีข้อมูลขาดหายไปมากเกินไป) หรือคิดออกว่าจะเป็นค่า "เริ่มต้น" ของคุณ (ค่าเฉลี่ย, โหมด, ฯลฯ ) คุณไม่สามารถทำได้โดยไม่สำรวจข้อมูลของคุณก่อน
สมมติว่าคุณมีข้อมูลที่มีความสัมพันธ์ค่อนข้างดี แต่มี 2% ของข้อมูลของคุณซึ่งเป็นวิธีที่ปิดความสัมพันธ์นี้ คุณอาจต้องการลบข้อมูลนี้ทั้งหมดเพื่อช่วยโมเดลการทำนายของคุณ
ตกลงสิ่งนี้ขัดแย้งกับจุดก่อนหน้าของฉันเล็กน้อย แต่ภาษาอังกฤษไม่ใช่ภาษาหลักของฉันดังนั้นฉันหวังว่าคุณจะเข้าใจ
ฉันจะยกตัวอย่างโง่พูดว่าคุณวิเคราะห์ชุดข้อมูลสนามกีฬาของฟุตบอลและคุณมีWidth, Length, Area
พารามิเตอร์ เราสามารถจินตนาการได้อย่างง่ายดายว่าพารามิเตอร์ทั้งสามนี้จะมีความสัมพันธ์กันอย่างมาก การมีความสัมพันธ์กันมากเกินไประหว่างคอลัมน์ของคุณทำให้โมเดลการทำนายผิดไปในทิศทางที่ผิด คุณอาจตัดสินใจลบพารามิเตอร์อย่างน้อยหนึ่งรายการ
ฉันจะเอาตัวอย่างของขนาดเล็กไททานิค Kaggle "การแข่งขัน" เมื่อดูที่ชื่อของบุคคลคุณสามารถเข้าใจได้ว่าคุณสามารถแยกคุณลักษณะที่เป็นTitle
ของบุคคลนั้นออกได้ คุณลักษณะนี้ค่อนข้างสำคัญเมื่อพูดถึงการสร้างแบบจำลอง แต่คุณจะพลาดหากคุณไม่ได้วิเคราะห์ข้อมูลของคุณก่อน
คุณอาจตัดสินใจที่จะทิ้งข้อมูลต่อเนื่องของคุณเพราะรู้สึกว่าเหมาะสมกว่าหรือเปลี่ยนฟีเจอร์ต่อเนื่องให้เป็นหมวดหมู่
ตอนนี้ฉันไม่สามารถวาดพล็อตได้ แต่ขอยกตัวอย่างง่ายๆ
ลองนึกภาพว่าคุณมีโมเดลขนาดเล็กที่มีคอลัมน์คุณลักษณะหนึ่งคอลัมน์และไบนารี "ผลลัพธ์" หนึ่งคอลัมน์ (0 หรือ 1 เท่านั้น) คุณต้องการสร้างแบบจำลองการจำแนกประเภทแบบทำนายคำสำหรับชุดข้อมูลนี้
หากเป็นอีกตัวอย่างหนึ่งคุณต้องพล็อตมัน (เช่นวิเคราะห์ข้อมูลของคุณ) คุณอาจรู้ว่าพล็อตนั้นก่อตัวเป็นวงกลมที่สมบูรณ์แบบรอบ 1 ค่าของคุณ ในสถานการณ์ดังกล่าวถ้าเห็นได้ชัดว่าคุณสามารถใช้ตัวจําแนกพหุนามเพื่อมีโมเดลที่ดีแทนที่จะกระโดดไปที่ DNN (เห็นได้ชัดว่าการพิจารณามีเพียงสองคอลัมน์ในตัวอย่างของฉันมันไม่ได้ทำเพื่อเป็นตัวอย่างที่ยอดเยี่ยม แต่คุณได้ประเด็น)
โดยรวมแล้วคุณไม่สามารถคาดหวังรูปแบบการคาดการณ์ที่จะทำงานได้ดีหากคุณไม่ได้ดูข้อมูลก่อน
สิ่งสำคัญอย่างหนึ่งที่ EDA ทำคือการค้นหาข้อผิดพลาดในการป้อนข้อมูลและจุดผิดปกติอื่น ๆ
อีกประการหนึ่งคือการกระจายตัวของตัวแปรสามารถมีอิทธิพลต่อโมเดลที่คุณต้องการ
เราเคยมีวลีทางเคมี:
" สองสัปดาห์ที่ใช้ในห้องแล็บสามารถช่วยคุณประหยัดสองชั่วโมงใน Scifinder "
ฉันแน่ใจเหมือนกันกับการเรียนรู้ของเครื่อง:
" ใช้เวลาสองสัปดาห์ในการฝึกอบรม neuralnet จะช่วยให้คุณประหยัดเวลาในการดูข้อมูลอินพุต 2 ชั่วโมง "
นี่คือสิ่งที่ฉันต้องทำก่อนเริ่มกระบวนการ ML
นอกเหนือจากขั้นตอนพื้นฐานเหล่านั้นฉันจะไม่ใช้เวลาเพิ่มมากขึ้นในการดูข้อมูลก่อนที่จะใช้กระบวนการ ML กับมัน หากคุณมีตัวแปรจำนวนมากแล้วชุดค่าผสมที่ไม่เชิงเส้นที่ซับซ้อนของพวกเขาจะยากขึ้นไม่เพียง แต่จะค้นหา แต่ยังสามารถพล็อตและเข้าใจได้ นี่คือประเภทของสิ่งที่ดีที่สุดในการจัดการโดยคอมพิวเตอร์
การทิ้งข้อผิดพลาดในขั้นตอนการสร้างแบบจำลองมีสามผลลัพธ์ที่น่าจะเป็นไปได้จากการพยายามทำนายโดยไม่ต้องทำ EDA ก่อน:
การแก้ไขปัญหาข้อมูลอาจใช้เวลาและความพยายามอย่างมาก ตัวอย่างเช่น
ก่อนหน้านี้คุณสามารถระบุปัญหาดังกล่าวได้ดียิ่งขึ้นโอกาสที่จะทำให้โครงการของคุณดีขึ้นบนรางรถไฟเสร็จตรงเวลาและทำให้ลูกค้าของคุณมีความสุข
[descriptive-statistics]
แท็ก & คำถามสุดท้ายของคุณว่าสถิติเชิงพรรณนาสำคัญหรือไม่ ในบริบทนี้คุณหมายถึงการคำนวณสถิติเชิงพรรณนาต่าง ๆ เมื่อคุณพูดถึง EDA หรือคุณกำลังถามเกี่ยวกับทั้งสถิติเชิงพรรณนา & EDA? ฉันถามเพราะคนจำนวนมาก (รวมถึงฉัน) คิดว่า EDA เป็นมากกว่าสถิติเชิงพรรณนา