การวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งสำคัญหรือไม่เมื่อทำการสร้างแบบจำลองการทำนายอย่างหมดจด?


23

เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ


6
คุณถามเกี่ยวกับ "การวิเคราะห์ข้อมูลเชิงสำรวจ" แต่คุณยังรวม[descriptive-statistics]แท็ก & คำถามสุดท้ายของคุณว่าสถิติเชิงพรรณนาสำคัญหรือไม่ ในบริบทนี้คุณหมายถึงการคำนวณสถิติเชิงพรรณนาต่าง ๆ เมื่อคุณพูดถึง EDA หรือคุณกำลังถามเกี่ยวกับทั้งสถิติเชิงพรรณนา & EDA? ฉันถามเพราะคนจำนวนมาก (รวมถึงฉัน) คิดว่า EDA เป็นมากกว่าสถิติเชิงพรรณนา
gung - Reinstate Monica

"การสร้างคุณลักษณะ" คืออะไร? มันไม่ใช่กระบวนการสำรวจหรือไม่?
einar

5
เมื่อเร็ว ๆ นี้ฉันได้รับข้อสังเกต 224 คนจาก 37 คน ฉันวางแผนที่จะทำการตรวจสอบท่ามกลางผู้อื่น - อิทธิพลของเพศ / เพศเมื่อวิเคราะห์เชิงพรรณนาบอกฉันมีผู้หญิง 36 คนและผู้ชาย 1 คน เนื่องจากสถิติเชิงพรรณนานี้ฉันข้ามการวิเคราะห์ทั้งหมดที่เกี่ยวข้องกับเพศ / เพศ มันมีความสำคัญสำหรับฉันเพราะคำอธิบายมีอิทธิพลต่อกระบวนการสร้างแบบจำลองของฉัน ข้อมูลเพิ่มเติมได้ที่นี่stats.stackexchange.com/questions/352015/…
Bernhard

คำตอบ:


47

ไม่นานมานี้ฉันมีงานสัมภาษณ์ตำแหน่งวิทยาการข้อมูล ฉันได้รับชุดข้อมูลและขอให้สร้างแบบจำลองการทำนายเพื่อทำนายตัวแปรไบนารีบางตัวที่ได้รับจากคนอื่น ๆ โดยมีเวลา จำกัด สองสามชั่วโมง

ฉันผ่านตัวแปรแต่ละตัวในทางกลับกันทำกราฟสร้างกราฟคำนวณสถิติสรุป ฯลฯ และฉันคำนวณความสัมพันธ์ระหว่างตัวแปรตัวเลขด้วย

ท่ามกลางสิ่งที่ฉันพบคือ:

  • ตัวแปรเด็ดขาดหนึ่งอันใกล้เคียงกับเป้าหมายเกือบสมบูรณ์แบบ
  • ตัวแปรสองหรือสามตัวมีค่ามากกว่าครึ่งหนึ่ง
  • ตัวแปรสองตัวมีค่าผิดปกติมาก
  • ตัวแปรสองตัวนั้นมีความสัมพันธ์กันอย่างสมบูรณ์
  • เป็นต้น

ประเด็นของฉันคือสิ่งเหล่านี้เป็นสิ่งที่ถูกวางไว้อย่างจงใจเพื่อดูว่าผู้คนจะสังเกตเห็นพวกเขาก่อนที่จะพยายามสร้างแบบจำลองหรือไม่ บริษัท ใส่เข้าไปเพราะมันเป็นสิ่งที่สามารถเกิดขึ้นได้ในชีวิตจริงและส่งผลกระทบอย่างมากต่อประสิทธิภาพของโมเดล

ใช่แล้ว EDA นั้นสำคัญเมื่อทำการเรียนรู้ด้วยเครื่อง!


8
เมื่อฉันมอบหมายงานให้นักเรียนฉันมักจะทำเช่นนั้นด้วย ;-)
gung - Reinstate Monica

14

เห็นได้ชัดว่าใช่

การวิเคราะห์ข้อมูลอาจนำคุณไปสู่หลายจุดที่จะทำให้แบบจำลองการทำนายของคุณเสียหาย:

ข้อมูลไม่สมบูรณ์

สมมติว่าเรากำลังพูดถึงข้อมูลเชิงปริมาณคุณจะต้องตัดสินใจว่าคุณต้องการละเว้นคอลัมน์ (หากมีข้อมูลขาดหายไปมากเกินไป) หรือคิดออกว่าจะเป็นค่า "เริ่มต้น" ของคุณ (ค่าเฉลี่ย, โหมด, ฯลฯ ) คุณไม่สามารถทำได้โดยไม่สำรวจข้อมูลของคุณก่อน

ข้อมูลผิดปกติ

สมมติว่าคุณมีข้อมูลที่มีความสัมพันธ์ค่อนข้างดี แต่มี 2% ของข้อมูลของคุณซึ่งเป็นวิธีที่ปิดความสัมพันธ์นี้ คุณอาจต้องการลบข้อมูลนี้ทั้งหมดเพื่อช่วยโมเดลการทำนายของคุณ

ลบคอลัมน์ที่มีสหสัมพันธ์มากเกินไป

ตกลงสิ่งนี้ขัดแย้งกับจุดก่อนหน้าของฉันเล็กน้อย แต่ภาษาอังกฤษไม่ใช่ภาษาหลักของฉันดังนั้นฉันหวังว่าคุณจะเข้าใจ

ฉันจะยกตัวอย่างโง่พูดว่าคุณวิเคราะห์ชุดข้อมูลสนามกีฬาของฟุตบอลและคุณมีWidth, Length, Areaพารามิเตอร์ เราสามารถจินตนาการได้อย่างง่ายดายว่าพารามิเตอร์ทั้งสามนี้จะมีความสัมพันธ์กันอย่างมาก การมีความสัมพันธ์กันมากเกินไประหว่างคอลัมน์ของคุณทำให้โมเดลการทำนายผิดไปในทิศทางที่ผิด คุณอาจตัดสินใจลบพารามิเตอร์อย่างน้อยหนึ่งรายการ

ค้นหาคุณสมบัติใหม่

ฉันจะเอาตัวอย่างของขนาดเล็กไททานิค Kaggle "การแข่งขัน" เมื่อดูที่ชื่อของบุคคลคุณสามารถเข้าใจได้ว่าคุณสามารถแยกคุณลักษณะที่เป็นTitleของบุคคลนั้นออกได้ คุณลักษณะนี้ค่อนข้างสำคัญเมื่อพูดถึงการสร้างแบบจำลอง แต่คุณจะพลาดหากคุณไม่ได้วิเคราะห์ข้อมูลของคุณก่อน

คุณอาจตัดสินใจที่จะทิ้งข้อมูลต่อเนื่องของคุณเพราะรู้สึกว่าเหมาะสมกว่าหรือเปลี่ยนฟีเจอร์ต่อเนื่องให้เป็นหมวดหมู่

ค้นหาอัลกอริทึมชนิดใดที่จะใช้

ตอนนี้ฉันไม่สามารถวาดพล็อตได้ แต่ขอยกตัวอย่างง่ายๆ

ลองนึกภาพว่าคุณมีโมเดลขนาดเล็กที่มีคอลัมน์คุณลักษณะหนึ่งคอลัมน์และไบนารี "ผลลัพธ์" หนึ่งคอลัมน์ (0 หรือ 1 เท่านั้น) คุณต้องการสร้างแบบจำลองการจำแนกประเภทแบบทำนายคำสำหรับชุดข้อมูลนี้

หากเป็นอีกตัวอย่างหนึ่งคุณต้องพล็อตมัน (เช่นวิเคราะห์ข้อมูลของคุณ) คุณอาจรู้ว่าพล็อตนั้นก่อตัวเป็นวงกลมที่สมบูรณ์แบบรอบ 1 ค่าของคุณ ในสถานการณ์ดังกล่าวถ้าเห็นได้ชัดว่าคุณสามารถใช้ตัวจําแนกพหุนามเพื่อมีโมเดลที่ดีแทนที่จะกระโดดไปที่ DNN (เห็นได้ชัดว่าการพิจารณามีเพียงสองคอลัมน์ในตัวอย่างของฉันมันไม่ได้ทำเพื่อเป็นตัวอย่างที่ยอดเยี่ยม แต่คุณได้ประเด็น)

โดยรวมแล้วคุณไม่สามารถคาดหวังรูปแบบการคาดการณ์ที่จะทำงานได้ดีหากคุณไม่ได้ดูข้อมูลก่อน


8

สิ่งสำคัญอย่างหนึ่งที่ EDA ทำคือการค้นหาข้อผิดพลาดในการป้อนข้อมูลและจุดผิดปกติอื่น ๆ

อีกประการหนึ่งคือการกระจายตัวของตัวแปรสามารถมีอิทธิพลต่อโมเดลที่คุณต้องการ


8

เราเคยมีวลีทางเคมี:

" สองสัปดาห์ที่ใช้ในห้องแล็บสามารถช่วยคุณประหยัดสองชั่วโมงใน Scifinder "

ฉันแน่ใจเหมือนกันกับการเรียนรู้ของเครื่อง:

" ใช้เวลาสองสัปดาห์ในการฝึกอบรม neuralnet จะช่วยให้คุณประหยัดเวลาในการดูข้อมูลอินพุต 2 ชั่วโมง "

นี่คือสิ่งที่ฉันต้องทำก่อนเริ่มกระบวนการ ML

  • วางแผนความหนาแน่นของตัวแปรทุกตัว (ต่อเนื่อง) ตัวเลขเบ้อย่างไร ฉันต้องมีการแปลงไฟล์บันทึกเพื่อให้ข้อมูลเหมาะสมหรือไม่? ไกลแค่ไหนค่าผิด? มีค่าใดที่ไม่สมเหตุสมผลหรือไม่?
  • จับตาดู NAs โดยปกติคุณสามารถทิ้งได้ แต่ถ้ามีจำนวนมากหรือถ้าสิ่งเหล่านี้เป็นตัวแทนที่สำคัญต่อพฤติกรรมของระบบคุณอาจต้องหาวิธีสร้างข้อมูลใหม่ นี่อาจเป็นโครงการในตัวของมันเอง
  • พล็อตทุกตัวแปรกับตัวแปรตอบกลับ คุณสามารถทำให้รู้สึกออกมาได้มากเพียงใดโดยการมองด้วยตา? มีเส้นโค้งที่ชัดเจนที่สามารถติดตั้งฟังก์ชั่นได้หรือไม่?
  • ประเมินว่าคุณต้องการโมเดล ML ที่ซับซ้อนหรือไม่ในตอนแรก บางครั้งการถดถอยเชิงเส้นเป็นสิ่งที่คุณต้องการจริงๆ แม้ว่าจะไม่เป็นเช่นนั้น แต่ก็ให้ข้อมูลพื้นฐานที่ดีสำหรับรุ่น ML ของคุณในการปรับปรุง

นอกเหนือจากขั้นตอนพื้นฐานเหล่านั้นฉันจะไม่ใช้เวลาเพิ่มมากขึ้นในการดูข้อมูลก่อนที่จะใช้กระบวนการ ML กับมัน หากคุณมีตัวแปรจำนวนมากแล้วชุดค่าผสมที่ไม่เชิงเส้นที่ซับซ้อนของพวกเขาจะยากขึ้นไม่เพียง แต่จะค้นหา แต่ยังสามารถพล็อตและเข้าใจได้ นี่คือประเภทของสิ่งที่ดีที่สุดในการจัดการโดยคอมพิวเตอร์


6

มุมมองทางสถิติ:

การทิ้งข้อผิดพลาดในขั้นตอนการสร้างแบบจำลองมีสามผลลัพธ์ที่น่าจะเป็นไปได้จากการพยายามทำนายโดยไม่ต้องทำ EDA ก่อน:

  1. การทำนายให้ผลลัพธ์ที่ไร้สาระชัดเจนเนื่องจากข้อมูลอินพุตของคุณละเมิดสมมติฐานของวิธีการทำนายของคุณ ตอนนี้คุณต้องย้อนกลับไปและตรวจสอบอินพุตของคุณเพื่อค้นหาว่าปัญหาอยู่ที่ใดแล้วแก้ไขปัญหาและทำการวิเคราะห์ซ้ำ คุณอาจต้องเปลี่ยนวิธีการคาดการณ์ทั้งนี้ขึ้นอยู่กับลักษณะของปัญหา (คุณหมายถึงอะไรนี่เป็นตัวแปรเด็ดขาด )
  2. การทำนายให้ผลลัพธ์ที่ไม่ดี แต่ไม่เลวอย่างเห็นได้ชัดเนื่องจากข้อมูลของคุณละเมิดสมมติฐานในลักษณะที่เห็นได้ชัดน้อยกว่าเล็กน้อย ไม่ว่าคุณจะกลับไปและตรวจสอบสมมติฐานเหล่านั้น (ในกรณีนี้ให้ดู # 1 ด้านบน) หรือคุณยอมรับผลลัพธ์ที่ไม่ดี
  3. โชคดีข้อมูลอินพุตของคุณคือสิ่งที่คุณคาดหวังไว้ (ฉันเข้าใจว่ามันเกิดขึ้นเป็นครั้งคราว) และการทำนายจะให้ผลลัพธ์ที่ดี ... ซึ่งจะดีมากยกเว้นว่าคุณไม่สามารถบอกความแตกต่างระหว่างสิ่งนี้กับ # 2 ข้างต้น

มุมมองการบริหารโครงการ:

การแก้ไขปัญหาข้อมูลอาจใช้เวลาและความพยายามอย่างมาก ตัวอย่างเช่น

  • ข้อมูลสกปรกและคุณต้องใช้เวลาในการพัฒนากระบวนการเพื่อทำความสะอาด (ตัวอย่างเช่น: เวลาที่ฉันต้องแก้ไขรหัสอัตโนมัติให้กับทุกคนที่เขียนปีผิดในเดือนมกราคมและคนที่ป้อนวันที่ในฟิลด์ปีและระบบที่แยกวิเคราะห์วันที่ MM / DD / YYYY แทน DD / MM / YYYY)
  • คุณต้องถามคำถามเกี่ยวกับความหมายของข้อมูลและมีเพียง Joan เท่านั้นที่สามารถตอบคำถามได้ Joan กำลังจะหยุดหกเดือนเริ่มสองสัปดาห์หลังจากโครงการของคุณเริ่ม
  • ข้อ จำกัด ของข้อมูลทำให้คุณไม่สามารถส่งมอบทุกสิ่งที่คุณตั้งใจจะส่ง (ตัวอย่างของแบร์นฮาร์ดที่ไม่สามารถวิเคราะห์ตามเพศ / เพศเพราะข้อมูลชุดนี้มีผู้หญิงเพียงคนเดียว) และคุณ / ลูกค้าของคุณต้องเข้าใจว่าควรทำอย่างไร .

ก่อนหน้านี้คุณสามารถระบุปัญหาดังกล่าวได้ดียิ่งขึ้นโอกาสที่จะทำให้โครงการของคุณดีขึ้นบนรางรถไฟเสร็จตรงเวลาและทำให้ลูกค้าของคุณมีความสุข

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.