มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?


15

ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม

คำถามคือ:
ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

คำตอบ:


6

ผมอยากแนะนำให้มีลักษณะที่ "7.10.2 ผิดและวิธีที่จะทำข้ามการตรวจสอบ" ในhttp://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

ผู้เขียนให้ตัวอย่างที่มีคนทำต่อไปนี้:

  1. คัดกรองตัวทำนาย: ค้นหาชุดย่อยของตัวทำนาย "ดี" ที่แสดงความสัมพันธ์ที่ค่อนข้างแข็งแกร่ง (univariate) ที่มีความสัมพันธ์กับเลเบลของคลาส
  2. ใช้ตัวทำนายย่อยเพียงชุดเดียวเท่านั้นสร้างตัวแยกประเภทหลายตัวแปร
  3. ใช้การตรวจสอบความถูกต้องข้ามเพื่อประมาณค่าพารามิเตอร์การปรับค่าที่ไม่รู้จักและเพื่อประเมินข้อผิดพลาดการทำนายของรุ่นสุดท้าย

สิ่งนี้ฟังดูคล้ายกับการทำ EDA ทั้งหมด (เช่นการฝึกอบรมและการทดสอบ) ของข้อมูลของคุณและการใช้ EDA เพื่อเลือกตัวทำนาย "ดี"

ผู้เขียนอธิบายว่าทำไมสิ่งนี้จึงเป็นปัญหา: อัตราความผิดพลาดข้ามการตรวจสอบจะต่ำมากซึ่งอาจทำให้คุณเข้าใจผิดคิดว่าคุณได้พบแบบจำลองที่ดี


1

ดังนั้นคุณต้องการระบุตัวแปรอิสระที่มีผลต่อตัวแปรตามหรือไม่

จากนั้นทั้งสองวิธีของคุณไม่แนะนำจริงๆ

หลังจากกำหนดคำถามการวิจัยแล้วคุณควรพัฒนาทฤษฎีของคุณ กล่าวคือการใช้วรรณกรรมคุณควรระบุตัวแปรที่ควรมีผลกระทบ (คุณควรอธิบายเหตุผลได้)


6
ในขณะที่มุมมองนี้ดูเหมือนจะเป็นหัวใจที่จะเห็นด้วยกับแนวคิดคลาสสิกของการทดสอบทางสถิติ (และมันทำให้ฉันไม่เห็นด้วย) แต่ก็มีปัญหามากมายที่ไม่สามารถทำได้ ตัวอย่างเช่นสมมติว่าคุณต้องการดูว่ามียีนเข้ารหัสโปรตีน 20,000 ชนิดใดที่เกี่ยวข้องกับโรคทางพันธุกรรมใหม่หรือไม่ นอกจากนี้ไม่มีพื้นหลังที่จะเตรียมความพร้อมคุณไม่มีทางที่จะ "เกิดขึ้นกับทฤษฎี" และ EDA เป็นเพียงวิธีการที่จะเริ่มต้น และถ้าคุณมีข้อมูลเพียงพอสำหรับ EDA และการวิเคราะห์ยืนยันคุณสามารถหาได้ที่ไหน
หน้าผา AB

3
"คุณควรพัฒนาทฤษฎีของคุณ" - เป็นความคิดที่ดี แต่ไม่เสมอไปโดยเฉพาะในอุตสาหกรรม บางครั้งคุณเพียงแค่คาดการณ์ล่วงหน้าโดยไม่ต้องพัฒนาทฤษฎีใด ๆ
Aksakal

1

การใช้ EDA กับข้อมูลทดสอบผิด

การฝึกอบรมเป็นกระบวนการค้นหาคำตอบที่ถูกต้องเพื่อสร้างแบบจำลองที่ดีที่สุด กระบวนการนี้ไม่เพียง จำกัด เฉพาะการเรียกใช้รหัสบนข้อมูลการฝึกอบรม การใช้ข้อมูลจาก EDA เพื่อตัดสินใจว่าจะใช้โมเดลใดเพื่อปรับแต่งพารามิเตอร์และอื่น ๆเป็นส่วนหนึ่งของกระบวนการฝึกอบรมและไม่ควรอนุญาตให้เข้าถึงข้อมูลทดสอบ เพื่อให้เป็นจริงสำหรับตัวคุณเองให้ใช้ข้อมูลทดสอบเพื่อตรวจสอบประสิทธิภาพของโมเดลของคุณ

นอกจากนี้หากคุณรู้ตัวว่าแบบจำลองนั้นทำงานได้ไม่ดีในระหว่างการทดสอบและจากนั้นคุณกลับไปปรับแต่งแบบจำลองของคุณนั่นก็ไม่ดีเช่นกัน ให้แบ่งการฝึกออกเป็นสองส่วน ใช้หนึ่งชุดสำหรับฝึกอบรมและอีกชุดเพื่อทดสอบและปรับแต่งโมเดลของคุณ ดูความแตกต่างระหว่างชุดการทดสอบและชุดการตรวจสอบความถูกต้องคืออะไร


0

หลังจากวรรคของคำตอบนี้ Hastie อธิบายเพิ่มเติม p.245 :

"นี่คือวิธีที่ถูกต้องในการดำเนินการตรวจสอบข้ามในตัวอย่างนี้:

  1. แบ่งตัวอย่างออกเป็น K cross-validation folds (กลุ่ม) โดยการสุ่ม
  2. สำหรับการพับแต่ละครั้ง k = 1, 2,. . . , K
    (a) ค้นหาชุดย่อยของตัวทำนาย "ดี" ที่แสดงความสัมพันธ์ที่ค่อนข้างแข็งแกร่ง (univariate) กับป้ายชื่อชั้นเรียนโดยใช้ตัวอย่างทั้งหมดยกเว้นกลุ่มที่อยู่ใน fold k
    (b) ใช้เพียงส่วนย่อยของตัวทำนายสร้างตัวแยกประเภทหลายตัวแปรโดยใช้ตัวอย่างทั้งหมดยกเว้นที่อยู่ใน fold k
    (c) ใช้ตัวจําแนกเพื่อทำนายเลเบลคลาสสำหรับตัวอย่างใน fold k "

-3

คุณทำ EDA ในชุดข้อมูลทั้งหมด ตัวอย่างเช่นถ้าคุณกำลังใช้ลาหนึ่งออกตรวจสอบข้ามวิธีการที่คุณจะทำ EDA เฉพาะในการฝึกอบรมชุดข้อมูล? ในกรณีนี้การสังเกตทุกครั้งจะมีการฝึกอบรมและเตรียมการอย่างน้อยหนึ่งครั้ง

ดังนั้นไม่คุณสร้างความเข้าใจข้อมูลในตัวอย่างทั้งหมด หากคุณอยู่ในอุตสาหกรรมการตั้งค่ามันชัดเจนยิ่งขึ้น คุณคาดว่าจะแสดงแนวโน้มและคำอธิบายทั่วไปของข้อมูลต่อผู้มีส่วนได้เสียใน บริษัท และคุณทำเช่นนั้นกับตัวอย่างทั้งหมด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.