จะเป็นอย่างไรถ้าความแม่นยำในการตรวจสอบความถูกต้องสูง แต่ความแม่นยำในการทดสอบต่ำในการวิจัย


15

ฉันมีคำถามเฉพาะเกี่ยวกับการตรวจสอบความถูกต้องในการวิจัยการเรียนรู้ของเครื่อง

ดังที่เราทราบระบอบการเรียนรู้ของเครื่องขอให้นักวิจัยฝึกแบบจำลองของพวกเขาในข้อมูลการฝึกอบรมเลือกจากแบบจำลองผู้สมัครตามชุดการตรวจสอบและรายงานความแม่นยำในชุดการทดสอบ ในการศึกษาที่เข้มงวดมากชุดทดสอบสามารถใช้ได้เพียงครั้งเดียว อย่างไรก็ตามมันไม่สามารถเป็นสถานการณ์การวิจัยได้เพราะเราต้องปรับปรุงประสิทธิภาพของเราจนกว่าความแม่นยำในการทดสอบจะดีกว่าผลการทดสอบที่ทันสมัยก่อนที่เราจะสามารถเผยแพร่ (หรือแม้แต่ส่ง) กระดาษ

ตอนนี้ปัญหามา สมมติว่า 50% เป็นผลลัพธ์ที่ทันสมัยที่สุดและรุ่นของฉันสามารถบรรลุความแม่นยำ 50--51 ซึ่งดีกว่าโดยเฉลี่ย

อย่างไรก็ตามความแม่นยำในการตรวจสอบที่ดีที่สุดของฉัน (52%) ให้ความแม่นยำในการทดสอบต่ำมากเช่น 49% จากนั้นฉันต้องรายงาน 49% ว่าเป็นประสิทธิภาพโดยรวมของฉันถ้าฉันไม่สามารถปรับปรุงมาตรฐานการตรวจสอบความถูกต้องซึ่งฉันคิดว่าไม่มีความหวัง สิ่งนี้ช่วยป้องกันฉันจากการศึกษาปัญหา แต่ไม่สำคัญกับเพื่อนของฉันเพราะพวกเขาไม่เห็น ACC 52% ซึ่งฉันคิดว่าเป็นเรื่องผิดปกติ

ดังนั้นคนมักจะทำในการวิจัยของพวกเขาได้อย่างไร

การตรวจสอบ ps k-fold ไม่ได้ช่วยอะไรเพราะสถานการณ์เดียวกันอาจยังคงเกิดขึ้นได้

คำตอบ:


9

ตามคำนิยามเมื่อความถูกต้องของการฝึกอบรม (หรือสิ่งที่ตัวชี้วัดที่คุณใช้) สูงกว่าการทดสอบของคุณคุณมีรูปแบบ overfit ในสาระสำคัญแบบจำลองของคุณได้เรียนรู้รายละเอียดที่ช่วยให้มันทำงานได้ดีขึ้นในข้อมูลการฝึกอบรมของคุณซึ่งไม่สามารถใช้ได้กับกลุ่มข้อมูลขนาดใหญ่

ฉันไม่แน่ใจว่าทำไมคุณถึงบอกว่าการตรวจสอบ k-fold ไม่เป็นประโยชน์ วัตถุประสงค์คือเพื่อช่วยหลีกเลี่ยงการปรับรุ่นของคุณให้พอดี บางทีคุณอาจมีข้อมูลไม่เพียงพอ? คำแถลงเช่นนี้มีความสำคัญโดยเฉพาะอย่างยิ่งถ้าคุณจะปกป้องการวิจัยใด ๆ เมื่อแนะนำให้ใช้วิธีการตรวจสอบข้ามเช่นนั้น

คุณบอกว่าคุณไม่สามารถใช้ชุดทดสอบเพียงครั้งเดียว (ฉันจะถือว่าตัวอย่างมีขนาดเล็กลงหรือไม่) จากประสบการณ์ของฉันเส้นทางที่ใช้บ่อยที่สุดคือ k-fold cross-validation ของแบบจำลองของคุณ ลองมาตัวอย่างกับ CV 10 เท่าสำหรับขนาดตัวอย่าง 100 และถือว่าปัญหาการจำแนกของคุณเป็นเลขฐานสองเพื่อให้การคำนวณง่ายขึ้น ดังนั้นผมจึงได้แบ่งข้อมูลของฉันใน 10 ที่แตกต่างกันเท่า ฉันพอดีกับแบบจำลองของฉันที่ 9/10 เท่าและจากนั้นทำนาย 1/10 ที่ฉันออกไป สำหรับการรันครั้งแรกเมทริกซ์ความสับสนที่ได้นั้นคือ:

    0  1
0   4  1
1   2  3

จากนั้นฉันทำซ้ำการวิเคราะห์นี้อีกครั้งโดยปล่อยอีก 1/10 ครั้งถัดไปแล้วฝึกในอีก 9/10 และรับเมทริกซ์ความสับสนต่อไปของฉัน เมื่อเสร็จแล้วฉันมี 10 เมทริกซ์ความสับสน จากนั้นฉันจะรวมเมทริกซ์เหล่านี้ (ดังนั้นฉันจึงคาดการณ์ได้ 100 ตัวอย่าง) จากนั้นรายงานสถิติของฉัน (ความแม่นยำ, PPV, คะแนน F1, Kappa, ฯลฯ ) หากความแม่นยำของคุณไม่ใช่ที่ที่คุณต้องการให้มีความเป็นไปได้อื่น ๆ อีกมากมาย

  1. โมเดลของคุณต้องได้รับการปรับปรุง (เปลี่ยนพารามิเตอร์)
  2. คุณอาจต้องลองใช้อัลกอริทึมการเรียนรู้ของเครื่องอื่น (ไม่ใช่อัลกอริทึมทั้งหมดที่สร้างขึ้นเท่ากัน)
  3. คุณต้องการข้อมูลเพิ่มเติม (ความสัมพันธ์ที่ลึกซึ้งหายาก)
  4. คุณอาจต้องลองเปลี่ยนข้อมูลของคุณ (ขึ้นอยู่กับอัลกอริทึมที่ใช้)
  5. อาจไม่มีความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระของคุณ

ข้อเท็จจริงของเรื่องนี้คือตัวชี้วัดการทดสอบที่ต่ำกว่า (เช่นความถูกต้อง) กว่าการฝึกอบรมของคุณบ่งบอกถึงการ overfitting แบบจำลองของคุณไม่ใช่สิ่งที่คุณต้องการเมื่อพยายามสร้างแบบจำลองการทำนายใหม่


ขอบคุณสำหรับการตอบกลับ สิ่งที่ฉันเกี่ยวข้องคือการวิจัยการเรียนรู้ของเครื่องสำหรับสิ่งพิมพ์มากกว่าการใช้เทคนิคการเรียนรู้ของเครื่อง บ่อยครั้งที่การวัดเปรียบเทียบให้การแยกมาตรฐานของการฝึกอบรมการตรวจสอบและชุดการทดสอบ ยิ่งกว่านั้น k-fold เพียงลดความแปรปรวน ฉันยังอาจเจอสถานการณ์ที่การตรวจสอบ (โดยเฉลี่ย) ของฉันเป็นไปตาม สูง แต่การทดสอบตามมาตรฐาน อยู่ในระดับต่ำ.
หมู

บางครั้งมันก็ตลกว่าถ้าฉันออกแบบตัวแบบของฉันอีกครั้งฉันสามารถเพิกเฉยต่อค่าที่ผิดได้เพราะโมเดลของฉัน (และคลาสสมมุติฐาน) มีการเปลี่ยนแปลง แต่สิ่งนี้ไม่สามารถปรับจูนพารามิเตอร์ได้เนื่องจากเราเลือกแบบจำลองจากสมมติฐาน ชั้น อย่างไรก็ตามแน่นอนว่าเรานักวิจัยมีคลาสสมมติฐานที่ไม่ จำกัด เรากำลังพยายามทำสิ่งที่เราชอบ ที่รบกวนจิตใจฉันในระหว่างการวิจัยบ่อยครั้งความแตกต่างของความแม่นยำมักน้อยมากพูด 0.1%
หมู

@ ฉันเดาว่าฉันยังไม่แน่ใจเล็กน้อยว่าคำถามหลักของคุณคืออะไร ดูเหมือนจะมีคำถามหลายข้อ การจัดการกับค่าผิดปกติเป็นหัวข้ออื่น คุณกำลังพยายามปรับพารามิเตอร์ให้เหมาะสมหรือประเมินโมเดลสุดท้ายหรือไม่? นี่อาจเป็นข้อมูลเฉพาะของเขตข้อมูลอื่น แต่การเปลี่ยนแปลง 0.1% นั้นไม่สำคัญเลย คุณสามารถติดตามตัวเลือกที่ระบุไว้ในคำตอบของฉันหรือยอมรับว่าคุณจะได้รับมากจากรุ่นและข้อมูลปัจจุบัน รูปแบบยังคงมีความเหมาะสม (แม้จะเล็กน้อย)
cdeterman

ฉันเห็นด้วยกับคุณ. ฉันต้องยอมรับว่าแบบจำลองของฉันไม่ดีนัก แต่เมื่อหลายวันก่อนเมื่อมีค่า cv สูง + การทดสอบต่ำตามมาตรฐาน ไม่ได้ไปที่หน้าจอของฉันแบบจำลองของฉันดีที่สุดในโลก ตอนนี้ก็ไม่ใช่ว่าฉันจะไม่เปลี่ยนแปลงอะไรเลย ยิ่งกว่านั้นฉันไม่มีความหวังที่จะมีประสิทธิภาพสูงกว่า 52% ใน cv acc. ซึ่งเป็นอุปสรรคต่อการวิจัยของฉัน แต่เพื่อนของฉันไม่จำเป็นต้องกังวลเกี่ยวกับเรื่องนี้
หมู

คุณต้องเปลี่ยนบางอย่างเพื่อให้ตัวเลขเปลี่ยนหรือมีการสุ่มที่คุณยังไม่ได้ตั้งเป็นseedบัญชีสำหรับการทำซ้ำ ฉันสงสัยว่าขั้นตอน cv ของคุณมีการสุ่มบางอย่างที่เมื่อทำซ้ำอาจส่งคืนผลลัพธ์ที่แตกต่างกันเล็กน้อย (แต่นี่เป็นเพียงการคาดเดา) ฉันขอแนะนำให้คุณสำรวจรุ่นอื่น ๆ หรือการแปลงข้อมูลเพื่อลองและปรับปรุงประสิทธิภาพของคุณ
cdeterman
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.