ความจริงจากพื้นดินคืออะไร


29

ในบริบทของการเรียนรู้ของเครื่องจักรฉันได้เห็นคำว่าGround Truthใช้บ่อยมาก ฉันค้นหามากและพบคำจำกัดความต่อไปนี้ในWikipedia :

ในการเรียนรู้ของเครื่องจักรคำว่า "ความจริงพื้นฐาน" หมายถึงความแม่นยำของการจัดหมวดหมู่ของชุดฝึกอบรมสำหรับเทคนิคการเรียนรู้แบบมีผู้สอน สิ่งนี้ใช้ในแบบจำลองทางสถิติเพื่อพิสูจน์หรือพิสูจน์สมมติฐานการวิจัย คำว่า "ความจริงพื้นฐาน" หมายถึงกระบวนการรวบรวมข้อมูลที่เหมาะสม (พิสูจน์ได้) สำหรับการทดสอบนี้ เปรียบเทียบกับมาตรฐานทองคำ

การกรองสแปมแบบเบย์เป็นตัวอย่างทั่วไปของการเรียนรู้แบบมีผู้สอน ในระบบนี้อัลกอริทึมได้รับการสอนด้วยตนเองถึงความแตกต่างระหว่างสแปมและไม่ใช่สแปม ทั้งนี้ขึ้นอยู่กับความจริงพื้นฐานของข้อความที่ใช้ในการฝึกอบรมอัลกอริทึม - ความไม่ถูกต้องในความจริงภาคพื้นดินจะสัมพันธ์กับความไม่ถูกต้องในการตัดสินผลสแปม / ไม่ใช่สแปม

ประเด็นก็คือฉันไม่สามารถเข้าใจความหมายได้ นั่นคือเลเบลที่ใช้สำหรับแต่ละออบเจ็กต์ข้อมูลหรือฟังก์ชั่นเป้าหมายที่ให้เลเบลกับออบเจ็กต์ข้อมูลแต่ละอันหรืออาจเป็นอย่างอื่นหรือไม่?

คำตอบ:


25

ความจริงพื้นฐานคือสิ่งที่คุณวัดได้สำหรับตัวแปรเป้าหมายของคุณสำหรับตัวอย่างการฝึกอบรมและการทดสอบ

เกือบตลอดเวลาคุณสามารถปฏิบัติเช่นเดียวกันกับฉลากได้อย่างปลอดภัย

ในบางกรณีมันไม่เหมือนกันกับฉลากอย่างแม่นยำ ตัวอย่างเช่นถ้าคุณเพิ่มชุดข้อมูลของคุณจะมีความแตกต่างเล็กน้อยระหว่างความจริงพื้นฐาน (การวัดจริงของคุณ) และวิธีการเติมตัวอย่างที่เกี่ยวข้องกับป้ายกำกับที่คุณกำหนด อย่างไรก็ตามความแตกต่างนี้มักจะไม่เป็นปัญหา

ความจริงพื้นฐานอาจผิด เป็นการวัดและอาจมีข้อผิดพลาดเกิดขึ้น ในบางสถานการณ์ ML นั้นอาจเป็นการวัดแบบอัตนัยซึ่งเป็นการยากที่จะกำหนดความจริงตามวัตถุประสงค์พื้นฐานเช่นความคิดเห็นหรือการวิเคราะห์จากผู้เชี่ยวชาญซึ่งคุณหวังว่าจะเป็นไปโดยอัตโนมัติ โมเดล ML ที่คุณฝึกจะถูก จำกัด ด้วยคุณภาพของความจริงภาคพื้นดินที่ใช้ในการฝึกอบรมและทดสอบซึ่งเป็นส่วนหนึ่งของคำอธิบายเกี่ยวกับคำพูดของวิกิพีเดีย นี่เป็นสาเหตุที่บทความที่ตีพิมพ์เกี่ยวกับ ML ควรมีคำอธิบายแบบเต็มของวิธีการรวบรวมข้อมูล


ในระหว่างการฝึกอบรมสามารถ gt (เช่นในปัญหาการแบ่งกลุ่มอินสแตนซ์) สามารถแก้ไขหรือสร้างขึ้นได้จากข้อมูลที่ได้รับ (เช่นจากแผนที่คะแนน) จากฟีเจอร์?
อเล็กซ์

@Alex: ไม่ปกติ อาจมีบางสถานการณ์ที่หนึ่งเอาท์พุทที่แก้ไขแล้วหรือกระบวนการกึ่งอัตโนมัติก่อให้เกิดความจริงพื้นฐานสำหรับอัลกอริทึมถัดไปในไปป์ไลน์ อย่างไรก็ตามหากคุณอ้างถึงอัลกอริทึมที่จะแก้ไขเป้าหมายของตัวเองผ่านกฎบางอย่างนั่นก็ไม่ได้ถือว่าเป็นความจริงพื้นฐานใหม่ - ความจริงภาคพื้นดินจะเป็นการแบ่งส่วนดั้งเดิมที่ให้ไว้สำหรับการฝึกอบรม การปรับแต่งอัตโนมัติที่ชาญฉลาดใด ๆ จะเป็นส่วนหนึ่งของโมเดลแทน
Neil Slater

การปรับแต่งด้วยการโต้ตอบระหว่างมนุษย์หรือที่เรียกว่าข้อมูลที่ไม่ใช่ภาพต้นฉบับ (เช่นภาพต้นฉบับบางภาพถูกสร้างขึ้นโดยใช้แบบจำลอง 3 มิติดังนั้นจึงสามารถสร้างการแบ่งส่วน "จริง" ที่ดีขึ้นได้) อาจเป็นความจริงใหม่ แม้ว่าคุณอาจต้องการแยกความคิดของการสร้างความจริงพื้นฐาน 1 ที่ใช้ในการสร้างแบบจำลองแรกจากการสร้างความจริงภาคพื้นดิน 2 ที่ผ่านการทำซ้ำและใช้เพื่อสร้างแบบจำลองที่สองแม้ว่ารุ่นที่สองเป็นสถาปัตยกรรมเดียวกันเพียง ผ่านการฝึกอบรมเกี่ยวกับข้อเสนอแนะ
Neil Slater

'ผ่านการฝึกอบรมเกี่ยวกับข้อเสนอแนะ' - ปิด แต่ไม่ตรง หากคุณเห็นโมเดล FCN เลเยอร์สุดท้ายคือแผนที่คะแนนซึ่งเสียบเข้ากับฟังก์ชั่นบันทึกการสูญเสีย softmax ร่วมกับแผนที่ gt สิ่งที่ฉันทำคือจดคะแนนแผนที่ดึงข้อมูลบางอย่างจากมัน (เช่นจำนวน argmax binary blobs) และ (อย่างใด) แก้ไข gt mask ก่อนเสียบเข้ากับฟังก์ชันการสูญเสีย มันเป็นวิธีที่ถูกต้องหรือไม่
อเล็กซ์

@Alex: นั่นเป็นส่วนหนึ่งของแบบจำลองของคุณไม่ใช่ความจริงใหม่ เว้นแต่ว่าคุณจะตัดสินใจโดยพลการว่าเป้าหมายของโมเดลใหม่คือการเรียนรู้การทำงานร่วมกันของคุณ ในกรณีนี้มันเป็นความจริงที่แท้จริงสำหรับโมเดลใหม่ - อย่างไรก็ตามคุณควรบันทึกแหล่งที่มาที่ซับซ้อนของข้อมูลนี้อย่างแน่นอนเนื่องจากมันได้รับการดัดแปลงจากการวัดดั้งเดิมด้วยวิธีอัตโนมัติ
Neil Slater

2

ความจริงที่แท้จริง: นั่นคือความจริงที่คุณต้องการให้แบบจำลองของคุณทำนาย

อาจมีเสียงรบกวนบ้าง แต่คุณต้องการให้แบบจำลองของคุณเรียนรู้รูปแบบพื้นฐานในข้อมูลที่ทำให้เกิดความจริงแบบนี้ แบบจำลองของคุณจะไม่สามารถทำนายความจริงพื้นดินได้เนื่องจากความจริงภาคพื้นดินจะมีเสียงดังและไม่มีแบบจำลองที่ให้ความแม่นยำร้อยเปอร์เซ็นต์ แต่คุณต้องการให้แบบจำลองของคุณใกล้เคียงที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.