การแยกข้อมูลออกเป็นการทดสอบและการฝึกอบรมเป็นการกำหนด“ สถิติ” อย่างแท้จริงหรือไม่?


11

ฉันเป็นนักเรียนฟิสิกส์ที่เรียนการเรียนรู้ด้วยเครื่อง / วิทยาศาสตร์ข้อมูลดังนั้นฉันจึงไม่ได้หมายความว่าคำถามนี้จะเริ่มต้นความขัดแย้งใด ๆ :) อย่างไรก็ตามส่วนใหญ่ของหลักสูตรฟิสิกส์ระดับปริญญาตรีคือการทำห้องปฏิบัติการ / การทดลองซึ่งหมายถึงข้อมูลจำนวนมาก การประมวลผลและการวิเคราะห์ทางสถิติ อย่างไรก็ตามฉันสังเกตเห็นความแตกต่างที่ชัดเจนระหว่างวิธีที่นักฟิสิกส์จัดการกับข้อมูลและวิธีที่วิทยาศาสตร์ข้อมูล / หนังสือการเรียนรู้ทางสถิติจัดการกับข้อมูล

ความแตกต่างที่สำคัญคือเมื่อพยายามทำการถดถอยกับข้อมูลที่ได้จากการทดลองทางฟิสิกส์อัลกอริธึมการถดถอยจะถูกนำไปใช้กับชุดข้อมูลWHOLEไม่มีการแยกชุดฝึกอบรมและชุดทดสอบออกมาอย่างแน่นอน ในโลกฟิสิกส์การคำนวณ R ^ 2 หรือการหลอกบางชนิด -R ^ 2 สำหรับแบบจำลองนั้นขึ้นอยู่กับชุดข้อมูลทั้งหมด ในโลกสถิติข้อมูลจะถูกแบ่งออกเป็น 80-20, 70-30 และอื่น ๆ ... จากนั้นโมเดลจะถูกประเมินเทียบกับชุดข้อมูลการทดสอบ

นอกจากนี้ยังมีการทดลองทางฟิสิกส์ที่สำคัญ (ATLAS, BICEP2, ฯลฯ ... ) ที่ไม่เคยทำข้อมูลแยกดังนั้นฉันสงสัยว่าทำไมมันมีความแตกต่างอย่างรุนแรงระหว่างวิธีที่นักฟิสิกส์ / นักทดลองทำสถิติและวิธีที่นักวิทยาศาสตร์ด้านข้อมูล ทำสถิติ


1
(+1) คำถามที่ดีมาก (ฉันไม่มีเวลาตอบถูก) ความคิดเห็น: ฟิสิกส์มีความหรูหราของ "การทดลองจริง"; โดยทั่วไปแล้วเงื่อนไขการควบคุม / ห้องปฏิบัติการส่วนใหญ่ผลลัพธ์ / ตัวแปรที่กำหนดไว้เป็นอย่างดีและสันนิษฐานว่าสามารถทำซ้ำได้ โครงการสาธารณสุขสาธารณสุข / เศรษฐมิติ / สถิติการสำรวจ (พูดถึงบางสาขาย่อยที่เห็นได้ชัด) ไม่เข้าใจ Confounding, seasonality (การพึ่งพาเวลา) และโดยทั่วไปแล้วการดริฟท์แนวคิดนั้นมีมากมายในสถิติดังนั้น "การแยกข้อมูล" นี้เป็นหนึ่งในวิธีที่ชัดเจนในการป้องกันผลลัพธ์ที่โง่เขลาอย่างสิ้นเชิง นอกจากนี้ตัวประมาณค่าบางตัวก็ไม่ได้สร้างขึ้นอย่างมีประสิทธิภาพเท่ากัน :)
usεr11852

3
คุณจะพบกับความหลากหลายของการอภิปรายและพื้นหลังที่เกี่ยวข้องในบทความอภิปรายล่าสุดโดย David Donoho ศาสตราจารย์ด้านสถิติที่ Stanford: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdfดูการอภิปรายโดยเฉพาะของ "Predictive Culture" "เมื่อเทียบกับสถิติดั้งเดิม
Gordon Smyth

1
ฉันคิดว่ามันเป็น "คำทำนายในสิ่งที่ไม่มีทฤษฎี" ซึ่งเป็นชุดย่อยของ "สถิติ" และชุดย่อยขนาดใหญ่ของการเรียนรู้ของเครื่อง
Laconic

นักสถิติไม่ได้แยกข้อมูลของพวกเขาเช่นกัน (p <.05)
rep_ho

@rep_ho บางคน - อาจมีหลายคน - นักสถิติที่เกี่ยวข้องกับสถานการณ์ที่การคาดการณ์จากตัวอย่างเป็นสิ่งสำคัญ (และบางคนทำมานานแล้ว) แนวคิดอย่าง crossvalidation และสถิติแบบ one-out (ตัวอย่าง) นั้นมีมานานแล้ว นักสถิติมักจะไม่แยกเพียงครั้งเดียวเว้นแต่ว่าจะหลีกเลี่ยงไม่ได้ มันอาจขึ้นอยู่กับว่านักสถิติคนไหนที่คุณคุยด้วย
Glen_b -Reinstate Monica

คำตอบ:


6

ไม่ใช่ทุกขั้นตอนทางสถิติแบ่งออกเป็นข้อมูลการฝึกอบรม / การทดสอบเรียกอีกอย่างว่า "การตรวจสอบข้าม" (แม้ว่ากระบวนการทั้งหมดเกี่ยวข้องกับมากกว่านั้นเล็กน้อย)

แต่นี่เป็นเทคนิคที่ใช้ประเมินความผิดพลาดนอกตัวอย่างโดยเฉพาะ นั่นคือแบบจำลองของคุณจะทำนายผลลัพธ์ใหม่โดยใช้ชุดข้อมูลใหม่ได้ดีเพียงใด สิ่งนี้จะกลายเป็นปัญหาที่สำคัญมากเมื่อคุณมีตัวอย่างเช่นตัวทำนายจำนวนมากซึ่งสัมพันธ์กับจำนวนตัวอย่างในชุดข้อมูลของคุณ ในกรณีเช่นนี้มันเป็นเรื่องง่ายมากที่จะสร้างแบบจำลองที่มีข้อผิดพลาดในตัวอย่างที่ดี แต่มีข้อผิดพลาดจากตัวอย่างแย่มาก (เรียกว่า "over fitting") ในกรณีที่คุณมีทั้งตัวทำนายจำนวนมากและตัวอย่างจำนวนมากการตรวจสอบความถูกต้องไขว้เป็นเครื่องมือที่จำเป็นเพื่อช่วยประเมินว่าตัวแบบจะทำงานได้ดีเพียงใดเมื่อทำนายข้อมูลใหม่ นอกจากนี้ยังเป็นเครื่องมือสำคัญเมื่อเลือกระหว่างแบบจำลองการทำนายการแข่งขัน

ในหมายเหตุอื่นการตรวจสอบความถูกต้องไขว้มักใช้เมื่อพยายามสร้างแบบจำลองการทำนาย โดยทั่วไปจะไม่เป็นประโยชน์สำหรับรุ่นเมื่อคุณพยายามที่จะประเมินผลของการรักษาบางอย่าง ตัวอย่างเช่นหากคุณกำลังเปรียบเทียบการกระจายแรงดึงระหว่างวัสดุ A และ B ("การรักษา" เป็นประเภทวัสดุ) การตรวจสอบข้ามจะไม่จำเป็น ในขณะที่เราหวังว่าเราคาดผลการรักษา generalizes จากตัวอย่างสำหรับปัญหาส่วนใหญ่สถิติทฤษฎีคลาสสิกสามารถตอบคำถามนี้ (เช่นข้อผิดพลาด "มาตรฐาน" ของการประมาณการ) มากขึ้นได้อย่างแม่นยำกว่าการตรวจสอบข้าม น่าเสียดายที่วิธีการทางสถิติแบบดั้งเดิม1สำหรับข้อผิดพลาดมาตรฐานไม่ได้ค้างไว้ในกรณี overfitting การตรวจสอบข้ามมักจะทำได้ดีกว่ามากในกรณีนั้น

ในทางกลับกันหากคุณพยายามทำนายว่าวัสดุจะแยกตามตัวแปรที่วัดได้ 10,000 ตัวแปรที่คุณนำไปใช้ในรูปแบบการเรียนรู้ของเครื่องจักรโดยมีการสังเกต 100,000 ครั้งคุณจะมีปัญหามากมายในการสร้างแบบจำลองที่ยอดเยี่ยม

ฉันคาดเดาจากการทดลองทางฟิสิกส์มากมายที่ทำคุณมักสนใจการประเมินผลกระทบ ในกรณีเหล่านั้นมีความต้องการน้อยมากสำหรับการตรวจสอบข้าม

1อาจโต้แย้งได้ว่าวิธีการแบบเบย์พร้อมข้อมูลอันทรงเกียรติเป็นวิธีการทางสถิติแบบดั้งเดิม แต่นั่นเป็นอีกการสนทนา

หมายเหตุด้านข้าง:ในขณะที่การตรวจสอบความถูกต้องของข้อมูลปรากฏขึ้นครั้งแรกในวรรณกรรมทางสถิติและมีการใช้งานโดยผู้ที่เรียกตัวเองว่านักสถิติมันกลายเป็นเครื่องมือพื้นฐานที่จำเป็นในชุมชนการเรียนรู้ของเครื่อง แบบจำลองสถิติจำนวนมากจะทำงานได้ดีโดยไม่ต้องใช้การตรวจสอบความถูกต้องไขว้ แต่เกือบทุกรุ่นที่พิจารณาว่า "การเรียนรู้แบบจำลองการเรียนรู้ด้วยเครื่อง" ต้องมีการตรวจสอบความถูกต้องแบบข้ามเนื่องจากพวกเขามักจะต้องเลือกการปรับค่าพารามิเตอร์ -validation


ฉันคิดว่าการแก้ไขครั้งล่าสุดของคุณเกี่ยวกับความแตกต่างในการทำนาย / การอนุมานนั้นค่อนข้างจะผิดเพี้ยนไปเล็กน้อยและมีแนวโน้มที่จะตีความผิด ๆ หากมีสิ่งใดถ้าเราอนุมานว่าวัสดุ A นั้นแรงกว่า B เราต้องการให้สิ่งนี้ระงับตัวอย่างด้วย ยิ่งไปกว่านั้นความคิดเช่นนี้จะเพิกเฉยต่อแนวทาง bootstrap / permutations และตัวอย่างก็ออกไปหน่อย ไม่ได้ถูกบันทึกจริงๆโดยวิธีการรถไฟทดสอบแยก แต่จากกู nพี
usεr11852

@ usεr11852: ใช่ แต่เกือบเป็นไปไม่ได้เลยที่จะเลือกบทลงโทษตามมาตรฐานโดยไม่มีการตรวจสอบข้าม (นอกเหนือจากการคิดเกี่ยวกับบทลงโทษในฐานะนักบวชเบย์ แต่มันยากสำหรับกล่องดำ! และในขณะที่เราต้องการให้ผลลัพธ์ของเราในการเปรียบเทียบ A กับ B เพื่อยกตัวอย่างออกโดยทั่วไปนี่ไม่ใช่ปัญหาที่ต้องมีการปรับโมเดล (เช่นการทำนายมักจะ) และด้วยจำนวนพารามิเตอร์ที่ค่อนข้างต่ำทฤษฎีทางสถิติแบบดั้งเดิมสามารถจัดการสิ่งนี้ได้ โดยไม่ต้องใช้การตรวจสอบข้าม
หน้าผา AB

นี่เป็นอาร์กิวเมนต์แบบวงกลมการทำให้เป็นมาตรฐานใช้การตรวจสอบความถูกต้องข้าม แต่การตรวจสอบความถูกต้องเสร็จสิ้นสำหรับการทำให้เป็นมาตรฐาน นั่นเป็นเหตุผลที่ฉันแสดงความเห็นค่อนข้างต่อต้านมันเพื่อเริ่มต้นด้วย ฉันคิดว่าการอนุมานเชิงสถิติ / เวรกรรมย้ายออกไปจากวิธีการปรับแต่งที่ไม่ใช่แบบจำลองนี้ (ดูตัวอย่าง 2016 Johansson et al "การเป็นตัวแทนการเรียนรู้สำหรับการอนุมานเชิงต่อต้าน" - เช่นกระดาษที่สวยงามยุ่ง ๆ ) ในที่สุดการวิจัยฟิสิกส์ขั้นพื้นฐานเมื่อนำเสนอมันเป็นปัญหาที่ยากยังสามารถพึ่งพา ML (เช่น. ความท้าทายการเรียนรู้เครื่อง Higgs Boson )
usεr11852

@ usεr11852การทำให้เป็นมาตรฐานไม่ได้ "ใช้" การตรวจสอบความถูกต้องไขว้กัน แต่เลือกพารามิเตอร์การปรับค่าสำหรับการทำให้เป็นมาตรฐานโดยใช้การตรวจสอบข้าม ตัวอย่างเช่นดูglment's cv.glmnetสำหรับขั้นตอนทั้งหมดในฟังก์ชั่นที่มีขนาดกะทัดรัดดี
หน้าผา AB

1
นอกจากนี้ฉันไม่เคยอ้างว่าการวิจัยทางฟิสิกส์ไม่สามารถใช้วิธีการ ML หรือการตรวจสอบข้าม! ฉันอธิบายเพียงว่าโดยทั่วไปแล้วการตรวจสอบความถูกต้องไขว้ใช้สำหรับการเลือกระหว่างแบบจำลองที่ซับซ้อน / พารามิเตอร์การปรับในแบบจำลองการทำนายและในการทดลองทางฟิสิกส์คลาสสิกจำนวนมากไม่จำเป็นต้องมีการตรวจสอบความถูกต้องแบบไขว้ ดังนั้นสิ่งที่นักฟิสิกส์ทำกับข้อมูลนั้นไม่จำเป็นต้องขัดแย้งกับสิ่งที่นักสถิติจะทำกับข้อมูลนั้นซึ่งฉันเชื่อว่าเป็นแกนหลักของคำถามของ OP
หน้าผา AB

3

การเป็นนักเคมี (เชิงวิเคราะห์) ฉันพบทั้งสองวิธี: การคำนวณเชิงตัวเลขของการทำบุญ [ส่วนใหญ่สำหรับการถดถอยแบบไม่แปร) เช่นเดียวกับการวัดโดยตรงของตัวเลขเชิงทำนายของการทำบุญ
รถไฟ / การทดสอบแยกให้ฉันคือ "น้องชาย" ของการทดลองตรวจสอบเพื่อวัดคุณภาพการทำนาย


คำตอบยาว:

การทดลองทั่วไปที่เราทำเช่นในวิชาเคมีฟิสิกส์ระดับปริญญาตรีใช้การถดถอยเชิงเดี่ยว คุณสมบัติที่น่าสนใจมักจะเป็นแบบจำลองพารามิเตอร์เช่นเวลาคงที่เมื่อทำการวัดจลน์ศาสตร์ของปฏิกิริยา แต่บางครั้งก็มีการคาดการณ์ (เช่นการสอบเทียบเชิงเส้นแบบหลายตัวแปรแบบไม่แปรผันเพื่อทำนาย / วัดมูลค่าที่น่าสนใจ)
สถานการณ์เหล่านี้มีความอ่อนโยนมากในแง่ของการไม่ได้รับข้อมูลมากเกินไป: โดยปกติแล้วจะมีจำนวนองศาอิสระที่เหลืออยู่หลังจากประเมินพารามิเตอร์ทั้งหมดแล้วและพวกเขาจะใช้ในการฝึกอบรมนักเรียน (เช่นในด้านการศึกษา) ด้วยความมั่นใจ การขยายพันธุ์ - พวกมันถูกพัฒนาสำหรับสถานการณ์เหล่านี้ และแม้ว่าสถานการณ์จะไม่เหมือนตำราทั้งหมด (เช่นฉันมีโครงสร้างในข้อมูลของฉันเช่นในจลนศาสตร์ฉันคาดหวังว่าข้อมูลจะอธิบายได้ดีขึ้นโดยความแปรปรวนระหว่างการทำงานของปฏิกิริยา + ความแปรปรวนระหว่างการวัดในการวิ่งกว่า วิธีการแปรปรวนแบบเดียวอย่างเดียวแบบธรรมดา) โดยทั่วไปฉันสามารถมีการทดสอบมากพอที่จะได้รับผลลัพธ์ที่มีประโยชน์

พีnn<พีnnndวิธีการคลาสสิกไม่ทำงาน แต่ในขณะที่ฉันคาดการณ์ส่วนใหญ่ฉันมักจะมีความเป็นไปได้โดยตรงในการวัดความสามารถในการทำนายของแบบจำลองของฉัน: ฉันคาดการณ์และเปรียบเทียบกับค่าอ้างอิง

จริง ๆ แล้ววิธีการนี้มีประสิทธิภาพมาก (แม้ว่าจะมีราคาแพงเนื่องจากความพยายามในการทดลองเพิ่มขึ้น) เนื่องจากมันช่วยให้ฉันสามารถตรวจสอบคุณภาพการทำนายสำหรับเงื่อนไขที่ไม่ครอบคลุมในข้อมูลการฝึกอบรม / การสอบเทียบ เช่นฉันสามารถวัดได้ว่าคุณภาพการทำนายเสื่อมสภาพอย่างไรด้วยการคาดการณ์ (การคาดการณ์รวมถึงการวัดเช่นพูดหนึ่งเดือนหลังจากได้รับข้อมูลการฝึกอบรม) ฉันสามารถตรวจสอบความทนทานต่อปัจจัยรบกวนที่ฉันคาดหวังว่าสำคัญ เราสามารถศึกษาพฤติกรรมของแบบจำลองของเราเช่นเดียวกับที่เราศึกษาพฤติกรรมของระบบอื่น ๆ : เราตรวจสอบบางจุดหรือรบกวนและดูการเปลี่ยนแปลงในคำตอบของระบบ ฯลฯ

ฉันจะบอกว่าคุณภาพการทำนายที่สำคัญกว่านั้นคือ (และความเสี่ยงที่จะเกิดการ overfitting) ยิ่งสูงขึ้นเรายิ่งมีแนวโน้มที่จะชอบการวัดคุณภาพการทำนายโดยตรงมากกว่าตัวเลขที่ได้จากการวิเคราะห์ (แน่นอนว่าเราสามารถรวมผู้ที่ไว้วางใจทั้งหมดไว้ในการออกแบบการฝึกอบรมได้ด้วย) บางพื้นที่เช่นการวินิจฉัยทางการแพทย์เรียกร้องให้มีการศึกษาการตรวจสอบความถูกต้องที่เหมาะสมก่อนที่แบบจำลองจะ "ปล่อย" กับผู้ป่วยจริง

การแยกการรถไฟ / การทดสอบ (ไม่ว่าจะถือออก * หรือการตรวจสอบความถูกต้องของข้อมูลข้ามหรือการเลิกบูตหรือ ... ) ทำให้ขั้นตอนนี้ง่ายขึ้น เราบันทึกการทดลองเพิ่มเติมและไม่คาดการณ์ (เราจะสรุปเฉพาะการคาดการณ์กรณีอิสระที่ไม่รู้จักซึ่งมีการกระจายข้อมูลการฝึกเดียวกัน) ฉันจะอธิบายสิ่งนี้เป็นการยืนยันตัวตนแทนการตรวจสอบความถูกต้อง (แม้ว่าการตรวจสอบจะมีความลึกในคำศัพท์ที่นี่) นี่มักเป็นวิธีที่นำไปปฏิบัติได้หากไม่มีความต้องการความแม่นยำสูงของตัวเลขการทำบุญ (พวกเขาอาจไม่จำเป็นต้องรู้อย่างแม่นยำมากในสถานการณ์พิสูจน์แนวคิด)

* อย่าสับสนระหว่างการสุ่มแยกเป็นรถไฟและทดสอบด้วยการศึกษาที่ออกแบบมาอย่างเหมาะสมเพื่อวัดคุณภาพการทำนาย


2
+1 สำหรับการชี้ให้เห็นความแตกต่างในการตรวจสอบและการตรวจสอบ
พยากรณ์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.