การทำให้เป็นมาตรฐานก่อนการตรวจสอบความถูกต้องข้าม


16

การทำให้ข้อมูลเป็นมาตรฐาน (มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานที่เป็นเอกภาพ) ก่อนดำเนินการตรวจสอบความถูกต้องข้าม k-fold ซ้ำแล้วซ้ำอีกจะมีผลเสียเชิงลบใด ๆ เช่น overfitting หรือไม่?

หมายเหตุ: นี่เป็นสถานการณ์ที่ #case> ยอดรวม #features

ฉันกำลังแปลงข้อมูลบางส่วนของฉันโดยใช้การแปลงบันทึกจากนั้นปรับข้อมูลทั้งหมดให้เป็นปกติ ฉันกำลังทำการเลือกคุณสมบัติ ต่อไปฉันใช้คุณสมบัติที่เลือกและข้อมูลที่ได้มาตรฐานกับการตรวจสอบความถูกต้องข้าม 10 เท่าเพื่อลองและประเมินประสิทธิภาพของตัวจําแนกทั่วไปและฉันกังวลว่าการใช้ข้อมูลทั้งหมดเพื่อปรับมาตรฐานอาจไม่เหมาะสม ฉันควรทำให้ข้อมูลการทดสอบเป็นปกติสำหรับแต่ละเท่าโดยใช้ข้อมูลการทำให้เป็นปกติที่ได้จากข้อมูลการฝึกอบรมสำหรับการพับนั้นหรือไม่

ความคิดเห็นใด ๆ ที่ได้รับสุดซึ้ง! ขอโทษถ้าคำถามนี้ดูเหมือนชัดเจน

แก้ไข: จาก การทดสอบนี้ (ตามคำแนะนำด้านล่าง) ฉันพบว่าการทำให้เป็นมาตรฐานก่อน CV ไม่ได้ทำให้ประสิทธิภาพแตกต่างกันมากนักเมื่อเทียบกับการทำให้ปกติใน CV

คำตอบ:


13

ในการตอบคำถามหลักของคุณมันจะเป็นการดีที่สุดและเหมาะสมกับการขยายขนาดภายใน CV แต่มันอาจจะไม่สำคัญมากและอาจไม่สำคัญในทางปฏิบัติเลยหากตัวจําแนกของคุณช่วยลดข้อมูลซึ่งส่วนใหญ่ทำ (อย่างน้อยใน R)

อย่างไรก็ตามการเลือกคุณสมบัติก่อนที่จะทำการตรวจสอบข้ามเป็นเรื่องใหญ่และจะนำไปสู่การ overfitting เนื่องจากคุณจะเลือกพวกเขาตามวิธีที่พวกเขาดำเนินการกับชุดข้อมูลทั้งหมด การแปลงข้อมูลเป็นสิ่งที่ต้องทำนอกเนื่องจากการเปลี่ยนแปลงไม่ได้ขึ้นอยู่กับข้อมูลจริง (เพิ่มเติมเกี่ยวกับประเภทของข้อมูล) และไม่ใช่สิ่งที่คุณจะไม่ทำถ้าคุณมีข้อมูลเพียง 90% แทนที่จะเป็น 100% และ ไม่ได้ถูกปรับแต่งตามข้อมูล

เพื่อตอบความคิดเห็นของคุณอย่างชัดเจนว่าจะส่งผลให้เกิดการ overfitting หรือไม่นั้นขึ้นอยู่กับการเลือกคุณสมบัติ หากคุณเลือกพวกเขาโดยบังเอิญ (ทำไมคุณจะทำอย่างนั้น?) หรือเพราะการพิจารณาทางทฤษฎีเบื้องต้น (วรรณกรรมอื่น ๆ ) มันจะไม่สำคัญ แต่ถ้ามันขึ้นอยู่กับชุดข้อมูลของคุณมันจะ องค์ประกอบของการเรียนรู้เชิงสถิติมีคำอธิบายที่ดี คุณสามารถดาวน์โหลด. pdf ได้อย่างอิสระและถูกต้องตามกฎหมายที่นี่http://www-stat.stanford.edu/~tibs/ElemStatLearn/

ประเด็นที่เกี่ยวข้องกับคุณอยู่ในหัวข้อ 7.10.2 ในหน้า 245 ของการพิมพ์ครั้งที่ห้า มันมีชื่อว่า "ความผิดและวิธีที่ถูกต้องในการตรวจสอบความถูกต้อง"


ขอบคุณ - แน่นอนถ้าผลลัพธ์ที่รายงานเพียงอย่างเดียวสำหรับประสิทธิภาพโดยประมาณที่ได้รับโดยใช้แบบจำลองที่เลือกไว้ (คุณสมบัติ) ในแต่ละเท่านี้ไม่สามารถทำให้เกิดการ overfitting ได้? หลังจากนั้นคุณเพียงรายงานประสิทธิภาพทั่วไปของชุดย่อยคุณสมบัติที่กำหนด
BGreene

ฉันขยายคำตอบของฉันเพื่อแสดงความคิดเห็นของคุณ ฉันคิดว่าคำอธิบายในลิงค์ดีกว่าสิ่งที่ฉันสามารถปรุงได้ในขณะนี้
Erik

ขอขอบคุณ. สิ่งนี้ชี้ให้เห็นว่าไม่ควรใช้การเลือกคุณสมบัติตามตัวกรองมาตรฐานและการเลือกใช้คุณลักษณะตัวยึดตามนั้นหรือเทียบเท่าใช้แทน สิ่งนี้ยังคงเป็นจริงสำหรับสถานการณ์ที่ #Cases> #Features หรือไม่ (ฉันมี 259 เคสรวม 56 คุณสมบัติ) ฉันจะสมมติว่ามีโอกาสเกิดข้อผิดพลาดน้อยกว่าที่นี่ไหม
BGreene

4

การตรวจสอบความถูกต้องไขว้ถูกมองว่าเป็นวิธีการที่ดีที่สุดในการประเมินประสิทธิภาพของกระบวนการทางสถิติมากกว่าแบบจำลองทางสถิติ ดังนั้นเพื่อที่จะได้รับการประมาณการผลการดำเนินงานที่เป็นกลางที่คุณจำเป็นต้องทำซ้ำทุกองค์ประกอบของกระบวนการที่แยกต่างหากในพับของการตรวจสอบข้ามแต่ละครั้งซึ่งจะรวมถึงการฟื้นฟู ดังนั้นฉันจะบอกว่าปกติในแต่ละเท่า

ครั้งเดียวที่จะไม่จำเป็นคือถ้าขั้นตอนทางสถิตินั้นไม่สำคัญอย่างสมบูรณ์ต่อการปรับขนาดและค่าเฉลี่ยของข้อมูล


ฉันคิดว่านี่เป็นคำตอบที่ดีแม้ว่าจะไม่เข้มงวด แต่ก็มีประเด็นตรงข้าม ฉันคิดว่าความหมายคือถ้าคุณทำให้ปกติในแต่ละครั้งมันจะรับประกันได้ว่าการทำให้ปกติไม่ได้มีอคติ ดูเหมือนว่าวิธีที่เขียนนั้นไม่มีทางอื่นที่จะหลีกเลี่ยงอคติแม้ว่า Dikran จะชี้ให้เห็นในบรรทัดสุดท้ายว่ามีวิธีอื่น หากคุณทำการทำให้เป็นมาตรฐานใน CV มันจะไม่เพิ่มความลำเอียงเมื่อเทียบกับการทำนอกซึ่งอาจ ความลำเอียงอาจไม่ส่งผลกระทบมากนักดังที่ได้กล่าวไว้ในคำตอบอื่น ๆ
Tom Anderson

1

ฉันคิดว่าหากการปรับสภาพให้มาตรฐานมีเพียงสองพารามิเตอร์และคุณมีตัวอย่างขนาดที่ดีซึ่งจะไม่เป็นปัญหา ฉันจะกังวลมากขึ้นเกี่ยวกับการเปลี่ยนแปลงและกระบวนการเลือกตัวแปร การตรวจสอบความถูกต้องไขว้ 10 เท่าดูเหมือนจะเป็นความโกรธในปัจจุบัน ไม่มีใครใช้ bootstrap 632 หรือ 632+ สำหรับการประเมินอัตราข้อผิดพลาดลักษณนามตามที่ Efron (1983) แนะนำใน JASA และติดตามในภายหลังโดย Efron และ Tibshirani กับ 632+


0

ฉันชอบวิธีการ. 632 เป็นการส่วนตัว ซึ่งเป็นพื้นเพิ่มด้วยการเปลี่ยน หากคุณทำเช่นนั้นและลบรายการที่ซ้ำกันคุณจะได้รับ 632 รายการจากชุดอินพุต 1,000 รายการชนิดที่เรียบร้อย


อี0
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.