ทำการปรับสภาพคุณลักษณะก่อนหรือภายในการตรวจสอบรุ่นหรือไม่


52

แนวปฏิบัติที่ดีทั่วไปในการเรียนรู้ของเครื่องคือการทำคุณลักษณะการทำให้เป็นมาตรฐานหรือมาตรฐานข้อมูลของตัวแปรตัวทำนายนั่นคือทำให้ข้อมูลอยู่กึ่งกลางการแทนที่ค่าเฉลี่ยและทำให้มันเป็นมาตรฐานโดยการหารด้วยความแปรปรวน สำหรับการควบคุมตนเองและเพื่อความเข้าใจของฉันเราทำสิ่งนี้เพื่อให้บรรลุสองสิ่งสำคัญ:

  1. หลีกเลี่ยงน้ำหนักรุ่นเล็กพิเศษเพื่อจุดประสงค์ในการรักษาเสถียรภาพของตัวเลข
  2. ตรวจสอบให้แน่ใจว่าการรวมกันของอัลกอริธึมการปรับให้เหมาะสมอย่างรวดเร็วเช่น Conjugate Gradient เพื่อให้ขนาดอันใหญ่ของมิติตัวทำนายหนึ่งมิติที่อื่นไม่นำไปสู่การลู่เข้าที่ช้า

เรามักจะแบ่งข้อมูลออกเป็นชุดฝึกอบรมตรวจสอบและทดสอบ ในวรรณกรรมเรามักจะเห็นว่าการทำคุณลักษณะให้เป็นมาตรฐานพวกมันใช้ค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) เหนือชุดตัวแปรทำนายทั้งชุด ข้อบกพร่องใหญ่ ๆ ที่ฉันเห็นที่นี่คือถ้าคุณทำเช่นนั้นคุณกำลังแนะนำข้อมูลในอนาคตให้กับตัวแปรทำนายการฝึกอบรมซึ่งเป็นข้อมูลในอนาคตที่มีอยู่ในค่าเฉลี่ยและความแปรปรวน

ดังนั้นฉันจึงทำการปรับสภาพให้เป็นมาตรฐานบนข้อมูลการฝึกอบรมและบันทึกค่าเฉลี่ยและความแปรปรวน จากนั้นฉันจะนำคุณสมบัติการทำให้เป็นมาตรฐานมาใช้กับตัวแปรทำนายของชุดข้อมูลการตรวจสอบความถูกต้องและการทดสอบโดยใช้ค่าเฉลี่ยการฝึกอบรมและผลต่าง มีข้อบกพร่องพื้นฐานกับสิ่งนี้หรือไม่? ใครสามารถแนะนำทางเลือกที่ดีกว่าได้ไหม


ที่เกี่ยวข้อง: stats.stackexchange.com/questions/2306/…
steffen

คำตอบ:


46

วิธีการของคุณถูกต้องทั้งหมด แม้ว่าการแปลงข้อมูลมักจะไม่ได้รับการประเมินว่าเป็น "การประมวลผลล่วงหน้า" แต่ก็ไม่สามารถเน้นได้มากพอที่การเปลี่ยนแปลงเพื่อเพิ่มประสิทธิภาพของแบบจำลองสามารถทำได้และควรได้รับการปฏิบัติเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลอง

การใช้เหตุผล: รูปแบบจะถูกนำไปใช้กับข้อมูลที่มองไม่เห็นซึ่งโดยทั่วไปจะไม่สามารถใช้ได้ในเวลาที่สร้างแบบจำลอง กระบวนการตรวจสอบ (รวมถึงการแยกข้อมูล) จำลองสิ่งนี้ ดังนั้นเพื่อให้ได้การประเมินคุณภาพของโมเดล (และกำลังการรวมทั่วไป) ที่ดีเราจำเป็นต้อง จำกัด การคำนวณพารามิเตอร์การทำให้เป็นมาตรฐาน (ค่าเฉลี่ยและความแปรปรวน) ไปยังชุดฝึกอบรม

ฉันสามารถเดาได้ว่าทำไมสิ่งนี้ถึงไม่ได้ทำในวรรณคดี อาร์กิวเมนต์หนึ่งอาจเป็นได้ว่าการคำนวณค่าเฉลี่ยและความแปรปรวนนั้นไม่ได้มีความละเอียดอ่อนต่อการเปลี่ยนแปลงของข้อมูลขนาดเล็ก (แต่นี่เป็นเพียงความจริงถ้าขนาดตัวอย่างพื้นฐานมีขนาดใหญ่พอและมีการกระจายข้อมูลโดยทั่วไป


ฉันพบว่ามันสับสนเล็กน้อย OP บอกว่าเขากำลังทำคุณสมบัติให้เป็นมาตรฐานในการตรวจสอบความถูกต้องและชุดข้อมูลการทดสอบ คำตอบของคุณก่อนบอกว่าวิธีการของเขาถูกต้อง จากนั้นคุณพูดว่า "ต้อง จำกัด การคำนวณพารามิเตอร์การทำให้ปกติเป็นชุดฝึกอบรม" ซึ่งไม่ใช่สิ่งที่เขาทำ ดังนั้นการตอบสนองของคุณขัดแย้งกับตัวเองโดยบอกเขาว่าสิ่งที่เขาทำนั้นถูกต้องแล้วแนะนำเป็นอย่างอื่น สิ่งที่ฉันหายไปที่นี่?
mahonya

4
สิ่งที่ OP ทำอธิบายไว้ในย่อหน้าสุดท้ายของเขาและนี่คือสิ่งที่ฉันพูด แน่นอนว่าการปรับมาตรฐานจะนำไปใช้กับชุดทดสอบ / การตรวจสอบความถูกต้องหากนำไปใช้กับชุดฝึกอบรม จุดสำคัญคือพารามิเตอร์ของการฟื้นฟูนี้ได้รับการคำนวณในข้อมูลการฝึกอบรมเท่านั้นและไม่ได้อยู่ในทั้งชุด หวังว่านี่จะช่วยได้
steffen

อ่าขอบคุณมาก ฉันเข้าใจคำตอบของคุณผิด ฉันถึงแม้ว่าคุณจะแนะนำ 'การประยุกต์ใช้' ของการทำให้เป็นมาตรฐานสำหรับชุดการฝึกอบรมเท่านั้นซึ่งไม่ได้เป็นสิ่งที่คุณแนะนำ
mahonya

2

การปรับสภาพคุณลักษณะเป็นการทำให้คุณสมบัติที่แตกต่างในระดับเดียวกัน การไต่ระดับจะเร่งความเร็วในการไล่ระดับสีโดยหลีกเลี่ยงการทำซ้ำหลาย ๆ อย่างที่จำเป็นเมื่อคุณสมบัติอย่างน้อยหนึ่งค่ามีขนาดใหญ่กว่าส่วนที่เหลือ (โดยไม่ต้องปรับสเกล

ฉันคิดว่ามันสมเหตุสมผลที่ใช้ค่าเฉลี่ยและชุดการฝึกอบรมเมื่อข้อมูลการทดสอบมา แต่ถ้าขนาดของข้อมูลมีขนาดใหญ่ทั้งชุดการฝึกอบรมและการตรวจสอบความถูกต้องสามารถมองได้ว่าเป็นการแจกแจงแบบปกติดังนั้นพวกเขาจึงแบ่งปันค่าเฉลี่ยและค่าประมาณ


1
เหตุผลที่การทำข้อมูลให้เป็นมาตรฐานนั้นสามารถเร่งความเร็วการไล่ระดับสีได้ฉันคิดว่าถ้าไม่มีการทำให้มาตรฐาน rss มีรูปทรงวงรีดังนั้นหากอัตราการเรียนรู้คงที่ rss มีรูปทรงวงกลม (สมมาตร) ดังนั้นการไล่ระดับสีจะมาบรรจบกันอย่างรวดเร็ว ฉันถูกไหม?
อะโวคาโด

1

วิธีการที่คุณอธิบายไว้เป็นไปตามที่คนอื่นพูด คุณควรทำการแปลงแบบเดียวกันบนคุณสมบัติชุดการทดสอบของคุณเช่นเดียวกับที่ทำในคุณสมบัติจากชุดการฝึกอบรมของคุณ

ฉันคิดว่าการเพิ่มคุณค่านั้นเป็นอีกเหตุผลหนึ่งที่ทำให้การปรับสภาพคุณลักษณะอีกอย่างหนึ่งคือการเพิ่มประสิทธิภาพของกระบวนการบางอย่างที่มีความอ่อนไหวต่อความแตกต่างในระดับของตัวแปรบางตัว ตัวอย่างเช่นการวิเคราะห์องค์ประกอบหลัก (PCA) มีจุดมุ่งหมายเพื่อจับสัดส่วนความแปรปรวนที่ยิ่งใหญ่ที่สุดและเป็นผลให้น้ำหนักกับตัวแปรเพิ่มเติมที่แสดงความแปรปรวนที่ใหญ่ที่สุดหากไม่ได้ทำการปรับสภาพคุณลักษณะในตอนแรก


จุดดีมาก! ขอบคุณที่นำมันมาฉันจำได้จากการศึกษาของฉันมักจะทำให้เมทริกซ์อินพุตปกติก่อนคำนวณ PCA
SkyWalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.