ฉันกำลังศึกษาการปรับขนาดข้อมูลและโดยเฉพาะอย่างยิ่งวิธีการมาตรฐาน ฉันเข้าใจคณิตศาสตร์ด้านหลังแล้ว แต่มันไม่ชัดเจนสำหรับฉันว่าทำไมจึงสำคัญที่จะต้องให้คุณสมบัติเป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย
คุณอธิบายฉันได้ไหม
ฉันกำลังศึกษาการปรับขนาดข้อมูลและโดยเฉพาะอย่างยิ่งวิธีการมาตรฐาน ฉันเข้าใจคณิตศาสตร์ด้านหลังแล้ว แต่มันไม่ชัดเจนสำหรับฉันว่าทำไมจึงสำคัญที่จะต้องให้คุณสมบัติเป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย
คุณอธิบายฉันได้ไหม
คำตอบ:
คำถามที่ว่าทำไมและทำไมจึงมีความสำคัญขึ้นอยู่กับบริบท
ยกตัวอย่างเช่นต้นไม้ตัดสินใจเพิ่มมันไม่ใช่เรื่องสำคัญ - อัลกอริธึม ML เหล่านี้ "ไม่สนใจ" เกี่ยวกับการแปลงข้อมูลแบบโมโนโทน พวกเขาแค่มองหาจุดที่จะแยกมัน
สำหรับตัวทำนายเชิงเส้นตัวอย่างเช่นการปรับสเกลสามารถปรับปรุงความสามารถในการตีความของผลลัพธ์ หากคุณต้องการคิดถึงขนาดของสัมประสิทธิ์เป็นตัวบ่งชี้ว่าสถานที่นั้นมีผลต่อผลลัพธ์มากน้อยเพียงใดคุณลักษณะนั้นจะต้องถูกลดขนาดให้อยู่ในพื้นที่เดียวกัน
สำหรับผู้ทำนายบางคนโดยเฉพาะอย่างยิ่ง NN การปรับขนาดและโดยเฉพาะอย่างยิ่งการปรับช่วงเฉพาะอาจมีความสำคัญสำหรับเหตุผลทางเทคนิค เลเยอร์บางอันใช้ฟังก์ชั่นที่เปลี่ยนแปลงอย่างมีประสิทธิภาพเฉพาะในบางพื้นที่ (คล้ายกับตระกูลไฮเพอร์โบลิก - ฟังก์ชั่น ) และหากฟีเจอร์นั้นอยู่นอกขอบเขตมากเกินไปความอิ่มตัวอาจเกิดขึ้นได้ หากสิ่งนี้เกิดขึ้นอนุพันธ์เชิงตัวเลขจะทำงานได้ไม่ดีและอัลกอริทึมอาจไม่สามารถรวมกันเป็นจุดที่ดีได้
ในกรณีที่ค่าเฉลี่ยเป็นศูนย์นั่นเป็นเพราะโมเดลการเรียนรู้ของเครื่องบางเครื่องไม่รวมอคติในการเป็นตัวแทนดังนั้นเราจึงต้องย้ายข้อมูลรอบแหล่งกำเนิดก่อนที่จะป้อนเข้าสู่อัลกอริธึม ในกรณีของความแปรปรวนของหน่วยนั่นเป็นเพราะอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากใช้ระยะทางบางชนิด (เช่น Euclidean) เพื่อตัดสินใจหรือทำนาย หากคุณลักษณะเฉพาะมีค่ากว้าง (เช่นความแปรปรวนขนาดใหญ่) ระยะทางจะได้รับผลกระทบอย่างมากจากคุณสมบัตินั้นและผลกระทบของคุณสมบัติอื่น ๆ จะถูกละเว้น โดยวิธีการบางขั้นตอนวิธีการเพิ่มประสิทธิภาพ (รวมถึงการไล่ระดับสีไล่ระดับ) มีประสิทธิภาพที่ดีขึ้นเมื่อข้อมูลเป็นมาตรฐาน
ดังนั้นจึงขอแนะนำให้นำคุณลักษณะทั้งหมดมาให้มีขนาดเล็กลงพอที่จะฝึกได้ง่าย ลิงค์ด้านล่างนี้ยังกล่าวถึงแนวคิดที่คล้ายกัน /stats/41704/how-and-why-do-normalization-and-feature-scaling-work