แนวคิดในการทำข้อมูลมีค่าศูนย์


12

ฉันมักจะเห็นคนสร้างมิติ / คุณสมบัติของชุดข้อมูลให้มีค่าเป็นศูนย์โดยการลบค่าเฉลี่ยจากองค์ประกอบทั้งหมด แต่ฉันไม่เคยเข้าใจเลยว่าทำไมต้องทำเช่นนั้น? ผลของการทำเช่นนั้นเป็นขั้นตอน preprocessing คืออะไร มันปรับปรุงประสิทธิภาพการจำแนกประเภทหรือไม่? ช่วยตอบบางอย่างเกี่ยวกับชุดข้อมูลหรือไม่ มันช่วยได้หรือไม่เมื่อสร้างภาพข้อมูลเพื่อทำความเข้าใจกับข้อมูล?


9
วิธีการนี้เรียกว่าอยู่ตรงกลาง หนึ่งในแอปพลิเคชันของมันคือเปลี่ยนการสกัดกั้นของโมเดลการถดถอยเป็น "ทำนาย y เมื่อ x อยู่ที่ค่าเฉลี่ย" ทำให้การสกัดกั้นนั้นตีความได้ง่ายขึ้น
Penguin_Knight

คุณลักษณะ / ชุดข้อมูลที่กึ่งกลางสามารถกล่าวได้ว่ามีสภาพดี ดูที่นี่สำหรับการอธิบายด้วยภาพ การทำงานของอินพุต normalizing ทำให้การไล่ระดับสีทำได้ง่ายขึ้นมาก
ปรับ

คำตอบ:


12

บางกรณีที่ "การจัดศูนย์กลางข้อมูลตามความหมาย" (ต่อจากนี้เพียงแค่ "การลดความหมาย") มีประโยชน์:

N(10,4)N(100,4)

2) การคำนวณที่ง่ายขึ้นของช่วงเวลาที่สูงขึ้น: แม้ว่าการเพิ่มค่าคงที่ให้กับตัวแปรแบบสุ่มจะไม่เปลี่ยนความแปรปรวนหรือความแปรปรวนร่วมกับตัวแปรสุ่มอื่น ๆ แต่ถ้าคุณมีค่าเฉลี่ยที่ไม่เป็นศูนย์และคุณต้องเขียนการคำนวณแบบละเอียด คุณต้องเขียนข้อกำหนดทั้งหมดและแสดงให้เห็นว่าพวกเขายกเลิก หากตัวแปรไม่มีความหมายคุณจะประหยัดการคำนวณที่ไร้ประโยชน์มากมาย

3) ตัวแปรสุ่มที่มีศูนย์กลางอยู่ที่ค่าเฉลี่ยของพวกเขาเป็นหัวข้อของทฤษฎีบทขีด จำกัด กลาง

4) การเบี่ยงเบนจาก "ค่าเฉลี่ย" อยู่ในหลายกรณีปัญหาที่น่าสนใจและไม่ว่าพวกเขาจะมีแนวโน้มที่จะ "สูงกว่าหรือต่ำกว่าค่าเฉลี่ย" มากกว่าค่าจริงของตัวแปรสุ่ม "การแปล" (การมองเห็นและ / หรือการคำนวณ) การเบี่ยงเบนด้านล่างค่าเฉลี่ยเป็นค่าลบและการเบี่ยงเบนเหนือค่าเฉลี่ยเป็นค่าบวกทำให้ข้อความชัดเจนและแข็งแกร่งขึ้น

สำหรับการสนทนาเชิงลึกเพิ่มเติมดูได้ที่

เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน

การจัดศูนย์กลางข้อมูลในการถดถอยหลายครั้ง

หากคุณค้นหา "ข้อมูลกึ่งกลาง" ใน CV คุณจะพบโพสต์ที่น่าสนใจอื่น ๆ


@OP: ฉันคิดว่าคำตอบนี้ควรได้รับการยอมรับ
rottweiler

4

นอกจากนี้สำหรับเหตุผลในทางปฏิบัติมันเป็นประโยชน์ที่จะรวมศูนย์ข้อมูลเช่นเมื่อฝึกอบรมเครือข่ายประสาท

แนวคิดก็คือในการฝึกอบรมโครงข่ายประสาทเทียมจำเป็นต้องแก้ปัญหาการหาค่าเหมาะที่สุดแบบไม่ใช้นูนโดยใช้วิธีการไล่ระดับสี การไล่ระดับสีจะถูกคำนวณโดยใช้วิธีการ backpropagation ตอนนี้การไล่ระดับสีเหล่านี้ขึ้นอยู่กับอินพุตและการจัดศูนย์กลางข้อมูลเอาอคติที่เป็นไปได้ในการไล่ระดับสี

เป็นรูปธรรมค่าเฉลี่ยที่ไม่เป็นศูนย์สะท้อนให้เห็นในค่าลักษณะเฉพาะขนาดใหญ่ซึ่งหมายความว่าการไล่ระดับสีมีแนวโน้มที่จะใหญ่กว่าในทิศทางเดียวมากกว่าคนอื่น ๆ (อคติ) จึงชะลอกระบวนการบรรจบในที่สุดนำไปสู่การแก้ปัญหาที่เลวร้ายยิ่ง


1

หากต้องการเพิ่มสิ่งที่ Alecos กล่าวไว้ซึ่งดีมากการจัดศูนย์กลางข้อมูลของคุณที่ศูนย์เป็นสิ่งสำคัญอย่างยิ่งเมื่อใช้สถิติแบบเบส์หรือการทำให้เป็นปกติเนื่องจากมิฉะนั้นข้อมูลอาจมีความสัมพันธ์กับการสกัดกั้นซึ่งทำให้การทำให้เป็นมาตรฐานไม่ได้ทำตามที่คุณต้องการ

การทำให้ข้อมูลเป็นศูนย์หมายความว่าสามารถลดเงื่อนไขการแปรปรวนของเมทริกซ์ความแปรปรวนร่วมหลายเส้นทำให้ข้อมูลสามารถตีความได้ง่ายขึ้นและสัมประสิทธิ์มีความหมายโดยตรงมากขึ้น ปัจจัยอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.