การทำให้เป็นมาตรฐานและการปรับขนาด


45

อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน

โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง


6
normalizingมักจะหมายถึงการเปลี่ยนสังเกตของคุณเข้า (ที่เป็นวัดโดยทั่วไปอย่างต่อเนื่อง, ฟังก์ชั่น) เช่นที่พวกเขามีลักษณะการกระจายตามปกติ ตัวอย่างบางส่วนของการแปลงข้อมูล normalizing มีการแปลงพลังงาน Scalingเพียงหมายถึง ,นี้เป็นคูณสังเกตของคุณด้วยค่าคงซึ่งการเปลี่ยนแปลงขนาด (เช่นจากนาโนเมตรเป็นกิโลเมตร) . f ( x ) f f ( x ) = c x c R cxf(x)ff(x)=cxcRc

1
ที่เกี่ยวข้อง / ยังน่าสนใจ: อะไรที่แตกต่างระหว่างการฟื้นฟูและมาตรฐาน
gung - Reinstate Monica

การทำให้เป็นมาตรฐานยังเป็นวิธีการปรับขนาดเช่นเดียวกับมาตรฐาน

ฉันไม่มีชื่อเสียงพอที่จะตอบคำถาม ฉันคิดว่าชื่อคำถามของคุณควรเป็นมาตรฐานและมาตรฐานเนื่องจากทั้งสองนี้เป็นวิธีการลดขนาดที่แตกต่างกัน การปรับสภาพให้เป็นมาตรฐานจะลดค่าลงในช่วง 0 และ 1 ในขณะที่การกำหนดมาตรฐานกำลังเลื่อนการกระจายให้มีค่า 0 เป็นค่าเฉลี่ยและ 1 เป็นค่าเบี่ยงเบนมาตรฐาน
ฮามิดเฮย์เดเรียน

คำตอบ:


23

ฉันไม่ได้ตระหนักถึงคำจำกัดความของ "ทางการ" และแม้ว่าจะเป็นเช่นนั้นคุณไม่ควรเชื่อใจมันเพราะคุณจะเห็นว่ามันถูกใช้อย่างไม่สอดคล้องกันในทางปฏิบัติ

นี้ถูกกล่าวว่าปรับในสถิติมักจะหมายถึงการแปลงเชิงเส้นของรูปแบบ Bf(x)=ax+b

การทำให้เป็นมาตรฐานอาจหมายถึงการใช้การแปลงเพื่อให้คุณแปลงข้อมูลโดยทั่วไปจะกระจายแบบคร่าว ๆ แต่ก็อาจหมายถึงการใส่ตัวแปรที่แตกต่างในระดับทั่วไป การกำหนดมาตรฐานซึ่งหมายถึงการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐานเป็นตัวอย่างของการใช้งานในภายหลัง อย่างที่คุณเห็นมันเป็นตัวอย่างของการปรับขนาด ตัวอย่างแรกคือการบันทึกสำหรับข้อมูลกระจาย lognormal

แต่สิ่งที่คุณควรนำออกไปคือเมื่อคุณอ่านแล้วคุณควรมองหาคำอธิบายที่แม่นยำยิ่งขึ้นเกี่ยวกับสิ่งที่ผู้เขียนทำ บางครั้งคุณสามารถเอามันมาจากบริบท


14

การปรับสเกลเป็นทางเลือกส่วนตัวเกี่ยวกับการทำให้ตัวเลขรู้สึกถูกต้องเช่นระหว่างศูนย์ถึงหนึ่งหรือหนึ่งหรือหนึ่งร้อย ตัวอย่างเช่นการแปลงข้อมูลที่กำหนดในหน่วยมิลลิเมตรเป็นเมตรเพราะสะดวกกว่าหรือเป็นจักรวรรดิกับเมตริก

ในขณะที่การทำให้เป็นมาตรฐานนั้นเกี่ยวกับการปรับไปที่ 'มาตรฐาน' ภายนอก - บรรทัดฐานท้องถิ่น - เช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐานตัวอย่างเช่นเพื่อให้ข้อมูลที่เรียงลำดับของคุณสามารถเปรียบเทียบกับปกติ cummulative หรือปัวซอง cummulative หรือ อะไรก็ตาม

ดังนั้นหากอาจารย์หรือผู้จัดการต้องการข้อมูล 'ทำให้เป็นมาตรฐาน' หมายความว่า "ปรับขนาดใหม่ในแบบของฉัน " ;-)


9

ฉันไม่รู้ว่าคุณหมายถึงสิ่งนี้หรือไม่ แต่ฉันเห็นผู้คนจำนวนมากที่อ้างถึงการทำให้เป็นมาตรฐานหมายถึงข้อมูลการทำให้เป็นมาตรฐาน การกำหนดมาตรฐานกำลังเปลี่ยนข้อมูลของคุณดังนั้นมันจึงมีค่าเฉลี่ย 0 และค่าเบี่ยงเบนมาตรฐาน 1:

x <- (x - mean(x)) / sd(x)

ฉันยังเห็นคนที่ใช้คำว่า Normalization สำหรับ Data Scaling เช่นเดียวกับในการแปลงข้อมูลของคุณเป็นช่วง 0-1:

x <- (x - min(x)) / (max(x) - min(x))

อาจสร้างความสับสน!

เทคนิคทั้งสองมีข้อดีและข้อเสีย เมื่อปรับขนาดชุดข้อมูลที่มีค่าผิดปกติมากเกินไปข้อมูลที่ไม่ใช่ค่าผิดปกติของคุณอาจสิ้นสุดลงในช่วงเวลาที่สั้นมาก ดังนั้นหากชุดข้อมูลของคุณมีค่าผิดปกติมากเกินไปคุณอาจต้องพิจารณาตั้งค่ามาตรฐาน อย่างไรก็ตามเมื่อคุณทำเช่นนั้นคุณจะจบลงด้วยข้อมูลเชิงลบ (บางครั้งคุณไม่ต้องการ) และข้อมูลที่ไม่ได้ จำกัด (คุณอาจไม่ต้องการเช่นนั้น)


3

การจัดกึ่งกลางหมายถึงการเปลี่ยนค่าเฉลี่ยของตัวแปรสุ่มจากตัวแปร คือ x -xi

Scalelling หมายถึงการหารตัวแปรด้วยค่าเบี่ยงเบนมาตรฐาน Ie xi / s

การรวมกันของทั้งสองเรียกว่าการปรับสภาพหรือการจัดตำแหน่ง คือ x-xi / s


คำถามซ้ำซ้อน
Michael Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.