การทำให้เป็นมาตรฐานและความแตกต่างคืออะไร


118

ที่ทำงานเราคุยกันเรื่องนี้ในขณะที่หัวหน้าของฉันไม่เคยได้ยินเกี่ยวกับการทำให้เป็นมาตรฐาน ในพีชคณิตเชิงเส้นดูเหมือนว่าการทำให้เป็นมาตรฐานจะหมายถึงการหารเวกเตอร์ด้วยความยาว และในสถิติมาตรฐานดูเหมือนว่าจะหมายถึงการลบค่าเฉลี่ยแล้วหารด้วย SD แต่พวกเขาดูเหมือนจะเปลี่ยนได้กับความเป็นไปได้อื่น ๆ เช่นกัน

เมื่อสร้างคะแนนสากลบางประเภทซึ่งประกอบด้วยตัวชี้วัดที่แตกต่างกันแบบซึ่งมีวิธีการต่างกันและ SD ที่แตกต่างกันคุณจะทำให้ปกติเป็นมาตรฐานหรืออย่างอื่นหรือไม่ คนคนหนึ่งบอกฉันว่ามันเป็นแค่เรื่องของการวัดแต่ละครั้งและหารด้วย SD ของพวกเขาทีละคน จากนั้นรวมทั้งสอง และนั่นจะส่งผลคะแนนสากลที่สามารถใช้ตัดสินทั้งสองเมทริกได้2

ตัวอย่างเช่นสมมติว่าคุณมีจำนวนคนที่ขึ้นรถไฟใต้ดินไปทำงาน (ในนิวยอร์ค) และจำนวนคนที่ขับรถไปทำงาน (ในนิวยอร์ค)

รถยนต์y

Trainx
Cary

หากคุณต้องการสร้างคะแนนสากลเพื่อรายงานความผันผวนของการจราจรอย่างรวดเร็วคุณไม่สามารถเพิ่มและค่าเฉลี่ย( y )เพราะจะมีผู้คนจำนวนมากที่ขี่รถไฟ มีคน 8 ล้านคนอาศัยอยู่ในนิวยอร์ครวมถึงนักท่องเที่ยว นั่นคือผู้คนนับล้านที่ขึ้นรถไฟทุกวันข้อร้อยคนในรถยนต์ ดังนั้นพวกเขาจะต้องถูกแปลงให้มีขนาดใกล้เคียงกันเพื่อที่จะเปรียบเทียบmean(x)mean(y)

ถ้าmean(x)=8,000,000

และmean(y)=800,000

คุณจะทำให้ & yเป็นปกติแล้วรวม? คุณจะทำให้x & y เป็นมาตรฐานแล้วรวม? หรือคุณจะแบ่งแต่ละส่วนด้วย SD ของพวกเขาแล้วรวม? เพื่อให้ได้ตัวเลขที่เมื่อมีความผันผวนแสดงถึงความผันผวนของการรับส่งข้อมูลโดยรวมxyxy

บทความหรือบทใด ๆ สำหรับการอ้างอิงจะได้รับการชื่นชมมาก ขอขอบคุณ!

นี่เป็นอีกตัวอย่างหนึ่งของสิ่งที่ฉันพยายามจะทำ

ลองนึกภาพคุณเป็นคณบดีวิทยาลัยและคุณกำลังพูดถึงข้อกำหนดการรับเข้าเรียน คุณอาจต้องการให้นักเรียนที่มีเกรดเฉลี่ยอย่างน้อยหนึ่งและคะแนนการทดสอบบางอย่าง มันคงจะดีถ้าทั้งคู่อยู่ในระดับเดียวกันเพราะคุณสามารถเพิ่มทั้งสองเข้าด้วยกันแล้วพูดว่า "ใครก็ตามที่มีอย่างน้อย 7.0 สามารถเข้าใช้งานได้" ด้วยวิธีนี้หากนักเรียนที่คาดหวังมีเกรดเฉลี่ย 4.0 พวกเขาอาจได้คะแนนต่ำกว่าคะแนนทดสอบ 3.0 และยังคงได้รับการยอมรับ ในทางกลับกันหากใครบางคนมี 3.0 เกรดเฉลี่ยพวกเขายังคงสามารถเข้ารับการทดสอบด้วยคะแนนการทดสอบ 4.0 ได้

แต่มันไม่ใช่อย่างนั้น ACT อยู่ในระดับ 36 จุดและเกรดเฉลี่ยส่วนใหญ่อยู่ที่ 4.0 (บางรุ่นมี 4.3 ใช่น่ารำคาญ) เนื่องจากฉันไม่สามารถเพิ่ม ACT และ GPA เพื่อให้ได้คะแนนสากลบางประเภทฉันจะเปลี่ยนมันอย่างไรเพื่อให้สามารถเพิ่มได้ดังนั้นจึงสร้างคะแนนการรับเข้าสากล จากนั้นในฐานะดีนฉันสามารถยอมรับทุกคนที่มีคะแนนเหนือเกณฑ์ที่กำหนดได้โดยอัตโนมัติ หรือแม้แต่ยอมรับโดยอัตโนมัติทุกคนที่มีคะแนนอยู่ใน 95% อันดับต้น .... สิ่งต่าง ๆ เหล่านั้น

นั่นจะเป็นมาตรฐานหรือไม่ มาตรฐาน? หรือเพียงแค่หารด้วย SD ของพวกเขาแล้วรวมกัน?


4
ส่วนสุดท้ายของคำถามดูเหมือนว่าคุณกำลังพยายามสร้างการประเมินค่าจากหลายคุณลักษณะ สำหรับข้อมูลเพิ่มเติมเกี่ยวว่าดูคำถามและการตอบกลับที่stats.stackexchange.com/q/9137และstats.stackexchange.com/q/9358 โดยเฉพาะอย่างยิ่งโปรดทราบว่าการทำให้เป็นมาตรฐานหรือมาตรฐานไม่มีความเกี่ยวข้องโดยตรงกับปัญหาของคณบดี
whuber

คำตอบ:


65

การทำให้เป็นมาตรฐานจะลดค่าลงในช่วง [0,1] สิ่งนี้อาจมีประโยชน์ในบางกรณีที่พารามิเตอร์ทั้งหมดต้องมีสเกลบวกที่เหมือนกัน อย่างไรก็ตามค่าผิดปกติจากชุดข้อมูลจะหายไป

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

สำหรับมาตรฐานการใช้งานส่วนใหญ่แนะนำให้ใช้


7
คุณช่วยอธิบายได้ไหมว่าทำไม "ค่าผิดปกติจากชุดข้อมูลหายไป" เมื่อการทำข้อมูลเป็นปกติ
ผู้เรียน

3
ค่าผิดปกติในกรณีของการปรับขนาดใหม่จะมีผลต่อผลลัพธ์และจะไม่หายไป
Feras

@learner ลองนึกภาพถ้าคุณมี [1 2 3 4 5 1,000 2 4 5 2000 ... ] ค่าปกติของดาต้าพอยน์ 1,000 รายการจะเล็กลงเนื่องจากเรามี 2000
COLD ICE

3
@COLDICE ฉันคิดว่ามันขึ้นอยู่กับอัลกอริทึมการปรับสภาพที่คุณใช้ ตัวอย่างเช่นหากคุณหารทุกตัวเลขในชุดข้อมูลของคุณด้วยค่าสูงสุด (เช่น 2000) พวกเขาจะอยู่ในช่วงระหว่าง 0 ถึง 1 และจะไม่มีผลต่อค่าผิดปกติ
Alisson

3
ฉันคิดว่านี่จะไม่ส่งผลกระทบต่อผู้ผิดกฎหมายเลยมิฉะนั้นจะไม่สามารถทำได้ในโปรแกรมตรวจจับความผิดปกติ
Alisson

44

ในโลกธุรกิจปกติ "การทำให้เป็นมาตรฐาน" หมายถึงช่วงของค่าต่าง ๆ ที่ "ทำให้เป็นมาตรฐานได้ตั้งแต่ 0.0 ถึง 1.0" "มาตรฐาน" โดยทั่วไปหมายถึงช่วงของค่าคือ "มาตรฐาน" เพื่อวัดความเบี่ยงเบนมาตรฐานที่ค่านั้นมาจากค่าเฉลี่ย อย่างไรก็ตามไม่ใช่ทุกคนที่จะเห็นด้วย เป็นการดีที่สุดที่จะอธิบายคำจำกัดความของคุณก่อนที่จะใช้

ไม่ว่าในกรณีใดการแปลงร่างของคุณจะต้องให้สิ่งที่มีประโยชน์

ในตัวอย่างรถไฟ / รถยนต์ของคุณคุณรู้อะไรบ้างจากการรู้ว่าส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยของพวกเขามีกี่ค่า หากคุณพล็อตมาตรการ "แบบมาตรฐาน" ต่อกันเป็นพล็อต xy คุณอาจเห็นความสัมพันธ์ (ดูกราฟแรกทางด้านขวา):

http://en.wikipedia.org/wiki/Correlation_and_dependence

ถ้าเป็นเช่นนั้นนั่นหมายความว่าอะไรสำหรับคุณ

ตราบใดที่ตัวอย่างที่สองของคุณดำเนินไปหากคุณต้องการ "เปรียบเสมือน" เกรดเฉลี่ยจากระดับหนึ่งไปอีกระดับหนึ่งเกล็ดเหล่านี้มีอะไรที่เหมือนกันบ้าง กล่าวอีกนัยหนึ่งคุณสามารถแปลงค่าต่ำสุดเหล่านี้ให้เท่ากันและค่าสูงสุดให้เท่ากันได้อย่างไร

นี่คือตัวอย่างของ "การทำให้เป็นมาตรฐาน":

ลิงก์การทำให้เป็นมาตรฐาน

เมื่อคุณได้รับคะแนน GPA และ ACT ของคุณในรูปแบบที่เปลี่ยนได้คุณจะต้องชั่งน้ำหนักคะแนน ACT และเกรดเฉลี่ยแตกต่างกันหรือไม่? ถ้าเป็นเช่นนั้นการควบคุมน้ำหนักแบบใดที่มีความหมายสำหรับคุณ

แก้ไข 1 (05/03/2011) ========================================= =

ก่อนอื่นฉันจะตรวจสอบลิงก์ที่แนะนำโดยwhuberด้านบน บรรทัดล่างคือในปัญหาที่เกิดจากตัวแปรสองตัวของคุณคุณจะต้องหาค่า "ความเท่าเทียมกัน" ของตัวแปรหนึ่งเทียบกับอีกตัวแปรหนึ่ง และเป็นวิธีในการแยกความแตกต่างของตัวแปรหนึ่งจากอีกตัวแปรหนึ่ง กล่าวอีกนัยหนึ่งแม้ว่าคุณจะสามารถทำให้สิ่งนี้เป็นความสัมพันธ์เชิงเส้นอย่างง่ายได้คุณจะต้องมี "น้ำหนัก" เพื่อแยกความแตกต่างของตัวแปรหนึ่งจากตัวแปรอื่น

นี่คือตัวอย่างของปัญหาสองตัวแปร:

ยูทิลิตี้หลายคุณสมบัติ

จากหน้าสุดท้ายหากคุณสามารถพูดได้ว่าการจราจรบนรถไฟที่ได้มาตรฐานU1(x)เมื่อเทียบกับการจราจรทางรถยนต์มาตรฐานU2(y)นั้นเป็น "อิสระเพิ่มเติม" คุณอาจสามารถหนีด้วยสมการง่ายๆเช่น:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

โดยที่ k1 = 0.5 หมายความว่าคุณไม่สนใจการจราจรรถยนต์ / รถไฟมาตรฐาน ค่า k1 ที่สูงขึ้นหมายถึงปริมาณการใช้รถไฟU1(x)มีความสำคัญมากกว่า

อย่างไรก็ตามหากตัวแปรทั้งสองนี้ไม่ "อิสระต่อกัน" คุณจะต้องใช้สมการที่ซับซ้อนมากขึ้น ความเป็นไปได้อย่างหนึ่งปรากฏขึ้นในหน้า 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

ไม่ว่าในกรณีใดคุณจะต้องหาประโยชน์U(x, y)ที่เหมาะสม

แนวคิดเรื่องน้ำหนัก / การเปรียบเทียบทั่วไปมีไว้สำหรับปัญหา GPA / ACT ของคุณ แม้ว่าพวกเขาจะ "ปกติ" มากกว่า "มาตรฐาน"

หนึ่งประเด็นสุดท้าย ฉันรู้ว่าคุณจะไม่ชอบสิ่งนี้ แต่คำจำกัดความของคำว่า "อิสระเพิ่มเติม" อยู่ในหน้า 4 ของลิงค์ต่อไปนี้ ฉันมองหาคำจำกัดความที่เกินบรรยาย แต่หาไม่เจอ คุณอาจมองไปรอบ ๆ เพื่อหาสิ่งที่ดีกว่า

อิสระเพิ่ม

การอ้างอิงลิงค์:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

ตามที่แนะนำไว้ที่ด้านบนของการตอบสนองนี้ถ้าคุณวางแผนการจราจรรถไฟแบบมาตรฐานกับการจราจรบนรถยนต์มาตรฐานบนแผน xy คุณอาจเห็นความสัมพันธ์ ถ้าเป็นเช่นนั้นคุณกำลังติดอยู่กับสมการยูทิลิตี้ที่ไม่ใช่เชิงเส้นข้างต้นหรือสิ่งที่คล้ายกัน


ตกลง. คุณถูก. เป็นการดีที่สุดที่จะอธิบายคำจำกัดความของฉัน และเมื่อคิดถึงเรื่องนี้อีกครั้งมันไม่ใช่คำจำกัดความที่ฉันต้องการ สิ่งที่ฉันต้องการคือวิธีการที่เหมาะสมในการสร้าง 1 คะแนนสากล ไม่ว่าจะเป็นคะแนนเข้าชมหรือคะแนนการจราจร วิธีการหนึ่งที่เกี่ยวกับการสร้างตัวชี้วัดสากลที่เป็นฟังก์ชั่นของตัวแปรอื่น ๆ ซึ่งได้รับการแปลงเพื่อให้พวกเขาทั้งสองในระดับที่คล้ายกัน? และไม่ต้องกังวลกับน้ำหนัก ฉันเข้าใจว่าแม้การสรุปผลโดยตรงก็คือการถ่วงน้ำหนักตัวชี้วัด 1/1 แต่นั่นเป็นเรื่องที่น่ากังวลสำหรับฉันในตอนนี้
Chris

@Chris ฉันเพิ่มคำตอบของฉันเป็นการแก้ไขด้านบน
bill_080

2
(+1) การแก้ไขที่ดี @Chris: คุณอาจสนใจบันทึกย่อของชุด PowerPoint สั้น ๆที่นี่ : นี่คือการนำเสนอในหัวข้อที่ฉันให้กับบุคคลที่ไม่ใช่ด้านเทคนิค ฉันพูดถึงมันเพราะมีภาพประกอบและคำแนะนำสำหรับวิธี "สร้างเมตริกสากล"
whuber

ลิงค์ยูทิลิตี้หลายแอตทริบิวต์นั้นตายแล้วบทความสามารถดูได้ที่นี่web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/ …
mgilbert

6

คำตอบนั้นง่าย แต่คุณไม่ชอบ: ขึ้นอยู่กับมัน หากคุณให้ค่าเบี่ยงเบนมาตรฐาน 1 คะแนนจากทั้งสองฝ่ายเท่า ๆ กันการกำหนดมาตรฐานเป็นวิธีที่จะไป (หมายเหตุ: ที่จริงแล้วคุณกำลังเป็นนักเรียนอยู่เพราะคุณหารด้วยการประมาณค่า SD ของประชากร)

หากไม่เป็นไปได้ว่ามาตรฐานจะเป็นขั้นตอนแรกที่ดีหลังจากนั้นคุณสามารถให้น้ำหนักมากขึ้นกับคะแนนใดคะแนนหนึ่งโดยการคูณด้วยปัจจัยทางเลือก


อย่างน้อยคุณก็จะเริ่มจากสิ่งที่ฉันอธิบายว่าเป็นมาตรฐาน (การทำให้เป็นนักเรียน) แล้วปรับน้ำหนักให้เหมาะสมกับข้อมูล / สถานการณ์ที่สุด นั่นทำให้รู้สึก ฉันไม่เข้าใจว่าทำไมฉันถึงแบ่ง SD และในการค้นคว้าฉันพบสิ่งที่เรียกว่า Standardized Mean Difference .... และฉันเพิ่งสับสนตัวเอง ดูเหมือนว่ามันควรจะง่าย คุณอาจวางทั้งคู่ลงในเครื่องชั่ง - A หรืออีกเครื่องหนึ่งในเครื่องเดียวกับเครื่องอื่นจากนั้นจึงรวม แต่ไม่มี. แต่ฉันสับสนและ Wiki จะออกทั้งหมดในขณะนี้
คริส

0

เพื่อแก้ปัญหา GPA / ACT หรือปัญหารถไฟ / รถยนต์ทำไมไม่ลองใช้ค่าเฉลี่ยเรขาคณิต ?

n√ (a1 × a2 × ... × an)

a*ค่าของการแจกแจงอยู่ที่ไหนและnเป็นดัชนีของการแจกแจง

ค่าเฉลี่ยเรขาคณิตนี้ทำให้แน่ใจว่าแต่ละค่ามีการกระจายขนาด ดูเพิ่มเติมที่ค่าเฉลี่ยทางเรขาคณิต


3
ฉันไม่เห็นว่าค่าเฉลี่ยเรขาคณิตจะเหมาะสมกับสถานการณ์ที่ OP อธิบาย
gung

1
ฉันเห็นด้วยกับ gung ค่าเฉลี่ยทางเรขาคณิตไม่ใช่วิธีแก้ปัญหานี้
Ferdi

ค่าเฉลี่ยเรขาคณิตจะป้องกันการลดลงของการมีส่วนร่วมของตัวเลขที่น้อยลง ดังนั้นจึงอาจเป็นทางเลือกในการสร้างมาตรฐานหรือการทำให้เป็นมาตรฐานเมื่อต้องรวมเครื่องชั่งที่ไม่เท่ากัน
rnso

0

ในสาขาวิทยาศาสตร์ข้อมูลของฉันการทำให้เป็นมาตรฐานคือการเปลี่ยนแปลงของข้อมูลซึ่งช่วยให้การเปรียบเทียบข้อมูลดาวน์สตรีมง่ายขึ้น การทำให้เป็นมาตรฐานมีหลายประเภท ปรับขนาดเป็นหนึ่งในนั้น นอกจากนี้คุณยังสามารถบันทึกข้อมูลหรือทำสิ่งอื่นที่คุณต้องการ ประเภทของการทำให้เป็นมาตรฐานที่คุณใช้จะขึ้นอยู่กับผลลัพธ์ที่คุณต้องการเนื่องจากการปรับสภาพทั้งหมดจะเปลี่ยนข้อมูลให้เป็นอย่างอื่น

นี่คือบางสิ่งที่ฉันพิจารณาตัวอย่างการทำให้เป็นมาตรฐาน การปรับสเกล มาตรฐาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.