จะตีความค่าสัมประสิทธิ์การแปรปรวนได้อย่างไร?


33

ฉันพยายามที่จะเข้าใจสัมประสิทธิ์การแปรผัน เมื่อฉันพยายามนำไปใช้กับตัวอย่างสองข้อมูลต่อไปนี้ฉันไม่สามารถเข้าใจวิธีตีความผลลัพธ์

สมมติว่าตัวอย่างที่ 1 คือ0,5,7,12,11,17 และตัวอย่างที่ 2 คือ10,15,17,22,21,27 27 นี่ตัวอย่าง 2 =ตัวอย่าง 1 + 10ตามที่คุณเห็น

ทั้งสองมีค่าเบี่ยงเบนมาตรฐานเดียวกันσ2=σ1=5.95539แต่μ2=18.67และμ1=8.66667 8.66667

ทีนี้สัมประสิทธิ์การแปรผันจะแตกต่างกัน สำหรับตัวอย่างที่ 2 จะน้อยกว่าตัวอย่างที่ 1 แต่ฉันจะตีความผลลัพธ์นั้นได้อย่างไร ในแง่ของความแปรปรวนทั้งสองเหมือนกัน เฉพาะวิธีการของพวกเขาจะแตกต่างกัน ดังนั้นการใช้สัมประสิทธิ์การแปรผันตรงนี้คืออะไร? เป็นเพียงการทำให้เข้าใจผิดฉันหรือบางทีฉันไม่สามารถตีความผลลัพธ์σ/μ


หากแทนที่จะเพิ่ม 10 คุณจะเพิ่ม 1,000 ชุดตัวเลขที่สองจะแตกต่างกันน้อยกว่าโดยสัมพันธ์กับค่าเฉลี่ยมากกว่าชุดแรก สัมประสิทธิ์ความแปรปรวนคือการแสดงออกของสิ่งนี้

ที่เกี่ยวข้องอย่างใกล้ชิด: stats.stackexchange.com/questions/113437/...
whuber

คำตอบ:


42

ในตัวอย่างเช่นคุณเมื่อข้อมูลต่างกันเพียงแค่เพิ่มนั่นคือเราเพิ่มค่าคงที่ให้ทุกอย่างจากนั้นเมื่อคุณชี้ให้เห็นว่าค่าเบี่ยงเบนมาตรฐานไม่เปลี่ยนแปลงค่าเฉลี่ยจะเปลี่ยนตามค่าคงที่นั้นและสัมประสิทธิ์ของการเปลี่ยนแปลงเปลี่ยนแปลงจากσ / μถึงσ / ( μ + k )ซึ่งไม่น่าสนใจและไม่มีประโยชน์kσ/μσ/(μ+k)

มันเป็นการเปลี่ยนแปลงแบบทวีคูณที่น่าสนใจและที่สัมประสิทธิ์การเปลี่ยนแปลงมีประโยชน์บ้าง สำหรับการคูณทุกอย่างด้วยค่าคงที่หมายความว่าสัมประสิทธิ์การแปรผันกลายเป็นk σ / k μนั่นคือยังคงเหมือนเดิม การเปลี่ยนหน่วยการวัดเป็นกรณีในประเด็นเช่นเดียวกับในคำตอบของ @Aksalal และ @Macondkkσ/kμ

เนื่องจากสัมประสิทธิ์การแปรผันนั้นไม่มีหน่วยดังนั้นมันจึงเป็นแบบไม่มีมิติเนื่องจากหน่วยหรือมิติใดก็ตามที่มีตัวแปรพื้นฐานถูกล้างโดยการหาร นั่นทำให้สัมประสิทธิ์การแปรปรวนเป็นการวัดความแปรปรวนแบบสัมพัทธ์ดังนั้นความแปรปรวนแบบสัมพัทธ์ของความยาวอาจเปรียบเทียบกับน้ำหนักและอื่น ๆ เขตข้อมูลหนึ่งที่สัมประสิทธิ์การแปรปรวนพบการใช้เชิงพรรณนาบางส่วนคือขนาดของสิ่งมีชีวิตในชีววิทยา

ในหลักการและการปฏิบัติสัมประสิทธิ์การแปรผันจะถูกกำหนดอย่างสมบูรณ์เท่านั้นและมีประโยชน์สำหรับตัวแปรที่เป็นค่าบวกทั้งหมด ดังนั้นในรายละเอียดตัวอย่างแรกของคุณที่มีค่าจึงไม่ใช่ตัวอย่างที่เหมาะสม อีกวิธีหนึ่งในการเห็นสิ่งนี้คือการสังเกตว่าค่าเฉลี่ยสัมประสิทธิ์เป็นศูนย์จะไม่ถูกกำหนดและเป็นค่าเฉลี่ยที่เคยติดลบสัมประสิทธิ์จะเป็นค่าลบโดยสมมติว่าในกรณีหลังค่าเบี่ยงเบนมาตรฐานเป็นค่าบวก ทั้งสองกรณีจะทำให้การวัดไม่มีประโยชน์เป็นการวัดความแปรปรวนแบบสัมพัทธ์หรือเพื่อวัตถุประสงค์อื่นใด 0

ข้อความที่เทียบเท่าคือสัมประสิทธิ์การเปลี่ยนแปลงนั้นน่าสนใจและมีประโยชน์ก็ต่อเมื่อมีการกำหนดลอการิทึมตามปกติสำหรับค่าทั้งหมดและการใช้สัมประสิทธิ์การแปรผันนั้นเทียบเท่ากับการดูความแปรปรวนของลอการิทึม

แม้ว่ามันจะดูน่าเหลือเชื่อสำหรับผู้อ่านที่นี่ แต่ฉันได้เห็นสิ่งพิมพ์ทางภูมิอากาศและภูมิศาสตร์ซึ่งค่าสัมประสิทธิ์การแปรผันของอุณหภูมิเซลเซียสนั้นทำให้นักวิทยาศาสตร์ไร้เดียงสางงงวยที่สังเกตว่าสัมประสิทธิ์สามารถระเบิดได้เมื่ออุณหภูมิใกล้เคียง 0

ในกรณีของตัวอย่างที่แปลกประหลาดจากอุตุนิยมวิทยาซึ่งฉันไม่ได้อ้างถึงในฐานะผู้เขียนไม่สมควรได้รับเครดิตหรือความอับอายค่าสัมประสิทธิ์การแปรปรวนถูกนำไปใช้ในบางสาขา บางครั้งมีแนวโน้มที่จะถือว่าเป็นบทสรุปชนิดของเวทมนตร์ที่ห่อหุ้มทั้งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน นี่คือการคิดแบบดั้งเดิมตามธรรมชาติถึงแม้ว่าเมื่ออัตราส่วนทำให้ความรู้สึกค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานไม่สามารถกู้คืนจากมัน

ในสถิติค่าสัมประสิทธิ์การแปรผันเป็นพารามิเตอร์ที่ค่อนข้างเป็นธรรมชาติหากการเปลี่ยนแปลงตามมาด้วยแกมม่าหรือ lognormal ดังที่อาจเห็นได้จากการดูที่รูปแบบของสัมประสิทธิ์การแปรผันสำหรับการแจกแจงเหล่านั้น

แม้ว่าสัมประสิทธิ์การแปรปรวนสามารถนำไปใช้ประโยชน์ได้บ้างในกรณีที่ใช้ขั้นตอนที่มีประโยชน์มากขึ้นก็คือการทำงานในระดับลอการิทึมไม่ว่าจะโดยการแปลงลอการิทึมหรือโดยใช้ฟังก์ชันลิงก์ลอการิทึมในโมเดลเชิงเส้นทั่วไป

σ/|μ|


3
+1 โพสต์นี้มีประเด็นสำคัญเกี่ยวกับลอการิทึมและความเป็นไปได้ที่ควรเป็นส่วนหนึ่งของการอภิปรายเกี่ยวกับปัญหาใด ๆ "เรื่องราวสงคราม" ทำให้อ่านได้ดีเช่นกัน
whuber

ฉันคิดว่าคุณไม่สามารถคำนวณ CV ได้หากตัวแปรคือ = 0

1
@ Jerf: คิดให้ดี หากค่าทั้งหมดเป็น 0 แสดงว่าไม่มีการเปลี่ยนแปลงและไม่มีอะไรให้คำนวณ ไม่มีปัญหาเนื่องจากค่าบางค่าเป็น 0 เนื่องจากตัวมันเองไม่ได้ตัดค่าเฉลี่ยเป็น 0 แต่คุณสามารถหาตัวอย่างได้เสมอเมื่อค่าบางค่าไม่เป็นศูนย์ แต่ค่าเฉลี่ยคือ 0 เช่น -1, 0, 1 ใน ซึ่ง CV นั้นไม่แน่นอน แต่ในทางปฏิบัติ CV มีประโยชน์มากที่สุดเมื่อค่าทั้งหมดเป็นบวก
Nick Cox

13

ลองนึกภาพฉันพูดว่า "มีคน 1,625,330 คนในเมืองนี้บวกหรือลบห้าคน" คุณจะประทับใจในความรู้ด้านประชากรศาสตร์ที่แม่นยำของฉัน

แต่ถ้าฉันบอกว่า "มีคนห้าคนในบ้านนี้บวกหรือลบห้าคน" คุณคิดว่าฉันไม่มีเงื่อนงำว่ามีกี่คนในบ้าน

ค่าเบี่ยงเบนมาตรฐานเดียวกัน CV ที่แตกต่างกันมาก


1
นี่เป็นวิธีที่สมเหตุสมผลในการอธิบายว่า CoV คืออะไร แต่ไม่ชัดเจนว่าเกี่ยวข้องกับคำถามของ OP อย่างไร
gung - Reinstate Monica

OP ถามว่า: "ในแง่ของความแปรปรวนทั้งคู่เหมือนกันมีเพียงวิธีการของพวกเขาเท่านั้นที่แตกต่างกันดังนั้นการใช้สัมประสิทธิ์การแปรผันของที่นี่คืออะไร" ฉันคิดว่าตัวอย่างของฉันแสดงให้เห็นถึงการใช้ CV เป็นวิธีการตีความความแปรปรวน
บาร์ต

1
ฉันไม่ได้ลงคะแนนคุณ คำถามที่ชัดเจน 2 ข้อของ OP คือ: "ฉันจะตีความผลลัพธ์นั้นได้อย่างไร", & "การใช้สัมประสิทธิ์การเปลี่ยนแปลงที่นี่คืออะไร" คุณอธิบายได้ดี แต่เข้าใจว่า CoV คืออะไรเป็นเพียงขั้นตอนแรกในการตอบคำถามเหล่านั้นไม่ใช่คำตอบทั้งหมดของคำถามเหล่านั้น
gung - Reinstate Monica

4

โดยปกติคุณใช้สัมประสิทธิ์การเปลี่ยนแปลงสำหรับตัวแปรของหน่วยการวัดที่แตกต่างกันหรือเครื่องชั่งที่แตกต่างกันมาก คุณสามารถคิดว่ามันเป็นอัตราส่วนเสียง / สัญญาณ ตัวอย่างเช่นคุณอาจต้องการเปรียบเทียบความแปรปรวนของน้ำหนักและส่วนสูงของนักเรียน ความแปรปรวนของ GDP ของสหรัฐอเมริกาและโมนาโก

ในกรณีของคุณค่าสัมประสิทธิ์การเปลี่ยนแปลงอาจไม่สมเหตุสมผลเลยเนื่องจากค่าไม่แตกต่างกันมาก


2

ตัวอย่างที่มีค่าสูงกว่าจะมีความแปรปรวนน้อยกว่าเมื่อเทียบกับค่าเฉลี่ยs/x¯) แนะนำ มันค่อนข้างตรงไปตรงมา ค่าสัมประสิทธิ์ของการเปลี่ยนแปลงมีประโยชน์เมื่อเปรียบเทียบการเปลี่ยนแปลงระหว่างตัวอย่าง (หรือประชากร) ของเครื่องชั่งที่แตกต่างกัน พิจารณาว่าคุณกำลังเผชิญกับค่าจ้างระหว่างประเทศ การเปรียบเทียบความผันแปรของค่าจ้างในสหรัฐอเมริกาและญี่ปุ่นนั้นให้ข้อมูลน้อยกว่าถ้าคุณใช้ความแปรปรวนแทนที่จะเป็นค่าสัมประสิทธิ์การเปลี่ยนแปลงเนื่องจากสถิติของคุณเนื่องจาก 1 USD ~ = 100 JPY และความแตกต่างของค่าแรง 1 หน่วยไม่ได้เหมือนกันทั้งสองตัวอย่าง ในตัวอย่างนี้คุณสามารถแปลงทุกอย่างเป็น USD แล้วทำการคำนวณได้ แต่ก็ไม่ชัดเจนเสมอไปว่าจะแปลงระหว่างเครื่องชั่งที่แตกต่างกันอย่างไร เมื่อเปรียบเทียบความผันแปรในน้ำหนักตัวของสปีชีส์ต่างกันเป็นต้น


2

ในความเป็นจริงสถิติทั้งสองอาจทำให้เข้าใจผิดหากคุณไม่ทราบหรือเข้าใจสมมติฐานและการทดสอบของคุณ ลองพิจารณาตัวอย่างที่น่าสยดสยองนี้ ... เดินข้ามอาคารสูงสองตึกบนเส้นทางเดินตรงข้ามเมื่อเทียบกับการเดินบนแผ่นไม้ สมมุติว่า tightrope มีเส้นผ่านศูนย์กลาง 1 นิ้วในขณะที่ไม้กระดานกว้าง 12 นิ้ว 5 คนถูกขอให้เดินเชือกและ 5 คนถูกขอให้เดินไม้กระดาน เราพบผลลัพธ์ต่อไปนี้:

ระยะทางเฉลี่ยของแต่ละขั้นตอนจากขอบ (หรือด้านข้าง) ของเชือก (นิ้ว): 0.5, 0.2, 0.3, 0.6, 0.1

ระยะทางเฉลี่ยของแต่ละขั้นตอนจากขอบ (หรือด้านข้าง) ของไม้กระดาน (นิ้ว): 5.5, 5.2, 5.3, 5.6, 5.1

เช่นเดียวกับในตัวอย่างของคุณตัวอย่างนี้จะส่งผลให้มีค่าเบี่ยงเบนมาตรฐานเท่ากันเนื่องจากค่าของไม้กระดานนั้นมีความแตกต่าง +5 กับค่าของไม้กระดาน อย่างไรก็ตามถ้าฉันบอกคุณว่าค่าเบี่ยงเบนมาตรฐานสำหรับการทดสอบแต่ละครั้งคือ 0.2074 คุณอาจพูดได้ดีการทดลองทั้งสองนั้นเทียบเท่ากัน อย่างไรก็ตามถ้าฉันบอกคุณว่าประวัติย่อของการทดสอบไต่เชือกเกือบ 61% เทียบกับต่ำกว่า 4% สำหรับไม้กระดานคุณอาจจะถามว่ามีคนตกเชือกกี่คน


0

CV เป็นความแปรปรวนแบบสัมพัทธ์ที่ใช้ในการเปรียบเทียบความแปรปรวนของชุดข้อมูลตัวอย่างที่แตกต่างกัน สำหรับตัวอย่างคุณค่าเบี่ยงเบนมาตรฐาน / ความแปรปรวนเดียวกันที่มีค่าเฉลี่ยน้อยกว่าจะสร้าง CV ที่เล็กกว่า มันบ่งชี้ว่าชุดข้อมูล CV ที่เล็กกว่านั้นมีความแปรปรวนของสัมพัทธ์น้อยกว่า สมมติว่าคุณมีรายได้ 10,000 ต่อเดือนและฉันจะได้รับ 100. (ค่าเฉลี่ยที่แตกต่างกัน) เราทุกคนอาจสูญเสีย 100 รายเดือน (vriation) ฉันจะได้รับบาดเจ็บมากกว่าคุณเพราะฉันได้ CV ที่ใหญ่กว่า (cv = 1 เทียบกับ 0.01) การเปลี่ยนแปลงมากขึ้น


1
ฉันต้องบอกว่านี่ไม่ได้เพิ่มอะไรเลยกับคำตอบที่มีอยู่
Nick Cox

0

ในกรณีนี้ cv ไม่ใช่เครื่องมือทางสถิติที่ถูกต้องในการอธิบายผลลัพธ์

depending on the nature of the research carried out hence the objective, researcher has a specific hypothesis or point to proof. He or she must design, execute experiment and analyse data using the best and appropriate statistical tool i.e. if the experiment is to compare growth of group 1 and group 2, although cv of both are the same, but using T-test or paired T-test or Anova (bigger experiment) it could easily prove the different between the two group.

The key here is to apply the appropriate statistical tool to give a meaningful explanation about the result. Remember cv is just one of the choices in Descriptive statistic.

my 2 cents

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.