ทำไมสัมประสิทธิ์ความแปรปรวนไม่ถูกต้องเมื่อใช้ข้อมูลที่มีค่าเป็นบวกและลบ


10

ฉันดูเหมือนจะไม่พบคำตอบที่ชัดเจนสำหรับคำถามของฉัน

ข้อมูลของฉันประกอบด้วยแปลงหลายแปลงที่มีค่าเฉลี่ยที่วัดได้จาก 0.27 ถึง 0.57 ในกรณีของฉันค่าข้อมูลทั้งหมดเป็นค่าบวก แต่การวัดตัวเองนั้นขึ้นอยู่กับอัตราส่วนของค่าการสะท้อนที่สามารถอยู่ในช่วงตั้งแต่ -1 ถึง +1 พล็อตแสดงค่าของNDVIซึ่งเป็นตัวบ่งชี้ที่ได้มาจากระยะไกลของพืช "ผลผลิต"

ความตั้งใจของฉันคือการเปรียบเทียบความแปรปรวนของค่าในแต่ละพล็อต แต่เนื่องจากแต่ละพล็อตมีค่าเฉลี่ยที่แตกต่างกันฉันเลือกใช้ CV เพื่อวัดการกระจายสัมพัทธ์ของค่า NDVI ต่อพล็อต

จากสิ่งที่ฉันเข้าใจการใช้ CV ของพล็อตเหล่านี้ไม่ใช่เพียวเพราะแต่ละพล็อตสามารถมีทั้งค่าบวกและค่าลบ เหตุใดจึงไม่เหมาะสมที่จะใช้ CV ในกรณีดังกล่าว สิ่งที่จะเป็นทางเลือกที่ทำงานได้ (เช่นการทดสอบการกระจายตัวที่คล้ายกันการแปลงข้อมูลและอื่น ๆ )?


1
จุดประสงค์ของการเปรียบเทียบความแปรปรวนคืออะไร? ทำไมคุณไม่เปรียบเทียบการวัดความแปรปรวนที่เกิดขึ้นจริงเช่น SD, MAD, range หรืออะไรก็ตามแทนที่จะเป็นหน่วยวัดเทียบแบบ CV (ซึ่งไม่สมเหตุสมผล)
whuber

ฉันใช้ CV เพื่ออธิบายความแตกต่างของค่าเฉลี่ยระหว่างพล็อต มันไม่สมเหตุสมผลเพราะค่าอยู่ระหว่าง -1 ถึง +1 ในทุกแปลง? คือ "ความแปรปรวนที่แท้จริง" จะบ่งบอกถึงความแตกต่างระหว่างแปลงมากขึ้นหรือไม่
Prophet60091

2
CV เป็นญาติตัวชี้วัดของการเปลี่ยนแปลงโดยความหมาย มันให้ผลลัพธ์ที่ไร้สาระสำหรับค่าลบใด ๆ (คุณไม่สามารถแปลจำนวนการกระจายหรือการกระจายจำนวนลบได้) สำหรับวิธีการในเชิงบวกจะทำให้ปริมาณการแพร่กระจายที่กำหนดมีขนาดใหญ่ขึ้นเมื่อค่าเฉลี่ยมีขนาดเล็ก เมื่อต้องการสิ่งนี้สิ่งที่คุณทำมีประสิทธิภาพเทียบเท่ากับการเปรียบเทียบข้อมูลของคุณในระดับลอการิทึม - ซึ่งไม่สมเหตุสมผลเมื่อใดก็ตามที่ข้อมูลใด ๆอาจเป็นศูนย์หรือลบ เป็นไปได้ว่าข้อมูลของคุณอาจต้องการนิพจน์บางอย่างเพื่อให้สามารถเปรียบเทียบความแปรปรวนได้ดี ขึ้นอยู่กับวิธีการสร้าง
whuber

+1 สำหรับคำอธิบาย แม้ว่าค่าเฉลี่ยของพล็อตของฉันจะเป็นค่าบวกทั้งหมด แต่อาจมีค่าลบภายในแต่ละพล็อต จากคำตอบข้างต้นและคำตอบของปีเตอร์ด้านล่างมันจะไม่ปรากฏว่าการใช้ CV นั้นไม่ได้รับประกัน ฉันจะดูที่ช่วยลดค่าและ / หรือการใช้มาตรการของความแปรปรวนที่เกิดขึ้นจริง
Prophet60091

1
หากคุณสามารถเก็บข้อมูลของคุณได้อย่างสมเหตุสมผลด้วยการเพิ่มค่าคงที่นั่นก็หมายความว่า CV ไม่ใช่ความคิดที่ดี นี่เป็นเพราะการเพิ่มค่าคงที่จะเปลี่ยน CV แต่ไม่เปลี่ยนรูปแบบ
Peter Flom

คำตอบ:


11

คิดว่า CV คืออะไร: อัตราส่วนของค่าเบี่ยงเบนมาตรฐานต่อค่าเฉลี่ย แต่ถ้าตัวแปรสามารถมีค่าบวกและลบได้ค่าเฉลี่ยอาจอยู่ใกล้กับ 0 มาก ดังนั้น CV จะไม่ทำสิ่งที่ควรจะทำอีกต่อไปนั่นคือให้ความรู้สึกว่า SD มีขนาดใหญ่เพียงใดเมื่อเทียบกับค่าเฉลี่ย

แก้ไข: ในความคิดเห็นฉันพูดว่าถ้าคุณสามารถเพิ่มค่าคงที่ให้กับตัวแปร CV อย่างไม่สมเหตุสมผล นี่คือตัวอย่าง:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 เป็นเพียง x + 10 ฉันคิดว่ามันชัดเจนอย่างสังหรณ์ใจว่าพวกมันแปรผันเท่ากัน แต่ CV นั้นแตกต่างกัน

ตัวอย่างชีวิตจริงของสิ่งนี้คือถ้า x เป็นอุณหภูมิในองศา C และ x2 เป็นอุณหภูมิเป็นองศา K (แม้ว่าจะมีใครสามารถโต้แย้งได้ว่า K เป็นมาตราส่วนที่เหมาะสมเนื่องจากมันมีค่า 0)


ขอบคุณ! ดังนั้นความกังวลเกี่ยวกับการมีค่าเฉลี่ยใกล้ศูนย์และไม่จำเป็นต้องมีค่าบวกและค่าลบในข้อมูลของคุณ ถ้าเป็นเช่นนั้นจะถือว่าใกล้เคียงกับค่าเฉลี่ยของศูนย์ "ใกล้มาก"? ในกรณีของฉันฉันจะบอกว่าฉันไม่ได้มีค่าเฉลี่ยใกล้ศูนย์ มีวิธีที่ชัดเจนในการพิจารณาสิ่งนี้หรือไม่?
Prophet60091

ไม่ข้อกังวลคือ CV ไม่ได้ทำสิ่งที่ควรทำอีกต่อไปแม้ว่าจะมีค่าลบเพียง 1 ตัวเท่านั้น หากคุณมีค่าลบอย่าใช้ CV นอกจากนี้หากค่าของคุณอยู่ในระดับที่กำหนดเองอย่าใช้ CV
Peter Flom

เพื่อความสมบูรณ์คุณสามารถให้คำอธิบายเพิ่มเติมเล็กน้อยว่าทำไมการใช้สเกลโดยพลการทำให้การใช้ CV เป็นโมฆะ? ขอบคุณ!
Prophet60091

ในความเป็นธรรมทั้งหมดฉันคิดว่า @whuber ไม่ได้สนับสนุนการเปรียบเทียบการแปลงกับข้อมูลที่ไม่ได้แปลง แต่จุดของคุณยังคง: การปรับขนาดจะส่งผลกระทบต่อ CV เมื่อหนึ่งอาจคิดว่าผลลัพธ์ควรจะเหมือนกัน +1 สำหรับรหัสของเล่น R!
Prophet60091

ฉันไม่มีข้อโต้แย้งเกี่ยวกับความเห็นของ @whuber ในกระทู้นี้
Peter Flom

0

ฉันคิดว่าสิ่งเหล่านี้เป็นรูปแบบที่แตกต่างกันของการเปลี่ยนแปลง มีแบบจำลองทางสถิติที่ค่า CV คงที่ ที่ใดที่ทำงานเหล่านั้นอาจรายงานประวัติย่อ มีหลายรุ่นที่ค่าเบี่ยงเบนมาตรฐานเป็นฟังก์ชันกำลังของค่าเฉลี่ย มีหลายรุ่นที่ค่าเบี่ยงเบนมาตรฐานคงที่ ตามกฎแล้วแบบจำลอง CV คงที่เป็นการคาดเดาเริ่มต้นที่ดีกว่าแบบจำลอง SD แบบคงที่สำหรับตัวแปรอัตราส่วนสเกล คุณสามารถคาดเดาได้ว่าเหตุใดจึงเป็นจริงบางทีอาจขึ้นอยู่กับความชุกของการคูณมากกว่าการโต้ตอบเพิ่มเติม

การสร้างแบบจำลองค่าคงที่ CV มักเกี่ยวข้องกับการแปลงลอการิทึม (ข้อยกเว้นที่สำคัญคือการตอบสนองเชิงลบที่บางครั้งเป็นศูนย์) มีสองวิธีในการดู ก่อนอื่นถ้า CV เป็นค่าคงที่บันทึกจะเป็นการแปลงค่าความแปรปรวนแบบเสถียรภาพ อีกทางเลือกหนึ่งหากแบบจำลองข้อผิดพลาดของคุณคือ lognormal โดยมีค่าคงที่ SD ในระดับการบันทึก CV นั้นเป็นการเปลี่ยนแปลงอย่างง่ายของ SD นั้น CV นั้นเท่ากับ SD ระดับการบันทึกเมื่อทั้งคู่มีขนาดเล็ก

สองวิธีในการใช้สถิติ 101 วิธีเช่นค่าเบี่ยงเบนมาตรฐานคือข้อมูลที่คุณได้มาหรือโดยเฉพาะอย่างยิ่งถ้าเป็นอัตราส่วนอัตราส่วน) กับบันทึกของพวกเขา คุณต้องเดาก่อนว่าคุณจะรู้ว่าธรรมชาตินั้นค่อนข้างซับซ้อนและการศึกษาเพิ่มเติมอาจจะเป็นไปตามลำดับ พิจารณาสิ่งที่คนก่อนหน้านี้พบว่ามีประโยชน์กับข้อมูลประเภทของคุณ

นี่คือกรณีที่สิ่งนี้มีความสำคัญ ความเข้มข้นของสารเคมีบางครั้งก็สรุปด้วย CV หรือแบบจำลองในระดับบันทึก อย่างไรก็ตามค่า pH เป็นความเข้มข้นของบันทึก


3
ขอบคุณสำหรับการสนับสนุนของคุณและยินดีต้อนรับสู่เว็บไซต์ของเรา! คุณช่วยให้ชัดเจนขึ้นว่าคำตอบของคุณตอบคำถามเกี่ยวกับความถูกต้องของการใช้ CV เลยเพื่อกำหนดลักษณะข้อมูลที่สามารถมีค่าลบได้อย่างไร สถานการณ์ดังกล่าวดูเหมือนจะไม่ได้รับการกล่าวถึงโดยคำพูดของคุณ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.