ทำไมจึงไม่เป็นไรที่จะทำการสหสัมพันธ์แบบเพียร์สันกับข้อมูลสัดส่วน


10

โมดูลออนไลน์ที่ฉันกำลังศึกษาระบุว่าไม่ควรใช้เพียร์สันสหสัมพันธ์กับข้อมูลสัดส่วน ทำไมจะไม่ล่ะ?

หรือถ้าบางครั้งมันก็โอเคหรือเสมอโอเคทำไม?


3
สิ่งนี้บอกอะไรและในบริบทใด "ไม่เคย" ดูแข็งแกร่งเกินไปเว้นแต่ว่าพวกเขากำลังพูดถึงสถานการณ์ที่ จำกัด มาก อาจเป็นได้ว่าใครก็ตามที่เขียนมันผิด แต่ถ้าไม่มีบริบทเราจะเดาได้อย่างไร
Glen_b -Reinstate Monica

2
โมดูลออนไลน์เป็นกรรมสิทธิ์และฉันไม่สามารถลิงก์ได้ แต่ฉันได้พบวิดีโอที่ระบุว่าสิ่งเดียวกัน: australianbioinformatics.net/the-pipeline/2013/3/19/... ทั้งโมดูลที่ฉันได้เห็นและวิดีโอนี้ระบุว่าไม่มีบริบทที่ยอมรับสัดส่วนที่สัมพันธ์กัน
user1205901 - Reinstate Monica

4
"ไม่เคย" แข็งแกร่งเกินไป มีเหตุผลที่จะต้องระมัดระวังเกี่ยวกับการตีความค่าสัมประสิทธิ์สหสัมพันธ์ที่เกี่ยวข้องกับสัดส่วนโดยเฉพาะอย่างยิ่งพวกเขาขึ้นอยู่กับจำนวนเล็กน้อย แต่การวิเคราะห์แบบเดียวกันที่สนับสนุนเหตุผลเหล่านั้นก็แสดงให้เห็นว่าเมื่อสัดส่วนตามจำนวนมากและสัดส่วนอยู่ห่างจากหรือ1พอแล้วค่าสัมประสิทธิ์สหสัมพันธ์ก็ไม่เป็นปัญหา นอกจากนี้หนึ่งสามารถเสมอรายงานค่าสัมประสิทธิ์สหสัมพันธ์สำหรับชุดข้อมูลใด ๆ ที่จับคู่ (ซึ่งทั้งสองส่วนแสดงรูปแบบ) เป็นบทสรุป (พรรณนา) สถิติ 01
whuber

คำตอบ:


6

นี่เป็นกรณีที่ตัวแปรหลายตัวรวมกันเป็น 1 ในแต่ละการสังเกต คำตอบของฉันจะเป็นระดับสัญชาตญาณ; นี่เป็นความตั้งใจ (และฉันไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลองค์ประกอบ)

ขอให้เรามีตัวแปรบวกที่มีค่าเป็นศูนย์ที่มีความสัมพันธ์กับiidซึ่งจะรวมกันและคำนวณใหม่ตามสัดส่วนของผลรวมนั้น จากนั้น

  • ในกรณีที่ตัวแปรสองตัวV1 V2 , ถ้า V1 ถูกกล่าวว่าเปลี่ยนแปลงได้อย่างอิสระแล้ว V2 ไม่มีที่ว่างสำหรับอิสรภาพ (ตั้งแต่ V1 + V2 = ค่าคงที่) และได้รับการแก้ไขอย่างสมบูรณ์; ที่ยิ่งใหญ่กว่าคือ V1 ที่น้อยกว่าคือ V2, น้อยกว่าคือ V1 ที่ยิ่งใหญ่กว่าคือ V2 ความสัมพันธ์ของพวกเขาคือและเป็นเช่นนั้นเสมอ1
  • ในกรณีที่มี 3 ตัวแปรV1 V2 V3ถ้า V1 ถูกกล่าวว่าแตกต่างกันอย่างอิสระแล้ว V2 + V3 จะถูกแก้ไข; ซึ่งก็คือการบอกว่าภายใน (V2 + V3) แต่ละตัวแปรทั้งสองยังคงเป็นส่วนหนึ่งฟรี: พวกเขาอยู่ในค่าเฉลี่ย ครั้งคงแต่ละคงเต็มทั้งหมด ดังนั้นถ้าหนึ่งในสามของตัวแปรใด ๆ ที่จะมาเป็นฟรี (เหมือนเราเอา V1) ใด ๆ ที่เหลืออีกสองคาดว่า1 / 2คงที่ เพื่อให้ความสัมพันธ์ระหว่างพวกเขาเป็น - 0.5 นี่คือความสัมพันธ์ที่คาดหวัง ; มันอาจแตกต่างจากตัวอย่างกับตัวอย่าง1/21/20.5
  • ในกรณีที่มี 4 ตัวแปรV1 V2 V3 V4โดยให้เหตุผลเดียวกันกับที่เราได้ว่าถ้าเราใช้เวลาหนึ่งในสี่ของฟรีแล้วหนึ่งของที่เหลือคาดว่าจะเป็นใด ๆคงที่; ดังนั้นคาดว่า ความสัมพันธ์ระหว่างคู่ของสี่ใด ๆ - หนึ่งฟรีอื่น ๆ ที่เป็น 1 / 3ถาวร - เป็น- 0.3331/31/30.333
  • เมื่อจำนวนของตัวแปร (เริ่มต้น iid) เพิ่มขึ้นความสัมพันธ์ของจำนวนคู่ที่คาดหวังจะเพิ่มขึ้นจากลบไปเป็นและความแปรผันของมันจากกลุ่มตัวอย่างไปเป็นกลุ่มตัวอย่างจะใหญ่ขึ้น0

ตกลง แต่ฉันเดาว่าความสนใจนั้นอยู่ในคู่ V1, V2 แต่ละ V บวกกับ 1 (100%) แต่ไม่มีข้อ จำกัด สำหรับ V แต่ละตัวยกเว้นแต่ละตัวจะเป็นเศษส่วน
Nick Cox

each V summing to 1 ( 100%)ขออนุญาต? ฉันไม่เข้าใจคุณ ฉันไม่มีข้อ จำกัด ในแต่ละ V เพียงแค่เศษส่วนเท่านั้น อย่างไรก็ตามข้อ จำกัด เริ่มต้นคือตัวอย่างของฉันถือว่าไม่มีสหสัมพันธ์ก่อนที่จะเปลี่ยน Vs เป็นเศษส่วน
ttnphns

คุณหมายถึงว่าแต่ละ V มีค่ารวมเป็น 1 ("แนวตั้ง") หรือไม่ ไม่ฉันหมายถึง "น่ากลัว" ข้ามตัวแปร แต่น่าเสียดายที่ OP ไม่ได้อธิบายประเด็นในคำถามของพวกเขา ฉันก็เลยทำไปแล้ว
ttnphns

ใช่; นั่นคือฉันคิดว่าสิ่งที่มักจะหมายถึงที่นี่ แต่คำถามไม่ชัดเจนโดยเฉพาะ
Nick Cox

1
@ttnphns ฉันเห็นคำสั่งว่าหนึ่งไม่ควรทำเพียร์สันสหสัมพันธ์สองตัวแปรที่วัดเป็นสัดส่วน ฉันพยายามทำให้ชัดเจนขึ้นโดยการแก้ไข OP เพื่อเน้นคำว่า 'ไม่เคย' วิดีโอสร้างคำสั่งเดียวกันในชื่อ ("ไม่ต้องสัมพันธ์กัน!") แม้ว่าพวกเขาจะพูดถึงเรื่องนี้ในบริบทของข้อมูลประกอบเท่านั้น ฉันจงใจปล่อยให้บริบทไม่ได้กำหนดเนื่องจากแหล่งที่มาของฉันระบุว่าไม่ควรใช้สหสัมพันธ์ของเพียร์สันกับข้อมูลสัดส่วนในบริบทใด ๆ อย่างไรก็ตามดูเหมือนว่าคำตอบสำหรับคำถามของฉันคือ: "สัดส่วนที่สัมพันธ์กันเป็นเรื่องที่ดียกเว้นในบริบทบางอย่าง"
user1205901 - Reinstate Monica

10

ลิงก์วิดีโอของความคิดเห็นของคุณตั้งค่าบริบทของการแต่งเพลงซึ่งอาจเรียกว่าการผสม ในกรณีเหล่านี้ผลรวมของสัดส่วนของแต่ละองค์ประกอบเพิ่มขึ้นเป็น 1 ตัวอย่างเช่นอากาศคือไนโตรเจน 78% ออกซิเจน 21% และอื่น ๆ 1% (รวมเป็น 100%) เมื่อพิจารณาจากจำนวนส่วนประกอบหนึ่งจะถูกกำหนดโดยส่วนประกอบอื่น ๆ อย่างสมบูรณ์ส่วนประกอบใด ๆ ที่สองจะมีความสัมพันธ์แบบหลายเส้นที่สมบูรณ์แบบ สำหรับตัวอย่างอากาศเรามี:

x1+x2+x3=1

ถ้าอย่างนั้น:

x1=1x2x3

x2=1x1x3

x3=1x1x2

ดังนั้นถ้าคุณรู้องค์ประกอบสองอย่างใดอย่างหนึ่งก็จะรู้จักองค์ประกอบที่สามในทันที

โดยทั่วไปข้อ จำกัด ในการผสมคือ

i=1qxi=1

xi

คุณสามารถคำนวณความสัมพันธ์ระหว่างสององค์ประกอบ แต่ไม่ได้ให้ข้อมูลเนื่องจากมันสัมพันธ์กันอยู่เสมอ คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการวิเคราะห์องค์ประกอบในการวิเคราะห์ข้อมูลวัดองค์ประกอบสัดส่วน

คุณสามารถใช้สหสัมพันธ์ได้เมื่อข้อมูลสัดส่วนมาจากโดเมนที่ต่างกัน บอกว่าการตอบสนองของคุณคือเศษพิกเซลตายบนหน้าจอ LCD คุณสามารถลองเชื่อมโยงสิ่งนี้กับสัดส่วนของฮีเลียมที่ใช้ในกระบวนการทางเคมีของหน้าจอ


ฉันเห็น - ฉันคิดผิดพลาดว่าองค์ประกอบเป็นเพียงตัวอย่าง มันยุติธรรมหรือไม่ที่จะบอกว่าสัดส่วนที่สัมพันธ์กันโดยทั่วไปจะไม่มีประโยชน์เว้นแต่ว่าคุณมีสถานการณ์ที่ความสัมพันธ์ของการประพันธ์นั้นมีอยู่
user1205901 - Reinstate Monica

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipไม่ชัดเจน. คุณสามารถขยายหรือไม่
ttnphns

ฉันไม่เข้าใจคำตอบนี้ ในตัวอย่าง 3 ตัวแปรของคุณแต่ละค่าจะถูก "กำหนด" โดย TWO สองตัว แต่ความสัมพันธ์แบบเพียร์สันจะวิเคราะห์เพียงตัวแปรเดียวที่เกี่ยวข้องกับอีกตัวหนึ่ง ดังนั้นเช่นหากดูไนโตรเจนกับออกซิเจนคุณอาจมีชุดข้อมูล (ไนโตรเจนออกซิเจน) [(0.78, 0.21), (0.20, 0.41), (0.44, 0.44)] และคุณสามารถใช้สัมประสิทธิ์สหสัมพันธ์ที่ถูกต้องได้ การคำนวณข้อมูลนั้น (และแน่นอนว่าไม่ใช่เชิงเส้นร่วม) ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันไม่ทราบหรือดูแลเกี่ยวกับ "อื่น ๆ" มี ...
เจสันซี

3
ในฐานะที่เป็น meta-comment ฉันไม่คาดหวังว่าจะเห็นเนื้อหาที่ไม่สามารถเข้าถึงได้ซึ่งอ้างว่าเป็นสิทธิ์สำหรับจุดทางสถิติใด ๆ ไม่ใช่ว่าคุณกำลังเสนอให้ทำเช่นนั้น ดังนั้นมันง่ายในระดับหนึ่ง: มีวรรณกรรมเกี่ยวกับการวิเคราะห์ข้อมูลองค์ประกอบซึ่งเป็นที่ที่จะมอง; ฉันไม่ใช่ผู้เชี่ยวชาญดังนั้นฉันไม่สามารถพูดได้ว่าสิ่งใดที่มีอำนาจมากที่สุดเกี่ยวกับสหสัมพันธ์ แต่สัญชาตญาณของฉันคือการเตือนเกินจริง การใช้ความสัมพันธ์เชิงพรรณนาสามารถช่วยได้ การอนุมานนั้นซับซ้อนโดยข้อ จำกัด ของผลรวมทั้งหมด
Nick Cox

ฉันคิดว่า "เศษพิกเซลที่ตายแล้ว" น่าจะดีถ้าเรารวบรวมการวัดจากหน้าจอ LCD ที่มีจำนวนพิกเซลเท่ากันและความดันของแก๊สในกระบวนการคงที่ แต่เมื่อคุณเริ่มปล่อยให้ตัวส่วนของสัดส่วนเหล่านี้เปลี่ยนใครจะบอกได้ว่าผลกระทบของฮีเลียมคืออะไร
David Lovell

5

นี่เป็นคำถามที่ลึกซึ้งและอีกคำถามหนึ่งที่มีรายละเอียดปลีกย่อยบางอย่างที่ต้องระบุ ฉันจะพยายามทำให้ดีที่สุด แต่ถึงแม้ว่าฉันจะตีพิมพ์ในหัวข้อนี้ ( สัดส่วน: ทางเลือกที่ถูกต้องสำหรับความสัมพันธ์สำหรับข้อมูลสัมพัทธ์ ) ฉันพร้อมเสมอที่จะต้องประหลาดใจกับข้อมูลเชิงลึกใหม่เกี่ยวกับการวิเคราะห์ข้อมูลที่มีเพียงข้อมูลเชิงสัมพันธ์

ในขณะที่ผู้เขียนหัวข้อนี้ได้ชี้ให้เห็นความสัมพันธ์เป็นที่รู้จัก (ในบางวงการ) ที่ไม่มีความหมายเมื่อนำไปใช้กับข้อมูลองค์ประกอบที่เกิดขึ้นเมื่อชุดของส่วนประกอบถูก จำกัด ให้เพิ่มขึ้นคงที่ (เท่าที่เราเห็นด้วยสัดส่วนร้อยละ ส่วนต่อล้าน ฯลฯ )

คาร์ลเพียร์สันประกาศเกียรติคุณความสัมพันธ์แบบหลอกลวงกับคำนี้ในใจ (หมายเหตุ: เว็บไซต์Spurious Correlationที่เป็นที่นิยมของ Tyler Vigen ไม่ได้เกี่ยวกับความสัมพันธ์แบบลวงตามากนักในขณะที่ "การสื่อถึงนัยที่เป็นสาเหตุ " การเข้าใจผิด)

ส่วนที่ 1.7 ของ Aitchison's (2003) คำแนะนำสั้น ๆ เกี่ยวกับการวิเคราะห์ข้อมูลแบบ Compositionalให้ตัวอย่างคลาสสิกว่าทำไมสหพันธ์จึงเป็นตัวชี้วัดความสัมพันธ์ที่ไม่เหมาะสมสำหรับข้อมูลองค์ประกอบ (เพื่อความสะดวกซึ่งอ้างถึงในข้อมูลเพิ่มเติมนี้

ข้อมูล Compositional ไม่เพียงเกิดขึ้นเมื่อชุดของส่วนประกอบที่ไม่เป็นลบถูกสร้างขึ้นเพื่อหาผลรวมของค่าคงที่ ข้อมูลถูกกล่าวว่าเป็นองค์ประกอบเมื่อใดก็ตามที่มีข้อมูลสัมพันธ์เท่านั้น

ฉันคิดว่าปัญหาหลักกับความสัมพันธ์ของข้อมูลที่มีเพียงข้อมูลที่สัมพันธ์กันอยู่ในการตีความผล นี่เป็นปัญหาที่เราสามารถอธิบายด้วยตัวแปรเดียว สมมติว่า "โดนัทที่ผลิตได้ต่อดอลลาร์ของ GDP" ทั่วทุกมุมโลก หากประเทศหนึ่งมีค่าสูงกว่าประเทศอื่นนั่นก็เป็นเพราะ

  • การผลิตโดนัทของพวกเขาสูงขึ้นไหม?
  • GDP ของพวกเขาต่ำลงไหม

... ใครจะพูดได้

แน่นอนว่าเมื่อผู้คนพูดถึงหัวข้อนี้เราสามารถคำนวณความสัมพันธ์ของตัวแปรประเภทต่าง ๆ เหล่านี้ในฐานะตัวแปรอธิบาย แต่ความสัมพันธ์ดังกล่าวหมายความว่าอย่างไร


3

ฉันมีคำถามเดียวกัน ฉันพบข้อมูลอ้างอิงนี้ที่ biorxiv มีประโยชน์:

Lovell D. , V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"สัดส่วน: ทางเลือกที่ถูกต้องสำหรับสหสัมพันธ์ข้อมูลที่สัมพันธ์กัน"

ในข้อมูลสนับสนุนของบทความนี้ (Lovell, David, et al.; doi: dx.doi.org/10.1101/008417) ผู้เขียนกล่าวว่าความสัมพันธ์ระหว่างความอุดมสมบูรณ์ของญาติไม่ได้ให้ข้อมูลใด ๆ ในบางกรณี พวกเขาให้ตัวอย่างของความอุดมสมบูรณ์สัมพัทธ์ของสองนิพจน์ mRNA ในรูปที่ S2 ความอุดมสมบูรณ์สัมพัทธ์ของ mRNA ทั้งสองนั้นมีความสัมพันธ์เชิงลบอย่างสมบูรณ์แม้ว่าความสัมพันธ์ของ mRNA ทั้งสองนี้ในค่าสัมบูรณ์จะไม่สัมพันธ์กัน (จุดสีเขียวและจุดสีม่วง)

บางทีมันอาจช่วยคุณได้


2
ขอบคุณสำหรับคำแนะนำของคุณ ฉันไม่ได้ทำให้ชัดเจน ในการสนับสนุนข้อมูลของบทความนี้ (Lovell, David, et al.; doi: dx.doi.org/10.1101/008417 ) ผู้เขียนกล่าวว่าความสัมพันธ์ระหว่างความอุดมสมบูรณ์ของญาติไม่ได้ให้ข้อมูลใด ๆ ในบางกรณี พวกเขาให้ตัวอย่างของความอุดมสมบูรณ์สัมพัทธ์ของสองแสดงออก mRNA ในรูปที่ S2 สัมพัทธ์ของ mRNAs ทั้งสองมีความสัมพันธ์เชิงลบอย่างสมบูรณ์แม้ว่าความสัมพันธ์ของ mRNA ทั้งสองนี้ในค่าสัมบูรณ์จะไม่เป็นลบ (จุดสีเขียวและจุดสีม่วง)
ฟ้อง

@shu คุณอาจจะบอกว่าทำไมบทความนี้ช่วยคุณด้วยปัญหาที่คล้ายกันและสรุปได้ .. ? ลิงก์การวางไม่ใช่คำตอบดังนั้นโปรดอธิบายเพิ่มเติมอีกหน่อย เหตุผลที่เป็นเพราะการเชื่อมโยงตายและถ้าคุณต้องการคำตอบของคุณจะเป็นประโยชน์สำหรับใครบางคนในอนาคตคุณควรทำให้มันสอดคล้องกันด้วยตนเอง แน่นอนว่าการให้การอ้างอิงเพิ่มเติมกับคำตอบของคุณเป็นนิสัยที่ดี
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.