โมดูลออนไลน์ที่ฉันกำลังศึกษาระบุว่าไม่ควรใช้เพียร์สันสหสัมพันธ์กับข้อมูลสัดส่วน ทำไมจะไม่ล่ะ?
หรือถ้าบางครั้งมันก็โอเคหรือเสมอโอเคทำไม?
โมดูลออนไลน์ที่ฉันกำลังศึกษาระบุว่าไม่ควรใช้เพียร์สันสหสัมพันธ์กับข้อมูลสัดส่วน ทำไมจะไม่ล่ะ?
หรือถ้าบางครั้งมันก็โอเคหรือเสมอโอเคทำไม?
คำตอบ:
นี่เป็นกรณีที่ตัวแปรหลายตัวรวมกันเป็น 1 ในแต่ละการสังเกต คำตอบของฉันจะเป็นระดับสัญชาตญาณ; นี่เป็นความตั้งใจ (และฉันไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลองค์ประกอบ)
ขอให้เรามีตัวแปรบวกที่มีค่าเป็นศูนย์ที่มีความสัมพันธ์กับiidซึ่งจะรวมกันและคำนวณใหม่ตามสัดส่วนของผลรวมนั้น จากนั้น
each V summing to 1 ( 100%)
ขออนุญาต? ฉันไม่เข้าใจคุณ ฉันไม่มีข้อ จำกัด ในแต่ละ V เพียงแค่เศษส่วนเท่านั้น อย่างไรก็ตามข้อ จำกัด เริ่มต้นคือตัวอย่างของฉันถือว่าไม่มีสหสัมพันธ์ก่อนที่จะเปลี่ยน Vs เป็นเศษส่วน
ลิงก์วิดีโอของความคิดเห็นของคุณตั้งค่าบริบทของการแต่งเพลงซึ่งอาจเรียกว่าการผสม ในกรณีเหล่านี้ผลรวมของสัดส่วนของแต่ละองค์ประกอบเพิ่มขึ้นเป็น 1 ตัวอย่างเช่นอากาศคือไนโตรเจน 78% ออกซิเจน 21% และอื่น ๆ 1% (รวมเป็น 100%) เมื่อพิจารณาจากจำนวนส่วนประกอบหนึ่งจะถูกกำหนดโดยส่วนประกอบอื่น ๆ อย่างสมบูรณ์ส่วนประกอบใด ๆ ที่สองจะมีความสัมพันธ์แบบหลายเส้นที่สมบูรณ์แบบ สำหรับตัวอย่างอากาศเรามี:
ถ้าอย่างนั้น:
ดังนั้นถ้าคุณรู้องค์ประกอบสองอย่างใดอย่างหนึ่งก็จะรู้จักองค์ประกอบที่สามในทันที
โดยทั่วไปข้อ จำกัด ในการผสมคือ
คุณสามารถคำนวณความสัมพันธ์ระหว่างสององค์ประกอบ แต่ไม่ได้ให้ข้อมูลเนื่องจากมันสัมพันธ์กันอยู่เสมอ คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการวิเคราะห์องค์ประกอบในการวิเคราะห์ข้อมูลวัดองค์ประกอบสัดส่วน
คุณสามารถใช้สหสัมพันธ์ได้เมื่อข้อมูลสัดส่วนมาจากโดเมนที่ต่างกัน บอกว่าการตอบสนองของคุณคือเศษพิกเซลตายบนหน้าจอ LCD คุณสามารถลองเชื่อมโยงสิ่งนี้กับสัดส่วนของฮีเลียมที่ใช้ในกระบวนการทางเคมีของหน้าจอ
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
ไม่ชัดเจน. คุณสามารถขยายหรือไม่
นี่เป็นคำถามที่ลึกซึ้งและอีกคำถามหนึ่งที่มีรายละเอียดปลีกย่อยบางอย่างที่ต้องระบุ ฉันจะพยายามทำให้ดีที่สุด แต่ถึงแม้ว่าฉันจะตีพิมพ์ในหัวข้อนี้ ( สัดส่วน: ทางเลือกที่ถูกต้องสำหรับความสัมพันธ์สำหรับข้อมูลสัมพัทธ์ ) ฉันพร้อมเสมอที่จะต้องประหลาดใจกับข้อมูลเชิงลึกใหม่เกี่ยวกับการวิเคราะห์ข้อมูลที่มีเพียงข้อมูลเชิงสัมพันธ์
ในขณะที่ผู้เขียนหัวข้อนี้ได้ชี้ให้เห็นความสัมพันธ์เป็นที่รู้จัก (ในบางวงการ) ที่ไม่มีความหมายเมื่อนำไปใช้กับข้อมูลองค์ประกอบที่เกิดขึ้นเมื่อชุดของส่วนประกอบถูก จำกัด ให้เพิ่มขึ้นคงที่ (เท่าที่เราเห็นด้วยสัดส่วนร้อยละ ส่วนต่อล้าน ฯลฯ )
คาร์ลเพียร์สันประกาศเกียรติคุณความสัมพันธ์แบบหลอกลวงกับคำนี้ในใจ (หมายเหตุ: เว็บไซต์Spurious Correlationที่เป็นที่นิยมของ Tyler Vigen ไม่ได้เกี่ยวกับความสัมพันธ์แบบลวงตามากนักในขณะที่ "การสื่อถึงนัยที่เป็นสาเหตุ " การเข้าใจผิด)
ส่วนที่ 1.7 ของ Aitchison's (2003) คำแนะนำสั้น ๆ เกี่ยวกับการวิเคราะห์ข้อมูลแบบ Compositionalให้ตัวอย่างคลาสสิกว่าทำไมสหพันธ์จึงเป็นตัวชี้วัดความสัมพันธ์ที่ไม่เหมาะสมสำหรับข้อมูลองค์ประกอบ (เพื่อความสะดวกซึ่งอ้างถึงในข้อมูลเพิ่มเติมนี้
ข้อมูล Compositional ไม่เพียงเกิดขึ้นเมื่อชุดของส่วนประกอบที่ไม่เป็นลบถูกสร้างขึ้นเพื่อหาผลรวมของค่าคงที่ ข้อมูลถูกกล่าวว่าเป็นองค์ประกอบเมื่อใดก็ตามที่มีข้อมูลสัมพันธ์เท่านั้น
ฉันคิดว่าปัญหาหลักกับความสัมพันธ์ของข้อมูลที่มีเพียงข้อมูลที่สัมพันธ์กันอยู่ในการตีความผล นี่เป็นปัญหาที่เราสามารถอธิบายด้วยตัวแปรเดียว สมมติว่า "โดนัทที่ผลิตได้ต่อดอลลาร์ของ GDP" ทั่วทุกมุมโลก หากประเทศหนึ่งมีค่าสูงกว่าประเทศอื่นนั่นก็เป็นเพราะ
... ใครจะพูดได้
แน่นอนว่าเมื่อผู้คนพูดถึงหัวข้อนี้เราสามารถคำนวณความสัมพันธ์ของตัวแปรประเภทต่าง ๆ เหล่านี้ในฐานะตัวแปรอธิบาย แต่ความสัมพันธ์ดังกล่าวหมายความว่าอย่างไร
ฉันมีคำถามเดียวกัน ฉันพบข้อมูลอ้างอิงนี้ที่ biorxiv มีประโยชน์:
Lovell D. , V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"สัดส่วน: ทางเลือกที่ถูกต้องสำหรับสหสัมพันธ์ข้อมูลที่สัมพันธ์กัน"
ในข้อมูลสนับสนุนของบทความนี้ (Lovell, David, et al.; doi: dx.doi.org/10.1101/008417) ผู้เขียนกล่าวว่าความสัมพันธ์ระหว่างความอุดมสมบูรณ์ของญาติไม่ได้ให้ข้อมูลใด ๆ ในบางกรณี พวกเขาให้ตัวอย่างของความอุดมสมบูรณ์สัมพัทธ์ของสองนิพจน์ mRNA ในรูปที่ S2 ความอุดมสมบูรณ์สัมพัทธ์ของ mRNA ทั้งสองนั้นมีความสัมพันธ์เชิงลบอย่างสมบูรณ์แม้ว่าความสัมพันธ์ของ mRNA ทั้งสองนี้ในค่าสัมบูรณ์จะไม่สัมพันธ์กัน (จุดสีเขียวและจุดสีม่วง)
บางทีมันอาจช่วยคุณได้