คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

5
ฉันจะศึกษา“ ความสัมพันธ์” ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดได้อย่างไร
การวัด "สหสัมพันธ์" ที่มีความหมายเพื่อศึกษาความสัมพันธ์ระหว่างตัวแปรทั้งสองประเภทนี้คืออะไร? ใน R ทำอย่างไร?

1
การวิเคราะห์อนุกรมเวลาที่มีค่าเป็นศูนย์จำนวนมาก
ปัญหานี้เป็นจริงเกี่ยวกับการตรวจจับอัคคีภัย แต่ก็คล้ายกับปัญหาการตรวจจับการสลายตัวของกัมมันตภาพรังสี ปรากฏการณ์ที่ถูกสังเกตมีทั้งเป็นระยะและแปรผันสูง ดังนั้นอนุกรมเวลาจะประกอบด้วยสตริงยาวเป็นศูนย์ซึ่งถูกขัดจังหวะด้วยค่าตัวแปร วัตถุประสงค์ไม่ได้เป็นเพียงการรวบรวมเหตุการณ์ (แบ่งเป็นศูนย์) แต่เป็นการอธิบายลักษณะเชิงปริมาณของเหตุการณ์เอง อย่างไรก็ตามเซ็นเซอร์มีข้อ จำกัด และบางครั้งจะบันทึกเป็นศูนย์แม้ว่า "ความจริง" จะไม่เป็นศูนย์ ด้วยเหตุผลนี้จึงต้องรวมศูนย์เมื่อเปรียบเทียบเซ็นเซอร์ เซ็นเซอร์ B อาจมีความไวมากกว่าเซ็นเซอร์ A และฉันอยากจะอธิบายสถิติได้ สำหรับการวิเคราะห์นี้ฉันไม่มี "ความจริง" แต่ฉันมีเซนเซอร์ C ซึ่งเป็นอิสระจากเซ็นเซอร์ A&B ดังนั้นความคาดหวังของฉันคือข้อตกลงที่ดีกว่าระหว่าง A / B และ C บ่งชี้ถึงข้อตกลงที่ดีกว่ากับ "ความจริง" (นี่อาจดูสั่นคลอน แต่คุณจะต้องเชื่อใจฉัน - ฉันอยู่บนพื้นแข็งที่นี่ตามสิ่งที่เป็นที่รู้จักจากการศึกษาอื่น ๆ เกี่ยวกับเซ็นเซอร์) จากนั้นปัญหาคือวิธีหาปริมาณ "ข้อตกลงที่ดีกว่าของอนุกรมเวลา" ความสัมพันธ์เป็นตัวเลือกที่ชัดเจน แต่จะได้รับผลกระทบจากศูนย์ทั้งหมด (ซึ่งไม่สามารถละทิ้งได้) และแน่นอนได้รับผลกระทบอย่างไม่เป็นสัดส่วนจากค่าสูงสุด สามารถคำนวณ RMSE ได้เช่นกัน แต่จะถูกถ่วงน้ำหนักอย่างมากต่อพฤติกรรมของเซ็นเซอร์ในกรณีใกล้ศูนย์ คำถามที่ 1: …

1
ความสัมพันธ์ที่สามารถบรรลุได้สำหรับตัวแปรสุ่ม lognormal
พิจารณา lognormal ตัวแปรสุ่มX1X1X_1และX2X2X_2กับlog(X1)∼N(0,1)log⁡(X1)∼N(0,1)\log(X_1)\sim \mathcal{N}(0,1)และlog(X2)∼N(0,σ2)log⁡(X2)∼N(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) ) ρmaxρmax\rho_{\max}ρminρmin\rho_{\min}ρ(X1,X2)ρ(X1,X2)\rho (X_1,X_2) ρmax=ρ(exp(Z),exp(σZ))ρmax=ρ(exp⁡(Z),exp⁡(σZ))\rho_{\max}=\rho (\exp(Z),\exp(\sigma Z))และ ρmin=ρ(exp(Z),exp(−σZ))ρmin=ρ(exp⁡(Z),exp⁡(−σZ))\rho_{\min}=\rho (\exp(Z),\exp(-\sigma Z)) , แต่พวกเขาได้ทำการอ้างอิงถึง comonotonicity และ countercomonotonicity ฉันหวังว่าจะมีคนช่วยให้ฉันเข้าใจว่าพวกเขาเกี่ยวข้องกันอย่างไร (ฉันรู้วิธีที่จะได้รับสิ่งนี้จากการแสดงออกทั่วไป แต่ต้องการที่จะรู้ว่าสิ่งที่ส่วน comonotonicity กำลังพูด)

2
การแจกแจงของตัวแปรปกติที่มีความสัมพันธ์สูงสุดสองตัว
ว่าฉันมีสองมาตรฐานตัวแปรสุ่มปกติX1X1X_1และที่มีร่วมกันตามปกติที่มีค่าสัมประสิทธิ์สหสัมพันธ์R rX2X2X_2rrr ฟังก์ชั่นการกระจายของคืออะไร?max(X1,X2)max(X1,X2)\max(X_1, X_2)

4
Non-transitivity of correlation: ความสัมพันธ์ระหว่างเพศและขนาดของสมองและระหว่างขนาดของสมองกับ IQ แต่ไม่มีความสัมพันธ์กันระหว่างเพศและ IQ
ฉันพบคำอธิบายต่อไปนี้ในบล็อกและฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับการไม่สัมพันธ์ของความสัมพันธ์: เรามีข้อเท็จจริงที่ปฏิเสธไม่ได้ดังต่อไปนี้: โดยเฉลี่ยมีความแตกต่างของปริมาณสมองระหว่างชายและหญิง มีความสัมพันธ์ระหว่าง IQ กับขนาดสมอง ความสัมพันธ์คือ 0.33 และสอดคล้องกับ 10% ของความแปรปรวนของไอคิว จากสถานที่เหล่านี้ 1 และ 2 ดูเหมือนว่าจะมีเหตุผลจากนั้นผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย แต่มันเป็นความเข้าใจผิด! ในสถิติความสัมพันธ์ไม่ได้เป็นสกรรมกริยา หลักฐานคือคุณเพียงแค่ต้องดูผลลัพธ์ของการทดสอบ IQ และพวกเขาแสดงให้เห็นว่า IQ ของชายและหญิงไม่แตกต่างกันโดยเฉลี่ย ฉันต้องการที่จะเข้าใจความสัมพันธ์ที่ไม่ไวของความลึกนี้สักหน่อย หากความสัมพันธ์ระหว่าง IQ และขนาดสมองเท่ากับ 0.9 (ซึ่งฉันรู้ว่าไม่ใช่ (1)) จะอนุมานหรือไม่ว่าผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย ได้โปรดฉันไม่ได้อยู่ที่นี่เพื่อพูดคุยเกี่ยวกับ IQ (และข้อ จำกัด ของการทดสอบ), การรังเกียจผู้หญิง, ทัศนคติของผู้หญิง, ความเย่อหยิ่งและอื่น ๆ (2) ฉันแค่ต้องการที่จะเข้าใจเหตุผลเชิงตรรกะที่อยู่เบื้องหลังการเข้าใจผิด (1) ซึ่งฉันรู้ว่ามันไม่ได้เป็น: ยุคมีสมองที่ใหญ่กว่า homo sapiens แต่ไม่ฉลาดขึ้น (2) ฉันเป็นผู้หญิงและโดยรวมฉันไม่คิดว่าตัวเองหรือผู้หญิงคนอื่นฉลาดน้อยกว่าผู้ชายฉันไม่สนใจเกี่ยวกับการทดสอบไอคิวเพราะสิ่งที่นับเป็นคุณค่าของคนและมันไม่ได้ขึ้นอยู่กับ …

1
วิธีการจัดการกับความสัมพันธ์สูงในหมู่ผู้ทำนายในการถดถอยหลายครั้ง?
ฉันพบข้อมูลอ้างอิงในบทความที่ชอบ: ตาม Tabachnick & Fidell (1996) ตัวแปรอิสระที่มีความสัมพันธ์แบบ bivariate มากกว่า 0.70 ไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหลายครั้ง ปัญหา:ฉันใช้ในการออกแบบการถดถอยหลายตัวมีความสัมพันธ์กับตัวแปร 3 ตัวแปร> .80, VIF ที่ประมาณ. 2 - .3, ความอดทน ~ 4-5 ฉันไม่สามารถยกเว้นตัวแปรใด ๆ (ตัวพยากรณ์และผลลัพธ์ที่สำคัญ) เมื่อฉันถดถอยผลลัพธ์ของตัวทำนาย 2 ตัวที่มีความสัมพันธ์กับ. 80 พวกเขายังคงมีนัยสำคัญแต่ละตัวทำนายความแปรปรวนที่สำคัญแต่ละตัวและตัวแปรสองตัวเดียวกันนี้มีค่าสัมประสิทธิ์สหสัมพันธ์ส่วนใหญ่และกึ่งกลางระหว่าง 10 ตัวแปรทั้งหมด คำถาม:แบบจำลองของฉันใช้ได้แม้มีสหสัมพันธ์สูงหรือไม่ การอ้างอิงใด ๆ ยินดีอย่างมาก! ขอบคุณสำหรับคำตอบ! ฉันไม่ได้ใช้ Tabachnick และ Fidell เป็นแนวทางฉันพบการอ้างอิงนี้ในบทความที่เกี่ยวข้องกับ collinearity สูงในหมู่ผู้ทำนาย ดังนั้นโดยทั่วไปฉันมีกรณีน้อยเกินไปสำหรับจำนวนของตัวทำนายในโมเดล (ตัวแปรเด็ดขาด, ตัวแปรควบคุมการเข้ารหัสหลอกตา - อายุ, …

5
วิธีการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้จริง
ฉันวางแผนที่จะทำการศึกษาแบบจำลองที่ฉันเปรียบเทียบประสิทธิภาพของเทคนิคความสัมพันธ์ที่แข็งแกร่งหลายอย่างกับการแจกแจงที่ต่างกัน (เบ้กับค่าผิดปกติ ฯลฯ ) ด้วยความแข็งแกร่งฉันหมายถึงกรณีในอุดมคติของการมีความแข็งแกร่งต่อก) การแจกแจงแบบเบ้, b) ค่าผิดปกติและ c) ก้อยที่หนัก นอกจากความสัมพันธ์ของเพียร์สันในฐานะที่เป็นพื้นฐานแล้วฉันยังคิดที่จะรวมมาตรการที่แข็งแกร่งกว่านี้ไว้ด้วย: Spearman's ρρ\rho เปอร์เซ็นต์ความสัมพันธ์โค้ง (Wilcox, 1994, [1]) รูปไข่ปริมาณต่ำสุด, ปัจจัยแปรปรวนร่วมขั้นต่ำ ( cov.mve/ cov.mcdพร้อมกับcor=TRUEตัวเลือก) อาจจะเป็นความสัมพันธ์ที่ได้รับรางวัล แน่นอนมีตัวเลือกมากมาย (โดยเฉพาะถ้าคุณรวมเทคนิคการถดถอยที่แข็งแกร่งเช่นกัน) แต่ฉันต้องการ จำกัด ตัวเองกับวิธีที่ใช้ส่วนใหญ่ / เป็นแนวโน้ม ตอนนี้ฉันมีสามคำถาม (อย่าลังเลที่จะตอบคำถามเดียวเท่านั้น): มีวิธีสหสัมพันธ์ที่แข็งแกร่งอื่น ๆ ที่ฉันสามารถ / ควรรวมไว้หรือไม่ เทคนิคการสหสัมพันธ์ที่แข็งแกร่งแบบใดที่ใช้ จริง ในสาขาของคุณ (การพูดเพื่อการวิจัยทางจิตวิทยายกเว้นสเปียร์แมนผมไม่เคยเห็นใด ๆ ที่แข็งแกร่งนอกเทคนิคความสัมพันธ์ของกระดาษเทคนิคร่วมมือจะได้รับความนิยมมากขึ้น แต่สถิติที่แข็งแกร่งอื่น ๆ มีมากหรือน้อยไม่ได้มีอยู่เพื่อให้ห่างไกล.)ρρ\rho มีการเปรียบเทียบเชิงเทคนิคของเทคนิคสหสัมพันธ์ที่คุณรู้จักหรือไม่? นอกจากนี้โปรดแสดงความคิดเห็นรายการวิธีการที่ระบุด้านบน [1] Wilcox, …

4
การเปลี่ยนสมมติฐานว่างในการถดถอยเชิงเส้น
ฉันมีข้อมูลบางอย่างที่มีความสัมพันธ์สูง ถ้าฉันใช้การถดถอยเชิงเส้นฉันจะได้เส้นการถดถอยที่มีความชันใกล้กับหนึ่ง (= 0.93) สิ่งที่ฉันอยากทำคือทดสอบว่าความชันนี้แตกต่างจาก 1.0 อย่างมากหรือไม่ ความคาดหวังของฉันคือมันไม่ได้เป็น กล่าวอีกนัยหนึ่งฉันต้องการเปลี่ยนสมมติฐานว่างของการถดถอยเชิงเส้นจากความชันที่ศูนย์เป็นความชันที่หนึ่ง นี่เป็นแนวทางที่สมเหตุสมผลหรือไม่? ฉันขอขอบคุณที่คุณสามารถรวมรหัส R ในคำตอบของคุณเพื่อให้ฉันสามารถใช้วิธีนี้ (หรือดีกว่าที่คุณแนะนำ!) ขอบคุณ

4
ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น ตัวอย่าง: และ E = V ∗ DB=V/3000B=V/3000B = V / 3000E=V∗DE=V∗DE = V * D และ Eมี ρ = 0.989BBBEEEρ=0.989ρ=0.989\rho = 0.989 เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

4
สูตร ACF และ PACF
ฉันต้องการสร้างรหัสสำหรับการลงจุด ACF และ PACF จากข้อมูลอนุกรมเวลา เช่นเดียวกับพล็อตที่สร้างจาก minitab (ด้านล่าง) ฉันพยายามค้นหาสูตรแล้ว แต่ฉันยังไม่เข้าใจ คุณจะบอกสูตรและวิธีการใช้ให้ฉันได้ไหม เส้นสีแดงแนวนอนของพล็อต ACF และ PACF ด้านบนคืออะไร สูตรคืออะไร? ขอขอบคุณ,

3
เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย
ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

11
คุณสามารถอนุมานสาเหตุจากความสัมพันธ์ในตัวอย่างของเกมเผด็จการนี้ได้หรือไม่?
ฉันเพิ่งจะได้สอบซึ่งเรานำเสนอด้วยสองตัวแปร ในเกมเผด็จการที่มีเผด็จการจะได้รับ 100 USD และสามารถเลือกได้ว่าจะส่งหรือเก็บรักษาตัวเองเท่าใดมีความสัมพันธ์เชิงบวกระหว่างอายุและจำนวนเงินที่ผู้เข้าร่วมตัดสินใจเก็บไว้ ความคิดของฉันคือคุณไม่สามารถอนุมานสาเหตุจากสิ่งนี้เพราะคุณไม่สามารถอนุมานสาเหตุจากความสัมพันธ์ เพื่อนร่วมชั้นของฉันคิดว่าคุณทำได้เพราะถ้าคุณแยกผู้เข้าร่วมออกเป็นสามกลุ่มคุณจะเห็นว่าพวกเขาต่างกันในเรื่องที่พวกเขารักษาและจำนวนที่พวกเขาแบ่งปันกันและสรุปว่าอายุทำให้พวกเขาเก็บมากขึ้น ใครถูกต้องและทำไม

3
ความสัมพันธ์ที่ไม่ใช่ศูนย์หมายถึงการพึ่งพาอาศัยกันหรือไม่?
เรารู้ถึงความจริงที่ว่าสหสัมพันธ์แบบศูนย์ไม่มีนัยยะถึงความเป็นอิสระ ฉันสนใจว่าความสัมพันธ์ที่ไม่เป็นศูนย์หมายถึงการพึ่งพาหรือไม่ - เช่นถ้าCorr(X,Y)≠0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0สำหรับตัวแปรสุ่มบางตัวและเราสามารถพูดโดยทั่วไปว่า ?XXXYYYfX,Y(x,y)≠fX(x)fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne f_X(x) f_Y(y)

3
ตัวอย่างที่แท้จริงของความสัมพันธ์สับสนกับ Causation
ฉันกำลังมองหากรณีที่เฉพาะเจาะจงจริงซึ่งความสัมพันธ์เชิงสาเหตุถูกอนุมานอย่างไม่เหมาะสมจากหลักฐานของความสัมพันธ์ โดยเฉพาะฉันสนใจตัวอย่างที่ตรงตามเกณฑ์ต่อไปนี้: การดำรงอยู่ของความสัมพันธ์เชิงสาเหตุได้รับการยอมรับในความเป็นจริงอย่างกว้างขวางพอที่จะมีผลกระทบที่โดดเด่น (ในนโยบายสาธารณะวาทกรรมการตัดสินใจรายบุคคล ฯลฯ ) การเชื่อมโยงถูกอนุมานเพียงอย่างเดียวบนพื้นฐานของหลักฐานความสัมพันธ์ (อาจพร้อมกับการดำรงอยู่ของกลไกสาเหตุที่สอดคล้องกัน แต่ไม่ได้พิสูจน์) เวรกรรมได้รับการปลอมแปลงอย่างเป็นกลางหรืออย่างน้อยก็มีข้อสงสัยร้ายแรง ตัวอย่างที่สองที่นึกขึ้นมาได้สำหรับฉันนั้นไม่ค่อยเหมาะนัก: การได้รับโซเดียมและความดันโลหิต:ตามที่ฉันเข้าใจแล้วมีการพิจารณาแล้วว่าการบริโภคเกลือเพิ่มความดันโลหิตในบุคคลที่มีความไวต่อโซเดียมเท่านั้น การมีอยู่ของความสัมพันธ์เชิงสาเหตุที่ถูกต้อง (แม้ว่าจะไม่ใช่สิ่งที่ยอมรับกันในตอนแรก) ทำให้ตัวอย่างนี้น่าสนใจน้อยลง วัคซีนและออทิสติก:ฉันอาจมีความผิดพลาด แต่ฉันเชื่อว่าลิงก์นี้มีการคาดการณ์บนพื้นฐานของความสัมพันธ์และหลักฐานการทดลอง (หลอกลวง) ตัวอย่างนี้อ่อนแอลงเนื่องจากข้อเท็จจริงที่ว่ามีหลักฐานโดยตรง (ปลอม) อยู่ หมายเหตุ:ฉันเคยเห็นคำถามที่คล้ายกันนี้: ตัวอย่างสำหรับการสอน: ความสัมพันธ์ไม่ได้หมายถึงสาเหตุ คำถามของฉันมีความแตกต่างเป็นหลักในการมุ่งเน้นไปที่ตัวอย่างที่เด่นชัดและเป็นจริงไม่ใช่ในตัวอย่างที่ไม่มีสาเหตุของการเชื่อมโยงเชิงสาเหตุ (เช่นน้ำหนักและทักษะทางดนตรี)

3
ความคล้ายคลึงของ Pearson สหสัมพันธ์สำหรับ 3 ตัวแปร
ฉันสนใจว่า "ความสัมพันธ์" ของตัวแปรสามตัวเป็นอะไรหรือไม่และถ้าเป็นเช่นนั้นจะเป็นอย่างไร ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน E{(X−μX)(Y−μY)}Var(X)Var(Y)−−−−−−−−−−−−√E{(X−μX)(Y−μY)}Var(X)Var(Y)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)\}}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} ตอนนี้คำถามสำหรับ 3 ตัวแปร: คือ E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)−−−−−−−−−−−−−−−−−−√E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)\}} {\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)\mathrm{Var}(Z)}} อะไร? ใน R ดูเหมือนว่าสิ่งที่ตีความได้: > a <- rnorm(100); b <- rnorm(100); c <- rnorm(100) > mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c)) [1] -0.3476942 ปกติแล้วเราจะดูความสัมพันธ์ระหว่าง 2 ตัวแปรที่กำหนดค่าคงที่ของตัวแปรที่สาม มีคนอธิบายไหม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.