คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

2
ฉันจะค้นหาการวัดความสัมพันธ์ระหว่างตัวแปรสองรายการได้อย่างไร
มีการสำรวจเมื่อผู้คนเลือกสิ่งที่พวกเขาใช้ยิ้มเพื่อเป็นตัวแทนและเข้าสู่ประเทศต้นกำเนิด ฉันเขียนข้อความตอบกลับไปเป็นตัวเลขแล้ว การวิเคราะห์รูปแบบใดที่ควรใช้ (โดยเฉพาะอย่างยิ่งใน SPSS) เพื่อตรวจสอบระดับความสัมพันธ์ระหว่างสิ่งที่ผู้คนมาจากและการเป็นตัวแทนที่พวกเขาเลือก?

5
จะทำอย่างไรกับตัวแปร collinear
คำเตือน: นี่คือสำหรับโครงการการบ้าน ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไรTa b l eD อีพีทีเอชTaขล.อีDอีพีเสื้อชั่วโมง\frac{Table}{Depth} แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง:

3
อะไรคือสมมติฐานของการวิเคราะห์ปัจจัย?
ฉันต้องการตรวจสอบว่าฉันเข้าใจการวิเคราะห์ตัวประกอบ [คลาสสิคเชิงเส้น] (FA) โดยเฉพาะอย่างยิ่งสมมติฐานที่สร้างขึ้นก่อนหน้านี้ (และหลังจากนั้น) FA ข้อมูลบางส่วนควรมีความสัมพันธ์เริ่มแรกและมีความสัมพันธ์เชิงเส้นที่เป็นไปได้ระหว่างกัน หลังจากทำการวิเคราะห์ปัจจัยข้อมูลจะถูกกระจายตามปกติ (การกระจายตัวแบบ bivariate สำหรับแต่ละคู่) และไม่มีความสัมพันธ์ระหว่างปัจจัย (ทั่วไปและจำเพาะ) และไม่มีความสัมพันธ์ระหว่างตัวแปรจากปัจจัยหนึ่งและตัวแปรจากปัจจัยอื่น ๆ ถูกต้องหรือไม่

1
การแปลง r เป็นฟิชเชอร์ซีมีประโยชน์ต่อการวิเคราะห์อภิมานหรือไม่?
โดยปกติจะถูกแปลงเป็น Fisher zเพื่อทดสอบความแตกต่างระหว่างค่าrสองค่า แต่เมื่อต้องทำการวิเคราะห์เมตาดาต้าทำไมเราควรทำตามขั้นตอนดังกล่าว มันถูกต้องสำหรับข้อผิดพลาดในการวัดหรือข้อผิดพลาดที่ไม่ใช่การสุ่มตัวอย่างและทำไมเราควรสันนิษฐานว่าrเป็นการประมาณค่าที่ไม่สมบูรณ์ของสหสัมพันธ์ของประชากรrrrzzzrrrrrr

7
หากความสัมพันธ์ไม่ได้หมายความถึงความเป็นเหตุเป็นผลค่าของการทราบความสัมพันธ์ระหว่างตัวแปรสองตัวคืออะไร
สมมติว่าในฐานะเจ้าของธุรกิจ (หรือการตลาดหรือใครก็ตามที่เข้าใจพล็อตการกระจาย) จะแสดงพล็อตการกระจายของสองตัวแปร: จำนวนโฆษณาเทียบกับจำนวนการขายผลิตภัณฑ์ต่อเดือนในช่วง 5 ปีที่ผ่านมา (หรืออื่น ๆ มีตัวอย่างมากขึ้นฉันเพิ่งทำสิ่งนี้ขึ้นมา) ตอนนี้เขา / เธอเห็นพล็อตการกระจายและได้รับการบอกว่าสัมประสิทธิ์สหสัมพันธ์ (corr) คือ: 1 หรือ 0.5 หรือ 0.11 หรือ 0 หรือ -0.75 หรือ -1 โดยทั่วไปค่าที่ถูกต้องสำหรับ corr คำถาม: สิ่งนี้มีความหมายอย่างไรต่อผู้มีอำนาจตัดสินใจหรือผู้บริโภคในแผนการกระจาย การตัดสินใจแบบใดที่เราสามารถทำได้โดยอาศัยสิ่งนี้ Ie: การเห็นความสัมพันธ์ระหว่างตัวแปรสองตัวกับอะไรคือสิ่งที่เราสามารถทำอะไรกับข้อมูลนั้นได้อย่างโดดเดี่ยว? เป็นเพียงการดูว่าควรพิจารณาสิ่งใดและไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหรือมีการใช้งานจริงมากขึ้นหรือไม่? แค่อยากรู้อยากเห็นฉันได้ทำงานกับเทคนิคนี้เสมอ แต่ฉันได้รับการบอกว่าความสัมพันธ์ด้วยตัวมันเองนั้นไม่ได้ใช้ประโยชน์อะไรมาก - ดังนั้นการใช้ "IS" คืออะไร?

2
คู่แบบเบย์คืออะไรกับการทดสอบสองตัวอย่างที่มีความแปรปรวนไม่เท่ากัน
ฉันกำลังมองหาคู่แบบเบย์ของการทดสอบสองตัวอย่างที่มีความแปรปรวนไม่เท่ากัน (การทดสอบ Welch) ฉันกำลังมองหาการทดสอบหลายตัวแปรเช่นสถิติ T ของ Hotelling อ้างอิงชื่นชม สำหรับกรณีหลายตัวแปรสมมติว่าเรามีและ( z 1 , ⋯ , z N )โดยที่y i (resp z i ) เป็นทางลัดสำหรับค่าเฉลี่ยตัวอย่างส่วนเบี่ยงเบนมาตรฐานและจำนวนตัวอย่าง ของคะแนน เราสามารถสรุปได้ว่าจำนวนของจุดที่เป็นค่าคงที่ในชุดข้อมูลที่ทั้งค่าเบี่ยงเบนมาตรฐานเหมือนกันทุกปีผม (รับผิดชอบZ ฉัน ) และนั่นหมายถึงตัวอย่างของY ฉัน (รับผิดชอบZ ฉัน(y1,⋯,yN)(y1,⋯,yN)(y_1,\cdots,y_N)(z1, ⋯,zN)(z1,⋯,Zยังไม่มีข้อความ)(z_1,\cdots,z_N)YผมYผมy_iZผมZผมz_iYผมYผมy_iZผมZผมz_iYผมYผมy_iZผมZผมz_i) มีความสัมพันธ์กัน หากคุณพล็อตตัวอย่างหมายถึงพวกมันติดตามซึ่งกันและกันและโดยการเชื่อมต่อคุณจะได้รับฟังก์ชั่นที่เปลี่ยนแปลงอย่างราบรื่น ตอนนี้ในบางส่วนฟังก์ชั่นเห็นด้วยกับฟังก์ชั่นzแต่ในส่วนอื่น ๆ มันไม่ได้เพราะm e a n ( y i ) - m e a n …

3
ทำไมผลิตภัณฑ์ของค่าสัมประสิทธิ์การถดถอยของตัวแปร bivariate ของเส้น -on-และ -on- line เท่ากับกำลังสองของความสัมพันธ์?
มีรูปแบบการถดถอยเป็นที่กับและซึ่งมีค่าสัมประสิทธิ์สหสัมพันธ์ของ0.60302Y=a+bXY=a+bXY = a + bXa=1.6a=1.6a = 1.6b=0.4b=0.4b=0.4r=0.60302r=0.60302r = 0.60302 ถ้าและจะเปลี่ยนแล้วรอบ ๆ และสมการที่จะกลายเป็นที่และก็ยังมีค่าของ0.60302XXXYYYX=c+dYX=c+dYX = c + dYc=0.4545c=0.4545c=0.4545d=0.9091d=0.9091d=0.9091rrr0.603020.603020.60302 ฉันหวังว่าคนที่สามารถอธิบายได้ว่าทำไมยังเป็น0.60302(d×b)0.5(d×b)0.5(d\times b)^{0.5}0.603020.603020.60302

1
การอ้างอิงผลรวมและความแตกต่างของตัวแปรที่มีความสัมพันธ์สูงซึ่งเกือบจะไม่เกี่ยวข้องกัน
ในกระดาษที่ฉันเขียนฉันสร้างแบบจำลองตัวแปรสุ่มและมากกว่าและเพื่อลบปัญหาที่เกิดขึ้นเมื่อและมีความสัมพันธ์สูงและมีความแปรปรวนเท่ากัน (เหมือนที่ใช้ในแอปพลิเคชันของฉัน) ผู้ตัดสินต้องการให้ฉันอ้างอิง ฉันสามารถพิสูจน์ได้อย่างง่ายดาย แต่การเป็นวารสารแอปพลิเคชันที่พวกเขาต้องการการอ้างอิงถึงการคำนวณทางคณิตศาสตร์อย่างง่ายX+YX+YX+YX−YX−YX-YXXXYYYXXXYYY ใครบ้างมีคำแนะนำสำหรับการอ้างอิงที่เหมาะสม? ฉันคิดว่ามีบางอย่างในหนังสือ EDA ของ Tukey (1977) เกี่ยวกับผลรวมและความแตกต่าง แต่ฉันหาไม่เจอ

4
จะนำเสนอผลกำไรในรูปแบบต่าง ๆ ที่อธิบายได้อย่างไรเนื่องจากสหสัมพันธ์ของ Y และ X เป็นอย่างไร?
ฉันกำลังค้นหาวิธี (มองเห็น) อธิบายความสัมพันธ์เชิงเส้นอย่างง่ายกับนักเรียนปีแรก วิธีการมองภาพแบบดั้งเดิมคือการให้พล็อตกระจาย Y ~ X ที่มีเส้นถดถอยตรง เมื่อเร็ว ๆ นี้ฉันมาด้วยความคิดที่จะขยายกราฟิกประเภทนี้โดยการเพิ่มพล็อตอีก 3 ภาพทิ้งฉันไว้กับ: พล็อตกระจายของ y ~ 1 จากนั้น y ~ x, ที่เหลือ (y ~ x) ~ x และสุดท้าย ของที่เหลือ (y ~ x) ~ 1 (อยู่กึ่งกลางค่ากลาง) นี่คือตัวอย่างของการสร้างภาพข้อมูล: และรหัส R เพื่อผลิตมัน: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 …

4
MANOVA และความสัมพันธ์ระหว่างตัวแปรตาม: แข็งแรงแค่ไหน?
ตัวแปรตามใน MANOVA ไม่ควร "มีความสัมพันธ์มากเกินไป" แต่ความสัมพันธ์มีความแข็งแกร่งแค่ไหน มันจะน่าสนใจที่จะได้รับความคิดเห็นของผู้คนในเรื่องนี้ ตัวอย่างเช่นคุณจะดำเนินการกับ MANOVA ในสถานการณ์ต่อไปนี้หรือไม่? Y1 และ Y2 มีความสัมพันธ์กับและr=0.3r=0.3r=0.3p&lt;0.005p&lt;0.005p<0.005 Y1 และ Y2 มีความสัมพันธ์กับและr=0.7r=0.7r=0.7p=0.049p=0.049p=0.049 ปรับปรุง ตัวแทนบางคนเสนอราคาเพื่อตอบสนองต่อ @onestop: "MANOVA ทำงานได้ดีในสถานการณ์ที่มีความสัมพันธ์ในระดับปานกลางระหว่าง DVs" (หมายเหตุหลักสูตรจาก San Francisco State Uni) "ตัวแปรตามมีความสัมพันธ์ซึ่งเหมาะสมกับ Manova" (ไพรเมอร์สหรัฐอเมริกา EPA Stats) "ตัวแปรตามควรเกี่ยวข้องกับแนวคิดและควรมีความสัมพันธ์กับตัวแปรอื่นในระดับต่ำถึงปานกลาง" (หมายเหตุหลักสูตรจากมหาวิทยาลัย Northern Arizona) "DVs มีความสัมพันธ์กันจากประมาณ. 3 ถึง. 0.7 มีสิทธิ์" (Maxwell 2001, วารสารจิตวิทยาผู้บริโภค) nb ฉันไม่ได้อ้างถึงข้อสันนิษฐานว่าสัมพันธภาพระหว่าง Y1 และ …

2
ประเมินความสัมพันธ์ (มองเห็น) อย่างรวดเร็วระหว่างข้อมูลหมวดหมู่ที่ได้รับคำสั่งใน R หรือไม่
ฉันกำลังมองหาความสัมพันธ์ระหว่างคำตอบของคำถามต่าง ๆ ในแบบสำรวจ ("อืมลองดูว่าคำตอบของคำถาม 11 มีความสัมพันธ์กับคำถาม 78 หรือไม่" คำตอบทั้งหมดเป็นหมวดหมู่ (ส่วนใหญ่มีตั้งแต่ "ไม่มีความสุขมาก" ถึง "มีความสุขมาก") แต่มีคำตอบไม่กี่ชุด ส่วนใหญ่สามารถพิจารณาลำดับที่ดังนั้นลองพิจารณากรณีนี้ที่นี่ เนื่องจากฉันไม่สามารถเข้าถึงโปรแกรมสถิติเชิงพาณิชย์ได้ฉันต้องใช้ R ฉันลองRattle (แพ็คเกจการขุดข้อมูลฟรีแวร์สำหรับ R ดีมาก) แต่น่าเสียดายที่มันไม่รองรับข้อมูลที่เป็นหมวดหมู่ แฮ็คหนึ่งที่ฉันสามารถใช้ได้คือการนำเข้าในแบบสำรวจที่เขียนโค้ดซึ่งมีตัวเลข (1..5) แทนที่จะเป็น "ไม่มีความสุขมาก" ... "มีความสุข" และปล่อยให้ Rattle เชื่อว่าเป็นข้อมูลตัวเลข ฉันกำลังคิดที่จะพล็อตกระจายและมีขนาดจุดตามสัดส่วนของตัวเลขสำหรับแต่ละคู่ หลังจาก googling ฉันพบhttp://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/แต่ดูเหมือนว่าซับซ้อนมาก (สำหรับฉัน) ฉันไม่ใช่นักสถิติ (แต่เป็นโปรแกรมเมอร์) แต่มีการอ่านบางอย่างในเรื่องนี้และถ้าฉันเข้าใจอย่างถูกต้องRho ของ Spearmanจะเหมาะสมที่นี่ ดังนั้นคำถามสั้น ๆ สำหรับผู้ที่รีบร้อน: มีวิธีที่จะทำแบบ Rho ของ Spearman ใน Rหรือไม่? …

3
การอยู่ตรงกลางหมายถึงการลดความแปรปรวนร่วมหรือไม่?
สมมติว่าฉันมีตัวแปรสุ่มสองตัวที่ไม่ขึ้นกับตัวเองและฉันต้องการลดความแปรปรวนร่วมระหว่างพวกเขาให้มากที่สุดเท่าที่จะเป็นไปได้โดยไม่ต้องสูญเสีย "สัญญาณ" มากเกินไปหมายความว่าการช่วยเหลือจากศูนย์กลางหรือไม่ ฉันอ่านบางที่หมายถึงการอยู่ตรงกลางลดความสัมพันธ์โดยปัจจัยสำคัญดังนั้นฉันคิดว่ามันควรทำเช่นเดียวกันเพื่อความแปรปรวนร่วม

4
เงื่อนไขที่เพียงพอและจำเป็นสำหรับศูนย์ค่าเฉพาะของเมทริกซ์สหสัมพันธ์
ได้รับตัวแปรสุ่มกับการกระจายความน่าจะเป็น , เมทริกซ์สหสัมพันธ์เป็นบวกกึ่งแน่นอนเช่นค่าลักษณะเฉพาะของมัน เป็นบวกหรือเป็นศูนย์nnnXiXiX_iP(X1,…,Xn)P(X1,…,Xn)P(X_1,\ldots,X_n)Cij=E[XiXj]−E[Xi]E[Xj]Cij=E[XiXj]−E[Xi]E[Xj]C_{ij}=E[X_i X_j]-E[X_i]E[X_j] ฉันสนใจในเงื่อนไขเกี่ยวกับที่จำเป็นและ / หรือเพียงพอสำหรับC ที่จะมี ค่าลักษณะเฉพาะศูนย์m ยกตัวอย่างเช่นเงื่อนไขที่เพียงพอคือการที่ตัวแปรสุ่มที่ไม่เป็นอิสระ: \ sum_i u_i x_i = 0สำหรับจำนวนจริงบางu_i ตัวอย่างเช่นถ้าP (X_1, \ ldots, X_n) = \ delta (X_1-X_2) p (X_2, \ ldots, X_n)ดังนั้น\ vec u = (1, -1,0, \ ldots, 0)คือ eigenvector ของC ที่มีค่าศูนย์ eigenvalue หากเรามีข้อ จำกัด เชิงเส้นอิสระเอ็มบนX_iของประเภทนี้มันจะแปลว่าค่าศูนย์เป็นค่าmPPPCCCmmm∑iuiXi=0∑iuiXi=0\sum_i u_i X_i=0uiuiu_iP(X1,…,Xn)=δ(X1−X2)p(X2,…,Xn)P(X1,…,Xn)=δ(X1−X2)p(X2,…,Xn)P(X_1,\ldots,X_n)=\delta(X_1-X_2)p(X_2,\ldots,X_n)u⃗ =(1,−1,0,…,0)u→=(1,−1,0,…,0)\vec u=(1,-1,0,\ldots,0)CCCmmmXiXiX_immm …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ความสัมพันธ์ระหว่างไซน์และโคไซน์
สมมติว่ากระจายอย่างสม่ำเสมอบน[ 0 , 2 π ] Let Y = บาปXและZ = cos X แสดงให้เห็นว่าความสัมพันธ์ระหว่างYและZเป็นศูนย์XXX[ 0 , 2 π][0,2π][0, 2\pi]Y= บาปXY=sin⁡XY = \sin XZ= cosXZ=cos⁡XZ = \cos XYYYZZZ ดูเหมือนว่าฉันจะต้องรู้ค่าเบี่ยงเบนมาตรฐานของไซน์และโคไซน์และความแปรปรวนร่วมของพวกมัน ฉันจะคำนวณสิ่งเหล่านี้ได้อย่างไร ฉันคิดว่าฉันต้องถือว่ามีการกระจายชุดและดูที่ตัวแปรเปลี่ยนY = บาป( X )และZ = cos ( X ) จากนั้นกฎของนักสถิติที่ไม่รู้สึกตัวจะให้คุณค่าที่คาดหวังXXXY= บาป( X)Y=sin⁡(X)Y=\sin(X)Z= cos( X)Z=cos⁡(X)Z=\cos(X) และE[Z]=1E[ Y] = 1ข-∫∞- ∞บาป( x …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.