คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

2
การวิเคราะห์รายการสำหรับมือใหม่ R
ฉันพยายามประเมินการทดสอบตัวเลือกหลายรายการ 20 ข้อ ฉันต้องการทำการวิเคราะห์รายการเช่นสามารถพบได้ในตัวอย่างนี้ ดังนั้นสำหรับคำถามแต่ละข้อฉันต้องการค่า P และค่าสหสัมพันธ์กับผลรวมและการกระจายตัวเลือกที่เลือก ฉันไม่รู้อะไรเกี่ยวกับแพคเกจซอฟต์แวร์ทางสถิติที่หลากหลาย แต่ฉันต้องการใช้ R เนื่องจากฉันพอใจกับการเขียนโปรแกรมและ R เป็นโอเพ่นซอร์ส หลอกเวิร์กโฟลว์ที่ฉันจินตนาการคือ: เตรียมข้อมูลใน excel และส่งออกเป็น CSV โหลดข้อมูลใน R โหลดแพ็คเกจที่ทำในสิ่งที่ฉันต้องการ รันคำสั่งของแพ็คเกจนั้น ส่งออกและรายงาน ฉันมั่นใจกับ 1 และ 2 แต่มีปัญหากับ 3 อาจเป็นเพราะฉันไม่มีคำศัพท์เชิงสถิติเพื่อเปรียบเทียบแพ็กเกจที่ฉันเรียกดูบน CRAN ltmดูเหมือนว่าจะเป็นแพ็คเกจที่ถูกต้อง แต่ฉันก็บอกไม่ได้ แพคเกจใดที่ใช้คำสั่งจะเป็นอย่างไร คำถามด้านข้าง: ในตัวอย่างที่เชื่อมโยงคุณคิดว่า MC และ MI จะทำอะไร

3
มีปัญหาร้ายแรงหรือไม่ในการลดการสังเกตด้วยค่าที่หายไปเมื่อคำนวณเมทริกซ์สหสัมพันธ์?
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีตัวแปร 2500 ตัวและชอบการสังเกต 142 ครั้ง ฉันต้องการเรียกใช้ความสัมพันธ์ระหว่าง Variable X และส่วนที่เหลือของตัวแปร แต่สำหรับคอลัมน์จำนวนมากมีรายการขาดหายไป ฉันพยายามทำสิ่งนี้ใน R โดยใช้อาร์กิวเมนต์ "pairwise-complete" ( use=pairwise.complete.obs) และมันแสดงความสัมพันธ์จำนวนมาก แต่บางคนใน StackOverflow โพสต์ลิงก์ไปยังบทความนี้http://bwlewis.github.io/covar/missing.htmlและทำให้วิธีการ "จับคู่แบบเต็ม" ใน R ดูใช้ไม่ได้ คำถามของฉัน: ฉันจะรู้ได้อย่างไรว่าเมื่อใดที่เหมาะสมที่จะใช้ตัวเลือก "pairwise-complete" ฉันuse = complete.obsกลับมาno complete element pairsแล้วดังนั้นถ้าคุณสามารถอธิบายสิ่งที่มีความหมายเช่นนั้นก็จะดี

2
การวัดแบบไม่อิงพารามิเตอร์ของความแข็งแรงของการเชื่อมโยงระหว่างลำดับและตัวแปรสุ่มแบบต่อเนื่อง
ฉันทิ้งปัญหาไว้ที่นี่เพื่อรับมัน ฉันมีตัวแปรสุ่มสองตัว หนึ่งในนั้นคือต่อเนื่อง (Y) และอีกอันหนึ่งซึ่งไม่ต่อเนื่องและจะเข้าหาเป็นลำดับ (X) ฉันวางพล็อตด้านล่างที่ฉันได้รับพร้อมกับข้อความค้นหา คนที่ส่งข้อมูลมาให้ฉันต้องการวัดความแข็งแกร่งของการเชื่อมโยงระหว่าง X และ Y ฉันกำลังมองหาแนวคิดที่จะไม่มาพร้อมกับข้อสันนิษฐานเกี่ยวกับกระบวนการที่สร้างข้อมูล หมายเหตุว่านี้ไม่ได้เกี่ยวกับการหาวิธีที่พาราไม่ใช่เพื่อทดสอบความแข็งแรงของความสัมพันธ์ (ในขณะที่บูต) แต่เกี่ยวกับการหาวิธีที่ไม่ใช่ตัวแปรที่จะวัดมัน ในทางตรงกันข้ามประสิทธิภาพไม่ใช่ปัญหาเนื่องจากมีจุดข้อมูลจำนวนมาก

2
สัญชาตญาณที่อยู่เบื้องหลังความสัมพันธ์ 'บางส่วน' และ 'ชายขอบ'
ไม่มีใครมีความคิดว่าทำไมความสัมพันธ์แบบมีเงื่อนไขระหว่าง 2 ตัวแปรจึงถูกเรียกว่า "ความสัมพันธ์บางส่วน" และความสัมพันธ์แบบเรียบง่ายระหว่างพวกเขา (เช่นเมื่อไม่ได้มีเงื่อนไขในตัวแปรอื่น ๆ ) เรียกว่า "ความสัมพันธ์" สัญชาตญาณที่อยู่เบื้องหลังคำว่า "บางส่วน" และ "ชายขอบ" คืออะไร? พวกเขาทำอะไรกับ "ส่วน" หรือ "ระยะขอบ" มันเป็นการดีที่จะเรียนรู้คำตอบเพื่อให้เข้าใจแนวคิดเหล่านั้นดีขึ้น

1
การแจกแจงแบบใดที่ไม่สัมพันธ์กันแสดงถึงความเป็นอิสระ?
การเตือนความทรงจำที่มีเกียรติในสถิติคือ "ความสัมพันธ์ไม่ได้หมายถึงความเป็นอิสระ" โดยปกติการแจ้งเตือนนี้จะเสริมด้วยคำสั่งที่ผ่อนคลายทางจิตวิทยา (และถูกต้องทางวิทยาศาสตร์) "เมื่อ แต่อย่างไรก็ตามทั้งสองตัวแปรมีการกระจายตามปกติร่วมกันแล้ว uncorrelatedness หมายถึงความเป็นอิสระ" ฉันสามารถเพิ่มจำนวนข้อยกเว้นที่มีความสุขจากหนึ่งเป็นสอง: เมื่อตัวแปรสองตัวถูกแจกจ่ายโดยBernoulliจากนั้นอีกครั้งความไม่สัมพันธ์กันหมายถึงความเป็นอิสระ ถ้าและเป็นสอง Bermoulli rv's,ซึ่งเรามีและคล้ายคลึงกับความแปรปรวนร่วมของพวกมันคือXXXYYYX∼ B ( qx) ,Y∼ B ( qY)X~B(Qx),Y~B(QY)X \sim B(q_x),\; Y \sim B(q_y)P( X= 1 ) = E( X) = qxP(X=1)=E(X)=QxP(X=1) = E(X) = q_xYYY Cov( X, วาย) = E( XY) - E( X) E( Y) = ∑SXYp …

1
ความสัมพันธ์ที่สามารถบรรลุได้สำหรับตัวแปรสุ่มแบบเลขชี้กำลัง
ช่วงของความสัมพันธ์ที่สามารถบรรลุได้สำหรับคู่ของตัวแปรสุ่มแบบกระจายและโดยที่คืออะไร พารามิเตอร์อัตรา?X1∼Exp(λ1)X1∼Exp(λ1)X_1 \sim {\rm Exp}(\lambda_1)X2∼Exp(λ2)X2∼Exp(λ2)X_2 \sim {\rm Exp}(\lambda_2)λ1,λ2>0λ1,λ2>0\lambda_1, \lambda_2 > 0

3
ความแตกต่างระหว่างเชิงเส้นและสัมพันธ์เชิงเส้นคืออะไร?
กรุณาอธิบายสิ่งที่เป็นความแตกต่างระหว่างสองตัวแปรถ้าเป็นเส้นตรงขึ้นหรือมีความสัมพันธ์เชิงเส้นตรง ฉันค้นหาบทความวิกิพีเดีย แต่ไม่ได้รับตัวอย่างที่เหมาะสม กรุณาอธิบายด้วยตัวอย่าง

2
มันบ่งบอกอะไรเมื่อความสัมพันธ์ของสเปียร์แมนมีจำนวนที่แน่นอนน้อยกว่าเพียร์สัน?
ฉันมีชุดข้อมูลที่เกี่ยวข้องมากมาย ความสัมพันธ์ของแพร์สันระหว่างคู่ของพวกเขามักจะมีขนาดใหญ่กว่าความสัมพันธ์ของสเปียร์แมนแน่นอน นั่นแสดงให้เห็นว่าความสัมพันธ์ใด ๆ นั้นเป็นเส้นตรง แต่ใคร ๆ ก็คาดหวังว่าแม้ว่าจะมีลูกแพร์สันและสเปียร์แมนเหมือนกันก็ตาม มันหมายความว่าอย่างไรเมื่อมีช่องว่างที่ชัดเจนระหว่างเพียร์สันและสหพันธ์สเปียร์แมนกับแพร์สันนั้นใหญ่กว่า? นี่ดูเหมือนจะเป็นคุณสมบัติที่สอดคล้องกันในชุดข้อมูลของฉัน

2
ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรที่กำหนด (ที่ไม่เป็นคู่) และเป็นตัวเลข (ช่วงเวลา) หรือตัวแปรลำดับ
ฉันได้อ่านทุกหน้าในเว็บไซต์นี้แล้วพยายามหาคำตอบสำหรับปัญหาของฉันแล้ว แต่ดูเหมือนว่าไม่มีใครที่เหมาะสมกับฉัน ... ก่อนอื่นฉันจะอธิบายให้คุณทราบถึงข้อมูลที่ฉันใช้กับ ... สมมติว่าฉันมีเวกเตอร์อาร์เรย์ที่มีชื่อเมืองหลายแห่งหนึ่งแห่งสำหรับผู้ใช้ 300 คน ฉันยังมีเวกเตอร์อาร์เรย์อีกชุดหนึ่งที่มีคะแนนตอบสนองต่อการสำรวจของผู้ใช้แต่ละคนหรือค่าต่อเนื่องสำหรับผู้ใช้แต่ละคน ฉันต้องการที่จะทราบว่ามีค่าสัมประสิทธิ์สหสัมพันธ์ที่คำนวณความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ดังนั้นระหว่างตัวแปรที่ระบุและตัวแปรที่เป็นตัวเลข / ต่อเนื่องหรือลำดับ ฉันค้นหาบนอินเทอร์เน็ตและในบางหน้าพวกเขาแนะนำให้ใช้ค่าสัมประสิทธิ์ฉุกเฉินหรือ Cramer's V หรือ Lambda สัมประสิทธิ์หรือ Eta สำหรับแต่ละวัดนี้เพียงแค่บอกว่าพวกเขาสามารถนำไปใช้กับข้อมูลดังกล่าวซึ่งเรามีตัวแปรที่ระบุและช่วงเวลาหรือตัวแปรที่เป็นตัวเลข สิ่งคือการค้นหาและการค้นหาพยายามที่จะทำความเข้าใจกับทุกคนบางครั้งมีการเขียนหรือดูตัวอย่างที่พวกเขามีเหตุผลที่จะใช้พวกเขาหากคุณมีตัวแปรที่ระบุไว้แยกออกเป็นสองส่วนยกเว้น Cramer's V เวลาอื่นไม่ได้เขียนข้อกำหนดใด ๆ ประเภทของข้อมูล มีอีกหลายหน้าที่บอกว่าถูกต้องที่จะใช้การถดถอยแทนนั่นคือถูกต้อง แต่ฉันแค่อยากจะรู้ว่ามีสัมประสิทธิ์เช่น pearson / spearman สำหรับข้อมูลประเภทนี้หรือไม่ ฉันยังคิดว่ามันไม่ถูกต้องที่จะใช้ Spearman Correlation coeff เนื่องจากเมืองต่างๆไม่สามารถจัดเรียงได้ ฉันได้สร้างฟังก์ชันของ Cramer'sV และ Eta ด้วยตัวเอง (ฉันทำงานกับ Matlab) แต่สำหรับ Eta พวกเขาไม่ได้พูดถึง p-value ใด ๆ …

1
วิธีกำหนดการแจกแจงแบบนั้นมีความสัมพันธ์กับการจับฉลากจากการแจกแจงแบบอื่นที่กำหนดไว้ล่วงหน้าได้อย่างไร?
ฉันจะกำหนดกระจายของตัวแปรสุ่มดังกล่าวที่วาดจากมีความสัมพันธ์กับที่เป็นวาดเดียวจากการกระจายกับฟังก์ชันการกระจายสะสม ? Y ρ x 1 x 1 F X ( x )YYYYYYρρ\rhox1x1x_1x1x1x_1FX( x )FX(x)F_{X}(x)

1
ทำไม LKJcorr เป็นเมทริกซ์สหสัมพันธ์ที่ดีมาก่อน?
ฉันกำลังอ่านบทที่ 13 "การผจญภัยในความแปรปรวนร่วม" ในหนังสือ ( สุดยอด ) การทบทวนทางสถิติโดย Richard McElreathซึ่งเขานำเสนอรูปแบบลำดับชั้นดังต่อไปนี้: ( Rเป็นเมทริกซ์สหสัมพันธ์) ผู้เขียนอธิบายว่าLKJcorrมันเป็นข้อมูลที่อ่อนแอก่อนที่จะทำงานเป็น normalizing ก่อนสำหรับเมทริกซ์ความสัมพันธ์ แต่ทำไมถึงเป็นเช่นนั้น? มีการLKJcorrกระจายแบบใดที่ทำให้เป็นแบบอย่างที่ดีสำหรับเมทริกซ์สหสัมพันธ์? มีนักบวชที่ดีคนอื่น ๆ ที่ใช้ในการฝึกอบรมสำหรับความสัมพันธ์?

1
ทำไม
เหตุใดสัญลักษณ์RRrจึงถูกเลือกให้แสดงถึงสหสัมพันธ์ของเพียร์สัน

4
ความสัมพันธ์ระหว่าง X และ XY
หากฉันมีตัวแปรสุ่มอิสระสองตัว X และ Y ความสัมพันธ์ระหว่าง X และ XY ของผลิตภัณฑ์คืออะไร ถ้าสิ่งนี้ไม่เป็นที่รู้จักฉันจะสนใจอย่างน้อยก็รู้ว่าเกิดอะไรขึ้นในกรณีที่เฉพาะเจาะจงของ X และ Y ที่เป็นเรื่องปกติโดยมีค่าเฉลี่ยเป็นศูนย์ถ้าแก้ได้ง่ายกว่า

2
วิธีเริ่มสร้างแบบจำลองการถดถอยเมื่อตัวทำนายที่เกี่ยวข้องมากที่สุดคือไบนารี
ฉันมีชุดข้อมูลที่มี 365 การสังเกตของสามตัวแปรคือpm, และtemp rainตอนนี้ฉันต้องการตรวจสอบพฤติกรรมของpmการตอบสนองต่อการเปลี่ยนแปลงในอีกสองตัวแปร ตัวแปรของฉันคือ: pm10 = การตอบสนอง (ขึ้นอยู่กับ) temp = ตัวทำนาย (อิสระ) rain = ตัวทำนาย (อิสระ) ต่อไปนี้เป็นเมทริกซ์สหสัมพันธ์สำหรับข้อมูลของฉัน: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 ปัญหาคือเมื่อฉันกำลังศึกษาการสร้างตัวแบบการถดถอยมันเขียนว่าวิธีการเติมแต่งคือการเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องกับตัวแปรตอบสนองมากที่สุด ในชุดข้อมูลของฉันrainมีความสัมพันธ์อย่างมากกับpm(เมื่อเทียบกับtemp) แต่ในเวลาเดียวกันมันเป็นตัวแปรจำลอง (ฝน = 1, ไม่มีฝน = 0) ดังนั้นตอนนี้ฉันจึงได้รู้ว่าควรเริ่มจากที่ใด ผมได้แนบภาพสองภาพที่มีคำถาม: ที่แรกก็คือ scatterplot ของข้อมูลและภาพที่สองเป็น …

2
ความสัมพันธ์อัตโนมัติเชิงพื้นที่สำหรับข้อมูลอนุกรมเวลา
ฉันมีชุดข้อมูล 20 ปีของการนับจำนวนปีของสายพันธุ์ที่อุดมสมบูรณ์สำหรับชุดรูปหลายเหลี่ยม (~ 200 รูปหลายเหลี่ยมที่ต่อเนื่องและมีรูปร่างไม่สม่ำเสมอ) ฉันใช้การวิเคราะห์การถดถอยเพื่ออนุมานแนวโน้ม (การเปลี่ยนแปลงจำนวนต่อปี) สำหรับรูปหลายเหลี่ยมแต่ละรูปรวมถึงการรวมข้อมูลรูปหลายเหลี่ยมตามขอบเขตการจัดการ ฉันแน่ใจว่ามีข้อมูลเชิงพื้นที่สัมพันธ์อัตโนมัติซึ่งแน่นอนว่าจะส่งผลกระทบต่อการวิเคราะห์การถดถอยสำหรับข้อมูลรวม คำถามของฉันคือ - ฉันจะรันการทดสอบ SAC สำหรับข้อมูลอนุกรมเวลาได้อย่างไร ฉันต้องดู SAC ​​ของส่วนที่เหลือจากการถดถอยของฉันในแต่ละปี (โมแรนระดับโลกของฉัน) หรือไม่? หรือฉันสามารถทำการทดสอบหนึ่งครั้งกับทุกปีได้หรือไม่? เมื่อฉันทดสอบว่าใช่มี SAC มีวิธีง่าย ๆ ในการจัดการเรื่องนี้หรือไม่? พื้นหลังสถิติของฉันมีน้อยและทุกอย่างที่ฉันได้อ่านในการสร้างแบบจำลองเชิงพื้นที่มีความซับซ้อนมาก ฉันรู้ว่า R มีฟังก์ชั่น autocovariate ทางไกล - นี่ใช้ง่ายไหม? ฉันค่อนข้างสับสนในการประเมิน / addess SAC สำหรับปัญหานี้และจะขอบคุณคำแนะนำลิงก์หรือการอ้างอิงใด ๆ ขอบคุณล่วงหน้า!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.