คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

3
สร้างคู่ของตัวเลขสุ่มกระจายอย่างสม่ำเสมอและมีความสัมพันธ์
ฉันต้องการสร้างตัวเลขสุ่มคู่ที่มีความสัมพันธ์บางอย่าง อย่างไรก็ตามวิธีการปกติของการใช้การรวมกันเชิงเส้นของตัวแปรปกติสองตัวนั้นไม่ถูกต้องที่นี่เนื่องจากการรวมกันเชิงเส้นของตัวแปรชุดไม่ได้เป็นตัวแปรการกระจายแบบสม่ำเสมออีกต่อไป ฉันต้องการตัวแปรสองตัวที่เหมือนกัน ความคิดเกี่ยวกับวิธีการสร้างคู่ของตัวแปรเครื่องแบบที่มีความสัมพันธ์ที่กำหนด?

5
มีวิธีง่ายๆในการตรวจจับผู้ผิดหรือไม่
ฉันสงสัยว่ามีวิธีง่ายๆในการตรวจจับค่าผิดปกติหรือไม่ สำหรับหนึ่งในโครงการของฉันซึ่งโดยทั่วไปมีความสัมพันธ์กันระหว่างจำนวนครั้งที่ผู้ตอบแบบสอบถามมีส่วนร่วมในการออกกำลังกายในหนึ่งสัปดาห์และจำนวนครั้งที่พวกเขากินนอกบ้าน (อาหารจานด่วน) ในหนึ่งสัปดาห์ฉันดึง scatterplot และถอด จุดข้อมูลที่รุนแรง (Scatterplot มีความสัมพันธ์เชิงลบ) สิ่งนี้ขึ้นอยู่กับการตัดสินคุณค่า (ขึ้นอยู่กับแผนการกระจายที่จุดข้อมูลเหล่านี้รุนแรงมาก) ฉันไม่ได้ทำการทดสอบทางสถิติใด ๆ ฉันแค่สงสัยว่านี่เป็นวิธีที่ดีในการจัดการกับคนผิด ฉันมีข้อมูลจาก 350 คนดังนั้นการสูญเสีย (พูด) 20 จุดข้อมูลไม่ได้เป็นสิ่งที่ฉันกังวล

3
มันทำให้รู้สึกถึงความสัมพันธ์บางส่วนที่จะมีขนาดใหญ่กว่าความสัมพันธ์เป็นศูนย์เพื่อ?
นี่อาจแสดงให้เห็นถึงการขาดความเข้าใจพื้นฐานเกี่ยวกับการทำงานของความสัมพันธ์บางส่วน ฉันมี 3 ตัวแปร x, y, z เมื่อฉันควบคุมสำหรับ z ความสัมพันธ์ระหว่าง x และ y เพิ่มขึ้นเหนือความสัมพันธ์ระหว่าง x และ y เมื่อไม่ได้ควบคุม z มันสมเหตุสมผลหรือไม่ ฉันมักจะคิดว่าเมื่อตัวควบคุมหนึ่งสำหรับผลกระทบของตัวแปรที่ 3 ความสัมพันธ์ควรลดลง ขอขอบคุณสำหรับความช่วยเหลือของคุณ!

2
การคำนวณสหสัมพันธ์ (และความสำคัญของสหสัมพันธ์ที่กล่าว) ระหว่างคู่อนุกรมเวลา
ฉันมีอนุกรมเวลาสองตัว S และ T พวกเขามีความถี่เท่ากันและมีความยาวเท่ากัน ฉันต้องการคำนวณ (ใช้ R) ความสัมพันธ์ระหว่างคู่นี้ (เช่น S และ T) และสามารถคำนวณความสำคัญของสหสัมพันธ์ได้ด้วยดังนั้นฉันสามารถระบุได้ว่าความสัมพันธ์นั้นเกิดจากโอกาสหรือไม่ ฉันต้องการทำสิ่งนี้ใน R และกำลังมองหาพอยน์เตอร์ / โครงกระดูกโครงร่างเพื่อเริ่มต้นให้ฉัน

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

1
มีการอธิบายลักษณะเฉพาะของความสัมพันธ์ทางไกลหรือไม่?
ฉันเฝ้าดูหน้าวิกิพีเดียเพื่อหาความสัมพันธ์ทางไกลที่ซึ่งมันดูเหมือนว่าจะถูกกำหนดโดยวิธีการคำนวณ ในขณะที่ฉันจะทำการคำนวณที่ผมต่อสู้เพื่อให้ได้รับมาตรการความสัมพันธ์สิ่งที่ระยะทางและทำไมการคำนวณดูที่พวกเขาทำ มีลักษณะของการสัมพันธ์ทางไกลที่เข้าใจได้ง่ายขึ้น (หรือมากขึ้น) ที่จะช่วยให้ฉันเข้าใจว่ามันวัดได้อย่างไร? ฉันรู้ว่าการขอสัญชาติญาณนั้นค่อนข้างคลุมเครือ แต่ถ้าฉันรู้ว่าฉันต้องการสัญชาติญาณแบบใดฉันคงไม่ได้ถามในตอนแรก ฉันก็จะมีความสุขกับสัญชาตญาณเกี่ยวกับกรณีของความสัมพันธ์ระยะทางระหว่างตัวแปรสุ่มสองตัว (แม้ว่าความสัมพันธ์ของระยะทางจะถูกกำหนดระหว่างเวกเตอร์สุ่มสองตัว)

4
ผลรวมของตัวแปรสองตัวสามารถอธิบายความแปรปรวนได้มากกว่าตัวแปรแต่ละตัวอย่างไร
ฉันได้รับผลลัพธ์ที่น่าสงสัยสำหรับความสัมพันธ์ของผลรวมกับตัวแปรที่สามเมื่อตัวทำนายสองตัวนั้นมีความสัมพันธ์เชิงลบ อะไรทำให้เกิดผลลัพธ์ที่น่างงงวยเหล่านี้ ตัวอย่างที่ 1: ความสัมพันธ์ระหว่างผลรวมของตัวแปรสองตัวกับตัวแปรตัวที่สาม พิจารณาสูตร 16.23 ในหน้า 427 ของข้อความ 1965 ของ Guildford ดังที่แสดงด้านล่าง การค้นหาที่น่าสงสัย: หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 กับตัวแปรที่สาม ตัวอย่างที่ 2: ความสัมพันธ์หลายอย่างระหว่างตัวแปรสองตัวกับตัวแปรที่สามคืออะไร พิจารณาสูตร 16.1 ในหน้า 404 ของข้อความ 1965 ของ Guildford (แสดงด้านล่าง) การค้นหาที่น่าสงสัย: สถานการณ์เดียวกัน หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 …

2
ข้อมูลอินพุตที่สัมพันธ์กันนำไปสู่การ overfitting กับเครือข่ายประสาทเทียมหรือไม่
ในความคิดของฉันข้อมูลที่สัมพันธ์กันจะต้องนำไปสู่การ overfitting ในเครือข่ายประสาทเพราะเครือข่ายเรียนรู้ความสัมพันธ์เช่นเสียงในข้อมูล ถูกต้องหรือไม่

3
เมื่อใดการแปลง z ของฟิชเชอร์จึงเหมาะสม?
ฉันต้องการทดสอบความสัมพันธ์ตัวอย่างเพื่อความสำคัญโดยใช้ค่า p นั่นคือRrr H0: ρ = 0 ,H1: ρ ≠ 0H0:ρ=0,H1:ρ≠0.H_0: \rho = 0, \; H_1: \rho \neq 0. ฉันเข้าใจว่าฉันสามารถใช้การแปลง z ของฟิชเชอร์เพื่อคำนวณสิ่งนี้ด้วย Zo b s= n - 3-----√2LN( 1 + r1 - ร)zobs=n−32ln⁡(1+r1−r)z_{obs}= \displaystyle\frac{\sqrt{n-3}}{2}\ln\left(\displaystyle\frac{1+r}{1-r}\right) และหาค่า p โดย p = 2 P( Z> zo b s)p=2P(Z>zobs)p = 2P\left(Z>z_{obs}\right) ใช้การแจกแจงแบบปกติมาตรฐาน คำถามของฉันคือวิธีที่มีขนาดใหญ่ควรจะให้นี้จะมีการเปลี่ยนแปลงที่เหมาะสมหรือไม่ เห็นได้ชัดว่าจะต้องมีขนาดใหญ่กว่า …

4
จะคำนวณความสัมพันธ์ระหว่าง / ภายในกลุ่มของตัวแปรอย่างไร
ฉันมีเมทริกซ์จำนวน 1,000 การสังเกตและ 50 ตัวแปรแต่ละตัววัดในระดับ 5 จุด ตัวแปรเหล่านี้ถูกจัดกลุ่มเป็นกลุ่ม แต่มีจำนวนตัวแปรไม่เท่ากันในแต่ละกลุ่ม ฉันต้องการคำนวณสหสัมพันธ์สองประเภท: ความสัมพันธ์ภายในกลุ่มของตัวแปร (ในลักษณะ): การวัดว่าตัวแปรภายในกลุ่มของตัวแปรกำลังวัดสิ่งเดียวกันหรือไม่ ความสัมพันธ์ระหว่างกลุ่มของตัวแปร: การวัดบางอย่างสมมติว่าแต่ละกลุ่มสะท้อนลักษณะโดยรวมหนึ่งลักษณะว่าแต่ละลักษณะ (กลุ่ม) เกี่ยวข้องกับลักษณะอื่น ๆ อย่างไร ลักษณะเหล่านี้เคยถูกจำแนกออกเป็นกลุ่ม ฉันสนใจที่จะหาความสัมพันธ์ระหว่างกลุ่ม - เช่นสมมติว่าลักษณะภายในกลุ่มกำลังวัดลักษณะพื้นฐานเดียวกัน (หลังจากเสร็จสิ้น # 1 ด้านบน - อัลฟ่าของครอนบาค) มีความสัมพันธ์กันหรือไม่? ไม่มีใครมีคำแนะนำสำหรับการเริ่มต้นหรือไม่

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

4
ความไม่เท่าเทียมกันของสามเหลี่ยมเป็นจริงสำหรับระยะทางตามความสัมพันธ์เหล่านี้หรือไม่?
สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะเห็น "ตัวชี้วัด" สองตัวต่อไปนี้ (พวกเขาพูดไม่ตรงกัน) สำหรับการวัดระยะห่างระหว่างตัวแปรสุ่มสองตัวและ : \ newcommand {\ Cor} {\ mathrm {Cor}} \ start {align} d_1 (X, Y) และ = 1- | \ คอร์ (X, Y) | \\ d_2 (X, Y) และ = 1 - (\ คอร์ (X, Y)) ^ 2 \ end {} จัด ทำอย่างใดอย่างหนึ่ง ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยมหรือไม่? ถ้าเป็นเช่นนั้นฉันควรจะพิสูจน์ได้อย่างไรนอกจากการคำนวณแบบ bruteforce? …

1
การใช้ข้อมูลร่วมกันเพื่อประเมินความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด
สำหรับชื่อเรื่องความคิดคือการใช้ข้อมูลร่วมกันที่นี่และหลัง MI เพื่อประมาณค่า "สหสัมพันธ์" (นิยามว่า "เท่าที่ฉันรู้เกี่ยวกับ A เมื่อฉันรู้จัก B") ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด ฉันจะบอกคุณความคิดของฉันเกี่ยวกับเรื่องนี้ในช่วงเวลาหนึ่ง แต่ก่อนที่ฉันจะแนะนำให้คุณอ่านคำถาม / คำตอบอื่น ๆ เกี่ยวกับ CrossValidatedเนื่องจากมีข้อมูลที่มีประโยชน์ ตอนนี้เนื่องจากเราไม่สามารถรวมกับตัวแปรเด็ดขาดเราต้องแยกแยะตัวแปรต่อเนื่อง สิ่งนี้สามารถทำได้ค่อนข้างง่ายใน R ซึ่งเป็นภาษาที่ฉันได้ทำการวิเคราะห์ด้วย ฉันชอบที่จะใช้cutฟังก์ชั่นนี้เพราะมันก็ใช้แทนค่า แต่ก็มีตัวเลือกอื่นเช่นกัน ประเด็นก็คือเราต้องตัดสินใจก่อนถึงจำนวนของ "ถังขยะ" (สถานะที่ไม่ต่อเนื่อง) ก่อนที่จะสามารถแยกแยะได้ อย่างไรก็ตามปัญหาหลักเป็นอีกปัญหาหนึ่ง: MI อยู่ในช่วงตั้งแต่ 0 ถึง∞เนื่องจากเป็นการวัดที่ไม่ได้มาตรฐานซึ่งหน่วยเป็นบิต ทำให้ยากมากที่จะใช้มันเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ส่วนนี้สามารถแก้ไขได้โดยใช้สัมประสิทธิ์สหสัมพันธ์ทั่วโลกที่นี่และหลัง GCC ซึ่งเป็นเวอร์ชันมาตรฐานของ MI; GCC ถูกกำหนดดังนี้: การอ้างอิง: สูตรมาจากข้อมูลร่วมกันเป็นเครื่องมือไม่เชิงเส้นสำหรับการวิเคราะห์ตลาดหุ้นโลกาภิวัตน์โดย Andreia Dionísio, Rui Menezes & Diana Mendes, 2010 GCC …

2
ความสัมพันธ์ระหว่างค่า ph, Matthews และ Pearson สัมประสิทธิ์สหสัมพันธ์
ค่าสัมประสิทธิ์สหสัมพันธ์ของพีและแมทธิวเป็นแนวคิดเดียวกันหรือไม่? พวกมันเกี่ยวข้องกันอย่างไรหรือเทียบเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรไบนารีสองตัว? ฉันคิดว่าค่าไบนารีเป็น 0 และ 1 ความสัมพันธ์ของเพียร์สันระหว่างตัวแปรสุ่มสองเบอร์นูลลี่และคือ:yxxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} ที่ไหน E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.