คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

3
ขั้นตอนอัตโนมัติสำหรับการเลือกชุดย่อยของจุดข้อมูลที่มีความสัมพันธ์มากที่สุด?
มีขั้นตอนมาตรฐานบางอย่าง (ซึ่งอาจอ้างอิงถึงการอ้างอิง) สำหรับการเลือกเซ็ตย่อยของจุดข้อมูลจากพูลขนาดใหญ่ที่มีความสัมพันธ์ที่แข็งแกร่งที่สุด (ตามสองมิติ)? ตัวอย่างเช่นสมมติว่าคุณมี 100 จุดข้อมูล คุณต้องการเซตย่อย 40 คะแนนโดยมีความสัมพันธ์ที่แข็งแกร่งที่สุดเท่าที่เป็นไปได้ในมิติ X และ Y ฉันรู้ว่าการเขียนโค้ดเพื่อทำสิ่งนี้จะค่อนข้างตรงไปตรงมา แต่ฉันสงสัยว่ามีแหล่งอ้างอิงใดหรือไม่

2
สร้างตัวแปรสุ่มแบบกระจายที่สัมพันธ์กันสามชุด
สมมติว่าเรามี X1∼unif(n,0,1),X1~ยูนิฟ(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2~ยูนิฟ(n,0,1),X_2 \sim \textrm{unif}(n,0,1), โดยที่เป็นตัวอย่างแบบสุ่มขนาดเท่ากันของขนาด n และunif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1) Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. จากนั้นความสัมพันธ์ระหว่างและเป็น0.4YYYZZZ0.40.40.4 ฉันสามารถขยายนี้ถึงสามตัวแปร , , ?X1X1X_1X2X2X_2X3X3X_3

4
ความสัมพันธ์คืออะไรหากค่าเบี่ยงเบนมาตรฐานของตัวแปรหนึ่งตัวคือ 0
ดังที่ฉันเข้าใจเราสามารถได้สหสัมพันธ์โดยการทำให้ความแปรปรวนร่วมเป็นปกติโดยใช้สมการ ρi,j=cov(Xi,Xj)σiσjρi,j=cov(Xi,Xj)σiσj\rho_{i,j}=\frac{cov(X_i, X_j)}{\sigma_i \sigma_j} ที่เป็นค่าเบี่ยงเบนมาตรฐานของx_iσi=E[(Xi−μi)2]−----------√σผม=E[(Xผม-μผม)2]\sigma_i=\sqrt{E[(X_i-\mu_i)^2]}XผมXผมX_i ความกังวลของฉันคืออะไรถ้าค่าเบี่ยงเบนมาตรฐานเท่ากับศูนย์? มีเงื่อนไขใด ๆ ที่รับประกันได้หรือไม่ว่าจะไม่เป็นศูนย์? ขอบคุณ


2
ทำความเข้าใจเกี่ยวกับการคำนวณความสัมพันธ์ระยะทาง
เท่าที่ฉันเข้าใจความสัมพันธ์ของระยะทางเป็นวิธีที่มีประสิทธิภาพและเป็นสากลในการตรวจสอบว่ามีความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวหรือไม่ ตัวอย่างเช่นหากเรามีชุดจำนวนคู่: (x1, y1) (x2, y2) ... (xn, yn) เราสามารถใช้ความสัมพันธ์ของระยะทางเพื่อตรวจสอบว่ามีความสัมพันธ์ใด ๆ (ไม่จำเป็นต้องเป็นเชิงเส้น) ระหว่างตัวแปรสองตัว ( xและy) ยิ่งกว่านั้นxและyสามารถเป็นเวกเตอร์ที่มีขนาดต่างกัน มันค่อนข้างง่ายในการคำนวณความสัมพันธ์ของระยะทาง ก่อนอื่นเราใช้xixผมx_iในการคำนวณระยะทางเมทริกซ์ จากนั้นเราจะคำนวณเมทริกซ์ระยะทางโดยใช้yผมyผมy_iฉัน เมทริกซ์ระยะทางทั้งสองจะมีขนาดเท่ากันเนื่องจากจำนวนxผมxผมx_iและYผมyผมy_iเท่ากัน (เพราะมาเป็นคู่) ตอนนี้เรามีระยะทางมากมายที่สามารถจับคู่ได้ ตัวอย่างเช่นองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางแรกถูกจับคู่กับองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางที่สอง ดังนั้นเรามีชุดของระยะทางคู่หนึ่งและเราสามารถใช้มันเพื่อคำนวณความสัมพันธ์ (ความสัมพันธ์ระหว่างระยะทาง) หากระยะทางสองประเภทนั้นมีความสัมพันธ์กันมากกว่าที่หมายความว่า close Xs มักจะหมายถึง close Ys ตัวอย่างเช่นถ้าใกล้เคียงกับx 13มากกว่านั่นหมายความว่าy 7น่าจะใกล้เคียงกับy 13x7x7x_7x13x13x_{13}Y7Y7y_7Y13Y13y_{13} 13ดังนั้นเราสามารถสรุปได้ว่า Xs และ Ys ขึ้นอยู่กับ ฟังดูสมเหตุสมผล แต่มีสองด้านที่ผมไม่เข้าใจ อันดับแรกเพื่อคำนวณความสัมพันธ์ของระยะทางเราไม่ได้ใช้เมทริกซ์ระยะทางสองตัวโดยตรง เราใช้กับพวกเขาสองขั้นตอนกลาง (เพื่อให้ผลรวมขององค์ประกอบทั้งหมดในแถวใด ๆ (หรือคอลัมน์) เท่ากับศูนย์) ฉันไม่เข้าใจว่าทำไมเราต้องทำ ตรรกะ …

1
ความสัมพันธ์ของระยะทางกับข้อมูลร่วมกัน
ฉันทำงานกับข้อมูลร่วมกันมาระยะหนึ่งแล้ว แต่ฉันพบว่ามีการวัดล่าสุดใน "โลกแห่งความสัมพันธ์" ที่สามารถใช้เพื่อวัดความเป็นอิสระของการกระจายตัวที่เรียกว่า "ระยะทางสหสัมพันธ์" (หรือเรียกอีกอย่างว่าความสัมพันธ์ Brownian): http://en.wikipedia.org/wiki/Brownian_covariance . ฉันตรวจสอบเอกสารที่มีการใช้มาตรการนี้ แต่ไม่พบการพาดพิงถึงข้อมูลร่วมกัน ดังนั้นคำถามของฉันคือ: พวกเขาแก้ปัญหาเดียวกันได้หรือไม่? ถ้าไม่ปัญหาต่างกันอย่างไร? และหากคำถามก่อนหน้านี้สามารถตอบคำถามในเชิงบวกข้อดีของการใช้อย่างใดอย่างหนึ่งคืออะไร

6
Nitpicking เกี่ยวกับการใช้งาน / passive ของ“ correlated”
ฉันลังเลที่จะถามคำถามนี้ที่สถิติ StackExchange หรือในภาษาศาสตร์ / ภาษาอังกฤษ แต่ฉันคิดว่าอาจมีผู้ใช้ภาษามากกว่าที่นี่มากกว่าผู้ใช้สถิติที่เข้าใจในฟอรัมอื่น;) ฉันมักจะอ่านรายงานที่พูดถึงความสัมพันธ์เป็นคำกริยาในเสียงที่ใช้งานอยู่เช่นเดียวกับใน "เราก็มีความสัมพันธ์ A กับ B และพบว่า ... " สำหรับฉันคำกริยานี้มีความหมายเฉพาะในเสียงเฉื่อยเฉยเช่นเมื่อพูดเช่น "เราพบว่า A และ B มีความสัมพันธ์อย่างมีนัยสำคัญ" ฉันอาจจะผิดที่สิ่งนี้ถือเป็นเสียงที่ใช้งานได้จริงกับการโต้ตอบทางไวยากรณ์ แต่สิ่งที่ฉันอธิบายคือความแตกต่างระหว่างการทำอะไรบางอย่างกับ A และ B เช่นที่พวกเขาแต่ละคนจบลงเปลี่ยนไปเมื่อเทียบกับการคำนวณตัวแปรที่สาม แน่นอนหนึ่งสามารถลดความสัมพันธ์อย่างแข็งขันสองตัวแปร แต่ดูเหมือนว่าฉัน "สัมพันธ์" พวกเขาแทนที่จะอ้างถึงสิ่งที่ใช้งานอยู่เพียงแค่ใช้เป็นชวเลขเพื่อตรวจสอบว่ามีความสัมพันธ์ที่สำคัญอยู่! ฉันผิดหรือเปล่า? มันมีเหตุผลอย่างอื่นหรือไม่ที่จะบอกว่าคุณ [มีความสัมพันธ์อย่างแข็งขันกับ A กับ B]?

3
ทำไมความสัมพันธ์จึงไม่เป็นประโยชน์เมื่อตัวแปรตัวใดตัวหนึ่งจัดอยู่ในหมวดหมู่?
นี่เป็นการตรวจสอบลำไส้เล็กน้อยโปรดช่วยฉันดูว่าฉันเข้าใจผิดแนวคิดนี้หรือไม่และในทางใด ฉันมีความเข้าใจหน้าที่การใช้งานของความสัมพันธ์ แต่ฉันรู้สึกจับใจเล็กน้อยเพื่ออธิบายหลักการที่อยู่เบื้องหลังความเข้าใจการทำงานนั้นอย่างมั่นใจ เมื่อฉันเข้าใจแล้วความสัมพันธ์เชิงสถิติ (เมื่อเทียบกับการใช้คำทั่วไปมากขึ้น) เป็นวิธีที่จะเข้าใจตัวแปรสองตัวต่อเนื่องและวิธีการที่พวกเขาทำหรือไม่มีแนวโน้มที่จะขึ้นหรือลงในลักษณะที่คล้ายกัน เหตุผลที่คุณไม่สามารถเรียกใช้สหสัมพันธ์บนกล่าวคือหนึ่งตัวแปรต่อเนื่องและตัวแปรเด็ดขาดหนึ่งอันเนื่องจากคุณไม่สามารถคำนวณ ค่าความแปรปรวนร่วมระหว่างตัวแปรทั้งสองได้เนื่องจากตัวแปรหมวดหมู่ตามคำนิยามไม่สามารถให้ค่าเฉลี่ยได้ดังนั้นจึงไม่สามารถป้อนค่าแรกได้ ขั้นตอนของการวิเคราะห์ทางสถิติ นั่นถูกต้องใช่ไหม?

1
ตัวอย่างของตัวแปรอิสระ (ประมาณ) ที่ขึ้นอยู่กับค่าที่สุดขั้ว?
ฉันกำลังมองหาตัวอย่างของตัวแปรสุ่ม 2 ตัว , Y แบบนั้นXXXYYY |cor(X,Y)|≈0|cor(X,Y)|≈0\newcommand{\cor}{{\rm cor}}|\cor(X,Y)| \approx 0 แต่เมื่อพิจารณาส่วนหางของการแจกแจงพวกมันมีความสัมพันธ์สูง (ฉันพยายามหลีกเลี่ยง 'สหสัมพันธ์' / 'สหสัมพันธ์' ของหางเพราะมันอาจไม่ใช่เชิงเส้น) อาจใช้สิ่งนี้: |cor(X′,Y′)|≫0|cor(X′,Y′)|≫0|\cor(X', Y')| \gg 0 โดยที่มีเงื่อนไขบนX > 90 %ของประชากรของXและY ′ถูกกำหนดในความหมายเดียวกันX′X′X'X>90%X>90%X > 90\%XXXY′Y′Y'

1
สัมประสิทธิ์สหสัมพันธ์ตัวอย่างเป็นตัวประมาณค่าที่ไม่เอนเอียงของสัมประสิทธิ์สหสัมพันธ์ของประชากรหรือไม่?
มันเป็นความจริงที่เป็นประมาณการที่เป็นกลางสำหรับ ? นั่นคือ ρ X , Y E [ R X , Y ] = ρ X , Y ?RX,YRX,YR_{X,Y}ρX,YρX,Y\rho_{X,Y}E[RX,Y]=ρX,Y?E[RX,Y]=ρX,Y?\mathbf{E}\left[R_{X,Y}\right]=\rho_{X,Y}? ถ้าไม่ใช่ตัวประมาณที่เป็นกลางสำหรับคืออะไร? (บางทีอาจมีตัวประมาณค่าแบบไม่เอนเอียงมาตรฐานที่ใช้หรือไม่นอกจากนี้มันเหมือนกับความแปรปรวนตัวอย่างแบบไม่เอนเอียงซึ่งเราทำการปรับเปลี่ยนความง่ายของการคูณความแปรปรวนตัวอย่างแบบเอนเอียงโดยหรือไม่)nρX,YρX,Y\rho_{X,Y}nn−1nn−1\frac{n}{n-1} ค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรถูกกำหนดเป็นในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างถูกกำหนดเป็นRX,Y=∑ n ฉัน= 1 (Xi- ˉ X )(ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]−−−−−−−−−−−−√E[(Y−μY)2]−−−−−−−−−−−−√,ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]E[(Y−μY)2],\rho_{X,Y}=\frac{\mathbf{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right]}{\sqrt{\mathbf{E}\left[\left(X-\mu_{X}\right)^{2}\right]}\sqrt{\mathbf{E}\left[\left(Y-\mu_{Y}\right)^{2}\right]}},RX,Y=∑ni=1(Xi−X¯)(Yi−Y¯)∑ni=1(Xi−X¯)2−−−−−−−−−−−−−√∑ni=1(Yi−Y¯)2−−−−−−−−−−−−√.RX,Y=∑i=1n(Xi−X¯)(Yi−Y¯)∑i=1n(Xi−X¯)2∑i=1n(Yi−Y¯)2.R_{X,Y}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}.

1
สิ่งนั้นเป็นความสัมพันธ์ถ่วงน้ำหนัก?
ฉันมีข้อมูลที่น่าสนใจเกี่ยวกับศิลปินทางดนตรีที่ได้รับความนิยมมากที่สุดที่ถูกสตรีมแบ่งออกเป็นส่วน ๆ ตามที่ตั้งไว้ในเขตรัฐสภาประมาณ 200 แห่ง ฉันต้องการดูว่าเป็นไปได้หรือไม่ที่จะสำรวจความคิดเห็นของบุคคลตามความชอบทางดนตรีของเขาหรือเธอและพิจารณาว่าเขาหรือเธอ "ฟังเหมือนประชาธิปไตย" หรือ "ฟังเหมือนรีพับลิกัน" (โดยธรรมชาตินี่คือใจที่อ่อน แต่มีเอนโทรปีที่แท้จริงในข้อมูล!) ฉันมีข้อมูลเกี่ยวกับศิลปินประมาณ 100 คนบวกกับคะแนนโหวตเฉลี่ยสำหรับพรรครีพับลิกันและเดโมแครตในแต่ละเขตในรอบการเลือกตั้งสามรอบที่ผ่านมา ดังนั้นฉันจึงมีความสัมพันธ์กับศิลปินแต่ละคนเพื่อดูว่าศิลปินคนไหนที่ฟังอย่างไม่เป็นสัดส่วนมากที่สุดเพื่อเป็นฟังก์ชั่นการแบ่งปันการโหวตให้กับพรรคเดโมแครต ความสัมพันธ์เหล่านั้นเริ่มต้นที่ประมาณ -0.3 ถึง 0.3 สำหรับศิลปินที่กำหนดมีจำนวนมากตรงกลางที่มีพลังในการทำนายน้อยหรือไม่มีเลย ฉันมีสองคำถาม: อันดับแรกจำนวนสตรีมโดยรวมต่ออำเภอแตกต่างกันอย่างกว้างขวาง ตอนนี้ฉันมีความสัมพันธ์ร้อยละของสตรีมทั้งหมดต่อเขตที่เป็นของพูดบียอนเซ่กับเปอร์เซ็นต์ของคะแนนโหวตสำหรับพรรคเดโมแครต แต่สตรีมทั้งหมดในหนึ่งอำเภออาจเป็นล้านในขณะที่อีกสตรีนอยู่ในระดับต่ำ 100,000 ฉันจำเป็นต้องคำนึงถึงความสัมพันธ์กับสิ่งนี้หรือไม่? ประการที่สองฉันสงสัยว่าจะรวมความสัมพันธ์เหล่านี้เข้ากับการคาดเดาแบบรวมกับการเมืองของผู้ใช้ได้อย่างไร สมมติว่าฉันใช้ศิลปินทั้ง 20 คนที่มีค่าสหสัมพันธ์สูงสุด (บวกและลบ) สิบคนในแต่ละทิศทางและสำรวจผู้ใช้ว่าเขาหรือเธอชอบศิลปินแต่ละคนมากแค่ไหน ดังนั้นฉันจึงได้คะแนนโหวตขึ้นหรือลงของศิลปินแต่ละคนบวกกับความสัมพันธ์กับการเมืองสำหรับค่านิยมทั้ง 20 นี้ มีวิธีมาตรฐานในการรวมสหสัมพันธ์เหล่านี้เป็นค่าประมาณเดียวหรือไม่? (ฉันกำลังคิดบางอย่างเช่นแบบทดสอบภาษาถิ่นที่มีชื่อเสียงของ NYTimes ซึ่งรวมความน่าจะเป็นระดับภูมิภาคเข้ากับคำถาม 25 ข้อในแผนที่ความร้อน แต่ในกรณีนี้ฉันแค่ต้องการค่าเดียวกับรสนิยมทางดนตรีของพรรครีพับลิกันหรือพรรครีพับลิกัน ขอขอบคุณ!

3
สำหรับสัญชาตญาณตัวอย่างชีวิตจริงของตัวแปรสุ่มที่ไม่เกี่ยวข้อง แต่ขึ้นอยู่กับอะไร?
ในการอธิบายว่าทำไม uncorrelated ไม่ได้หมายความอิสระมีหลายตัวอย่างที่เกี่ยวข้องกับพวงของตัวแปรสุ่ม แต่พวกเขาทั้งหมดดูเหมือนนามธรรมดังนั้น: 1 2 3 4 คำตอบนี้ดูเหมือนจะสมเหตุสมผล การตีความของฉัน: ตัวแปรสุ่มและสแควร์ของมันอาจไม่เกี่ยวข้องกัน (เนื่องจากเห็นได้ชัดว่าขาดความสัมพันธ์เป็นสิ่งที่ต้องการความเป็นอิสระเชิงเส้น) แต่พวกเขาก็ขึ้นอยู่อย่างชัดเจน ผมคิดว่าตัวอย่างจะว่า (มาตรฐาน?) ความสูงและความสูงอาจจะไม่มีความ แต่ขึ้นอยู่ แต่ผมไม่เห็นว่าทำไมทุกคนต้องการจะเปรียบเทียบความสูงและความสูง 222^222^2 เพื่อจุดประสงค์ในการให้สัญชาตญาณแก่ผู้เริ่มต้นในทฤษฎีความน่าจะเป็นเบื้องต้นหรือวัตถุประสงค์ที่คล้ายคลึงกันตัวอย่างชีวิตจริงของตัวแปรสุ่มที่ไม่เกี่ยวข้อง แต่ขึ้นอยู่กับอะไร?

4
“ สหสัมพันธ์” หมายถึงความชันในการวิเคราะห์การถดถอยด้วยหรือไม่
ฉันกำลังอ่านกระดาษและผู้เขียนเขียนว่า: ศึกษาผลของ A, B, C ต่อ Y โดยใช้การวิเคราะห์ถดถอยแบบพหุ A, B, C ถูกป้อนเข้าสู่สมการถดถอยด้วย Y เป็นตัวแปรตาม การวิเคราะห์ความแปรปรวนแสดงในตารางที่ 3 ผลกระทบของ B ต่อ Y มีนัยสำคัญโดยที่ B สัมพันธ์กับ. 27 กับ Y ภาษาอังกฤษไม่ใช่ภาษาแม่ของฉันและฉันสับสนมากที่นี่ ก่อนอื่นเขาบอกว่าเขาจะทำการวิเคราะห์การถดถอยจากนั้นเขาก็แสดงให้เราเห็นการวิเคราะห์ความแปรปรวน ทำไม? แล้วเขาก็เขียนเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์นั่นไม่ได้มาจากการวิเคราะห์ความสัมพันธ์? หรือคำนี้สามารถใช้อธิบายความชันถดถอยได้

4
พิสูจน์ความเท่าเทียมกันของสองสูตรต่อไปนี้สำหรับ Spearman correlation
จากวิกิพีเดียความสัมพันธ์อันดับของ Spearman คำนวณโดยการแปลงตัวแปรXiXiX_iและYiYiY_iเป็นตัวแปรอันดับxixix_iและyiyiy_iแล้วคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวแปรอันดับ: อย่างไรก็ตามบทความจะกล่าวต่อไปว่าหากไม่มีความสัมพันธ์ระหว่างตัวแปรXiXiX_iและYiYiY_iสูตรข้างต้นจะเทียบเท่ากับ โดยที่di=yi−xidi=yi−xid_i = y_i - x_i , ความแตกต่างของอันดับ ใครสามารถให้หลักฐานนี้ได้โปรด ฉันไม่สามารถเข้าถึงหนังสืออ้างอิงตามบทความวิกิพีเดีย

1
จะประเมินความสัมพันธ์ระหว่างลำดับและตัวแปรต่อเนื่องได้อย่างถูกต้องอย่างไร
ฉันต้องการประเมินความสัมพันธ์ระหว่าง: ตัวแปรลำดับ: ผู้ถูกทดสอบขอให้คะแนนความชอบสำหรับผลไม้ 6 ชนิดในระดับ 1-5 (ตั้งแต่น่าขยะแขยงไปจนถึงอร่อยมาก) โดยเฉลี่ยแล้วผู้ทดลองใช้เพียง 3 คะแนนเท่านั้น ตัวแปรต่อเนื่อง: อาสาสมัครคนเดียวกันจะต้องระบุผลไม้เหล่านี้อย่างรวดเร็วซึ่งส่งผลให้ความแม่นยำเฉลี่ยของผลไม้ทั้ง 6 ชนิด Spearman rho เป็นวิธีที่ดีที่สุดในการวิเคราะห์ข้อมูลเหล่านี้และ / หรือมีวิธีการอื่นที่ดีที่ฉันสามารถพิจารณาได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.