สถิติและข้อมูลขนาดใหญ่ correlation

4

วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3

ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

มี ARMA ที่เทียบเท่ากับอันดับสหสัมพันธ์หรือไม่

ฉันกำลังดูข้อมูลเชิงเส้นที่ไม่มากซึ่งโมเดลของ ARMA / ARIMA ทำงานได้ไม่ดี แม้ว่าฉันจะเห็นความสัมพันธ์อัตโนมัติบางอย่างและฉันหวังว่าจะได้ผลลัพธ์ที่ดีกว่าสำหรับการไม่เกี่ยวข้องกันโดยอัตโนมัติเชิงเส้น 1 / มี PACF ที่เทียบเท่ากับอันดับสหสัมพันธ์หรือไม่ (ใน R?) 2 / มีแบบจำลอง ARMA ที่เทียบเท่าสำหรับความสัมพันธ์เชิงเส้น / อันดับ (ใน R หรือไม่)

9 r correlation nonparametric garch arma

3

สเปียร์แมนหรือเพียร์สันมีความสัมพันธ์กับสเกล Likert ซึ่งอาจมีการละเมิดความเป็นเชิงเส้นและ homoscedasticity

ฉันต้องการเรียกใช้สหสัมพันธ์กับการวัดจำนวนหนึ่งที่ใช้เครื่องชั่ง Likert เมื่อมองไปที่ scatterplots ดูเหมือนว่าสมมติฐานของ linearity และ homoscedasticity อาจถูกละเมิด ระบุว่าดูเหมือนจะมีการถกเถียงกันเกี่ยวกับการจัดระดับลำดับตามช่วงเวลาฉันควรจะเล่นให้ปลอดภัยและใช้ Rho ของ Spearman มากกว่า Pearson's r? มีการอ้างอิงที่ฉันสามารถอ้างอิงถ้าฉันไปกับ Rho Spearman ของ?

9 correlation scales heteroscedasticity likert

2

จะค้นหาความสัมพันธ์ระหว่างกิจกรรมประเภทต่างๆได้อย่างไร (กำหนดโดยตำแหน่ง 2D)

ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาเดียวกัน แต่ละเหตุการณ์มีประเภท (มีหลายประเภทที่แตกต่างกันน้อยกว่าสิบ) และสถานที่ซึ่งแสดงเป็นจุด 2D ฉันต้องการตรวจสอบว่ามีความสัมพันธ์ระหว่างประเภทของกิจกรรมหรือระหว่างประเภทและตำแหน่ง ตัวอย่างเช่นเหตุการณ์ประเภท A มักจะไม่เกิดขึ้นเมื่อมีกิจกรรมประเภท B หรือบางทีในบางพื้นที่มีเหตุการณ์ส่วนใหญ่เป็นประเภท C ฉันสามารถใช้เครื่องมือชนิดใดในการทำสิ่งนี้ เป็นมือใหม่ในการวิเคราะห์ทางสถิติความคิดแรกของฉันคือการใช้ PCA (การวิเคราะห์ส่วนประกอบหลัก) ในชุดข้อมูลนี้เพื่อดูว่าเหตุการณ์แต่ละประเภทมีองค์ประกอบของตัวเองหรือบางคนแบ่งปันเหมือนกัน (เช่นมีความสัมพันธ์กัน) ฉันต้องพูดถึงว่าชุดข้อมูลของฉันมีลำดับ 500,000 คะแนนจึงทำให้การจัดการกับเรื่องยากขึ้นเล็กน้อย( x , y, t yp e )(x,Y,เสื้อYพีอี)(x, y, type) แก้ไข: ตามที่ระบุไว้ในคำตอบด้านล่างและความคิดเห็นวิธีที่จะไปคือการทำแบบจำลองนี้เป็นกระบวนการจุดที่ถูกทำเครื่องหมายแล้วใช้ R เพื่อยกของหนักทั้งหมดดังอธิบายในรายละเอียดในรายงานการประชุมเชิงปฏิบัติการนี้: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

9 correlation pca multivariate-analysis point-process

1

การวัดความสัมพันธ์ของโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรม

ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียม (backpropagation, feed-forward) พร้อมกับข้อมูลที่ไม่ได้กระจายทั่วไป นอกเหนือจากค่าเฉลี่ยความคลาดเคลื่อนกำลังสองวรรณคดีมักเสนอแนะว่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับการประเมินคุณภาพของตาข่ายที่ผ่านการฝึกอบรม แต่สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันนั้นสมเหตุสมผลหรือไม่ถ้าข้อมูลการฝึกอบรมไม่ได้ถูกแจกจ่ายตามปกติ? มันจะไม่สมเหตุสมผลหรือไม่ที่จะใช้การวัดความสัมพันธ์ตามระดับเช่น Spearman rho?

9 correlation neural-networks spearman-rho

1

การถดถอยมุมน้อยทำให้ค่าสหสัมพันธ์ลดลงและโยงกัน?

ฉันพยายามที่จะแก้ปัญหาอย่างน้อยการถดถอยมุม (LAR) นี่เป็นปัญหา3.23ในหน้า97ของHastie et al., องค์ประกอบของการเรียนรู้ทางสถิติ, อันดับที่ 2 เอ็ด (พิมพ์ครั้งที่ 5) พิจารณาปัญหาการถดถอยกับตัวแปรทั้งหมดและการตอบสนองที่มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานหนึ่ง สมมติว่าตัวแปรแต่ละตัวมีความสัมพันธ์แบบสัมบูรณ์เหมือนกันกับการตอบสนอง: 1ยังไม่มีข้อความ| ⟨xJ, y ⟩ | = λ , J = 1 , . . , p1N|⟨xj,y⟩|=λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p ปล่อยเป็นสัมประสิทธิ์กำลังสองน้อยที่สุดของใน\ mathbf {X}และปล่อยให้\ mathbf {u} …

9 regression machine-learning correlation self-study

2

การประเมินความสำคัญของสหสัมพันธ์

ฉันมีตัวแปรสองตัวและฉันสามารถคำนวณได้เช่นความสัมพันธ์แบบเพียร์สันระหว่างพวกเขา แต่ฉันอยากจะรู้อะไรบางอย่างที่คล้ายคลึงกับการทดสอบแบบทีจะให้ฉัน สิ่งนั้นมีอยู่จริงหรือไม่?

9 correlation statistical-significance

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

7

ความสัมพันธ์ระหว่างตัวแปรสองตัวที่มีขนาดไม่เท่ากัน

ในปัญหาที่ฉันกำลังทำงานอยู่ฉันมีตัวแปรสุ่มสองตัวคือ X และ Y ฉันต้องหาว่าพวกเขาสองคนมีความสัมพันธ์กันอย่างไร แต่พวกมันมีมิติที่แตกต่างกัน อันดับของพื้นที่แถวของ X คือ 4350 และอันดับของพื้นที่แถวของ Y นั้นใหญ่ขึ้นอย่างมากในหลักหมื่น ทั้ง X และ Y มีจำนวนคอลัมน์เท่ากัน ฉันต้องการตัวชี้วัดความสัมพันธ์ระหว่างตัวแปรทั้งสองและ r ของ Pearson ต้องการ X และ Y เพื่อให้มีมิติที่เท่ากัน (อย่างน้อย R ต้องให้ rv สองตัวเป็น) ฉันมีความหวังในการสร้างความสัมพันธ์ระหว่างสองสิ่งนี้หรือไม่หรือฉันควรหาวิธีตัดการสังเกตจาก Y หรือไม่? EDIT การเพิ่มข้อมูลจากความคิดเห็นซึ่งควรอยู่ในคำถาม ฉันคิดว่าฉันลืมที่จะพูดถึงเรื่องนี้ X และ Y คือราคาหุ้น บริษัท X เปิดตัวต่อสาธารณชนในช่วงเวลาที่สั้นกว่า Y ฉันอยากจะบอกว่าราคาของ X และ Y …

9 time-series correlation missing-data finance

1

วิธีการวิเคราะห์ความสัมพันธ์ 'เบียร์และผ้าอ้อม'

ฉันมีข้อมูลที่เทียบเท่ากับ: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... ฉันต้องการทำการวิเคราะห์บางอย่างกับชุดข้อมูลนี้เพื่อรับเมทริกซ์สหสัมพันธ์ที่จะมีความหมายคล้ายกับ: หากคุณซื้อ x คุณมีแนวโน้มที่จะซื้อ y ใช้ไพ ธ อน (หรือบางทีอาจเป็นอะไรก็ได้ยกเว้น MATLAB) ฉันจะทำยังไงต่อไป แนวทางพื้นฐานบางอย่างหรือตัวชี้ไปยังที่ที่ฉันควรดูจะช่วย ขอบคุณ, แก้ไข - สิ่งที่ฉันได้เรียนรู้: ปัญหาเหล่านี้เรียกว่าการค้นพบกฎการเชื่อมโยง Wikipedia มีบทความที่ดีที่ครอบคลุมอัลกอริทึมทั่วไปบางประการที่ควรทำ อัลกอริทึมแบบดั้งเดิมที่ทำเช่นนั้นน่าจะเป็น Apriori เนื่องจาก Agrawal และ อัล นั่นทำให้ฉันเป็นสีส้มแพคเกจหลาม data interconnect สำหรับ Linux วิธีที่ดีที่สุดในการติดตั้งนั้นมาจากแหล่งที่มาโดยใช้ setup.py ที่ให้มา ออเรนจ์โดยค่าเริ่มต้นจะอ่านอินพุตจากไฟล์ซึ่งจัดรูปแบบด้วยวิธีใดวิธีหนึ่งที่รองรับ ในที่สุดการเรียนรู้กฎของ Apriori อย่างง่าย ๆก็เป็นสีส้ม

8 correlation econometrics python cross-correlation

คำถามติดแท็ก correlation