คำถามติดแท็ก spearman-rho

ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของสเปียร์แมนมักแสดงเป็นเป็นการวัดความสอดคล้องกันระหว่างตัวแปรสุ่มสองตัว ρ

2
Mann-Whitney U-test: ช่วงความมั่นใจสำหรับขนาดของเอฟเฟกต์
ตามที่ Fritz, Morris และ Richler (2011; ดูด้านล่าง) สามารถคำนวณเป็นขนาดเอฟเฟกต์สำหรับ Mann-Whitney U-test โดยใช้สูตร r = zrrr นี้จะสะดวกให้ฉันเป็นฉันรายงานRยังในโอกาสอื่น ๆ ฉันต้องการรายงานช่วงความมั่นใจสำหรับrเพิ่มเติมจากการวัดขนาดเอฟเฟกต์r=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr นี่คือคำถามของฉัน: ฉันสามารถคำนวณช่วงความเชื่อมั่นของ r สำหรับเพียร์สันได้หรือไม่แม้ว่ามันจะใช้เป็นตัววัดขนาดของเอฟเฟกต์สำหรับการทดสอบแบบไม่พารามิเตอร์ ช่วงเวลาความเชื่อมั่นใดที่จะต้องมีการรายงานสำหรับการทดสอบแบบทางเดียวกับแบบสองด้าน แก้ไขเกี่ยวกับคำถามที่สอง: "ต้องมีการรายงานช่วงความมั่นใจสำหรับการทดสอบแบบหางเดียวและแบบสองด้าน" ฉันพบข้อมูลเพิ่มเติมที่ IMHO อาจตอบคำถามนี้ "ในขณะที่ขีดจำกัดความเชื่อมั่นแบบสองด้านก่อให้เกิดช่วงความมั่นใจคู่หูด้านเดียวของพวกเขาจะเรียกว่าขอบเขตความเชื่อมั่นที่ต่ำกว่าหรือสูงกว่า" ( http://en.wikipedia.org/wiki/Confidence_interval ) จากข้อมูลนี้ฉันสรุปได้ว่ามันไม่ใช่ประเด็นหลักว่าการทดสอบที่สำคัญ (เช่น -test) นั้นเป็นแบบหนึ่งหรือสองแบบ แต่ข้อมูลที่เราสนใจนั้นเกี่ยวกับ CI สำหรับขนาดผลกระทบ ข้อสรุปของฉัน (โปรดแก้ไขให้ฉันถ้าคุณไม่เห็นด้วย):ttt CI สองด้านสนใจในขอบเขตบนและล่าง (เป็นผลให้เป็นไปได้ว่า CI สองด้านสร้าง …

1
การทดสอบความสำคัญกับความแตกต่างของสัมประสิทธิ์สหสัมพันธ์ของสเปียร์แมน
(ขอบคุณมากสำหรับคำตอบที่รวดเร็วฉันทำงานได้ไม่ดีในการถามคำถามดังนั้นให้ฉันลองอีกครั้ง) ฉันไม่รู้ว่าจะทราบได้อย่างไรว่าความแตกต่างระหว่างสองสเปียร์แมนมีความสัมพันธ์ทางสถิติหรือไม่ ฉันต้องการทราบวิธีค้นหามัน เหตุผลที่ฉันอยากรู้คือในบทความต่อไปนี้: การตีความความหมายตามวิกิพีเดียสำหรับการประมวลผลภาษาธรรมชาติโดย Gabrilovich และ Markovitch ( วารสารวิจัยปัญญาประดิษฐ์ 34 (2009) 443-498) ในตารางที่ 2 (หน้า 457) ผู้เขียนกำลังแสดงให้เห็นว่าวิธีการของพวกเขา (ESA-Wikipedia) ได้รับความสัมพันธ์ของสเปียร์แมนสูงกว่าและมีนัยสำคัญทางสถิติมากกว่าวิธีอื่น ๆ และฉันต้องการทำแบบเดียวกันเพื่อแสดงให้เห็นว่า วิธีการสำหรับปัญหาบางอย่าง ฉันไม่รู้ว่าพวกเขาคำนวณนัยสำคัญทางสถิติอย่างไรและฉันต้องการทราบ ผู้เขียนบทความได้ระบุว่าความสัมพันธ์อันดับของ Spearman นั้นถือว่าเป็นความสัมพันธ์ของ Pearson ฉันไม่แน่ใจว่าเป็นวิธีที่ถูกต้องหรือไม่ ฉันมีความสัมพันธ์ของสเปียร์แมนสองตัวและฉันต้องการทราบว่าความแตกต่างระหว่างพวกเขานั้นมีนัยสำคัญทางสถิติหรือไม่ ฉันทราบว่าเว็บไซต์เช่นhttp://faculty.vassar.edu/lowry/rdiff.htmlให้เครื่องคิดเลขออนไลน์เพื่อรับความแตกต่างระหว่างความสัมพันธ์ของทั้งสองเพียร์สัน ฉันไม่สามารถค้นหาเครื่องคิดเลขออนไลน์ที่คล้ายกันสำหรับความแตกต่างระหว่างความสัมพันธ์ของ Spearman สองอัน ทางออกจากลิงค์ของ Peter Flom หมายเหตุ: กระบวนการสนับสนุนความสัมพันธ์ของ Spearman ที่ต่ำกว่า 0.6 เท่านั้น ให้ = ฟิชเชอร์เปลี่ยนของความสัมพันธ์ที่สังเกตของชุด, = ฟิชเชอร์เปลี่ยนของความสัมพันธ์ที่สังเกตของชุดBzAzAz_AAAAzBzBz_BBBB สำหรับ , …

1
จะคำนวณช่วงความมั่นใจสำหรับความสัมพันธ์อันดับของ Spearman ได้อย่างไร
Wikipediaมีการแปลง Fisher ของ the Spearman อันดับความสัมพันธ์กับคะแนน z โดยประมาณ บางทีคะแนน z คือความแตกต่างจากสมมติฐานว่าง (อันดับสหสัมพันธ์ 0)? หน้านี้มีตัวอย่างดังต่อไปนี้: 4, 10, 3, 1, 9, 2, 6, 7, 8, 5 5, 8, 6, 2, 10, 3, 9, 4, 7, 1 rank correlation 0.684848 "95% CI for rho (Fisher's z transformed)= 0.097085 to 0.918443" พวกเขาใช้ฟิชเชอร์เปลี่ยนรูปเพื่อให้ได้ช่วงความมั่นใจ 95% อย่างไร

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
มัน“ โอเค” ที่จะลงจุดเส้นถดถอยสำหรับข้อมูลอันดับ (Spearman correlation) หรือไม่?
ฉันมีข้อมูลที่ฉันคำนวณความสัมพันธ์ Spearman และต้องการเห็นภาพสำหรับสิ่งพิมพ์ ตัวแปรที่ขึ้นอยู่กับการจัดอันดับตัวแปรอิสระไม่ได้ สิ่งที่ฉันต้องการเห็นภาพนั้นเป็นแนวโน้มทั่วไปมากกว่าความชันจริงดังนั้นฉันจึงจัดอันดับความเป็นอิสระและใช้ความสัมพันธ์ / การถดถอยของสเปียร์แมน แต่เมื่อฉันวางแผนข้อมูลของฉันและกำลังจะแทรกลงในต้นฉบับของฉันฉันสะดุดกับคำสั่งนี้ (บนเว็บไซต์นี้ ): คุณจะแทบไม่เคยใช้เส้นถดถอยสำหรับคำอธิบายหรือทำนายอย่างใดอย่างหนึ่งเมื่อคุณทำสเปียร์แมนยศสัมพันธ์ดังนั้นไม่คำนวณเทียบเท่าของสายการถดถอย และหลังจากนั้น คุณสามารถสร้างกราฟข้อมูลความสัมพันธ์อันดับ Spearman ในลักษณะเดียวกับการถดถอยเชิงเส้นหรือสหสัมพันธ์ อย่าใส่เส้นถดถอยบนกราฟอย่างไรก็ตาม; มันจะทำให้เข้าใจผิดที่จะวางเส้นถดถอยเชิงเส้นบนกราฟเมื่อคุณวิเคราะห์ด้วยความสัมพันธ์อันดับ ประเด็นก็คือเส้นการถดถอยนั้นไม่แตกต่างจากตอนที่ฉันไม่ได้จัดอันดับความเป็นอิสระและคำนวณสหสัมพันธ์ของเพียร์สัน แนวโน้มเหมือนกัน แต่เนื่องจากค่าธรรมเนียมที่สูงเกินไปสำหรับกราฟิกสีในสมุดรายวันที่ฉันไปด้วยการแสดงเอกรงค์และจุดข้อมูลที่แท้จริงจะทับซ้อนกันมากจนไม่เป็นที่รู้จัก แน่นอนว่าฉันสามารถหลีกเลี่ยงปัญหานี้ได้ด้วยการทำแปลงสองแบบ: แบบหนึ่งสำหรับจุดข้อมูล (อันดับ) และอีกแบบสำหรับเส้นการถดถอย (ไม่จัดอันดับ) แต่ถ้าปรากฎว่าแหล่งข้อมูลที่ฉันอ้างนั้นผิดหรือปัญหา ไม่เป็นปัญหาในกรณีของฉันมันจะทำให้ชีวิตของฉันง่ายขึ้น (ฉันเห็นคำถามนี้ด้วย แต่ก็ไม่ได้ช่วยฉัน) แก้ไขสำหรับข้อมูลเพิ่มเติม: ตัวแปรอิสระบนแกน x แสดงถึงจำนวนของคุณสมบัติและตัวแปรที่ขึ้นต่อกันบนแกน y แสดงถึงอันดับหากอัลกอริทึมการจำแนกประเภทเมื่อเปรียบเทียบกับประสิทธิภาพของพวกเขา ตอนนี้ฉันมีอัลกอริธึมที่เทียบเคียงได้โดยเฉลี่ย แต่สิ่งที่ฉันอยากจะพูดกับพล็อตของฉันก็คือ: "ในขณะที่ตัวแยกประเภท A ได้รับฟีเจอร์ที่ดีกว่ายิ่งมีฟีเจอร์ตัวแยกประเภท B จะดีกว่า แก้ไข 2 เพื่อรวมแปลงของฉัน: อันดับของอัลกอริทึมถูกพล็อตเมื่อเทียบกับจำนวนฟีเจอร์ อันดับของอัลกอริทึมที่ถูกจับคู่กับจำนวนอันดับของฟีเจอร์ ดังนั้นเพื่อทำซ้ำคำถามจากชื่อ: การลงจุดเส้นถดถอยสำหรับข้อมูลอันดับของ Spearman …

2
มันบ่งบอกอะไรเมื่อความสัมพันธ์ของสเปียร์แมนมีจำนวนที่แน่นอนน้อยกว่าเพียร์สัน?
ฉันมีชุดข้อมูลที่เกี่ยวข้องมากมาย ความสัมพันธ์ของแพร์สันระหว่างคู่ของพวกเขามักจะมีขนาดใหญ่กว่าความสัมพันธ์ของสเปียร์แมนแน่นอน นั่นแสดงให้เห็นว่าความสัมพันธ์ใด ๆ นั้นเป็นเส้นตรง แต่ใคร ๆ ก็คาดหวังว่าแม้ว่าจะมีลูกแพร์สันและสเปียร์แมนเหมือนกันก็ตาม มันหมายความว่าอย่างไรเมื่อมีช่องว่างที่ชัดเจนระหว่างเพียร์สันและสหพันธ์สเปียร์แมนกับแพร์สันนั้นใหญ่กว่า? นี่ดูเหมือนจะเป็นคุณสมบัติที่สอดคล้องกันในชุดข้อมูลของฉัน

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
เหตุใดความสัมพันธ์ของเพียร์สันถึงอันดับที่ถูกต้องแม้จะมีการสันนิษฐานทั่วไป
ฉันกำลังอ่านข้อสมมติฐานสำหรับสหสัมพันธ์ของเพียร์สัน ข้อสันนิษฐานที่สำคัญสำหรับการทดสอบทีตามมาดูเหมือนว่าตัวแปรทั้งสองมาจากการแจกแจงแบบปกติ หากพวกเขาไม่ทำเช่นนั้นการใช้มาตรการทางเลือกเช่น Rho Spearman จะได้รับการสนับสนุน ความสัมพันธ์ของสเปียร์แมนคำนวณได้จากความสัมพันธ์ของเพียร์สันโดยใช้อันดับ X และ Y แทน X และ Y เท่านั้นใช่ไหม? คำถามของฉันคือ: หากตัวแปรอินพุตเข้าสู่ความสัมพันธ์แบบเพียร์สันจำเป็นต้องกระจายตามปกติทำไมการคำนวณความสัมพันธ์สเปียร์แมนจึงใช้ได้แม้ว่าตัวแปรอินพุตจะถูกจัดอันดับ อันดับของฉันไม่ได้มาจากการแจกแจงแบบปกติ ... คำอธิบายเดียวที่ฉันเกิดขึ้นจนถึงตอนนี้ก็คือความสำคัญของ Rho นั้นอาจถูกทดสอบแตกต่างจากของ Pearson t-test correlation (ในวิธีที่ไม่ต้องใช้กฎเกณฑ์) แต่จนถึงตอนนี้ฉันไม่พบสูตร อย่างไรก็ตามเมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และสำหรับ t-test ของ Pearson correlation ของอันดับตรงกันเสมอประหยัดสำหรับตัวเลขสองสามตัวสุดท้าย สำหรับฉันนี่ดูเหมือนจะไม่เหมือนขั้นตอนที่แตกต่าง คำอธิบายและความคิดใด ๆ ที่คุณอาจได้รับการชื่นชม!

1
ค่าสัมประสิทธิ์สหสัมพันธ์สำหรับข้อมูลที่ได้รับคำสั่ง: Kendall's Tau กับ Polychoric กับ Spearman's rho
ดูเหมือนว่าสำหรับการจัดการกับวัดได้รับคำสั่งนักวิจัยมักจะจัดการกับความสัมพันธ์ Polychoric (ตัวอย่างเช่นสำหรับการสร้างเมทริกซ์ก่อนที่จะทำการวิเคราะห์ปัจจัย) ทำไมต้องเป็นเช่นนั้น ค่าสัมประสิทธิ์สหสัมพันธ์อันดับเคนดัลล์เอกภาพและค่าสัมประสิทธิ์สหสัมพันธ์ของสเปียร์แมนเหมาะสำหรับข้อมูลที่ได้รับคำสั่ง คะแนน 'โปร' และ 'ตรงกันข้าม' สำหรับค่าสัมประสิทธิ์สหสัมพันธ์เหล่านี้ยินดีต้อนรับ

1
การวัดความสัมพันธ์ของโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรม
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียม (backpropagation, feed-forward) พร้อมกับข้อมูลที่ไม่ได้กระจายทั่วไป นอกเหนือจากค่าเฉลี่ยความคลาดเคลื่อนกำลังสองวรรณคดีมักเสนอแนะว่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับการประเมินคุณภาพของตาข่ายที่ผ่านการฝึกอบรม แต่สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันนั้นสมเหตุสมผลหรือไม่ถ้าข้อมูลการฝึกอบรมไม่ได้ถูกแจกจ่ายตามปกติ? มันจะไม่สมเหตุสมผลหรือไม่ที่จะใช้การวัดความสัมพันธ์ตามระดับเช่น Spearman rho?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.