คำถามติดแท็ก ordinal-data

ข้อมูลที่มีค่าหมวดหมู่ที่สามารถจัดเรียงตามขนาดได้ แต่ระยะห่างที่แน่นอน (ระยะห่าง) ระหว่างหมวดหมู่นั้นไม่ได้กำหนดหรือไม่ทราบ

8
สถิติพื้นฐานที่ดีที่จะใช้สำหรับข้อมูลอันดับคืออะไร
ฉันมีข้อมูลลำดับที่ได้จากคำถามสำรวจ ในกรณีของฉันพวกเขาคือการตอบสนองสไตล์ Likert (ไม่เห็นด้วยอย่างยิ่ง - ไม่เห็นด้วย - เป็นกลาง - เห็นด้วย - เห็นด้วยอย่างยิ่ง) ในข้อมูลของฉันพวกเขาถูกเข้ารหัสเป็น 1-5 ฉันไม่คิดว่าจะมีความหมายมากที่นี่ดังนั้นสถิติสรุปแบบพื้นฐานใดที่ถือว่ามีประโยชน์

8
มันสมเหตุสมผลไหมที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง?
ในการตอบคำถามนี้เกี่ยวกับข้อมูลที่ไม่ต่อเนื่องและต่อเนื่องฉันยืนยันอย่างชัดเจนว่ามันไม่ค่อยมีเหตุผลที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง บนใบหน้าของมันที่ดูเหมือนชัดเจนในตัวเอง แต่ปรีชามักจะเป็นแนวทางที่ดีสำหรับสถิติหรืออย่างน้อยก็เป็นของฉัน ดังนั้นตอนนี้ฉันสงสัยว่า: จริงหรือ หรือมีการวิเคราะห์ที่สร้างขึ้นสำหรับการแปลงจากข้อมูลที่เป็นหมวดหมู่ไปเป็นบางส่วนที่มีประโยชน์จริง ๆ ? มันจะสร้างความแตกต่างได้ไหมถ้าข้อมูลนั้นเป็นอันดับ?

4
เครื่องชั่ง Likert ควรใช้ภายใต้เงื่อนไขใดว่าเป็นข้อมูลลำดับหรือช่วงเวลา
การศึกษาจำนวนมากในสังคมศาสตร์ใช้เครื่องชั่ง Likert เมื่อใดจึงเหมาะสมที่จะใช้ข้อมูล Likert เป็นลำดับและเมื่อใดที่เหมาะสมที่จะใช้เป็นข้อมูลช่วงเวลา

6
"คะแนนเฉลี่ย" ของ Amazon ทำให้เข้าใจผิดหรือไม่?
ถ้าฉันเข้าใจถูกต้องการจัดอันดับหนังสือในระดับ 1-5 เป็นคะแนน Likert นั่นคือ 3 สำหรับฉันอาจไม่จำเป็นต้องเป็น 3 สำหรับคนอื่น มันเป็นมาตราส่วนตามลำดับ IMO หนึ่งไม่ควรเฉลี่ยเกล็ดปกติ แต่สามารถใช้โหมดมัธยฐานและเปอร์เซนต์ ดังนั้น 'ไม่เป็นไร' ที่จะปรับเปลี่ยนกฎเนื่องจากประชากรส่วนใหญ่เข้าใจว่ามีความหมายมากกว่าสถิติข้างต้น แม้ว่าชุมชนการวิจัยจะดุอย่างยิ่งที่จะใช้ค่าเฉลี่ยของข้อมูลตามระดับ Likert แต่เป็นเรื่องดีที่จะทำเช่นนี้กับผู้คนจำนวนมาก การเฉลี่ยในกรณีนี้ทำให้เข้าใจผิดเริ่มต้นด้วยหรือไม่ ดูเหมือนว่าไม่น่าเป็นไปได้ที่ บริษัท อย่าง Amazon จะคลำหาสถิติพื้นฐาน แต่ถ้าไม่เช่นนั้นฉันจะพลาดอะไรไปบ้าง เราสามารถอ้างได้หรือไม่ว่าขนาดของลำดับนั้นเป็นการประมาณที่สะดวกสำหรับลำดับที่จะแสดงว่ามีค่าเฉลี่ย? ในบริเวณใด

7
กราฟสำหรับความสัมพันธ์ระหว่างตัวแปรอันดับสอง
กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้: พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่ มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้ …

1
มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่
ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่ ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

6
ความแตกต่างของกลุ่มในรายการ Likert ห้าจุด
ทำตามจากคำถามนี้ : ลองจินตนาการว่าคุณต้องการทดสอบความแตกต่างของแนวโน้มกลางระหว่างสองกลุ่ม (เช่นผู้ชายและผู้หญิง) ในรายการ Likert 5 จุด (เช่นความพึงพอใจกับชีวิต: ไม่พอใจต่อความพึงพอใจ) ฉันคิดว่าการทดสอบแบบ t จะมีความแม่นยำเพียงพอสำหรับวัตถุประสงค์ส่วนใหญ่ แต่การทดสอบ bootstrap ของความแตกต่างระหว่างกลุ่มหมายความว่ามักจะให้การประมาณช่วงความมั่นใจที่แม่นยำยิ่งขึ้น คุณจะใช้การทดสอบทางสถิติแบบใด

1
วิธีการตั้งค่าเครือข่ายประสาทเพื่อส่งออกข้อมูลลำดับ
ฉันมีโครงข่ายใยประสาทเทียมที่ตั้งค่าเพื่อคาดเดาบางสิ่งที่ตัวแปรเอาต์พุตเป็นลำดับ ฉันจะอธิบายด้านล่างโดยใช้สามเอาต์พุตที่เป็นไปได้ A <B <C มันค่อนข้างชัดเจนว่าจะใช้โครงข่ายประสาทเทียมเพื่อส่งออกข้อมูลที่เป็นหมวดหมู่ได้อย่างไร: เอาต์พุตเป็นเลเยอร์ softmax ของเลเยอร์สุดท้าย (โดยปกติจะเชื่อมต่อเต็มที่) หนึ่งต่อหมวดหมู่และหมวดที่คาดการณ์ไว้คือหนึ่งที่มีค่าเอาต์พุตที่ใหญ่ที่สุด ค่าเริ่มต้นในรุ่นยอดนิยมจำนวนมาก) ฉันใช้การตั้งค่าเดียวกันสำหรับค่าลำดับ อย่างไรก็ตามในกรณีนี้ผลลัพธ์มักจะไม่สมเหตุสมผลตัวอย่างเช่นเอาท์พุทเครือข่ายสำหรับ A และ C สูง แต่ B ต่ำ: นี่ไม่น่าเชื่อถือสำหรับค่าลำดับ ฉันมีความคิดหนึ่งสำหรับสิ่งนี้ซึ่งเป็นการคำนวณการสูญเสียจากการเปรียบเทียบผลลัพธ์กับ 1 0 0 สำหรับ A, 1 1 0 สำหรับ B และ 1 1 1 สำหรับ C เกณฑ์ที่แน่นอนสามารถปรับได้ภายหลังโดยใช้ตัวแยกประเภทอื่น (Bayesian Bayesian) ) แต่นี่ดูเหมือนจะจับความคิดที่สำคัญของการสั่งซื้ออินพุตโดยไม่ต้องกำหนดช่วงเวลาเฉพาะใด ๆ วิธีมาตรฐานในการแก้ไขปัญหานี้คืออะไร มีการวิจัยหรือการอ้างอิงใด ๆ ที่อธิบายข้อดีข้อเสียของวิธีการต่าง ๆ …

4
คำนวณค่าเฉลี่ยของตัวแปรลำดับ
ฉันได้อ่านในหลาย ๆ แห่งที่คำนวณค่าเฉลี่ยของตัวแปรลำดับไม่เหมาะสม ฉันพยายามรับสัญชาตญาณว่าทำไมมันอาจไม่เหมาะสม ฉันคิดว่าเป็นเพราะโดยทั่วไปแล้วตัวแปรอันดับไม่ได้กระจายตามปกติและดังนั้นการคำนวณค่าเฉลี่ยจะให้การแสดงที่ไม่ถูกต้อง มีใครให้เหตุผลอย่างละเอียดมากขึ้นว่าทำไมการคำนวณค่าเฉลี่ยของตัวแปรลำดับอาจไม่เหมาะสม


3
วิธีจัดการกับตัวแปรเด็ดขาดลำดับเป็นตัวแปรอิสระ
ฉันใช้โมเดล logit ตัวแปรตามของฉันคือไบนารี 1.very good, 2.good, 3.average, 4.poor and 5.very poorแต่ฉันมีตัวแปรอิสระซึ่งเป็นเด็ดขาดและมีการตอบ: ดังนั้นมันจึงเป็นอันดับ ("เด็ดขาดเชิงปริมาณ") ฉันไม่แน่ใจว่าจะจัดการกับสิ่งนี้อย่างไรในแบบจำลอง gretlฉันใช้ [หมายเหตุจาก @ttnphns: แม้ว่าคำถามจะบอกว่าตัวแบบนั้นเป็น logit (เนื่องจากการพึ่งพานั้นจัดอยู่ในหมวดหมู่) แต่ประเด็นสำคัญ - ตัวแปรอิสระลำดับ- มีความเหมือนกัน ดังนั้นคำถามก็มีความเกี่ยวข้องเท่าเทียมกันกับการพูดการถดถอยเชิงเส้นเช่นกันเช่นเดียวกับการถดถอยแบบโลจิสติกหรือแบบจำลองการบันทึกอื่น ๆ ]

3
ตัวแปรที่ต่อเนื่องขึ้นอยู่กับตัวแปรอิสระลำดับ
ด้วยตัวแปรy ที่ขึ้นต่อเนื่องและตัวแปรอิสระรวมถึงตัวแปรลำดับX 1ฉันจะพอดีกับตัวแบบเชิงเส้นได้Rอย่างไร? มีเอกสารเกี่ยวกับรูปแบบประเภทนี้หรือไม่?

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
จะประเมินความสัมพันธ์ระหว่างลำดับและตัวแปรต่อเนื่องได้อย่างถูกต้องอย่างไร
ฉันต้องการประเมินความสัมพันธ์ระหว่าง: ตัวแปรลำดับ: ผู้ถูกทดสอบขอให้คะแนนความชอบสำหรับผลไม้ 6 ชนิดในระดับ 1-5 (ตั้งแต่น่าขยะแขยงไปจนถึงอร่อยมาก) โดยเฉลี่ยแล้วผู้ทดลองใช้เพียง 3 คะแนนเท่านั้น ตัวแปรต่อเนื่อง: อาสาสมัครคนเดียวกันจะต้องระบุผลไม้เหล่านี้อย่างรวดเร็วซึ่งส่งผลให้ความแม่นยำเฉลี่ยของผลไม้ทั้ง 6 ชนิด Spearman rho เป็นวิธีที่ดีที่สุดในการวิเคราะห์ข้อมูลเหล่านี้และ / หรือมีวิธีการอื่นที่ดีที่ฉันสามารถพิจารณาได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.