คำถามติดแท็ก reliability

การวัดมีความน่าเชื่อถือสูงหากให้ผลลัพธ์ที่คล้ายกันภายใต้เงื่อนไขที่สอดคล้องกัน อย่าสับสนระหว่างความน่าเชื่อถือกับความถูกต้อง (ดู tag wiki) ห้ามใช้เพื่อความน่าเชื่อถือระหว่างผู้ประเมินซึ่งมีแท็ก inter-rater ของตัวเอง

2
โอเมก้ากับความน่าเชื่อถือของอัลฟา
ฉันสงสัยว่าใครบางคนสามารถอธิบายได้ว่าอะไรคือความแตกต่างที่สำคัญระหว่างโอเมก้าและอัลฟาที่เชื่อถือได้? ฉันเข้าใจว่าความน่าเชื่อถือของโอเมก้าขึ้นอยู่กับตัวแบบลำดับชั้นตามที่แสดงในภาพต่อไปนี้และอัลฟาใช้ความสัมพันธ์ระหว่างรายการโดยเฉลี่ย สิ่งที่ฉันไม่เข้าใจคือในแง่ใดค่าสัมประสิทธิ์ความน่าเชื่อถือโอเมก้าจะสูงกว่าค่าสัมประสิทธิ์อัลฟ่าและในทางกลับกัน? ฉันสามารถสันนิษฐานได้ไหมว่าความสัมพันธ์ระหว่าง subfactors และตัวแปรสูงกว่าค่าสัมประสิทธิ์โอเมก้าก็จะสูงขึ้น (ดังแสดงในภาพด้านบน) คำแนะนำใด ๆ ที่ชื่นชม!

4
หนึ่งสามารถลดจำนวนของสินค้าใน Likert-scale ที่เผยแพร่ได้อย่างถูกต้องหรือไม่?
[แก้ไขเพื่อตอบกลับ feedback- ขอบคุณ :-)] Doh! แก้ไขเพิ่มเติม! ขออภัย! สวัสดี- ฉันกำลังทำการรวบรวมข้อมูลที่ค่อนข้างหยาบและพร้อมกับการสำรวจที่ส่งไปยังเจ้าหน้าที่ดูแลสุขภาพโดยใช้สเกลที่ตีพิมพ์เกี่ยวกับขวัญกำลังใจและปัญหาอื่น ๆ สิ่งเดียวคือเครื่องชั่งค่อนข้างยาวกับสิ่งอื่น ๆ ทั้งหมดในแบบสำรวจและฉันต้องการลดขนาดของมันโดยการลดขนาดย่อยแต่ละอันครึ่งและใช้เพียงครึ่งรายการ สัญชาตญาณของฉันคือสิ่งนี้ดีเนื่องจาก subscales มีความสัมพันธ์ระหว่างกันและแม้ว่ามันจะไม่เหมาะสำหรับการวิจัยมาตรฐานการตีพิมพ์ แต่ก็ไม่เป็นไรสำหรับการค้นหาข้อเท็จจริงภายในองค์กร ฉันสงสัยว่าใครมีความคิดใด ๆ เกี่ยวกับความถูกต้องของการทำสิ่งผิดพลาดหรือสิ่งอื่นใด โดยเฉพาะอย่างยิ่งการอ้างอิงที่ได้รับสุดซึ้งเพราะเพื่อนร่วมงานของฉันจะต้องมีความเชื่อมั่น! ขอบคุณมาก Chris B edits- ใช่มันเป็นเครื่องชั่งที่ผ่านการตรวจสอบแล้วซึ่งมีคุณสมบัติของไซโครเมท มันมีมิติเดียวและมีระดับย่อยถ้าเป็นวิธีที่ถูกต้อง ฉันจะทำงานที่ระดับย่อยและยอดรวมไม่ใช่รายการระดับ 30 รายการอาจจะประมาณ 40-60 คน ไชโย!

2
สูตรพยากรณ์ของสเปียร์แมน - บราวน์ได้รับผลกระทบจากคำถามที่มีปัญหาต่างกันอย่างไร
ผลลัพธ์ของสูตรพยากรณ์ Spearman-Brown ได้รับผลกระทบอย่างไรจากการมีคำถามทดสอบที่แตกต่างกันของความยากลำบากหรือผู้ให้คะแนนที่ง่ายหรือยาก มีข้อความหนึ่งที่กล่าวว่า SB ได้รับผลกระทบ แต่ไม่ได้ให้รายละเอียด (ดูใบเสนอราคาด้านล่าง) Guion, R. M (2011) การประเมินการวัดและการทำนายสำหรับการตัดสินใจของบุคลากรรุ่นที่ 2 หน้า 477 "ความน่าเชื่อถือสามารถเพิ่มขึ้นได้โดยการรวมผู้ประเมินโดยใช้สมการ Spearman-Brown ... หากความน่าเชื่อถือของการจัดอันดับครั้งเดียวคือ 0.50 ความน่าเชื่อถือของการจัดอันดับแบบขนานสองสี่หรือหกจะอยู่ที่ประมาณ. 67, .80 และ. 86 ตามลำดับ "(Houston, Raymond, & Svec, 1991, p. 409) ฉันชอบใบเสนอราคานี้เนื่องจากคำโดยประมาณยอมรับว่าการประมาณการทางสถิติเป็นคำสั่ง "ตามค่าเฉลี่ย" ของสิ่งที่คาดว่าจะเกิดขึ้นหากทุกอย่างเป็นไปตามที่คาดการณ์ไว้ นอกเหนือจากนั้นคำผ่าตัดก็ขนาน คะแนนเฉลี่ย (หรือใช้ Spearman-Brown) หากผู้ประเมินหนึ่งรายตัวอย่างเช่นผ่อนปรนอย่างเป็นระบบเพียงไม่เหมาะสมกับสมมติฐาน ถ้าเรียงความแต่ละคนให้คะแนนโดยผู้ประเมินสองคนอีกคนหนึ่งจะผ่อนปรนมากกว่าอีกคนหนึ่งปัญหาดังกล่าวคือการใช้การทดสอบแบบปรนัยสองทางเลือกของความยากลำบากไม่เท่ากัน คะแนนที่ได้จากแบบทดสอบที่แตกต่างกัน ดังนั้นจึงเป็นการผสมกันระหว่างผู้อ่อนโยนและผู้ประเมินยาก ความน่าเชื่อถือของการจัดอันดับพูลถูกประเมินอย่างไม่ถูกต้องโดยสมการ Spearman-Brown ของทฤษฎีการทดสอบแบบดั้งเดิม เรื่องนั้นเลวร้ายยิ่งถ้าผู้พิพากษาแต่ละคนกำหนดโครงสร้างต่างกันเล็กน้อย "

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
สัมประสิทธิ์สหสัมพันธ์ Intraclass vs. F-test (one-way ANOVA)
ฉันสับสนเล็กน้อยเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ของ intraclass และการวิเคราะห์ความแปรปรวนทางเดียว เมื่อฉันเข้าใจแล้วทั้งคู่ก็บอกคุณว่าการสังเกตแบบเดียวกันภายในกลุ่มนั้นเกี่ยวข้องกับการสังเกตในกลุ่มอื่นอย่างไร ใครช่วยอธิบายสิ่งนี้ให้ดีขึ้นได้บ้างและอาจอธิบายสถานการณ์ที่แต่ละวิธีมีประโยชน์มากกว่ากัน

1
วิธีการวัดความน่าเชื่อถือของการจัดอันดับฉันทามติ (ปัญหาจากหนังสือ Kemeny-Snell)
สมมติว่า kkk ผู้เชี่ยวชาญแต่ละคนขอให้จัดอันดับชุด nnnวัตถุในการสั่งซื้อหรือการตั้งค่า อนุญาตให้มีความสัมพันธ์ในการจัดอันดับ John Kemeny และ Laurie Snell ในหนังสือปี 1962 ของพวกเขา"แบบจำลองทางคณิตศาสตร์ในสังคมศาสตร์"เสนอให้แก้ปัญหาต่อไป: โครงการ 111. พัฒนาตัวชี้วัดความน่าเชื่อถือของการจัดอันดับฉันทามติโดยkkkผู้เชี่ยวชาญ ตัวอย่างเช่นสิ่งนี้อาจขึ้นอยู่กับการเปลี่ยนแปลงที่ใหญ่ที่สุดที่อาจเกิดขึ้นได้โดยการเปลี่ยนการจัดอันดับของผู้เชี่ยวชาญคนเดียว (ความสนใจจะต้องจ่ายให้กับความเป็นไปได้ของการจัดอันดับฉันทามติหลายอย่าง) พิสูจน์ทฤษฎีบทบางประการเกี่ยวกับการยินยอมที่เชื่อถือได้มากที่สุดและน้อยที่สุดเท่าที่จะเป็นไปได้kkk. หนังสือเล่มนี้ให้สัญกรณ์สำหรับการจัดอันดับและวิธีการสำหรับการรวมการจัดอันดับ แต่ไม่มีคำตอบสำหรับปัญหาข้างต้น ก่อนอื่นฉันคิดถึงKendall'sWWWค่าสัมประสิทธิ์ของความสอดคล้องกันแต่ดูเหมือนว่ามันไม่เหมาะ ความคิดใด ๆ ยินดีต้อนรับ!

1
ทำไมการกำจัดย้อนหลังจึงมีเหตุผลเมื่อทำการถดถอยหลายครั้ง?
มันไม่ได้ส่งผลให้กระชับหรือไม่? ผลลัพธ์ของฉันจะเชื่อถือได้มากขึ้นหรือไม่ถ้าฉันเพิ่มขั้นตอนแจ็คมีดหรือ bootstrap เป็นส่วนหนึ่งของการวิเคราะห์

1
อะไรคือความสัมพันธ์ระหว่างการวัดความน่าเชื่อถือของเครื่องชั่ง (อัลฟ่าของครอนบาค) และการโหลดส่วนประกอบ / ปัจจัย
สมมติว่าฉันมีชุดข้อมูลที่มีคะแนนในรายการแบบสอบถามจำนวนมากซึ่งในทางทฤษฎีประกอบด้วยเครื่องชั่งจำนวนน้อยเช่นในการวิจัยทางจิตวิทยา ฉันรู้วิธีการทั่วไปที่นี่คือการตรวจสอบความน่าเชื่อถือของเครื่องชั่งโดยใช้อัลฟ่าของครอนบาคหรือสิ่งที่คล้ายกันจากนั้นรวมรายการในเครื่องชั่งเพื่อสร้างคะแนนมาตราส่วนและทำการวิเคราะห์ต่อไปจากที่นั่น แต่ยังมีการวิเคราะห์ปัจจัยซึ่งสามารถนำคะแนนรายการทั้งหมดของคุณมาเป็นข้อมูลป้อนเข้าและบอกให้คุณทราบว่าปัจจัยใดเป็นปัจจัยที่สอดคล้องกัน คุณสามารถรับรู้ว่าปัจจัยเหล่านี้แข็งแกร่งเพียงใดโดยดูที่การโหลดและชุมชนและอื่น ๆ สำหรับฉันแล้วมันดูเหมือนสิ่งที่เหมือนกันมีเพียงเชิงลึกเท่านั้น แม้ว่าความน่าเชื่อถือในเครื่องชั่งของคุณจะดี แต่ EFA อาจแก้ไขให้คุณได้ว่ารายการใดเหมาะสมกับเครื่องชั่งที่ดีกว่าใช่ไหม คุณอาจจะได้รับการโหลดข้ามและมันอาจสมเหตุสมผลกว่าที่จะใช้คะแนนปัจจัยที่ได้รับมากกว่าผลรวมของสเกลแบบง่าย หากฉันต้องการใช้เครื่องชั่งน้ำหนักเหล่านี้สำหรับการวิเคราะห์ในภายหลัง (เช่นการถดถอยหรือ ANOVA) ฉันควรรวมเครื่องชั่งตราบใดที่ความน่าเชื่อถือของพวกเขามีอยู่? หรือเป็นเหมือน CFA (การทดสอบเพื่อดูว่าเครื่องชั่งถือเป็นปัจจัยที่ดีหรือไม่ซึ่งดูเหมือนจะวัดในลักษณะเดียวกันกับ 'ความน่าเชื่อถือ') ฉันได้รับการสอนเกี่ยวกับวิธีการทั้งสองอย่างอิสระดังนั้นฉันจึงไม่ทราบว่าพวกเขาเกี่ยวข้องกันอย่างไรไม่ว่าพวกเขาจะสามารถใช้ร่วมกันได้หรืออย่างใดอย่างหนึ่งที่เหมาะสมกับบริบทใด มีต้นไม้ตัดสินใจสำหรับการปฏิบัติวิจัยที่ดีในกรณีนี้หรือไม่? สิ่งที่ต้องการ: เรียกใช้ CFA ตามรายการมาตราส่วนที่คาดการณ์ไว้ ถ้า CFA มีขนาดพอดีให้คำนวณคะแนนตัวประกอบและใช้สำหรับการวิเคราะห์ หาก CFA มีขนาดไม่พอดีให้เรียกใช้ EFA แทนและใช้วิธีการสำรวจ (หรือบางอย่าง) การวิเคราะห์ปัจจัยและการทดสอบความน่าเชื่อถือเป็นวิธีการแยกจากกันในเรื่องเดียวกันหรือฉันเข้าใจผิดบางแห่งหรือไม่?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
การคำนวณความน่าเชื่อถือระหว่างผู้ใช้ใน R พร้อมกับจำนวนเรตติ้งที่หลากหลาย?
วิกิพีเดียแสดงให้เห็นว่าวิธีหนึ่งที่จะดูที่ความน่าเชื่อถือระหว่างผู้ประเมินคือการใช้แบบจำลองผลกระทบแบบสุ่มเพื่อคำนวณintraclass สัมพันธ์ ตัวอย่างของความสัมพันธ์ภายใน intraclass พูดถึงการมอง σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} จากแบบจำลอง Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} "ที่ Y IJเป็นเจTHสังเกตในฉันTHกลุ่มμเป็นค่าเฉลี่ยโดยรวมไม่มีใครสังเกต, α ฉันเป็นผลสุ่มสังเกตร่วมกันโดยค่าทั้งหมดในกลุ่ม i และε IJเป็นคำที่ไม่มีใครสังเกตเสียง." นี่เป็นรูปแบบที่น่าสนใจโดยเฉพาะอย่างยิ่งเพราะในข้อมูลของฉันไม่มีผู้ให้คะแนนทุกสิ่ง (แม้ว่าส่วนใหญ่จะได้อันดับ 20+) และสิ่งต่าง ๆ ได้รับการจัดอันดับเป็นจำนวนตัวแปรหลายครั้ง (โดยปกติ 3-4) คำถาม # 0: "group i" ในตัวอย่างนั้น ("group i") เป็นการจัดกลุ่มสิ่งต่าง ๆ หรือไม่ คำถาม # 1: ถ้าฉันกำลังมองหาความน่าเชื่อถือระหว่างผู้ประเมินฉันไม่จำเป็นต้องมีโมเดลเอฟเฟกต์แบบสุ่มที่มีสองคำหนึ่งคำสำหรับผู้ประเมินและอีกหนึ่งสำหรับสิ่งที่ได้รับการจัดอันดับ ท้ายที่สุดแล้วทั้งคู่มีรูปแบบที่เป็นไปได้ คำถาม # 2: ฉันจะแสดงโมเดลนี้ใน …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.