คำถามติดแท็ก reliability

การวัดมีความน่าเชื่อถือสูงหากให้ผลลัพธ์ที่คล้ายกันภายใต้เงื่อนไขที่สอดคล้องกัน อย่าสับสนระหว่างความน่าเชื่อถือกับความถูกต้อง (ดู tag wiki) ห้ามใช้เพื่อความน่าเชื่อถือระหว่างผู้ประเมินซึ่งมีแท็ก inter-rater ของตัวเอง

1
การคำนวณความแปรปรวน Kappa ของ Cohen (และข้อผิดพลาดมาตรฐาน)
สถิติKappa ( κκ\kappa ) ได้รับการแนะนำในปี 1960 โดย Cohen [1] เพื่อวัดข้อตกลงระหว่างผู้ประเมินสองคน อย่างไรก็ตามความแปรปรวนของมันเป็นสาเหตุของความขัดแย้งมาระยะหนึ่งแล้ว คำถามของฉันเกี่ยวกับการคำนวณผลต่างที่ดีที่สุดที่จะใช้กับกลุ่มตัวอย่างขนาดใหญ่ ฉันมีแนวโน้มที่จะเชื่อว่าคนที่ผ่านการทดสอบและตรวจสอบโดย Fleiss [2] จะเป็นตัวเลือกที่ถูกต้อง แต่สิ่งนี้ดูเหมือนจะไม่ใช่คนเดียวที่ได้รับการตีพิมพ์ซึ่งดูเหมือนว่าจะถูกต้อง ตอนนี้ฉันมีสองวิธีที่เป็นรูปธรรมในการคำนวณความแปรปรวนตัวอย่างขนาดใหญ่ของซีมโทติค: วิธีการแก้ไขที่เผยแพร่โดย Fleiss, Cohen and Everitt [2]; วิธีการเดลต้าที่สามารถพบได้ในหนังสือโดย Colgaton, 2009 [4] (หน้า 106) เพื่อแสดงให้เห็นถึงความสับสนบางอย่างนี่คือคำพูดของ Fleiss, Cohen และ Everitt [2] โดยเน้นที่เหมือง: ความพยายามของมนุษย์หลายคนถูกสาปด้วยความล้มเหลวซ้ำแล้วซ้ำอีกก่อนที่จะประสบความสำเร็จขั้นสุดท้าย มาตราส่วนของ Mount Everest เป็นตัวอย่างหนึ่ง การค้นพบของ Northwest Passage เป็นครั้งที่สอง ความเป็นมาของข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับคัปปาเป็นหนึ่งในสาม ดังนั้นนี่คือบทสรุปเล็ก ๆ ของสิ่งที่เกิดขึ้น: …

3
ข้อมูลของฉันมีการกระจายแบบใด
ให้เราบอกว่าฉันมีส่วนประกอบ 1,000 รายการและฉันได้รวบรวมข้อมูลเกี่ยวกับความล้มเหลวของบันทึกเหล่านี้กี่ครั้งและทุกครั้งที่พวกเขาบันทึกความล้มเหลวฉันยังติดตามว่าทีมของฉันใช้เวลานานแค่ไหนในการแก้ไขปัญหา ในระยะสั้นฉันได้รับการบันทึกเวลาในการซ่อมแซม (ในไม่กี่วินาที) สำหรับแต่ละองค์ประกอบ 1,000 เหล่านี้ ข้อมูลจะได้รับเมื่อสิ้นสุดคำถามนี้ ฉันเอาค่าเหล่านี้ทั้งหมดแล้วดึงกราฟ Cullen และ Frey เป็น R โดยใช้descdistจากfitdistrplusแพ็คเกจ ความหวังของฉันคือการเข้าใจว่าเวลาในการซ่อมแซมเป็นไปตามการแจกจ่ายเฉพาะ นี่คือพล็อตที่มีboot=500เพื่อรับค่า bootstrapped: ฉันเห็นว่าพล็อตนี้กำลังบอกฉันว่าการสังเกตตกอยู่ในการแจกแจงเบต้า (หรืออาจจะไม่ในกรณีนี้มันคืออะไรเปิดเผย) ตอนนี้เมื่อพิจารณาว่าฉันเป็นสถาปนิกระบบและไม่ใช่สถิติสถิติพล็อตนี้เปิดเผยอะไร ? (ฉันกำลังมองหาสัญชาตญาณในโลกแห่งความเป็นจริงที่อยู่เบื้องหลังผลการค้นหาเหล่านี้) แก้ไข: QQplot โดยใช้ฟังก์ชั่นในแพคเกจqqPlot carฉันก่อนประมาณพารามิเตอร์รูปร่างและขนาดโดยใช้fitdistrฟังก์ชั่น > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) จากนั้นฉันทำสิ่งนี้: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) แก้ไข 2: การอัพเดตด้วย QQplot lognormal นี่คือข้อมูลของฉัน: c(1528L, 285L, …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
Joel Spolsky ของ“ Hunting of the Snark” โพสต์การวิเคราะห์เนื้อหาทางสถิติที่ถูกต้องหรือไม่?
หากคุณได้อ่านแถลงการณ์ของชุมชนเมื่อเร็ว ๆ นี้คุณน่าจะได้เห็นThe Hunting of the Snarkโพสต์บนบล็อก StackExchange อย่างเป็นทางการโดย Joel Spolsky ซีอีโอของเครือข่าย StackExchange เขากล่าวถึงการวิเคราะห์ทางสถิติที่ดำเนินการบนตัวอย่างของความคิดเห็น SE เพื่อประเมิน "ความเป็นมิตร" ของพวกเขาจากมุมมองของผู้ใช้ภายนอก ความคิดเห็นถูกสุ่มตัวอย่างจาก StackOverflow และนักวิเคราะห์เนื้อหาเป็นสมาชิกของชุมชน Mechanical Turk ของ Amazon ซึ่งเป็นตลาดสำหรับการทำงานที่เชื่อมโยง บริษัท กับคนงานที่ทำงานเล็ก ๆ น้อย ๆ และมีค่าธรรมเนียมสั้น ๆ เมื่อไม่นานที่ผ่านมาผมเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาวิทยาศาสตร์ทางการเมืองและเป็นหนึ่งในชั้นเรียนที่ผมเอาถูกวิเคราะห์เนื้อหาทางสถิติ โครงการสุดท้ายของชั้นเรียนโดยมีวัตถุประสงค์คือเพื่อทำการวิเคราะห์รายละเอียดเกี่ยวกับการรายงานสงครามของ New York Timesเพื่อทดสอบว่ามีสมมติฐานมากมายหรือไม่ที่ชาวอเมริกันทำเกี่ยวกับการรายงานข่าวในช่วงสงครามอย่างถูกต้อง ไม่). โครงการมีขนาดใหญ่และค่อนข้างสนุก แต่ส่วนที่เจ็บปวดที่สุดคือ 'การฝึกอบรมและการทดสอบความน่าเชื่อถือ' ซึ่งเกิดขึ้นก่อนที่เราจะทำการวิเคราะห์อย่างเต็มรูปแบบ มันมีวัตถุประสงค์สองประการ (ดูหน้า 9 ของกระดาษที่เชื่อมโยงเพื่อดูคำอธิบายโดยละเอียดรวมถึงการอ้างอิงถึงมาตรฐานความน่าเชื่อถือของตัวแปลงรหัสในเอกสารการวิเคราะห์เนื้อหาทางสถิติ): ยืนยันผู้เขียนโค้ดทั้งหมดเช่นผู้อ่านเนื้อหาได้รับการฝึกอบรมตามข้อกำหนดเชิงคุณภาพเดียวกัน ในการวิเคราะห์ของโจเอลสิ่งนี้หมายความว่าทุกคนจะรู้ได้อย่างชัดเจนว่าโครงการกำหนด "เป็นมิตร" …

2
ความน่าเชื่อถือระหว่างผู้ประเมินสำหรับข้อมูลอันดับหรือช่วงเวลา
วิธีการความน่าเชื่อถือระหว่างผู้ใดที่เหมาะสมที่สุดสำหรับข้อมูลลำดับหรือช่วงเวลา? ฉันเชื่อว่า "ความน่าจะเป็นร่วมกันของข้อตกลง" หรือ "คัปปา" ได้รับการออกแบบมาสำหรับข้อมูลเล็กน้อย ในขณะที่สามารถใช้ "Pearson" และ "Spearman" ได้ส่วนใหญ่จะใช้สำหรับผู้ประเมินสองคน (แม้ว่าพวกเขาจะสามารถใช้งานได้มากกว่าสองผู้ประเมิน) มาตรการอื่นใดที่เหมาะสมสำหรับข้อมูลลำดับหรือช่วงเวลาเช่นมากกว่าสองผู้ประเมิน

2
การประเมินความน่าเชื่อถือของแบบสอบถาม: มิติรายการที่มีปัญหาและควรใช้อัลฟ่าแลมบ์ดา 6 หรือดัชนีอื่น ๆ หรือไม่?
ฉันกำลังวิเคราะห์คะแนนที่ได้รับจากผู้เข้าร่วมการทดลอง ฉันต้องการประเมินความน่าเชื่อถือของแบบสอบถามซึ่งประกอบด้วย 6 รายการที่มีวัตถุประสงค์เพื่อประเมินทัศนคติของผู้เข้าร่วมที่มีต่อผลิตภัณฑ์ ฉันคำนวณอัลฟ่าของครอนบาครักษาสิ่งของทั้งหมดในระดับเดียว (อัลฟาประมาณ 0.6) และลบทีละรายการ (ครั้งอัลฟาสูงสุดมีค่าประมาณ 0.72) ฉันรู้ว่าอัลฟาสามารถประเมินและประเมินค่าสูงไปน้อยได้ขึ้นอยู่กับจำนวนรายการและมิติข้อมูลของโครงสร้างพื้นฐาน ดังนั้นฉันจึงแสดง PCA การวิเคราะห์นี้พบว่ามีองค์ประกอบหลักสามประการที่อธิบายความแปรปรวนได้ประมาณ 80% ดังนั้นคำถามของฉันเกี่ยวกับฉันจะดำเนินการต่อไปได้อย่างไร ฉันต้องทำการคำนวณอัลฟ่าในแต่ละส่วนข้อมูลเหล่านี้หรือไม่ ฉันได้ลบรายการที่มีผลต่อความน่าเชื่อถือหรือไม่ นอกจากนี้การค้นหาบนเว็บฉันพบว่ามีการวัดความน่าเชื่อถืออีกอย่างหนึ่งคือ lambda6 ของ guttman ความแตกต่างที่สำคัญระหว่างการวัดนี้กับอัลฟ่าคืออะไร? แลมบ์ดามีคุณค่าที่ดีอย่างไร

2
ความแม่นยำเทียบกับพื้นที่ใต้เส้นโค้ง ROC
ฉันสร้างเส้นโค้ง ROC สำหรับระบบวินิจฉัย พื้นที่ใต้เส้นโค้งนั้นไม่ได้ประมาณค่าพารามิเตอร์เท่ากับ AUC = 0.89 เมื่อฉันพยายามคำนวณความถูกต้องที่การตั้งค่าขีด จำกัด ที่เหมาะสม (จุดที่ใกล้เคียงที่สุดกับจุด (0, 1)) ฉันได้รับความแม่นยำของระบบการวินิจฉัยที่ 0.8 ซึ่งน้อยกว่า AUC! เมื่อฉันตรวจสอบความถูกต้องที่การตั้งค่าขีด จำกัด อื่นซึ่งอยู่ไกลจากขีด จำกัด ที่เหมาะสมฉันได้ความแม่นยำเท่ากับ 0.92 เป็นไปได้หรือไม่ที่จะได้รับความถูกต้องของระบบการวินิจฉัยที่การตั้งค่าขีด จำกัด ที่ดีที่สุดที่ต่ำกว่าความแม่นยำที่ขีด จำกัด อื่นและต่ำกว่าพื้นที่ใต้เส้นโค้ง โปรดดูภาพที่แนบมา

3
คำอธิบายสำหรับค่าอัลฟาของครอนบาคมาจากที่ใด (เช่นแย่มากยอดเยี่ยม)
ดูเหมือนเป็นเรื่องธรรมดาที่จะอธิบายค่าอัลฟ่าของครอนบาชดังนี้ α≥ 0.9 ยอดเยี่ยม 0.7 ≤α <0.9 ดี 0.6 ≤α <0.7 ได้รับการยอมรับ 0.5 ≤α <0.6 แย่ α <0.5 ไม่สามารถยอมรับได้ คุณค่าเหล่านี้มาจากไหน ฉันไม่พบบทความวิจัยต้นฉบับที่อธิบายสิ่งเหล่านี้ แก้ไข: ฉัน 90% แน่ใจว่ามันขึ้นอยู่กับการประชุมเท่านั้นและไม่มีบทความวิจัยแบบดั้งเดิมที่สรุปไว้เหล่านี้

4
กรณีศึกษาในการวิจัยนโยบายสาธารณสุขที่การศึกษาหรือแบบจำลองที่ไม่น่าเชื่อถือ / สับสน / ไม่ถูกต้องถูกนำไปใช้ในทางที่ผิด?
ฉันกำลังเขียนทบทวนวรรณกรรมเกี่ยวกับปัญหาสุขภาพของประชาชนในปัจจุบันที่มีข้อมูลสับสน: อะไรคือกรณีศึกษาทางประวัติศาสตร์ทั่วไปที่ใช้ในการศึกษาด้านสาธารณสุข / ระบาดวิทยาที่ความสัมพันธ์หรือการอ้างถึงที่ไม่ถูกต้องหรือน่าอับอายถูกนำมาใช้โดยเจตนาหรือผิดพลาดในนโยบายและกฎหมายด้านสาธารณสุข การเสียชีวิตของรถยนต์ในทศวรรษ 1960 และจากการศึกษาโดยใช้หลักฐานตามมาซึ่งกำหนดเข็มขัดนิรภัยและถุงลมนิรภัยในที่สุดควรเป็นไปตามกฎหมายเป็นตัวอย่างที่ดีของนโยบายสาธารณสุขของHOWควรได้รับแรงหนุนจากการอนุมานและแบบจำลองทางสถิติที่มีประสิทธิภาพ ฉันกำลังมองหาตัวอย่างเพิ่มเติมของกรณีประเภทตรงกันข้าม (วิทยาศาสตร์ไม่ดีเพื่อกำหนดนโยบายอย่างเร่งด่วน) อย่างไรก็ตามถ้าไม่มีอะไรฉันต้องการเรียนรู้กรณีเพิ่มเติมคล้ายกับตัวอย่างก่อนหน้าของการศึกษาที่มีประสิทธิภาพเพื่อประโยชน์ต่อสุขภาพของประชาชนที่ประสบความสำเร็จ ฉันต้องการใช้สิ่งเหล่านี้เป็นตัวอย่างเพื่อแสดงให้เห็นว่าการวิจัยเชิงสถิติเชิงสาธารณสุขมีความสำคัญต่อการกำหนดนโยบายอย่างไร

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

2
ความน่าเชื่อถือระหว่างกลางสำหรับเหตุการณ์ในอนุกรมเวลาที่มีความไม่แน่นอนเกี่ยวกับเวลาของเหตุการณ์
ฉันมีผู้เขียนโค้ดอิสระหลายคนที่พยายามระบุเหตุการณ์ในอนุกรมเวลา - ในกรณีนี้ดูวิดีโอการสนทนาแบบตัวต่อตัวและมองหาพฤติกรรมที่ไม่เกี่ยวกับภาษา (เช่นพยักหน้า) และการเข้ารหัสเวลาและหมวดหมู่ของแต่ละรายการ เหตุการณ์ ข้อมูลนี้อาจได้รับการพิจารณาว่าเป็นชุดข้อมูลที่ไม่ต่อเนื่องโดยมีอัตราการสุ่มตัวอย่างสูง (30 เฟรม / วินาที) หรือเป็นอนุกรมเวลาต่อเนื่องแล้วแต่ว่างานใดจะใช้งานได้ง่ายกว่า ฉันต้องการคำนวณความน่าเชื่อถือระหว่างผู้ประเมินบางอย่าง แต่ฉันคาดว่าจะมีความไม่แน่นอนเมื่อเกิดเหตุการณ์ขึ้น นั่นคือฉันคาดหวังว่า coder หนึ่งอาจยกตัวอย่างเช่นโค้ดที่การเคลื่อนไหวบางอย่างเริ่มต้นขึ้นภายในหนึ่งวินาทีหลังจากที่ตัวแปลงสัญญาณอื่นคิดว่ามันเริ่มต้นขึ้น สิ่งเหล่านี้เป็นเหตุการณ์ที่เกิดขึ้นน้อยมากหากสิ่งนั้นช่วยได้ โดยทั่วไปแล้วอย่างน้อยหลายวินาที (หลายร้อยเฟรมวิดีโอ) ระหว่างเหตุการณ์ มีวิธีที่ดีของการประเมินความน่าเชื่อถือระหว่างผู้ประเมินที่มีลักษณะที่ทั้งสองเหล่านี้ชนิดของข้อตกลงและความขัดแย้ง (1) ทำผู้ประเมินเห็นด้วยกับสิ่งที่เหตุการณ์ที่เกิดขึ้น (ถ้ามี) และ (2) พวกเขาไม่เห็นด้วยในเมื่อมันเกิดขึ้น? ข้อที่สองมีความสำคัญต่อฉันเพราะฉันสนใจที่จะดูเวลาของเหตุการณ์เหล่านี้เทียบกับสิ่งอื่น ๆ ที่เกิดขึ้นในการสนทนาเหมือนกับที่คนอื่นพูดกัน การฝึกมาตรฐานในสาขาของฉันดูเหมือนจะแบ่งสิ่งต่าง ๆ ออกเป็นชิ้นเวลาพูด 1/4 ของวินาทีหรือมากกว่านั้นรวมเหตุการณ์ที่ผู้ทำโค้ดแต่ละคนรายงานต่อเวลาชิ้นจากนั้นคำนวณคัปปาของโคเฮนหรือการวัดที่คล้ายกัน แต่ตัวเลือกระยะเวลาการแบ่งเป็นแบบเฉพาะกิจและฉันไม่ได้รับความคิดที่ดีเกี่ยวกับความไม่แน่นอนในช่วงเวลาของเหตุการณ์ ความคิดที่ดีที่สุดที่ฉันมีมาจนถึงตอนนี้คือฉันสามารถคำนวณกราฟความน่าเชื่อถือบางชนิดได้ สิ่งที่คล้ายคัปปาเป็นฟังก์ชั่นของขนาดของหน้าต่างที่ฉันพิจารณาสองเหตุการณ์ว่าถูกให้รหัสในเวลาเดียวกัน ฉันไม่แน่ใจจริงๆว่าจะไปจากที่นั่น ...

2
การระบุคำถามที่ไร้ประโยชน์จากแบบสอบถาม
ฉันกำลังพัฒนาแบบสอบถาม เพื่อปรับปรุงความน่าเชื่อถือและความถูกต้องของฉันต้องการใช้วิธีการทางสถิติ ฉันต้องการกำจัดคำถามที่มีคำตอบเหมือนกันเสมอ ซึ่งหมายความว่าผู้เข้าร่วมเกือบทั้งหมดให้คำตอบเดียวกันกับคำถามเหล่านั้น ตอนนี้คำถามของฉันคือ: ศัพท์เทคนิคใดสำหรับคำถามที่ไร้ประโยชน์ซึ่งคำตอบนั้นเหมือนกันเสมอจากบริบทการใช้งานเสมอ วิธีการระบุคำถามดังกล่าวมีอะไรบ้าง

2
จะลดจำนวนรายการโดยใช้การวิเคราะห์ปัจจัยความสอดคล้องภายในและทฤษฎีการตอบสนองข้อต่อได้อย่างไร?
ฉันกำลังอยู่ระหว่างการพัฒนาแบบสอบถามและฉันจะใช้หมายเลขที่กำหนดเองในตัวอย่างนี้เพื่ออธิบาย สำหรับบริบทฉันกำลังพัฒนาแบบสอบถามทางจิตวิทยาที่มีวัตถุประสงค์เพื่อประเมินรูปแบบความคิดที่ระบุโดยทั่วไปในบุคคลที่มีความวิตกกังวล รายการอาจมีลักษณะ "ฉันต้องตรวจสอบเตาอบซ้ำ ๆ เพราะฉันไม่แน่ใจว่าปิดแล้ว " ฉันมีคำถาม 20 ข้อ (Likert 5 จุด) ซึ่งอาจประกอบด้วยหนึ่งหรือสองปัจจัย (โปรดทราบว่าในความเป็นจริงฉันมีคำถาม 200 คำถามซึ่งประกอบด้วย 10 เกล็ดและแต่ละสเกลอาจประกอบด้วยสองปัจจัย) ฉันยินดีที่จะลบรายการครึ่งหนึ่งทิ้งคำถาม 10 ข้อโดยหนึ่งในสองปัจจัย ฉันคุ้นเคยกับการวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) ความสอดคล้องภายใน (อัลฟาของครอนบาค) และเส้นโค้งลักษณะของรายการในทฤษฎีการตอบสนองข้อ (IRT) ฉันสามารถดูว่าฉันจะใช้วิธีการใดวิธีการหนึ่งต่อไปนี้เพื่อกำหนดว่ารายการใด "แย่ลง" ในระดับใด ๆ ฉันขอขอบคุณที่แต่ละวิธียังตอบคำถามที่แตกต่างกันถึงแม้ว่าพวกเขาอาจนำไปสู่ผลลัพธ์ที่คล้ายกันและฉันไม่แน่ใจว่า "คำถาม" อะไรสำคัญที่สุด ก่อนที่เราจะเริ่มให้แน่ใจว่าฉันรู้ว่าฉันกำลังทำอะไรกับแต่ละวิธีเหล่านี้เป็นรายบุคคล เมื่อใช้ EFA ฉันจะระบุจำนวนปัจจัยและลบรายการที่โหลดน้อยที่สุด (ให้พูด <.30) กับปัจจัยที่เกี่ยวข้องหรือโหลดข้ามอย่างมีนัยสำคัญในหลาย ๆ ปัจจัย โดยใช้ความสอดคล้องภายในฉันจะลบรายการที่มี "อัลฟาถ้ารายการถูกลบ" ที่แย่กว่านั้น ฉันสามารถทำได้โดยสมมติหนึ่งปัจจัยในระดับของฉันหรือทำหลังจาก EFA เริ่มต้นเพื่อระบุจำนวนของปัจจัยและเรียกใช้อัลฟาของฉันสำหรับแต่ละปัจจัย …

3
ความน่าเชื่อถือของโค้งที่เหมาะสมหรือไม่
ฉันต้องการประเมินความไม่แน่นอนหรือความน่าเชื่อถือของเส้นโค้งที่พอดี ฉันตั้งใจไม่ตั้งชื่อปริมาณทางคณิตศาสตร์ที่แม่นยำที่ฉันกำลังมองหาเนื่องจากฉันไม่รู้ว่ามันคืออะไร นี่ (พลังงาน) เป็นตัวแปรตาม (ตอบสนอง) และ (ปริมาณ) เป็นตัวแปรอิสระ ฉันต้องการหาเส้นโค้ง Energy-Volume,ของวัสดุบางอย่าง ดังนั้นฉันจึงคำนวณด้วยโปรแกรมคอมพิวเตอร์เคมีควอนตัมเพื่อรับพลังงานสำหรับปริมาตรตัวอย่าง (วงกลมสีเขียวในพล็อต)V E ( V )EEEVVVE(V)E(V)E(V) จากนั้นฉันติดตั้งตัวอย่างข้อมูลเหล่านี้ด้วยฟังก์ชัน Birch – Murnaghan : ซึ่งขึ้นอยู่กับ สี่พารามิเตอร์:ฉันยังสันนิษฐานว่านี่เป็นฟังก์ชั่นปรับแต่งที่ถูกต้องดังนั้นข้อผิดพลาดทั้งหมดจึงมาจากเสียงรบกวนของตัวอย่าง ในสิ่งต่อไปนี้ฟังก์ชั่นที่ติดตั้งจะได้รับการเขียนเป็นฟังก์ชั่นของVE 0 , V 0 , B 0 , B ' 0 ( E ) VE(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, …

2
IQR มีความแม่นยำเพียงใดในการตรวจจับค่าผิดปกติ
ฉันกำลังเขียนสคริปต์ที่วิเคราะห์เวลาทำงานของกระบวนการ ฉันไม่แน่ใจเกี่ยวกับการแจกจ่ายของพวกเขา แต่ฉันต้องการทราบว่ากระบวนการทำงาน "ยาวเกินไป" หรือไม่ จนถึงตอนนี้ฉันใช้ค่าเบี่ยงเบนมาตรฐาน 3 ครั้งในการรันครั้งล่าสุด (n> 30) แต่ฉันก็บอกว่ามันไม่ได้ให้ประโยชน์อะไรเลยหากข้อมูลไม่ปกติ ฉันพบการทดสอบนอกกรอบอื่นที่ระบุว่า: ค้นหาช่วงควอไทล์ระหว่างซึ่งเป็น IQR = ไตรมาส 3 - Q1 โดยที่ไตรมาสที่สามคือควอไทล์ที่สามและไตรมาสที่ 1 เป็นควอไทล์แรก จากนั้นหาตัวเลขสองตัวนี้: a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR จุดเป็นค่าผิดปกติถ้า <a หรือ> b ข้อมูลของฉันมีแนวโน้มที่จะเป็นเช่น 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... ที่ 300sec นั้นเป็นค่าที่เกิน …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.