คำถามติดแท็ก quality-control

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

8
ฉันจะให้ผู้คนดูแลข้อมูลได้ดีขึ้นได้อย่างไร
สถานที่ทำงานของฉันมีพนักงานจากหลากหลายสาขาดังนั้นเราจึงสร้างข้อมูลในรูปแบบที่แตกต่างกันมากมาย ดังนั้นแต่ละทีมจึงได้พัฒนาระบบของตัวเองเพื่อเก็บข้อมูล บางคนใช้ฐานข้อมูล Access หรือ SQL บางทีม (กับความสยองขวัญของฉัน) พึ่งพาสเปรดชีต Excel เกือบทั้งหมด บ่อยครั้งที่รูปแบบข้อมูลเปลี่ยนจากโครงการเป็นโครงการ ในบางกรณีเรียกมันว่า 'ระบบ' ใจดีเกินไป ปัญหาที่เกิดขึ้นคือฉันต้องเขียนโค้ดใหม่เพื่อล้างข้อมูลสำหรับทุกโครงการซึ่งมีราคาแพง ผู้คนทำการแก้ไขสเปรดชีตด้วยตนเองทำให้สามารถทำซ้ำได้และตรวจสอบข้อมูลไม่ได้ และยิ่งแย่ลงไปกว่านั้นมีโอกาสที่ข้อมูลจะสูญหายหรือทำให้ข้อมูลไม่ถูกต้อง ฉันได้รับโอกาสในการหารือเกี่ยวกับปัญหาเหล่านี้กับสมาชิกคณะกรรมการของ บริษัท และฉันต้องอธิบายสิ่งที่จะบอกเขา ฉันคิดว่าฉันได้ชักชวนเขาว่าเรามีปัญหาและการได้รับสิทธินี้จะช่วยให้วิทยาศาสตร์ดีขึ้นและประหยัดเงินได้ คำถามคือเราควรจะตั้งเป้าหมายอะไรและเราจะไปที่นั่นได้อย่างไร โดยเฉพาะอย่างยิ่ง: เราควรเก็บข้อมูลอย่างไรในแบบที่ทำให้เราสามารถติดตามได้ตั้งแต่การสร้างไปจนถึงการเผยแพร่ในกระดาษ (ฐานข้อมูลเก็บไว้ในเซิร์ฟเวอร์กลางหรือไม่?) คุณจะทำอย่างไรเกี่ยวกับรูปแบบฐานข้อมูลมาตรฐาน? มีแหล่งข้อมูลที่ดีสำหรับการให้การศึกษาแก่ผู้คนเกี่ยวกับวิธีการดูแลข้อมูลหรือไม่ (ตามกฎทั่วไปนักสุขอนามัยและวิศวกรวัตถุระเบิดไม่ใช่ผู้เชี่ยวชาญด้านข้อมูลดังนั้นควรเลือกเนื้อหาที่ไม่ใช่ด้านเทคนิค)

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
ทำไมสถิติแบบเบย์ไม่เป็นที่นิยมสำหรับการควบคุมกระบวนการทางสถิติ?
ความเข้าใจของฉันเกี่ยวกับการถกเถียงกันอย่างเบยส์ vs บ่อยเป็นสถิติที่บ่อย: มีวัตถุประสงค์ (หรืออ้างว่าเป็น) หรืออย่างน้อยก็ไม่เอนเอียง นักวิจัยที่แตกต่างกันดังนั้นการใช้สมมติฐานที่แตกต่างกันยังคงสามารถรับผลการเปรียบเทียบเชิงปริมาณได้ ในขณะที่สถิติแบบเบย์ อ้างว่าทำการคาดคะเน "ดีกว่า" (เช่นการสูญเสียต่ำกว่าที่คาด) เนื่องจากสามารถใช้ความรู้เดิม (ท่ามกลางเหตุผลอื่น ๆ ) ต้องการตัวเลือก "เฉพาะกิจ" น้อยลงแทนที่ด้วยตัวเลือกก่อนหน้า / แบบจำลองที่ (อย่างน้อยในหลักการ) มีการตีความในโลกแห่งความเป็นจริง ระบุว่าฉันจะคาดหวังว่าสถิติแบบเบย์จะได้รับความนิยมอย่างมากใน SPC: ถ้าฉันเป็นเจ้าของโรงงานที่พยายามควบคุมคุณภาพกระบวนการของฉัน ถ้าฉันสามารถลดได้เพราะฉันมีความรู้ล่วงหน้ามากกว่า / คู่แข่งที่ดีกว่าของฉันดียิ่งขึ้น แต่ในทางปฏิบัติทุกสิ่งที่ฉันได้อ่านเกี่ยวกับ SPC ดูเหมือนจะเป็นประจำอย่างแน่นอน (เช่นไม่มีการแจกแจงก่อนหน้าการประมาณค่าพารามิเตอร์ทั้งหมดตัวเลือก Ad-hoc จำนวนมากเกี่ยวกับขนาดตัวอย่างค่า p ฯลฯ ) ทำไมถึงเป็นอย่างนั้น? ฉันเห็นได้ว่าทำไมสถิติบ่อยครั้งจึงเป็นตัวเลือกที่ดีกว่าในปี 1960 เมื่อ SPC ใช้ปากกาและกระดาษ แต่ทำไมไม่มีใครลองใช้วิธีการอื่นตั้งแต่นั้นมา

2
แนวทางการประกันคุณภาพและการควบคุมคุณภาพ (QA / QC) สำหรับฐานข้อมูล
พื้นหลัง ฉันกำลังดูแลการป้อนข้อมูลจากวรรณกรรมหลักลงในฐานข้อมูล กระบวนการป้อนข้อมูลนั้นเกิดข้อผิดพลาดได้ง่ายโดยเฉพาะอย่างยิ่งเนื่องจากผู้ใช้ต้องตีความการออกแบบการทดลองดึงข้อมูลจากกราฟิกและตารางและแปลงผลลัพธ์เป็นหน่วยมาตรฐาน ข้อมูลจะถูกป้อนเข้าสู่ฐานข้อมูล MySQL ผ่านเว็บอินเตอร์เฟส จุดข้อมูลมากกว่า 10k จากตัวแปร> 20 ชนิด> 100 สปีชีส์และ> 500 การอ้างอิงได้ถูกรวมไว้แล้ว ฉันต้องการเรียกใช้การตรวจสอบคุณภาพของข้อมูลตัวแปรไม่เพียง แต่รวมถึงข้อมูลที่มีอยู่ในตารางการค้นหาเช่นสปีชีส์ที่เกี่ยวข้องกับแต่ละจุดข้อมูลสถานที่ตั้งของการศึกษา ฯลฯ การป้อนข้อมูลยังดำเนินอยู่ดังนั้น QA / QC จะต้องทำงานเป็นระยะ ๆ ข้อมูลยังไม่ได้เผยแพร่สู่สาธารณะ แต่เราวางแผนที่จะเผยแพร่ในอีกไม่กี่เดือนข้างหน้า ปัจจุบัน QA / QC ของฉันมีสามขั้นตอน: ผู้ใช้ที่สองตรวจสอบแต่ละจุดข้อมูล ตรวจสอบฮิสโตแกรมที่มองเห็นด้วยตาแต่ละตัวแปรสำหรับค่าผิดปกติ ผู้ใช้รายงานข้อมูลที่น่าสงสัยหลังจากได้รับผลลัพธ์ปลอม คำถาม มีแนวทางที่ฉันสามารถใช้สำหรับการพัฒนากระบวนการ QA / QC ที่มีประสิทธิภาพสำหรับฐานข้อมูลนี้หรือไม่? ขั้นตอนแรกใช้เวลานานที่สุด มีสิ่งใดบ้างที่ฉันสามารถทำได้เพื่อให้มีประสิทธิภาพมากขึ้น

3
วิธีตรวจสอบอัตราความผิดพลาดต่ำมาก
ฉันเผชิญกับการพยายามสาธิตผ่านการทดสอบอัตราความผิดพลาดต่ำมากสำหรับเซ็นเซอร์ (ไม่เกิน 1 ข้อผิดพลาดใน 1,000,000 ครั้ง) เรามีเวลา จำกัด ในการดำเนินการทดสอบดังนั้นเราคาดว่าจะไม่สามารถได้รับมากกว่า 4,000 ครั้ง ฉันเห็นว่าไม่มีปัญหาในการแสดงเซ็นเซอร์ไม่เป็นไปตามข้อกำหนดเนื่องจากแม้แต่ข้อผิดพลาดเพียงครั้งเดียวในความพยายาม 4,000 ครั้งจะให้ช่วงความมั่นใจ 95% สำหรับอัตราข้อผิดพลาดที่มีขีด จำกัด ล่างมากกว่า 0.000001 แสดงว่ามันเป็นไปตามข้อกำหนด แต่เป็นปัญหาเนื่องจากแม้แต่ 0 ข้อผิดพลาดในความพยายาม 4,000 ครั้งยังคงส่งผลให้ขอบเขตล่างมากกว่า 0.000001 ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.