ข้อมูลความเข้มข้นของสารเคมีมักจะมีศูนย์ แต่สิ่งเหล่านี้ไม่ได้เป็นตัวแทนของค่าศูนย์ : พวกเขาเป็นรหัสที่แตกต่างกัน (และสับสน) เป็นตัวแทนของทั้งสองnondetects (วัดที่ระบุมีระดับสูงของโอกาสที่วิเคราะห์ไม่ได้อยู่) และ "ไม่มีเงื่อนไข" ค่า (การวัดตรวจพบ analyte แต่ไม่สามารถสร้างค่าตัวเลขที่เชื่อถือได้) ลองเรียก "NDs" เหล่านี้ดูสิ
โดยทั่วไปจะมีข้อ จำกัด ที่เกี่ยวข้องกับ ND ที่รู้จักกันในชื่อ "ขีด จำกัด การตรวจจับ" "ขีด จำกัด ปริมาณ" หรือ ("สุจริตมาก)" ขีด จำกัด การรายงาน "เนื่องจากห้องปฏิบัติการเลือกที่จะไม่ให้ค่าตัวเลข (บ่อยครั้งสำหรับกฎหมาย เหตุผล) เกี่ยวกับสิ่งที่เรารู้เกี่ยวกับ ND คือค่าจริงอาจมีค่าน้อยกว่าขีด จำกัด ที่เกี่ยวข้อง: เกือบจะ (แต่ไม่มาก) รูปแบบของการเซ็นเซอร์ด้านซ้าย1.3301.330.50.1
มีการทำวิจัยอย่างกว้างขวางในช่วง 30 ปีที่ผ่านมาเกี่ยวกับวิธีที่ดีที่สุดในการสรุปและประเมินชุดข้อมูลดังกล่าว Dennis Helsel ตีพิมพ์หนังสือเกี่ยวกับเรื่องนี้Nondetects and Data Analysis (Wiley, 2005) สอนหลักสูตรและเปิดตัวR
แพคเกจตามเทคนิคที่เขาโปรดปราน เว็บไซต์ของเขาครอบคลุม
ฟิลด์นี้เต็มไปด้วยข้อผิดพลาดและความเข้าใจผิด Helsel ตรงไปตรงมาเกี่ยวกับเรื่องนี้: ในหน้าแรกของบทที่ 1 ของหนังสือที่เขาเขียน
... วิธีการที่ใช้กันมากที่สุดในการศึกษาด้านสิ่งแวดล้อมในปัจจุบันการทดแทนครึ่งหนึ่งของขีด จำกัด การตรวจจับไม่ใช่วิธีการที่สมเหตุสมผลในการตีความข้อมูลที่ถูกเซ็นเซอร์
แล้วจะทำอย่างไรดี? ตัวเลือกต่าง ๆ รวมถึงการเพิกเฉยคำแนะนำที่ดีนี้การใช้วิธีการบางอย่างในหนังสือของ Helsel และการใช้วิธีการอื่น ถูกต้องหนังสือไม่ครอบคลุมและมีทางเลือกที่ถูกต้องอยู่ การเพิ่มค่าคงที่ให้กับค่าทั้งหมดในชุดข้อมูล ("การเริ่มต้น" พวกเขา) เป็นหนึ่ง แต่พิจารณา:
111
0
เครื่องมือที่ยอดเยี่ยมสำหรับการกำหนดค่าเริ่มต้นคือพล็อตความน่าจะเป็น lognormal: นอกเหนือจาก NDs ข้อมูลควรจะเป็นเส้นตรง
คอลเลกชันของ NDs ยังสามารถอธิบายได้ด้วยการกระจายที่เรียกว่า "เดลต้า lognormal" นี่คือส่วนผสมของมวลจุดและ lognormal
ดังที่เห็นได้ชัดในฮิสโทแกรมต่อไปนี้ของค่าที่จำลองการแจกแจงแบบเซ็นเซอร์และเดลต้าจะไม่เหมือนกัน วิธีการเดลต้ามีประโยชน์มากที่สุดสำหรับตัวแปรอธิบายในการถดถอย: คุณสามารถสร้างตัวแปร "จำลอง" เพื่อระบุ ND ใช้ลอการิทึมของค่าที่ตรวจพบ (หรือแปลงให้เป็นตามที่ต้องการ) และไม่ต้องกังวลเกี่ยวกับค่าทดแทนสำหรับ NDs .
ในฮิสโทแกรมเหล่านี้ค่าศูนย์ต่ำสุดประมาณ 20% ถูกแทนที่ด้วยศูนย์ สำหรับการเปรียบเทียบทั้งหมดจะขึ้นอยู่กับค่า lognormal พื้นฐานจำลอง 1,000 ค่า (ซ้ายบน) การกระจายเดลต้าถูกสร้างขึ้นโดยการเปลี่ยน 200 ของค่าโดยศูนย์ที่สุ่ม การแจกแจงแบบเซ็นเซอร์ถูกสร้างขึ้นโดยแทนที่ค่าที่เล็กที่สุด 200 ค่าด้วยศูนย์ การกระจาย "ที่สมจริง" นั้นสอดคล้องกับประสบการณ์ของฉันซึ่งก็คือข้อ จำกัด ของการรายงานนั้นแตกต่างกันไปในทางปฏิบัติ (แม้ว่าจะไม่ได้ระบุไว้ในห้องปฏิบัติการ!): ฉันทำให้พวกมันแตกต่างกันแบบสุ่ม (โดยนิด ๆ หน่อย ๆ ทิศทางใดทิศทางหนึ่ง) และแทนที่ค่าจำลองทั้งหมดน้อยกว่าขีด จำกัด การรายงานด้วยค่าศูนย์
เพื่อแสดงยูทิลิตีของพล็อตความน่าจะเป็นและเพื่ออธิบายการตีความรูปต่อไปจะแสดงพล็อตความน่าจะเป็นปกติที่เกี่ยวข้องกับลอการิทึมของข้อมูลก่อนหน้า
log(1+0)=0) ถูกพล็อตต่ำเกินไป ด้านซ้ายล่างเป็นพล็อตความน่าจะเป็นสำหรับชุดข้อมูลที่ถูกตรวจสอบด้วยค่าเริ่มต้นที่ 120 ซึ่งใกล้เคียงกับขีด จำกัด การรายงานทั่วไป ความพอดีที่ด้านล่างซ้ายตอนนี้ดี - เราเพียง แต่หวังว่าค่าเหล่านี้จะมาอยู่ใกล้ ๆ แต่ทางด้านขวาของเส้นที่ติดตั้ง - แต่ความโค้งของหางด้านบนแสดงให้เห็นว่าการเพิ่ม 120 เริ่มเปลี่ยน รูปร่างของการกระจาย ด้านล่างขวาแสดงว่าเกิดอะไรขึ้นกับข้อมูลเดลต้าล็อกปกติ: มีความพอดีกับหางส่วนบน แต่มีความโค้งที่เด่นชัดใกล้กับขีด จำกัด การรายงาน (ตรงกลางของพล็อต)
สุดท้ายเรามาลองสำรวจสถานการณ์ที่สมจริงยิ่งขึ้น:
ด้านซ้ายบนแสดงชุดข้อมูลที่ถูกเซ็นเซอร์โดยมีค่าศูนย์เป็นครึ่งหนึ่งของขีด จำกัด การรายงาน มันเป็นแบบที่ดีงาม ทางด้านขวาบนเป็นชุดข้อมูลที่เหมือนจริงมากขึ้น (พร้อมขีด จำกัด การรายงานแบบสุ่ม) ค่าเริ่มต้นที่ 1 ไม่ได้ช่วย แต่ - ที่ด้านซ้ายล่าง - สำหรับค่าเริ่มต้นที่ 120 (ใกล้กับช่วงบนของขีด จำกัด การรายงาน) พอดีค่อนข้างดี สิ่งที่น่าสนใจความโค้งที่อยู่ตรงกลางในขณะที่จุดที่เพิ่มขึ้นจาก NDs ไปเป็นค่าเชิงปริมาณนั้นทำให้นึกถึงการกระจายเดลต้า lognormal (แม้ว่าข้อมูลเหล่านี้ไม่ได้ถูกสร้างขึ้นจากส่วนผสม) ด้านขวาล่างคือพล็อตความน่าจะเป็นที่คุณจะได้รับเมื่อข้อมูลจริงมี NDs ของพวกเขาถูกแทนที่ด้วยครึ่งหนึ่งของขีด จำกัด การรายงาน (ทั่วไป) นี่คือแบบที่ดีที่สุด แม้ว่ามันจะแสดงพฤติกรรมเหมือนเดลต้าล็อกปกติบางอย่างอยู่ตรงกลาง
สิ่งที่คุณควรทำคือใช้การแปลงความน่าจะเป็นเพื่อสำรวจการกระจายเนื่องจากค่าคงที่ต่างๆถูกใช้แทน NDs เริ่มการค้นหาด้วยขีด จำกัด การรายงานเล็กน้อยครึ่งหนึ่งเฉลี่ยจากนั้นทำการเปลี่ยนแปลงขึ้นและลงจากที่นั่น เลือกพล็อตที่ดูเหมือนว่าด้านล่างขวา: ประมาณเป็นเส้นทแยงมุมสำหรับค่าเชิงปริมาณการย่อ / ขยายแบบย่อไปยังที่ราบสูงต่ำและที่ราบสูงของค่าที่ (เพิ่งจะ) ตรงกับส่วนขยายของเส้นทแยงมุม อย่างไรก็ตามตามคำแนะนำของ Helsel (ซึ่งได้รับการสนับสนุนอย่างมากในวรรณกรรม) สำหรับข้อมูลสรุปทางสถิติที่แท้จริงให้หลีกเลี่ยงวิธีการใด ๆ ที่แทนที่ NDs ด้วยค่าคงที่ใด ๆ สำหรับการถดถอยให้ลองเพิ่มตัวแปร dummy เพื่อระบุ NDs สำหรับการแสดงผลกราฟิกบางส่วนการแทนที่ NDs อย่างคงที่ด้วยค่าที่พบกับการฝึกพล็อตความน่าจะเป็นจะทำงานได้ดี สำหรับการแสดงกราฟิกอื่น ๆ อาจเป็นสิ่งสำคัญที่แสดงถึงขีด จำกัด การรายงานจริงดังนั้นแทนที่ NDs ด้วยขีด จำกัด การรายงานของพวกเขาแทน คุณจะต้องมีความยืดหยุ่น!