การประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบไม่เอนเอียงสำหรับข้อมูลการตรวจสอบแบบทวีคูณ


22

การวิเคราะห์ทางเคมีของตัวอย่างด้านสิ่งแวดล้อมมักจะถูกตรวจสอบด้านล่างที่ข้อ จำกัด การรายงาน หลังสามารถเปลี่ยนแปลงได้ตามสัดส่วนของค่าตัวแปรอื่น ๆ ตัวอย่างเช่นตัวอย่างที่มีความเข้มข้นสูงของสารประกอบหนึ่งอาจต้องทำให้เจือจางเพื่อการวิเคราะห์ส่งผลให้เกิดสัดส่วนเงินเฟ้อของการ จำกัด การเซ็นเซอร์สำหรับสารประกอบอื่น ๆ ทั้งหมดที่วิเคราะห์ในเวลาเดียวกันในตัวอย่างนั้น อีกตัวอย่างหนึ่งบางครั้งการปรากฏตัวของสารประกอบสามารถเปลี่ยนการตอบสนองของการทดสอบกับสารประกอบอื่น ๆ ("การแทรกแซงเมทริกซ์"); เมื่อตรวจพบโดยห้องปฏิบัติการมันจะขยายขีด จำกัด การรายงานตามที่กำหนด

ฉันกำลังมองหาวิธีที่ใช้งานได้จริงเพื่อประเมินเมทริกซ์ความแปรปรวนร่วม -Vovance ทั้งหมดสำหรับชุดข้อมูลดังกล่าวโดยเฉพาะอย่างยิ่งเมื่อสารประกอบจำนวนมากประสบการเซ็นเซอร์มากกว่า 50% ซึ่งมักเป็นกรณี แบบจำลองการแจกแจงแบบดั้งเดิมคือลอการิทึมของความเข้มข้น (จริง) มีการกระจายแบบหลายช่วงและสิ่งนี้ดูเหมือนจะเหมาะสมในทางปฏิบัติดังนั้นวิธีแก้ปัญหาสำหรับสถานการณ์นี้จะเป็นประโยชน์

(โดย "ใช้งานจริง" ฉันหมายถึงวิธีการที่สามารถเข้ารหัสได้อย่างน่าเชื่อถือในสภาพแวดล้อมซอฟต์แวร์ที่มีอยู่อย่างน้อยหนึ่งอย่างเช่น R, Python, SAS และอื่น ๆ ในวิธีที่ดำเนินการอย่างรวดเร็วพอที่จะรองรับการคำนวณซ้ำซ้ำเช่นเกิดขึ้นในหลาย ๆ และสิ่งใดที่มีเสถียรภาพพอสมควร [ซึ่งเป็นเหตุผลที่ฉันลังเลที่จะสำรวจการใช้งานข้อผิดพลาดแม้ว่าวิธีการแบบเบย์โดยทั่วไปยินดีต้อนรับ]

ขอบคุณล่วงหน้าสำหรับความคิดของคุณในเรื่องนี้


ดังนั้นฉันจึงเข้าใจปัญหาการเซ็นเซอร์อย่างถูกต้อง: เมื่อคุณเจือจางตัวอย่างความเข้มข้นของสารประกอบตกต่ำจนเครื่องมือทดสอบไม่สามารถตรวจสอบสถานะของมันได้ นั่นคือการใช้ถ้อยคำซ้ำซ้อนของปัญหาการเซ็นเซอร์หรือไม่?

ใช่นั่นถูกต้อง: การเจือจางด้วยปัจจัย D จะเพิ่มขีด จำกัด การตรวจจับทั้งหมดโดยปัจจัย D เช่นกัน (ปัญหาการแทรกสอดของเมทริกซ์นั้นยากกว่าในการหาจำนวนและสถานการณ์ทั่วไปนั้นซับซ้อนมากเพื่อทำให้สิ่งนี้ง่ายขึ้นแบบจำลองทั่วไปคือชุดการทดสอบในตัวอย่างหนึ่งให้ผลเวกเตอร์ (x [1], ... , x [k ]) โดยที่ x [i] เป็นจำนวนจริงหรือเป็นช่วงเวลาของ reals โดยทั่วไปจะมีจุดสิ้นสุดด้านซ้ายที่ -infinity ช่วงเวลาจะระบุชุดที่ค่าจริงจะถือว่าเป็นจริง)
whuber

ทำไมขีด จำกัด การตรวจจับจึงสูงขึ้น ไม่ใช่คุณลักษณะของเครื่องมือทดสอบแทนที่จะเป็นตัวอย่างที่ทดสอบหรือไม่

ตัวอย่างสมมติว่าขีด จำกัด การตรวจจับของเครื่องมือคือ 1 ไมโครกรัมต่อลิตร (ug / L) ตัวอย่างถูกทำให้เจือจาง 10: 1 (ด้วยความแม่นยำสูงดังนั้นเราจึงไม่ต้องกังวลเกี่ยวกับข้อผิดพลาดที่นี่) และเครื่องมือจะอ่าน "<1"; นั่นคือไม่สามารถตรวจจับได้สำหรับตัวอย่างที่เจือจาง ห้องปฏิบัติการอ้างว่าความเข้มข้นในตัวอย่างน้อยกว่า 10 * 1 = 10 ug / L และรายงานดังกล่าว นั่นคือในฐานะ "<10"
whuber

1
@ amoeba ฉันเห็นว่าฉันควรจะอธิบายสิ่งต่าง ๆ เหล่านี้ด้วยตัวของมันเอง คำตอบคือ: PCA; มิติจะแตกต่างจาก 3 ถึงไม่กี่ร้อย; ขนาดตัวอย่างมักจะเกินกว่ามิติอย่างมาก แต่อัตราการตรวจสอบอาจสูงมาก (ความสามารถในการจัดการได้มากถึง 50% เป็นสิ่งจำเป็น
whuber

คำตอบ:


3

ฉันยังไม่ได้ทำให้ปัญหาการแทรกแซงของเมทริกซ์เต็มรูปแบบ แต่นี่เป็นวิธีหนึ่ง ปล่อย:

Yเป็นเวกเตอร์ที่แสดงความเข้มข้นของสารประกอบเป้าหมายทั้งหมดในตัวอย่างที่ไม่เจือปน

Zเป็นเวกเตอร์ที่สอดคล้องกันในตัวอย่างที่เจือจาง

ddคือปัจจัยเจือจางคือตัวอย่างถูกทำให้เจือจาง : 1d

แบบจำลองของเราคือ:

YN(μ,Σ)

Z=Yd+ε

โดยที่แสดงถึงข้อผิดพลาดเนื่องจากข้อผิดพลาดการเจือจางε~ยังไม่มีข้อความ(0,σ2 ผม)

ดังนั้นจึงเป็นไปตามนั้น:

Z~ยังไม่มีข้อความ(μd,Σ+σ2 ผม)

แสดงว่าการกระจายข้างต้นของโดย(.)f Z ( . )ZZ(.)

ให้เป็นความเข้มข้นที่สังเกตได้และแสดงถึงเกณฑ์ของเครื่องมือทดสอบด้านล่างซึ่งมันไม่สามารถตรวจจับสารประกอบได้ จากนั้นสำหรับสารประกอบเรามี:τ ฉันทีเอชOτผมเสื้อชั่วโมง

Oผม=Zผมผม(Zผม>τ)+0ผม(Zผมτ)

หากไม่มีการสูญเสียความสามารถทั่วไปให้สารประกอบแรกนั้นมีค่าต่ำกว่าเกณฑ์ จากนั้นฟังก์ชันความน่าจะเป็นสามารถเขียนเป็น:k

L(O1,...Ok,Ok+1,...On|-)=[Πผม=1ผม=kPR(Zผมτ)][Πผม=k+1ผม=n(Oผม|-)]

ที่ไหน

(Oผม|-)=JผมZ(Oผม|-)ผม(Oผม>τ)

การประมาณนั้นเป็นเรื่องของการใช้ความเป็นไปได้สูงสุดหรือแนวคิดแบบเบย์ ฉันไม่แน่ใจว่าข้างบนเป็นวิธีที่ง่าย แต่ฉันหวังว่ามันจะให้ความคิดบางอย่างกับคุณ


ขอบคุณมากสำหรับความคิดนี้ อันที่จริงนี่เป็นวิธีมาตรฐานและมีเอกสารที่ดีสำหรับการเซ็นเซอร์หลายทาง ปัญหาหนึ่งอยู่ในความยากลำบาก: อินทิกรัลเหล่านั้นยากที่จะคำนวณ มีปัญหาเกี่ยวกับแบบจำลองที่ซุ่มซ่อนอยู่ที่นี่เช่นกัน: ค่าของdมักจะมีความสัมพันธ์เชิงบวกกับYตามที่อธิบายไว้ในย่อหน้าแรกของคำอธิบายของฉัน
whuber

2

อีกทางเลือกที่มีประสิทธิภาพมากขึ้นการคำนวณจะพอดีกับเมทริกซ์ความแปรปรวนร่วมโดยการจับคู่ช่วงเวลาโดยใช้แบบจำลองที่ถูกเรียกว่า

กระดาษล่าสุดจากMacke et al 2010อธิบายถึงกระบวนการปิดแบบฟอร์มสำหรับการปรับแบบจำลองนี้ซึ่งเกี่ยวข้องกับเมทริกซ์ความแปรปรวนร่วมเชิงประจักษ์ (การเซ็นเซอร์) และการคำนวณความน่าจะเป็นแบบไบวาเรียปกติบางส่วน กลุ่มเดียวกัน (ห้องทดลอง Bethge ที่ MPI Tuebingen) ได้อธิบายแบบจำลองแบบเกาส์ต่อเนื่อง / แบบผสมซึ่งอาจเป็นสิ่งที่คุณต้องการที่นี่ (เช่นเนื่องจาก Gaussian RVs ไม่ได้ "แบ่งขั้ว" อย่างสมบูรณ์ - เฉพาะที่ต่ำกว่าขีด จำกัด )

วิกฤตนี่ไม่ใช่ตัวประมาณ ML และฉันเกรงว่าฉันไม่รู้ว่าคุณสมบัติอคติของมันคืออะไร


@jp ขอบคุณ: ฉันจะตรวจสอบเรื่องนี้ (อาจใช้เวลาสักครู่ ... )
เสียงหวีด

1

ตัวอย่างของคุณมีสารประกอบกี่ตัว? (หรือเมทริกซ์ความแปรปรวนร่วมมีขนาดเท่าไหร่?)

Alan Genz มีโค้ดที่ดีมากในหลากหลายภาษา (R, Matlab, Fortran; ดูที่นี่ ) สำหรับการคำนวณอินทิกรัลของความหนาแน่นปกติหลายตัวแปรในรูปสี่เหลี่ยมหลายมิติ (เช่นอินทิกรัลชนิดที่คุณต้องการประเมินความน่าจะเป็น user28)

ฉันใช้ฟังก์ชั่นเหล่านี้ ("ADAPT" และ "QSIMVN") สำหรับอินทิกรัลสูงสุด 10-12 มิติและฟังก์ชั่นหลายอย่างในหน้านั้นโฆษณาอินทิกรัล (และอนุพันธ์ที่คุณอาจต้องการ) สำหรับปัญหาสูงถึง 100 มิติ ไม่ทราบว่ามีขนาดเพียงพอสำหรับวัตถุประสงค์ของคุณหรือไม่ แต่ถ้าเป็นเช่นนั้นอาจช่วยให้คุณสามารถประมาณการความเป็นไปได้สูงสุดโดยการไล่ระดับสีขึ้น


โอ้ขอโทษ - ฉันใหม่ที่นี่และไม่ได้สังเกตว่าโพสต์เมื่อนานมานี้ - อาจจะสายเกินไปที่จะช่วยได้มาก!
jpillow

@jp นี่เป็นปัญหาที่สำคัญอย่างต่อเนื่องดังนั้นเวลาที่ผ่านไประหว่างคำถามและคำตอบมีผลเล็กน้อย ขอบคุณสำหรับการตอบกลับ!
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.