การตรวจหาค่าผิดปกติทางออนไลน์


10

ฉันต้องการประมวลผลภาพกล้องจุลทรรศน์แบบแบ่งส่วนโดยอัตโนมัติเพื่อตรวจจับภาพที่ผิดปกติและ / หรือการแบ่งส่วนที่ผิดพลาดซึ่งเป็นส่วนหนึ่งของขั้นตอนการถ่ายภาพความเร็วสูง มีโฮสต์ของพารามิเตอร์ที่สามารถคำนวณได้สำหรับแต่ละอิมเมจดิบและการแบ่งเซ็กเมนต์และจะกลายเป็น "สุดขีด" เมื่อรูปภาพมีข้อบกพร่อง ตัวอย่างเช่นฟองอากาศในภาพจะส่งผลให้เกิดความผิดปกติเช่นขนาดใหญ่ในหนึ่งใน "เซลล์" ที่ตรวจพบหรือจำนวนเซลล์ต่ำผิดปกติสำหรับทั้งสนาม ฉันกำลังมองหาวิธีที่มีประสิทธิภาพในการตรวจจับกรณีผิดปกติเหล่านี้ เป็นการดีที่ฉันต้องการวิธีการที่มีคุณสมบัติดังต่อไปนี้ (ตามลําดับความต้องการ):

  1. ไม่ต้องการขีด จำกัด สัมบูรณ์ที่กำหนดไว้ล่วงหน้า (แม้ว่าเปอร์เซ็นต์ที่กำหนดไว้ล่วงหน้าจะใช้ได้);

  2. ไม่จำเป็นต้องมีข้อมูลทั้งหมดในหน่วยความจำหรือแม้แต่เคยเห็นข้อมูลทั้งหมด มันจะโอเคสำหรับวิธีการปรับตัวและปรับปรุงเกณฑ์เมื่อเห็นข้อมูลเพิ่มเติม (เห็นได้ชัดว่ามีความเป็นไปได้น้อยความผิดปกติอาจเกิดขึ้นก่อนที่ระบบจะเห็นข้อมูลเพียงพอและจะพลาด ฯลฯ )

  3. เป็นแบบขนานได้: เช่นในรอบแรกโหนดจำนวนมากทำงานในการผลิตความผิดปกติของผู้สมัครระดับกลางซึ่งจากนั้นจะได้รับการคัดเลือกรอบที่สองหนึ่งหลังจากรอบแรกเสร็จสมบูรณ์

ความผิดปกติที่ฉันกำลังมองหานั้นไม่ลึกซึ้ง มันเป็นชนิดที่ชัดเจนอย่างชัดเจนหากมองที่ฮิสโตแกรมของข้อมูล แต่ปริมาณของข้อมูลที่เป็นปัญหาและเป้าหมายสูงสุดของการตรวจจับความผิดปกติแบบเรียลไทม์เมื่อมีการสร้างภาพขึ้นตัดการแก้ปัญหาใด ๆ

ขอบคุณ!


ฉันถูกต้องไหมว่าปัญหาของคุณไม่ได้รับการแก้ไขเป็นหลัก?
user603

1
โพสต์ข้อมูลบางอย่างที่อาจช่วยให้ฉัน "เห็น" ปัญหาที่คุณมี ฉันค่อนข้างคุ้นเคยกับฮิสโทแกรมที่ไฮไลต์ค่าผิดปกติและฉันอาจให้คำแนะนำคุณเกี่ยวกับวิธีที่มีประสิทธิภาพในการตรวจสอบกรณีผิดปกติเหล่านี้โดยใช้วิธีทางสถิติแทนการตรวจสอบฮิสโตแกรมโดยผู้ประเมินมนุษย์ ดูการสนทนาเมื่อเร็ว ๆ นี้เกี่ยวกับการตรวจจับสเตตัสสุ่มสเต็ปexchange.com/questions/12955/… แน่นอนว่าคุณกำลังพยายามตรวจจับการละเมิดสเตรจ
IrishStat

คุณให้รายละเอียดเพิ่มเติมกับเราได้ไหม พารามิเตอร์ต่อเนื่องหรือไม่ต่อเนื่องหรือไม่? พารามิเตอร์ใดมีการกระจายสำหรับรูปภาพที่ไม่บกพร่อง เกาส์? พารามิเตอร์เป็นอิสระหรือสัมพันธ์กัน? คุณดึงข้อมูลพารามิเตอร์จำนวนเท่าใดต่อหนึ่งภาพ คุณต้องจัดการกับภาพกี่ภาพต่อวินาที บางทีคุณสามารถแสดงฮิสโตแกรมบางอย่างสำหรับพารามิเตอร์ทั่วไปบางอย่างในชุดข้อมูลขนาดใหญ่ของภาพที่ไม่ได้มีข้อบกพร่องแล้วแสดงฮิสโตแกรมที่เกี่ยวข้องสำหรับภาพที่มีข้อบกพร่องหรือไม่ นี่อาจช่วยหาทางออกที่ดี
DW

คำตอบ:


3

คุณคิดว่าเป็นลักษณนามระดับเดียวหรือไม่?

คุณจะต้องมีชุดฝึกอบรมของภาพที่รู้จักดีซึ่งใช้ในการฝึกอบรมตัวจําแนกที่พยายามแยกความแตกต่างระหว่าง "ภาพเหมือนชุดฝึกอบรมของคุณ" และทุกอย่างอื่น มีวิทยานิพนธ์โดย David Taxที่อาจมีข้อมูลมากกว่าที่คุณต้องการในหัวข้อจริง แต่อาจเป็นจุดเริ่มต้นที่ดี

นอกจากต้องการชุดฝึกอบรมแล้วดูเหมือนว่าจะเป็นไปตามความต้องการของคุณ:

  • พารามิเตอร์ได้รับการเรียนรู้จากข้อมูล (ไม่มีโฆษณาที่นี่)

  • เมื่อคุณมีโมเดลแล้วคุณไม่จำเป็นต้องเก็บข้อมูลไว้ในหน่วยความจำ

  • ตัวแยกประเภทที่ผ่านการฝึกอบรมสามารถทำงานบนโหนดได้มากเท่าที่คุณมี

ขึ้นอยู่กับแอปพลิเคชันของคุณคุณอาจสามารถฝึกอบรมตัวจําแนกแบบใช้งานได้หนึ่งครั้งและนํากลับมาใช้ใหม่สําหรับตัวอย่าง / ย้อม / คราบ / florophores / etc ประเภทต่างๆ หรือคุณอาจให้ผู้ใช้ให้คะแนนชุดแรกของการวิ่งแต่ละครั้งด้วยตนเอง - ฉันคิดว่ามนุษย์สามารถตรวจสอบอย่างน้อย 5-8 ตัวอย่าง / นาทีด้วยอินเทอร์เฟซที่ดี


2

ดูhttp://scholar.google.com/scholar?q=stream+outlier+detection

วิธีการที่กำหนดไว้สองสามอย่างเช่นLOFได้ถูกนำไปใช้กับบริบทการสตรีม นอกจากนี้ยังมีวิธีการเรียนการสอนที่อัปเดตฮิสโทแกรมในลักษณะการสตรีมด้วยเหตุนี้จึงตั้งค่าสถานะค่าผิดปกติในมิติเดียว นั่นอาจจะเพียงพอสำหรับคุณ


1

มีแนวทางที่เป็นไปได้มากมาย แต่ก็ยากที่จะรู้ว่าอะไรจะดีที่สุดในสถานการณ์ของคุณโดยไม่มีข้อมูลเพิ่มเติม

Rn

  • จัดเก็บเวกเตอร์คุณสมบัติของภาพก่อนหน้าทั้งหมดพร้อมกับการจัดประเภทไว้ในดิสก์ ฝึกพูดอัลกอริทึมการเรียนรู้เกี่ยวกับข้อมูลนี้เป็นระยะ ๆ และใช้อัลกอริทึมที่เกิดขึ้นเพื่อจำแนกภาพใหม่ พื้นที่ดิสก์มีราคาถูก วิธีนี้อาจเป็นวิธีปฏิบัติและมีประสิทธิภาพในการแปลงอัลกอริทึมการเรียนรู้แบบออฟไลน์เป็นวิธีการหนึ่งที่สามารถใช้ในการตั้งค่าออนไลน์ของคุณ

  • จัดเก็บเวกเตอร์คุณสมบัติของตัวอย่างแบบสุ่มจำนวน 1,000 ภาพก่อนหน้า (หรือ 1,000,000 ภาพ) พร้อมกับการจำแนกประเภท ฝึกอัลกอริทึมการเรียนรู้เป็นระยะ ๆ สำหรับชุดย่อยนี้

    โปรดทราบว่าคุณสามารถได้อย่างมีประสิทธิภาพปรับปรุง subsample นี้ในแฟชั่นออนไลน์โดยใช้เทคนิคมาตรฐาน นี่เป็นเรื่องที่น่าสนใจหากมีเหตุผลบางประการที่ทำให้การเก็บเวกเตอร์คุณลักษณะทั้งหมดของรูปภาพก่อนหน้านี้เป็นเรื่องยาก (ซึ่งดูเหมือนว่าจะจินตนาการยากสำหรับฉัน แต่ใครจะรู้)

  • nccn

    nμnσμiiσix|xiμi|cσiiμσ

    วิธีการนี้อนุมานว่าพารามิเตอร์แต่ละตัวจากอิมเมจที่ไม่มีข้อบกพร่องมีการแจกแจงแบบเกาส์และพารามิเตอร์นั้นเป็นอิสระ สมมติฐานเหล่านั้นอาจจะเป็นในแง่ดี มีรูปแบบที่ซับซ้อนกว่านี้อีกหลายรูปแบบซึ่งจะขจัดความต้องการของสมมติฐานเหล่านี้หรือปรับปรุงประสิทธิภาพ นี่เป็นเพียงตัวอย่างง่ายๆที่จะให้ความคิดแก่คุณ

โดยทั่วไปคุณสามารถดูอัลกอริทึมออนไลน์และอัลกอริทึมการสตรีม


DW ตัวกรอง / รุ่น ARIMA เป็นการเพิ่มประสิทธิภาพของ "ค่าเฉลี่ยที่กำลังรัน" โดยที่จำนวนเทอม (N) และน้ำหนักเฉพาะที่จะนำมาใช้จะถูกระบุโดยเชิงประจักษ์ แบบจำลองที่คาดเดาได้ชัดเจนและชัดเจนอย่างหนึ่งคือการคาดเดาจำนวน "ค่า" ที่จะใช้ใน "ค่าเฉลี่ยวิ่ง" และรวมความบ้าด้วยโดยสมมติว่าน้ำหนักนั้นมีค่าเท่ากัน
IrishStat

@IriishStat ไม่แน่ใจว่าฉันเข้าใจความคิดเห็นของคุณหรือไม่ ในกรณีที่งานเขียนของฉันไม่ชัดเจนฉันไม่ได้แนะนำ ARIMA ถึงแม้ว่ามันจะเป็นสิ่งที่เราควรพิจารณาเช่นกัน ฉันแนะนำสิ่งที่ง่ายกว่ามาก: ติดตามค่าเฉลี่ยของการสังเกตทั้งหมดจนถึงค่าเบี่ยงเบนมาตรฐาน ทุกครั้งที่คุณเห็นการสังเกตใหม่คุณสามารถอัปเดตค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน (ตราบใดที่คุณติดตามจำนวนการสังเกตที่มองเห็น) ด้วยวิธีมาตรฐาน มันอาจจะง่าย แต่ฉันไม่เห็นว่าทำไมสิ่งนี้ถึงไม่ได้ผล
DW

0

Rn

หากค่าผิดปกติค่อนข้างชัดเจนเทคนิคง่ายๆที่ใช้งานได้ดังต่อไปนี้ สร้างฟังก์ชันแฮชที่มีความอ่อนไหวในพื้นที่จากเวกเตอร์ของคุณ (แฮชแบบสุ่มอย่างง่ายเหมือนชุดด้านหนึ่งของไฮเปอร์เพลนแบบสุ่มที่เวกเตอร์ตกบนอาจทำงานได้ซึ่งจะทำให้เวกเตอร์บูลีนเป็นค่าแฮช) ในขณะที่คุณได้รับเวกเตอร์คุณคำนวณค่าแฮชของเวกเตอร์และร้านค้า ค่าแฮช (เวกเตอร์บูลีนในกรณีของไฮเปอร์เพลน) และจำนวนในพจนานุกรม คุณยังเก็บจำนวนเวกเตอร์ทั้งหมดที่มองเห็นได้ ในเวลาใดก็ตามคุณสามารถตั้งค่าสถานะเวกเตอร์ที่ระบุว่าเป็นค่าผิดปกติหากจำนวนเวกเตอร์ทั้งหมดที่ชนกับมันในแฮชน้อยกว่าเปอร์เซ็นต์ที่กำหนดไว้ล่วงหน้าทั้งหมด

คุณสามารถดูสิ่งนี้เป็นการสร้างฮิสโตแกรมในแบบเพิ่มขึ้น แต่เนื่องจากข้อมูลไม่ได้แปรเปลี่ยนเราจึงใช้เคล็ดลับการแปลงแป้นพิมพ์เพื่อให้มันทำงานเหมือนมัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.