การตรวจจับค่าผิดปกติในชุดเล็กมาก


12

ฉันต้องได้ค่าที่ถูกต้องที่สุดเท่าที่จะเป็นไปได้สำหรับความสว่างของแหล่งกำเนิดแสงที่เสถียรเป็นหลักซึ่งให้ค่าความส่องสว่างตัวอย่างสิบสองค่า เซ็นเซอร์ไม่สมบูรณ์และแสงบางครั้งอาจ "กะพริบ" สว่างขึ้นหรือมืดลงซึ่งสามารถเพิกเฉยได้ดังนั้นฉันจึงจำเป็นต้องมีการตรวจจับในระยะไกล (ฉันคิดว่า?)

ฉันได้อ่านวิธีการต่าง ๆ ที่นี่และไม่สามารถตัดสินใจได้ว่าจะใช้วิธีใด จำนวนของค่าผิดปกติไม่เคยทราบล่วงหน้าและมักจะเป็นศูนย์ โดยทั่วไปการสั่นไหวนั้นเป็นค่าเบี่ยงเบนขนาดใหญ่มากจากความสว่างที่คงที่ (เพียงพอที่จะยุ่งกับค่าเฉลี่ยที่ถ่ายด้วยของที่มีขนาดใหญ่) แต่ไม่จำเป็นต้องเป็นเช่นนั้น

ต่อไปนี้เป็นตัวอย่างชุดการวัด 12 รายการสำหรับความสมบูรณ์ของคำถาม:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

ความรู้สึกของฉันไม่น่าจะมีค่าผิดปกติในชุดนั้นแม้ว่า 292 และ 295 ดูสูงเล็กน้อย

ดังนั้นคำถามของฉันคืออะไรวิธีที่ดีที่สุดที่นี่? ฉันควรพูดถึงว่าค่ามาจากการใช้ระยะทางแบบยุคลิดของส่วนประกอบ RG และ B ของแสงจากจุดศูนย์ (สีดำ) มันจะเจ็บปวดโดยทางโปรแกรม แต่เป็นไปได้ที่จะกลับไปใช้ค่าเหล่านี้หากจำเป็น ระยะทางแบบยุคลิดนั้นใช้เป็นตัวชี้วัดของ "ความแข็งแรงโดยรวม" เนื่องจากฉันไม่ได้สนใจสีแค่ความแรงของเอาท์พุท อย่างไรก็ตามมีโอกาสที่เหมาะสมที่กะพริบที่ฉันกล่าวถึงมีองค์ประกอบ RGB ที่แตกต่างกันไปยังเอาต์พุตปกติ

ในขณะนี้ฉันกำลังเล่นกับฟังก์ชั่นบางอย่างที่จะทำซ้ำจนกว่าจะถึงการเป็นสมาชิกที่มั่นคงของมาตรการที่ได้รับอนุญาต:

  1. การหาค่าเบี่ยงเบนมาตรฐาน
  2. วางทุกอย่างไว้นอกพูด 2 SDs ลงในรายการที่ไม่สนใจ
  3. คำนวณค่าเฉลี่ยและ SD ใหม่โดยไม่รวมรายการเพิกเฉย
  4. ตัดสินใจว่าใครควรเพิกเฉยโดยอิงจากค่าเฉลี่ยใหม่และ SD (ประเมินทั้ง 12)
  5. ทำซ้ำจนกระทั่งมั่นคง

มีคุณค่าในวิธีการนั้นหรือไม่?

ความคิดเห็นทั้งหมดได้รับการยอมรับอย่างสุดซึ้ง!


เจ็บปวดแม้ว่ามันจะเป็นการเก็งกำไรของคุณว่าการสั่นไหวอาจมีองค์ประกอบ RGB ที่แตกต่างกัน (แม้ว่าบางครั้งระยะทางที่คล้ายกันจากสีดำ) จะคุ้มค่าการติดตาม อีกทางเลือกหนึ่งคือใช้ค่ามัธยฐานแทนค่าเฉลี่ยทั้งนี้ขึ้นอยู่กับเป้าหมายของคุณ
Wayne

คำตอบ:


7

ค่าผิดปกติในตัวอย่างขนาดเล็กสามารถตรวจจับได้ยาก ในกรณีส่วนใหญ่จริง ๆ แล้วฉันจะสนับสนุนว่าถ้าคุณรู้สึกว่าข้อมูลของคุณไม่ได้รับความเสียหายอย่างตรงไปตรงมาค่า "นอกรีต" อาจไม่เป็นปัญหาและการยกเว้นของมันอาจไม่มีเหตุผล อาจใช้เทคนิคทางสถิติที่แข็งแกร่งจะมีเหตุผลมากขึ้นและใกล้กับโซลูชั่นกลางพื้นดิน คุณมีตัวอย่างเล็ก ๆ พยายามทำให้ทุกจุดนับตัวอย่าง :)

เกี่ยวกับวิธีการที่แนะนำของคุณ: ฉันจะไม่บังคับใช้สมมติฐานเชิงบรรทัดฐานกับข้อมูลของคุณด้วยกฎ 68-95-99.7 กับพวกเขา (อย่างที่คุณดูเหมือนจะทำกับกฎการเรียนรู้ 2SD ของคุณ) ความไม่เท่าเทียมกันของ Chebyshev ครั้งหนึ่งถือว่ากฎ 75-88.9-93.8 กับพวกเขาซึ่งมีความเข้มงวดน้อยลงอย่างชัดเจน " กฎ " อื่น ๆก็มีอยู่เช่นกัน ระบุค่าผิดปกติในส่วนขอบเขตแทรกในวิกิพีเดียมีกำของการวิเคราะห์พฤติกรรม

นี่คืออีกหนึ่ง: การอ้างอิงหนังสือฟรีที่ฉันได้เจอในเรื่อง, NIST / SEMATECH e-Handbook ของวิธีการทางสถิตินำเสนอแนวคิดต่อไปนี้โดย Iglewicz และ Hoaglin (1993): ใช้ scoresดัดแปลงดังเช่น:MZM

Mi=.6745(xix~)/MAD

โดยที่เป็นค่ามัธยฐานของคุณและ MAD คือค่าเบี่ยงเบนสัมบูรณ์แบบกลางของตัวอย่างของคุณ จากนั้นสมมติว่าค่าสัมบูรณ์ของสูงกว่า 3.5 เป็นค่าผิดปกติ มันเป็นข้อเสนอแนะแบบกึ่งพารามิเตอร์ (ซึ่งส่วนใหญ่เป็นพารามิเตอร์ที่นี่คือ ) ในกรณีตัวอย่างของคุณมันจะไม่รวมค่า 295.5 เล็กน้อย แต่เก็บค่าวัด 292.6 ของคุณไว้อย่างชัดเจน ... (สำหรับสิ่งที่คุ้มค่าฉันจะไม่แยกค่าใด ๆ ออกจากกรณีตัวอย่างของคุณ) M3.5x~M3.5

ถ้าคุณเชื่อว่าตัวอย่างของคุณไม่เสียหายอย่างเห็นได้ชัด (มนุษย์สูง 9'4 ") ฉันขอแนะนำให้คุณอย่าแยกข้อมูลอย่างเร่งด่วน" ผู้ต้องสงสัยที่สงสัย "อาจเป็นข้อมูลที่ไม่เสียหาย การใช้งานของพวกเขาสามารถช่วยได้จริงแทนที่จะเป็นอันตรายต่อการวิเคราะห์ของคุณ


1
เป็นจุดเล็ก ๆ แต่อาจเป็นไปได้ที่จะกัดโดยเฉพาะอย่างยิ่งถ้าเอกสารของคุณอ่านหรืออ้างถึงอย่างไม่ระมัดระวัง: ฉันแนะนำอย่างยิ่งต่อสัญกรณ์สำหรับค่ามัธยฐานเนื่องจากการใช้งานทั่วไปเป็นค่าเฉลี่ย ผิดปกติหรือไม่ไม่มีสัญกรณ์ดูเหมือนที่นิยมใช้สำหรับแบ่ง แต่เกือบทุกอย่างจะดีกว่าเช่น med หรือx ˉ x ˜ xx¯x¯x~
Nick Cox

1
+1 สำหรับการเน้นย้ำถึงคุณค่าของบทสรุปที่แข็งแกร่ง ดูหัวข้ออื่น ๆ ในเว็บไซต์นี้
Nick Cox

1
@ NickCox: จุดดีฉันไม่ทราบว่าสิ่งที่ฉันคิดในตอนแรก เปลี่ยนทันที ขอบคุณสำหรับคำแนะนำ
usεr11852

0

การทดสอบ Q ของ Dixon สำหรับผู้ผิดพลาดในชุดข้อมูลขนาดเล็กมากดูเหมือนจะเหมาะสมกับสถานการณ์เช่นนี้:

http://en.wikipedia.org/wiki/Dixon%27s_Q_test

http://www.chem.uoa.gr/applets/AppletQtest/Text_Qtest2.htm


No! เนื่องจากการทดสอบของ Dixon สามารถตรวจพบค่าผิดปกติได้มากที่สุด (ดูลิงค์ที่นี่ ) และ OP ไม่เคยพูดถึงว่าเขามีค่าผิดเพียงครั้งเดียว
user603

0

ชี้ไปที่แรก - มันอาจคุ้มค่าที่จะกลับไปเป็นสี rgb เป็นการดีที่จะทิ้งข้อมูลและขนาดของเวกเตอร์ rgb ไม่ใช่วิธีเดียวที่จะแสดงความสว่างได้ - ความสว่างที่รับรู้แตกต่างกันเช่นเดียวกับค่าใน HSV

แต่เมื่อพิจารณาถึงด้านหนึ่งแล้วจัดการกับข้อมูลที่คุณมีคุณได้พิจารณาแล้วว่าการสร้างปัญหานี้เป็นปัญหาการจำแนกประเภทแทนที่จะเป็นแบบจำลองและทำการเรียนรู้ด้วยเครื่อง คุณมีอินพุตซึ่งเป็นเวกเตอร์ที่มีค่าจริง 12 ค่า (การอ่านความสว่าง) คุณมีเอาต์พุตซึ่งเป็นเวกเตอร์ของค่าไบนารี่ 12 ค่า (1 = inlier, 0 = ค่าผิดปกติ) รับการอ่านค่าความสว่างหลาย ๆ ชุดและติดป้ายกำกับด้วยตนเองเพื่อแสดงว่าการอ่านความสว่างในแต่ละชุดนั้นเป็นค่าใน / นอก บางสิ่งเช่นนี้

x1 = {212.0, 209.6, 211.5, , 213.0}, y1 = {1,0,1, , 1}...

x2 = {208.1, 207.9, 211.2, , 208.2}, y2 = {1,1,0, , 1}...

x3 = {223.4, 222.9, 222.8, , 223.0}, y3 = {1,1,1, , 1}...

จากนั้นเรียกใช้ล็อตทั้งหมดผ่านตัวจําแนกประเภท:

  • คุณสามารถใช้ตัวจําแนกเดี่ยวซึ่งส่งค่า 12 ค่าไบนารีที่แตกต่างกัน - เครือข่ายประสาทจะช่วยให้คุณตั้งค่านี้ได้อย่างง่ายดาย
  • หรือคุณสามารถใช้ตัวจําแนกไบนารีแบบมาตรฐาน (เช่นSVMlite ) และฝึกอบรม 12 รุ่นที่แตกต่างกันได้หนึ่งการจําแนกว่าแต่ละองค์ประกอบของผลลัพธ์เป็น inlier / outlier หรือไม่

และคุณทำเสร็จแล้ว! ไม่ต้องวุ่นวายกับการพยายามหา 'กฎ' ที่แยก inliers ออกจากตัวคุณเอง เพิ่งได้รับชุดข้อมูลสองสามชุดที่ดูสมเหตุสมผลและปล่อยให้เครื่องทำเพื่อคุณ :)

~~~

แก้ไข: อนึ่งวิธีการนำเสนอของคุณซึ่งคุณซ้ำแบบ Gaussian แล้วจัดประเภทตัวอย่างแต่ละค่ามากกว่า 2 ค่าเบี่ยงเบนมาตรฐานเป็นค่าผิดปกติดูเหมือนเป็นอัลกอริธึมการเพิ่มความคาดหวังสูงสุด บางสิ่งเช่นนี้

  • องค์ประกอบ Gaussian เดียว (การสร้างแบบจำลอง inliers)
  • องค์ประกอบพื้นหลังที่สม่ำเสมอ (ค่าผิดปกติ)
  • ความน่าจะเป็นก่อนหน้าของบางอย่างนั้นขึ้นอยู่กับวิธีที่ไม่ชัดเจนต่อความกว้างของเกาส์เซียน (กฎ 'จัดประเภทที่ 2 ส่วนเบี่ยงเบนมาตรฐาน')
  • การจัดประเภทอย่างหนักในขั้นตอนที่คาดหวัง

หากคุณไปตามเส้นทางนั้นอาจคุ้มค่ากับ googling สำหรับอัลกอริทึม EM และตรวจสอบสมมติฐานที่คุณกำลังสร้างในแบบจำลองของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.