การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา


18

TL; DR

  • เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร?
  • เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร?
  • คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์
  • อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต

Intro

นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน

ต่อมา

เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng

สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xi

วิธี

เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xi

{x1,x2,,xi}

พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

สำหรับแต่ละตัวอย่างการฝึกอบรมคำนวณ: p ( x ) = n j = 1 p ( x j ; μ j , σ 2 j )x

p(x)=j=1n p(xj;μj,σj2)

จากนั้นเราตั้งค่าสถานะเป็นความผิดปกติ ( ) ที่ให้: y = { 1y=1

y={1p(x)<ϵ0p(x)ϵ

สิ่งนี้ทำให้เรามีวิธีการที่จะตรวจสอบว่าตัวอย่างต้องมีการตรวจสอบเพิ่มเติม

คำถามของฉัน

ดูเหมือนว่าจะดีสำหรับตัวแปร / คุณสมบัติอย่างต่อเนื่องแต่ไม่มีการแยกข้อมูลที่ไม่ต่อเนื่อง

[IsMale]0,1p(x)

red1,blue2red1log()

คำถาม: (อัปเดต: 2015-11-24)

  • p(x)
  • p(x)
  • มีอีกวิธีหนึ่งที่คำนึงถึงสิ่งที่ฉันถามที่นี่ว่าฉันสามารถค้นคว้าเพิ่มเติม / เรียนรู้เพิ่มเติมได้หรือไม่?
  • วิธีที่แนะนำในการจัดการกับdiscreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร?
  • วิธีที่แนะนำในการจัดการกับcategoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร?

แก้ไข: 2017-05-03

  • คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์
  • อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต

<disclaimer> ฉันเป็นคนที่มีภูมิหลังที่เพียงพอที่จะเป็นอันตราย </disclaimer> ดังนั้นขออันตราย .... ปรีชาของฉันเห็นด้วยกับคุณว่า Gaussian ไม่ใช่วิธีจัดการข้อมูลที่ไม่ต่อเนื่อง สำหรับข้อมูลต่อเนื่องหนึ่งค่าในบรรทัดตัวเลขมีความสัมพันธ์เรียงลำดับที่แตกต่างกับค่าอื่น ๆ ทั้งหมดมากกว่าที่จะทำตัวเลขบนบรรทัดจำนวนเต็มหรือตัวแปรไบนารี การแจกแจงแบบทวินามอธิบายตัวแปรไบนารี การแจกแจงแบบหลายส่วนอธิบายตัวแปรหลายตัว สมาชิกครอบครัวชี้แจงทั้งหมดนี้ไม่ใช่เหรอ
EngrStudent - Reinstate Monica


อีกเรื่องหนึ่งที่อาจเพิ่มในการสนทนา: หัวข้อ: หมวดหมู่ผิดปกติ?
Adrian Torrie

pp(x;μ,σ2)=1σ2πe(xμ)22σ2

@uvts_cvs ใช่ฟังก์ชันความหนาแน่นของความน่าจะเป็นของ gaussaian คือสิ่งที่ใช้
Adrian Torrie

คำตอบ:


4

โดยทั่วไปสำหรับคุณลักษณะทั้งแบบแยก * และหมวดหมู่วิธีการนี้ไม่ได้รับการแก้ไขโดยเฉพาะอย่างยิ่งในการวิเคราะห์ที่ผิดพลาด เนื่องจากไม่มีขนาดที่เกี่ยวข้องกับตัวพยากรณ์หมวดหมู่เราจึงทำงานกับ:

  • ความถี่ของหมวดหมู่ที่สังเกตได้ในข้อมูลทั่วโลก
  • ความถี่ของหมวดหมู่ที่สังเกตได้ในพื้นที่ใช้งานย่อยของข้อมูล

โปรดทราบว่าคุณสมบัติเหล่านี้ไม่สามารถวิเคราะห์แยกได้ตามวิธีการเสียนของคุณ แต่เราต้องการวิธีการที่ทำให้คุณลักษณะที่เป็นหมวดหมู่เป็นบริบท & พิจารณาลักษณะที่สัมพันธ์กันของข้อมูล

ต่อไปนี้เป็นเทคนิคบางประการสำหรับข้อมูลแอตทริบิวต์ของการจัดหมวดหมู่และผสมตามการวิเคราะห์ Outlierโดย Aggarwal:

  • SS=Qkλk2QkTQkE=QkλkE
  • หากคุณมีคุณสมบัติเด็ดขาดอย่างแท้จริงให้พอดีกับรูปแบบผสมกับข้อมูลเด็ดขาดดิบ จุดผิดปกติมีความน่าจะเป็นกำเนิดต่ำสุด
  • ใช้การเข้ารหัสแบบร้อนเดียวสำหรับตัวทำนายหมวดหมู่และการวิเคราะห์ตัวแปรแฝงแบบเลือกได้** สำหรับตัวแปรลำดับที่มีการแมปแบบต่อเนื่องที่ไม่ชัดเจน
    • มาตรฐานคุณลักษณะที่ไม่ใช่หนึ่งร้อน (คุณลักษณะหนึ่งร้อนที่มีอยู่แล้วได้มาตรฐานโดยปริยาย) และดำเนินการวิเคราะห์องค์ประกอบหลัก ดำเนินการลดขนาดโดยใช้ส่วนประกอบหลักด้านบน (หรือวิธี PCA แบบนุ่มนวลซึ่ง eigenvector ถูกถ่วงน้ำหนักด้วยค่าลักษณะเฉพาะ) และเรียกใช้วิธีการวิเคราะห์ค่าคงที่ทั่วไปแบบต่อเนื่อง (เช่นแบบผสมหรือวิธี Gaussian ของคุณ)
    • ทำการวิเคราะห์ตามมุม สำหรับการสังเกตแต่ละครั้งให้คำนวณความเหมือนโคไซน์ของคะแนนทุกคู่ การสังเกตด้วยความแปรปรวนที่เล็กที่สุดของความคล้ายคลึงกันเหล่านี้ (หรือที่เรียกว่า อาจต้องมีการวิเคราะห์ขั้นสุดท้ายของการกระจายเชิงประจักษ์ของ ABOF เพื่อตรวจสอบสิ่งที่ผิดปกติ
    • หากคุณมีป้ายกำกับค่าผิดปกติ: ให้พอดีกับตัวแบบทำนายผลกับข้อมูลเชิงวิศวกรรม (การถดถอยโลจิสติกส์ SVM ฯลฯ )

* คุณสมบัติที่ไม่ต่อเนื่องอาจได้รับการจัดการโดยประมาณในวิธีการแบบเกาส์เซียนของคุณ ภายใต้เงื่อนไขที่ถูกต้องคุณลักษณะอาจได้รับการประมาณอย่างดีจากการแจกแจงแบบปกติ (เช่นตัวแปรสุ่มทวินามที่มี npq> 3) หากไม่เป็นเช่นนั้นให้จัดการตามกฎที่อธิบายไว้ข้างต้น

** สิ่งนี้คล้ายกับแนวคิดของคุณ "แทนที่ค่าหมวดหมู่ด้วยอัตราร้อยละของการสังเกต"


K=1

@Akababa ตัวอย่างเช่นคุณสามารถคำนวณ MLEs ในพารามิเตอร์ multinomial โดยใช้อัลกอริทึม EM สมมติว่าความเป็นอิสระของ multinomial RVs วิธีการนี้สรุปกับชุดพยากรณ์หมวดหมู่โดยพลการ ตัวอย่างที่นี่
khol

0

แอนดรูว์งคลาสคณิตศาสตร์จัดการกับข้อมูล "ไม่ต่อเนื่อง" ค่อนข้างเหมือนกับว่ามันจัดการข้อมูล "ไม่ต่อเนื่อง" สิ่งที่เราต้องทำคือประมาณค่าพารามิเตอร์การแจกแจงปกติและสามารถทำได้อย่างสมบูรณ์แบบสำหรับข้อมูลที่ไม่ต่อเนื่อง

หากคุณคิดเกี่ยวกับมันการเรียนรู้ของเครื่องจะเกี่ยวข้องกับข้อมูลที่ไม่ต่อเนื่องเสมอ: จำนวนของจุดข้อมูลนั้นไม่สิ้นสุดและจำนวนบิตที่จัดการโดยคอมพิวเตอร์จะไม่สิ้นสุด

หากจุดข้อมูลแยกสามารถเปรียบเทียบกันระหว่างกันแล้วไม่มีความแตกต่างพื้นฐานสำหรับวิธีการเรียนรู้ของเครื่องเมื่อจัดการกับพูดความยาว: 1.15 ft 1.34 ft 3.4 ft

หรือมีกิ่งกี่กิ่งบนต้นไม้: 1 2 3 5

คุณสามารถหาผลบวกและค่าเฉลี่ยของจำนวนจุดลอยตัวหรือตัวเลขทั้งหมดได้เหมือนกัน

ตอนนี้ไปยังข้อมูลที่เป็นหมวดหมู่ จุดข้อมูลที่เป็นหมวดหมู่ไม่สามารถเปรียบเทียบได้ {เทียบกับรถมอเตอร์ไซค์และเรือ) เราจะจัดการกับสิ่งนี้ได้อย่างไร

จำนวนหมวดหมู่จะต้องมีอย่างน้อยสองรายการเพื่อให้เข้าใจได้ ในกรณีที่มี 2 หมวดหมู่เราสามารถแสดงคุณลักษณะหมวดหมู่เป็นคุณลักษณะไบนารี {0, 1} 0 และ 1 สามารถใช้สำหรับคณิตศาสตร์ได้ดังนั้นดูด้านบน

หากจำนวนหมวดหมู่ (K) คือ [3 .. inf] เราจะแมปฟีเจอร์เดี่ยวของเรากับ K ฟีเจอร์เอกสิทธิ์เฉพาะตัวซึ่งกันและกัน ตัวอย่างเช่นหมวดหมู่ "รถจักรยานยนต์" กลายเป็นการรวมกันของคุณลักษณะเลขฐานสอง {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, จุดรับส่งข้อมูลจะกลายเป็น {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} เป็นต้น

เราสามารถประมาณพารามิเตอร์การกระจายเชิงประจักษ์จากคุณสมบัติใหม่เหล่านี้ เราจะมีมิติเพิ่มขึ้นเพียงเท่านี้


1
นี่เป็นการอธิบายการเข้ารหัสดัมมี่ แต่นั่นไม่ใช่คำตอบของคำถาม
ปีเตอร์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.