เทคนิคการเพิ่มข้อมูลสำหรับชุดข้อมูลทั่วไป?


21

ในหลาย ๆ แอปพลิเคชันการเรียนรู้ของเครื่องวิธีการเสริมข้อมูลที่เรียกว่าได้อนุญาตให้สร้างแบบจำลองที่ดีกว่า ตัวอย่างเช่นสมมติชุดฝึกสุนัขและแมวจำนวนภาพ โดยการหมุน, การทำมิเรอร์, การปรับคอนทราสต์ ฯลฯ เป็นไปได้ที่จะสร้างภาพเพิ่มเติมจากภาพต้นฉบับ100

ในกรณีของภาพการเพิ่มข้อมูลค่อนข้างตรงไปตรงมา อย่างไรก็ตามสมมติว่ามีตัวอย่างชุดฝึกอบรมจำนวนตัวอย่างและตัวแปรต่อเนื่องสองสามร้อยตัวที่เป็นตัวแทนของสิ่งต่าง ๆ การเพิ่มข้อมูลดูเหมือนจะไม่ง่ายอีกต่อไป จะทำอะไรได้บ้างในกรณีเช่นนี้?100


2
ฉันคิดว่าวิธีการบางอย่างเช่น PCA หรือ AE ยังคงใช้งานง่ายสำหรับการเพิ่มข้อมูล วิธีแรกคือใช้ PCA และเก็บค่า k แรกและกำหนดค่าลักษณะเฉพาะแบบสุ่มจากการบิดเบือน, เกาส์เซียน ฯลฯ หากวิธีอื่นใช้ตัวเข้ารหัสอัตโนมัติเพื่อสร้างข้อมูลเอง หากจำนวนหน่วยที่ซ่อนอยู่ใกล้กับหน่วยที่มองเห็นได้ก็สามารถสร้างตัวเองได้ค่อนข้างดี ข้อมูลที่สร้างใหม่สามารถใช้เป็นส่วนเสริมของข้อมูลได้
yasin.yazici

@mmh นี่ตอบคำถามของคุณหรือไม่
shf8888

@ yasin.yazici สวัสดี คุณช่วยอธิบายเล็กน้อยเกี่ยวกับการเพิ่มข้อมูลด้วย pca ได้ไหม สมมติว่าฉันมีข้อมูลและ50เป็นมิติคุณลักษณะ ตอนนี้ฉันทำ PCA และพบว่า30อันดับแรกของ eigenvector นั้นเพียงพอแล้ว ฉันควรทำอย่างไรใน20 ไอเกนวีคเตอร์ถัดไปและฉันจะแนะนำการสุ่มได้อย่างไร 100x50503020
roni

ดูวิทยานิพนธ์ปริญญาโทของฉันหน้า 80สำหรับภาพรวมของเทคนิคการเติมข้อมูลสำหรับภาพ
Martin Thoma

การเพิ่มข้อมูลทำให้มีความหมายสำหรับรูปภาพเช่น รูปภาพที่หมุนของวัตถุนั้นยังคงเป็นภาพของวัตถุและคุณต้องการแบบจำลองที่จะสัมผัสกับมัน แต่คุณคงไม่จำเป็นต้องมีภาพดังกล่าวในชุดข้อมูลของคุณ จำเป็นสำหรับ / จุดเพิ่มข้อมูลในกรณีนี้คืออะไร? ไม่ชัดเจนสำหรับฉันที่คุณควรทำเช่นนี้
gung - Reinstate Monica

คำตอบ:


17

ฉันเข้าใจคำถามนี้ว่าเกี่ยวข้องกับการสร้างฟีเจอร์และการจัดการกับฟีเจอร์ที่คุณมีอยู่แล้ว + จะสร้างขึ้นเมื่อเทียบกับข้อสังเกตของคุณ ( N << P)

คุณสมบัติการก่อสร้าง

การขยายความคิดเห็นของ @ yasin.yazici วิธีที่เป็นไปได้ในการเพิ่มข้อมูลจะเป็น:

  • PCA
  • Auto-เข้ารหัส
  • การแปลงเช่นบันทึกพลัง ฯลฯ
  • การแบ่งตัวแปรต่อเนื่องออกเป็นหมวดหมู่ (เช่นตัวแปรต่อเนื่องคือ 1 SD สูงกว่าค่าเฉลี่ย, 1 ค่าเฉลี่ยต่ำกว่า ฯลฯ )
  • ตัวแปรคอมโพสิต (ตัวอย่างเช่นดูที่นี่ )

ฉันแน่ใจว่ามีอีกมากมายที่ฉันหายไป

การเลือกคุณสมบัติ / การลดขนาด

คุณสามารถลดมิติข้อมูลด้วยเทคนิคต่าง ๆ เช่น PCA (แม้ว่าอาจไม่ใช่หลังจากเพิ่มข้อมูลของคุณด้วยตัวแปร PCA) หรือคุณอาจใช้อัลกอริทึมที่ดำเนินการเลือกคุณสมบัติสำหรับคุณเช่นบ่วงบาศฟอเรสต์แบบสุ่มเป็นต้น


2
คุณช่วยบอกได้ไหมว่าการเข้ารหัสอัตโนมัติสามารถใช้ในการสร้างคุณลักษณะได้อย่างไร
roni

1
@roni การฝึกอบรมที่ประสบความสำเร็จของ autoencoder ทำให้การแสดงข้อมูลบางอย่างในระดับที่สูงขึ้นของนามธรรม หวังว่าการเป็นตัวแทนที่มีประโยชน์มากขึ้นที่คุณสามารถใช้ในตัวจําแนก
Chris Anderson

0

ฉันประสบปัญหาคล้ายกันซึ่งฉันต้องการเพิ่มข้อมูลตัวเลขที่ไม่มีป้ายกำกับ ฉันเติมข้อมูลด้วยวิธีต่อไปนี้: (บอกว่าฉันมีชุดข้อมูลขนาด 100 * 10)

  1. สร้างรายการโดยสุ่มค่าตัวอย่างจาก {0,1} ซึ่งจำนวนศูนย์มีค่าน้อยกว่าจำนวน 1 วินาทีโดยบอกว่าสัดส่วนของ 0 คือ 20% ในกรณีนี้ ดังนั้นหนึ่งรายการจะมี 0 และ 1 ของความยาว 100
  2. ใช้รายการนี้เป็นตัวแปรตามและส่งผ่านไปยัง smote เพื่อสร้างจุดข้อมูลเพิ่มเติม (นี่คือ smote จะสร้างจุดบนขอบที่เชื่อมต่อจุดข้อมูลที่สอดคล้องกับ 0s ในรายการที่สร้างขึ้น)
  3. ทำซ้ำกระบวนการนี้จนกว่าจะได้รับชุดข้อมูลขนาดที่ต้องการ

1
โปรดอย่าโพสต์คำตอบที่เหมือนกันในหลายกระทู้ หากคุณเชื่อว่าคำตอบเดียวกับที่คุณโพสต์ไว้ที่อื่นตอบคำถามอื่นอย่างสมบูรณ์ให้ตั้งค่าสถานะคำถามนั้นซ้ำกับคำถามแรก
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.