เทคนิคการเสริมข้อมูลที่มีประโยชน์สำหรับเครือข่ายประสาทเทียมระดับลึกคืออะไร?


13

พื้นหลัง: ฉันเพิ่งเข้าใจในระดับลึกถึงความสำคัญของการเสริมข้อมูลเมื่อการฝึกอบรมเครือข่ายประสาทสับสนหลังจากที่ได้เห็นการพูดคุยที่ดีเยี่ยมนี้โดยเจฟฟรีย์ฮินตัน

เขาอธิบายว่าโครงข่ายประสาทเทียมแบบยุคปัจจุบันไม่สามารถสรุปกรอบการอ้างอิงของวัตถุภายใต้การทดสอบทำให้ยากสำหรับเครือข่ายที่จะเข้าใจอย่างแท้จริงว่าภาพสะท้อนของวัตถุนั้นเหมือนกัน

งานวิจัยบางชิ้นพยายามแก้ไขสิ่งนี้ นี่คือหนึ่งในตัวอย่างมากมาย ฉันคิดว่าสิ่งนี้ช่วยในการกำหนดวิธีการเพิ่มข้อมูลที่สำคัญในวันนี้เมื่อฝึกอบรมเครือข่ายประสาทเทียม

เทคนิคการเสริมข้อมูลมักจะไม่ได้ทำการเปรียบเทียบกัน ดังนั้น:

คำถาม:

  • มีเอกสารอะไรบ้างที่ผู้ปฏิบัติงานรายงานว่ามีประสิทธิภาพดีขึ้นเป็นพิเศษ

  • เทคนิคการเสริมข้อมูลที่คุณพบว่ามีประโยชน์อะไรบ้าง?


สวัสดี @rhadar คุณมีข่าวบ้างไหม? ขอบคุณ :)
nullgeppetto

คำตอบ:


1

วินาที. 1: การเพิ่มข้อมูลเนื่องจากเครือข่ายที่มีความลึกจำเป็นต้องได้รับการฝึกอบรมเกี่ยวกับภาพการฝึกอบรมจำนวนมากเพื่อให้ได้ประสิทธิภาพที่น่าพอใจหากชุดข้อมูลภาพต้นฉบับมีภาพการฝึกอบรมที่ จำกัด นอกจากนี้การเพิ่มข้อมูลยังเป็นสิ่งที่ต้องทำเมื่อฝึกอบรมเครือข่ายลึก

  • มีหลายวิธีในการเพิ่มข้อมูลเช่นการพลิกในแนวนอนการครอบตัดแบบสุ่มและการกระตุกสี ยิ่งไปกว่านั้น
    คุณสามารถลองผสมผสานการประมวลผลที่แตกต่างกันหลายอย่างเช่น
    ทำการหมุนและปรับขนาดแบบสุ่มในเวลาเดียวกัน นอกจากนี้
    คุณสามารถลองเพิ่มความอิ่มตัวของสีและค่า (องค์ประกอบ S และ V ของ
    พื้นที่สี HSV) ของพิกเซลทั้งหมดให้เป็นกำลังระหว่าง 0.25 และ 4 (เหมือนกัน
    สำหรับพิกเซลทั้งหมดภายในแพทช์) คูณค่าเหล่านี้ด้วยอัตรา
    0.7 และ 1.4 และเพิ่มค่าระหว่าง -0.1 ถึง 0.1
    นอกจากนี้คุณสามารถเพิ่มค่าระหว่าง [-0.1, 0.1] ไปยัง hue (
    องค์ประกอบH ของ HSV) ของพิกเซลทั้งหมดในรูปภาพ / แพตช์

  • Krizhevsky และคณะ 1เสนอ PCA แฟนซีเมื่อฝึกอบรม Alex-Net ที่มีชื่อเสียงในปี 2012 Fancy PCA เปลี่ยนความเข้มของ
    ช่องRGB ในภาพการฝึกอบรม ในทางปฏิบัติคุณสามารถดำเนินการ PCA ในชุดพิกเซลค่า RGB ในรูปภาพฝึกอบรมของคุณก่อน และ
    แล้วสำหรับภาพการฝึกอบรมแต่ละเพียงเพิ่มปริมาณต่อไปนี้
    แต่ละพิกเซลภาพ RGB (เช่น I_ {XY} = [I_ {XY} ^ R, I_ {XY} ^ G, I_ {XY} ^ B] ^ T ):
    [bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
    lambda_3] ^ T โดยที่ bf {p} _i และ lambda_i เป็น i-th eigenvector และ
    eigenvalue ของเมทริกซ์ความแปรปรวน 3times 3 ของค่าพิกเซล RGB
    ตามลำดับและ alpha_i เป็นตัวแปรสุ่มที่ดึงมาจาก Gaussian
    ด้วยค่าเฉลี่ยศูนย์และส่วนเบี่ยงเบนมาตรฐาน 0.1 โปรดทราบว่าแต่ละ
    alpha_i จะถูกวาดเพียงครั้งเดียวสำหรับพิกเซลทั้งหมดของ
    ภาพการฝึกอบรมเฉพาะจนกว่าภาพนั้นจะใช้สำหรับการฝึกอบรมอีกครั้ง กล่าวคือ
    เมื่อแบบจำลองตรงกับภาพการฝึกเดียวกันอีกครั้งมันจะ
    สุ่ม alpha_i อีกอันสำหรับการเพิ่มข้อมูล ใน1พวกเขา
    อ้างว่า“ แฟนซี PCA สามารถประมาณ
    คุณสมบัติสำคัญของภาพธรรมชาติกล่าวคือเอกลักษณ์ของวัตถุนั้นไม่เปลี่ยนแปลงจากการเปลี่ยนแปลงในความเข้มและสีของแสง” ในการ
    จำแนกประเภทโครงการนี้ลดอัตราความผิดพลาดอันดับ 1
    โดยการแข่งขันของ ImageNet 2012 มากกว่า 1%

(ที่มา: ต้องรู้เคล็ดลับ / เทคนิคในโครงข่ายประสาทเทียมลึก (โดย Xiu-Shen Wei))

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.