ผมเองตีพิมพ์ความคิดพื้นฐานของความหลากหลายของเครือข่ายที่กำหนดขัดแย้งกำเนิด (Gans) ในบล็อกโพสต์ 2010 (archive.org) ฉันค้นหา แต่ไม่พบสิ่งที่คล้ายกันทุกที่และไม่มีเวลาลองใช้ ฉันไม่ได้และยังไม่ได้เป็นนักวิจัยเครือข่ายประสาทและไม่มีการเชื่อมต่อในสนาม ฉันจะคัดลอกโพสต์บล็อกที่นี่:
2010-02-24
วิธีการสำหรับการฝึกอบรมเครือข่ายประสาทเทียมในการสร้างข้อมูลที่ขาดหายไปในบริบทตัวแปร เนื่องจากความคิดนั้นยากที่จะใส่ประโยคเดียวฉันจะใช้ตัวอย่าง:
รูปภาพอาจมีพิกเซลที่ขาดหายไป (ภายใต้รอยเปื้อน) หนึ่งจะคืนค่าพิกเซลที่ขาดหายไปรู้เพียงพิกเซลโดยรอบได้อย่างไร วิธีการหนึ่งที่จะเป็น "ตัวสร้าง" โครงข่ายประสาทที่กำหนดพิกเซลโดยรอบเป็นอินพุตจะสร้างพิกเซลที่หายไป
แต่วิธีการฝึกอบรมเครือข่ายเช่นนี้? หนึ่งไม่สามารถคาดหวังว่าเครือข่ายในการผลิตพิกเซลที่ขาดหายไปอย่างแน่นอน ลองจินตนาการถึงตัวอย่างเช่นข้อมูลที่หายไปนั้นเป็นหญ้า เราสามารถสอนเครือข่ายด้วยภาพสนามหญ้าโดยที่บางส่วนถูกลบออก ครูรู้ข้อมูลที่หายไปและสามารถให้คะแนนเครือข่ายตามความแตกต่างของค่าเฉลี่ยราก (RMSD) ระหว่างแพทช์หญ้าที่สร้างขึ้นกับข้อมูลต้นฉบับ ปัญหาคือว่าถ้าเครื่องกำเนิดไฟฟ้าพบภาพที่ไม่ได้เป็นส่วนหนึ่งของชุดฝึกอบรมมันจะเป็นไปไม่ได้ที่เครือข่ายประสาทเทียมจะวางใบไม้ทั้งหมดโดยเฉพาะตรงกลางของแผ่นในสถานที่ที่เหมาะสม อาจเกิดข้อผิดพลาด RMSD ต่ำที่สุดโดยเครือข่ายที่เติมบริเวณกลางของแพทช์ด้วยสีทึบซึ่งเป็นค่าเฉลี่ยของสีของพิกเซลในภาพหญ้าทั่วไป หากเครือข่ายพยายามสร้างหญ้าที่ดูน่าเชื่อถือต่อมนุษย์และเป็นไปตามจุดประสงค์ของมันจะมีการลงโทษที่โชคร้ายจากระบบ RMSD
ความคิดของฉันคือ (ดูรูปด้านล่าง): ฝึกพร้อมกันกับเครื่องกำเนิดเครือข่ายลักษณนามที่ได้รับในแบบสุ่มหรือสลับลำดับข้อมูลที่สร้างและต้นฉบับ ตัวจําแนกต้องคาดเดาในบริบทของบริบทภาพโดยรอบไม่ว่าจะเป็นอินพุตเป็นต้นฉบับ (1) หรือสร้างขึ้น (0) เครือข่ายของตัวสร้างนั้นพยายามรับคะแนนสูง (1) จากตัวจําแนก ผลลัพธ์หวังว่าเป็นว่าทั้งสองเครือข่ายเริ่มต้นง่าย ๆ และก้าวหน้าไปสู่การสร้างและรับรู้คุณลักษณะขั้นสูงมากขึ้นเรื่อย ๆ ใกล้เข้ามาและอาจเอาชนะความสามารถของมนุษย์ในการแยกแยะระหว่างข้อมูลที่สร้างขึ้นกับต้นฉบับ หากมีการพิจารณาตัวอย่างการฝึกอบรมหลายครั้งสำหรับแต่ละคะแนน RMSD จะเป็นตัวชี้วัดข้อผิดพลาดที่ถูกต้องที่จะใช้
การตั้งค่าการฝึกอบรมเครือข่ายประสาทเทียม
เมื่อฉันพูดถึง RMSD ในตอนท้ายฉันหมายถึงตัวชี้วัดข้อผิดพลาดสำหรับ "การประมาณความน่าจะเป็น" ไม่ใช่ค่าพิกเซล
ฉันเริ่มพิจารณาการใช้เครือข่ายประสาทในปี 2000 (comp.dsp โพสต์)เพื่อสร้างความถี่สูงที่ขาดหายไปสำหรับเสียงดิจิตอล up-Sampling (resampled เป็นความถี่การสุ่มตัวอย่างที่สูงขึ้น) ในลักษณะที่จะเชื่อมากกว่าความถูกต้อง ในปี 2544 ฉันรวบรวมห้องสมุดเสียงเพื่อการฝึกอบรม นี่คือบางส่วนของบันทึก EFNet #musicdsp Internet Relay Chat (IRC) ตั้งแต่วันที่ 20 มกราคม 2549 ซึ่ง I (yehar) พูดคุยเกี่ยวกับแนวคิดกับผู้ใช้รายอื่น (_Beta):
[22:18] <yehar> ปัญหาเกี่ยวกับตัวอย่างคือถ้าคุณไม่มีอะไร "อยู่ที่นั่น" แล้วคุณจะทำอะไรได้ถ้าคุณยกตัวอย่าง ...
[22:22] <yehar> ฉันเคยเก็บใหญ่ ไลบรารีของเสียงเพื่อที่ฉันจะได้พัฒนาอัลโล "สมาร์ท" เพื่อแก้ปัญหาที่แน่นอนนี้
[22:22] <yehar> ฉันจะใช้เครือข่ายประสาท
[22:22] <yehar> แต่ฉันทำงานไม่เสร็จ: - D
[22:23] <_Beta> ปัญหาเกี่ยวกับเครือข่ายประสาทคือคุณต้องมีวิธีการวัดความดีของผลลัพธ์
[22:24] <yehar> เบต้า: ฉันมีความคิดนี้ว่าคุณสามารถพัฒนา "ผู้ฟัง" ที่ ในขณะเดียวกันกับที่คุณพัฒนา "ผู้สร้างเสียงที่ฉลาดขึ้น"
[22:26] <yehar> เบต้า: และผู้ฟังนี้จะได้เรียนรู้ที่จะตรวจจับเมื่อฟังคลื่นความถี่ที่สร้างขึ้นหรือเป็นธรรมชาติ และผู้สร้างพัฒนาขึ้นในเวลาเดียวกันเพื่อพยายามหลีกเลี่ยงการตรวจจับนี้
บางครั้งระหว่างปี 2549 ถึงปี 2553 เพื่อนคนหนึ่งเชิญผู้เชี่ยวชาญมาดูความคิดของฉันและพูดคุยกับฉัน พวกเขาคิดว่ามันน่าสนใจ แต่บอกว่ามันไม่คุ้มค่ากับการฝึกอบรมสองเครือข่ายเมื่อเครือข่ายเดียวสามารถทำงานได้ ฉันไม่เคยแน่ใจว่าพวกเขาไม่ได้รับแนวคิดหลักหรือหากพวกเขาเห็นวิธีการกำหนดเป็นเครือข่ายเดียวทันทีอาจมีปัญหาคอขวดบางแห่งในโทโพโลยีเพื่อแยกมันออกเป็นสองส่วน นี่เป็นช่วงเวลาที่ฉันไม่รู้ด้วยซ้ำว่า backpropagation ยังคงเป็นวิธีการฝึกอบรมแบบพฤตินัย (เรียนรู้ว่าการทำวิดีโอในความบ้าคลั่งใน Deep Dream ปี 2558) ในช่วงหลายปีที่ผ่านมาฉันได้พูดคุยเกี่ยวกับความคิดของฉันกับนักวิทยาศาสตร์ด้านข้อมูลและคนอื่น ๆ ที่ฉันคิดว่าอาจสนใจ แต่การตอบสนองนั้นไม่รุนแรง
ในเดือนพฤษภาคม 2560 ฉันเห็นการนำเสนอการสอนของ Ian Goodfellow บน YouTube [Mirror]ซึ่งทำให้วันของฉันสมบูรณ์ ดูเหมือนว่าฉันจะเป็นแนวคิดพื้นฐานเดียวกันมีความแตกต่างตามที่ฉันเข้าใจอยู่ด้านล่างและการทำงานอย่างหนักเพื่อให้ผลลัพธ์ที่ดี นอกจากนี้เขายังให้ทฤษฎีหรือทุกอย่างขึ้นอยู่กับทฤษฎีว่าทำไมมันควรทำงานในขณะที่ฉันไม่เคยทำการวิเคราะห์ความคิดของฉัน งานนำเสนอของ Goodfellow ตอบคำถามที่ฉันมีและอีกมากมาย
GAN ของ Goodfellow และส่วนขยายที่เขาแนะนำรวมถึงแหล่งกำเนิดเสียงในเครื่องกำเนิด ฉันไม่เคยคิดที่จะรวมแหล่งที่มาของเสียง แต่มีบริบทข้อมูลการฝึกอบรมแทนการจับคู่ความคิดกับGANแบบมีเงื่อนไข (cGAN) โดยไม่มีอินพุตเวกเตอร์เสียงรบกวนและกับโมเดลที่มีเงื่อนไขในส่วนของข้อมูล ความเข้าใจปัจจุบันของฉันอยู่บนพื้นฐานของMathieu และคณะ 2016คือแหล่งสัญญาณรบกวนไม่จำเป็นสำหรับผลลัพธ์ที่มีประโยชน์หากมีความแปรปรวนของอินพุตที่เพียงพอ ข้อแตกต่างอื่น ๆ คือ GAN ของ Goodfellow ลดความน่าจะเป็นในการบันทึก ต่อมาแนะนำ GAN (LSGAN) อย่างน้อยสองสี่เหลี่ยม ( Mao et al. 2017) ซึ่งตรงกับข้อเสนอแนะของฉัน RMSD ดังนั้นความคิดของฉันจะจับคู่กับเครือข่ายฝ่ายตรงข้ามที่มีเงื่อนไขกำลังสองน้อยที่สุด (cLSGAN) โดยไม่มีอินพุตเวกเตอร์เสียงไปยังเครื่องกำเนิดไฟฟ้าและมีส่วนหนึ่งของข้อมูลเป็นอินพุตปรับอากาศ กำเนิดตัวอย่างกำเนิดจากการประมาณของการกระจายข้อมูลที่ ตอนนี้ฉันรู้ว่าและสงสัยว่าการป้อนข้อมูลที่มีเสียงดังในโลกแห่งความจริงจะเปิดใช้งานด้วยความคิดของฉัน แต่ไม่ได้บอกว่าผลลัพธ์จะไม่เป็นประโยชน์ถ้ามันไม่ได้
ความแตกต่างที่กล่าวถึงข้างต้นเป็นสาเหตุหลักที่ทำให้ฉันเชื่อว่า Goodfellow ไม่รู้จักหรือได้ยินเกี่ยวกับความคิดของฉัน อีกอย่างคือบล็อกของฉันไม่มีเนื้อหาการเรียนรู้ของเครื่องอื่น ๆ ดังนั้นมันจึงมีความสุขมากในการเรียนรู้ของเครื่อง
มันเป็นความขัดแย้งทางผลประโยชน์เมื่อผู้ตรวจสอบสร้างแรงกดดันต่อผู้เขียนเพื่ออ้างถึงผลงานของผู้ตรวจสอบ