วิธีสร้างชุดข้อมูลสังเคราะห์โดยใช้โมเดลการเรียนรู้ของเครื่องเรียนรู้ด้วยชุดข้อมูลดั้งเดิมได้อย่างไร


19

โดยทั่วไปโมเดลการเรียนรู้ของเครื่องจะถูกสร้างขึ้นบนชุดข้อมูล ฉันต้องการที่จะทราบว่ามีวิธีการสร้างชุดข้อมูลสังเคราะห์โดยใช้รูปแบบการเรียนรู้ของเครื่องฝึกอบรมที่รักษาลักษณะชุดข้อมูลดั้งเดิมหรือไม่?

[ข้อมูลดั้งเดิม -> สร้างโมเดลการเรียนรู้ของเครื่อง -> ใช้โมเดล ML เพื่อสร้างข้อมูลสังเคราะห์ .... !!!]

เป็นไปได้ไหม ? กรุณาชี้ให้ฉันไปที่แหล่งข้อมูลที่เกี่ยวข้องถ้าเป็นไปได้

คำตอบ:


27

วิธีการทั่วไปคือการทำการวิเคราะห์ทางสถิติแบบดั้งเดิมบนชุดข้อมูลของคุณเพื่อกำหนดกระบวนการสุ่มหลายมิติที่จะสร้างข้อมูลที่มีลักษณะทางสถิติเหมือนกัน ข้อดีของวิธีนี้คือข้อมูลสังเคราะห์ของคุณไม่ขึ้นอยู่กับรุ่น ML ของคุณ แต่สถิติ "ปิด" กับข้อมูลของคุณ (ดูด้านล่างสำหรับการอภิปรายทางเลือกของคุณ)

โดยพื้นฐานแล้วคุณกำลังประเมินการกระจายความน่าจะเป็นหลายตัวแปรที่เกี่ยวข้องกับกระบวนการ เมื่อคุณประเมินการกระจายคุณสามารถสร้างข้อมูลสังเคราะห์ผ่านวิธีมอนติคาร์โลหรือวิธีการสุ่มตัวอย่างซ้ำ ๆ ที่คล้ายกัน หากข้อมูลของคุณคล้ายกับการแจกแจงแบบพารามิเตอร์บางอย่าง (เช่น lognormal) วิธีการนี้จะตรงไปตรงมาและเชื่อถือได้ ส่วนที่ยุ่งยากคือการประเมินการพึ่งพาระหว่างตัวแปร ดู: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistical_analysis

หากข้อมูลของคุณไม่สม่ำเสมอวิธีการที่ไม่ใช่พารามิเตอร์นั้นง่ายกว่าและอาจแข็งแกร่งกว่า การประมาณค่าความหนาแน่นแบบหลายตัวแปรเป็นวิธีการที่เข้าถึงได้และดึงดูดผู้ที่มีภูมิหลัง ML สำหรับการแนะนำทั่วไปและเชื่อมโยงไปยังวิธีการเฉพาะดู: https://en.wikipedia.org/wiki/Nonparametric_statistics

เพื่อตรวจสอบว่ากระบวนการนี้ใช้ได้ผลสำหรับคุณคุณต้องผ่านกระบวนการเรียนรู้ของเครื่องอีกครั้งด้วยข้อมูลที่สังเคราะห์ขึ้นมาและคุณควรจะจบลงด้วยแบบจำลองที่ใกล้เคียงกับต้นฉบับของคุณมากพอสมควร ในทำนองเดียวกันถ้าคุณใส่ข้อมูลที่สังเคราะห์ลงในโมเดล ML ของคุณคุณควรรับเอาท์พุทที่มีการแจกแจงแบบเดียวกันกับเอาต์พุตดั้งเดิมของคุณ

ในทางตรงกันข้ามคุณกำลังเสนอสิ่งนี้:

[ข้อมูลดั้งเดิม -> สร้างโมเดลการเรียนรู้ของเครื่อง -> ใช้โมเดล ML เพื่อสร้างข้อมูลสังเคราะห์ .... !!!]

สิ่งนี้ทำให้บางสิ่งแตกต่างกันไปตามวิธีที่ฉันเพิ่งอธิบาย สิ่งนี้จะช่วยแก้ปัญหาผกผัน : "อินพุตใดที่สามารถสร้างชุดเอาต์พุตโมเดลที่กำหนด" นอกจากโมเดล ML ของคุณจะพอดีกับข้อมูลต้นฉบับของคุณแล้วข้อมูลที่ถูกสังเคราะห์นี้จะไม่เหมือนกับข้อมูลต้นฉบับของคุณทุกประการหรือแม้แต่ส่วนใหญ่

พิจารณาโมเดลการถดถอยเชิงเส้น โมเดลการถดถอยเชิงเส้นเดียวกันสามารถมีขนาดพอดีกับข้อมูลที่มีลักษณะแตกต่างกันมาก การสาธิตที่มีชื่อเสียงของที่นี่คือผ่านสี่อินส์

ทั้งสี่ชุดนั้นเหมือนกันเมื่อตรวจสอบโดยใช้สถิติสรุปแบบง่าย ๆ แต่จะแตกต่างกันมากเมื่อทำกราฟ

คิดว่าฉันไม่มีข้อมูลอ้างอิงฉันเชื่อว่าปัญหานี้อาจเกิดขึ้นในการถดถอยโลจิสติกโมเดลเชิงเส้นทั่วไป SVM และ K- หมายถึงการจัดกลุ่ม

มี ML model บางชนิด (เช่นแผนผังการตัดสินใจ) ซึ่งเป็นไปได้ที่จะผกผันพวกมันเพื่อสร้างข้อมูลสังเคราะห์แม้ว่ามันจะใช้งานได้บ้าง โปรดดูที่: ฝ่ายผลิตสังเคราะห์ข้อมูลเพื่อตรงกับรูปแบบการทำเหมืองข้อมูล


ถึงเวลาอ่านเพิ่มเติมเกี่ยวกับการวิเคราะห์เชิงสถิติของ Monte-Carlo และหลายมิติ ... ขอบคุณสำหรับคำอธิบายที่ดี .. !!!
hadooper

2

มีวิธีการทั่วไปในการจัดการกับชุดข้อมูลที่ไม่สมดุลเรียกว่า SMOTE ซึ่งสร้างตัวอย่างสังเคราะห์จากคลาสของชนกลุ่มน้อย มันทำงานโดยรบกวนกลุ่มชนกลุ่มน้อยโดยใช้ความแตกต่างกับเพื่อนบ้าน (คูณด้วยจำนวนสุ่มบางอย่างระหว่าง 0 ถึง 1)

นี่คือคำพูดจากกระดาษต้นฉบับของ thew:

ตัวอย่างสังเคราะห์ถูกสร้างขึ้นด้วยวิธีต่อไปนี้: นำความแตกต่างระหว่างเวกเตอร์คุณลักษณะ (ตัวอย่าง) ภายใต้การพิจารณาและเพื่อนบ้านที่ใกล้ที่สุด คูณความแตกต่างนี้ด้วยตัวเลขสุ่มระหว่าง 0 ถึง 1 และเพิ่มลงในเวกเตอร์คุณลักษณะที่อยู่ระหว่างการพิจารณา

ท่านสามารถหาข้อมูลเพิ่มเติมได้ที่นี่


1

การเพิ่มข้อมูลเป็นกระบวนการสร้างตัวอย่างจากข้อมูลที่มีอยู่สังเคราะห์ ข้อมูลที่มีอยู่จะถูกรบกวนเล็กน้อยเพื่อสร้างข้อมูลใหม่ที่ยังคงรักษาคุณสมบัติข้อมูลดั้งเดิมจำนวนมาก ตัวอย่างเช่นหากข้อมูลเป็นภาพ พิกเซลภาพสามารถสลับ ตัวอย่างหลายเทคนิคการเสริมข้อมูลที่สามารถพบได้ที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.