วิธีการทั่วไปคือการทำการวิเคราะห์ทางสถิติแบบดั้งเดิมบนชุดข้อมูลของคุณเพื่อกำหนดกระบวนการสุ่มหลายมิติที่จะสร้างข้อมูลที่มีลักษณะทางสถิติเหมือนกัน ข้อดีของวิธีนี้คือข้อมูลสังเคราะห์ของคุณไม่ขึ้นอยู่กับรุ่น ML ของคุณ แต่สถิติ "ปิด" กับข้อมูลของคุณ (ดูด้านล่างสำหรับการอภิปรายทางเลือกของคุณ)
โดยพื้นฐานแล้วคุณกำลังประเมินการกระจายความน่าจะเป็นหลายตัวแปรที่เกี่ยวข้องกับกระบวนการ เมื่อคุณประเมินการกระจายคุณสามารถสร้างข้อมูลสังเคราะห์ผ่านวิธีมอนติคาร์โลหรือวิธีการสุ่มตัวอย่างซ้ำ ๆ ที่คล้ายกัน หากข้อมูลของคุณคล้ายกับการแจกแจงแบบพารามิเตอร์บางอย่าง (เช่น lognormal) วิธีการนี้จะตรงไปตรงมาและเชื่อถือได้ ส่วนที่ยุ่งยากคือการประเมินการพึ่งพาระหว่างตัวแปร ดู: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistical_analysis
หากข้อมูลของคุณไม่สม่ำเสมอวิธีการที่ไม่ใช่พารามิเตอร์นั้นง่ายกว่าและอาจแข็งแกร่งกว่า การประมาณค่าความหนาแน่นแบบหลายตัวแปรเป็นวิธีการที่เข้าถึงได้และดึงดูดผู้ที่มีภูมิหลัง ML สำหรับการแนะนำทั่วไปและเชื่อมโยงไปยังวิธีการเฉพาะดู: https://en.wikipedia.org/wiki/Nonparametric_statistics
เพื่อตรวจสอบว่ากระบวนการนี้ใช้ได้ผลสำหรับคุณคุณต้องผ่านกระบวนการเรียนรู้ของเครื่องอีกครั้งด้วยข้อมูลที่สังเคราะห์ขึ้นมาและคุณควรจะจบลงด้วยแบบจำลองที่ใกล้เคียงกับต้นฉบับของคุณมากพอสมควร ในทำนองเดียวกันถ้าคุณใส่ข้อมูลที่สังเคราะห์ลงในโมเดล ML ของคุณคุณควรรับเอาท์พุทที่มีการแจกแจงแบบเดียวกันกับเอาต์พุตดั้งเดิมของคุณ
ในทางตรงกันข้ามคุณกำลังเสนอสิ่งนี้:
[ข้อมูลดั้งเดิม -> สร้างโมเดลการเรียนรู้ของเครื่อง -> ใช้โมเดล ML เพื่อสร้างข้อมูลสังเคราะห์ .... !!!]
สิ่งนี้ทำให้บางสิ่งแตกต่างกันไปตามวิธีที่ฉันเพิ่งอธิบาย สิ่งนี้จะช่วยแก้ปัญหาผกผัน : "อินพุตใดที่สามารถสร้างชุดเอาต์พุตโมเดลที่กำหนด" นอกจากโมเดล ML ของคุณจะพอดีกับข้อมูลต้นฉบับของคุณแล้วข้อมูลที่ถูกสังเคราะห์นี้จะไม่เหมือนกับข้อมูลต้นฉบับของคุณทุกประการหรือแม้แต่ส่วนใหญ่
พิจารณาโมเดลการถดถอยเชิงเส้น โมเดลการถดถอยเชิงเส้นเดียวกันสามารถมีขนาดพอดีกับข้อมูลที่มีลักษณะแตกต่างกันมาก การสาธิตที่มีชื่อเสียงของที่นี่คือผ่านสี่อินส์
คิดว่าฉันไม่มีข้อมูลอ้างอิงฉันเชื่อว่าปัญหานี้อาจเกิดขึ้นในการถดถอยโลจิสติกโมเดลเชิงเส้นทั่วไป SVM และ K- หมายถึงการจัดกลุ่ม
มี ML model บางชนิด (เช่นแผนผังการตัดสินใจ) ซึ่งเป็นไปได้ที่จะผกผันพวกมันเพื่อสร้างข้อมูลสังเคราะห์แม้ว่ามันจะใช้งานได้บ้าง โปรดดูที่: ฝ่ายผลิตสังเคราะห์ข้อมูลเพื่อตรงกับรูปแบบการทำเหมืองข้อมูล