ตามบริบท: เมื่อทำงานกับชุดข้อมูลที่มีขนาดใหญ่มากบางครั้งฉันถูกถามว่าเราสามารถสร้างชุดข้อมูลสังเคราะห์ที่เรา "รู้จัก" ความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนองหรือความสัมพันธ์ระหว่างตัวทำนาย
ในช่วงหลายปีที่ผ่านมาฉันดูเหมือนจะพบชุดข้อมูลสังเคราะห์แบบครั้งเดียวซึ่งดูเหมือนว่าพวกมันถูกปรุงในลักษณะเฉพาะกิจหรือชุดข้อมูลที่มีโครงสร้างมากขึ้นซึ่งดูดีเป็นพิเศษสำหรับวิธีการสร้างแบบจำลองของนักวิจัย
ฉันเชื่อว่าฉันกำลังมองหาวิธีมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์ แม้ว่า bootstrap resampling เป็นวิธีการทั่วไปหนึ่งในการสร้างชุดข้อมูลสังเคราะห์ แต่ก็ไม่เป็นไปตามเงื่อนไขที่เรารู้ว่าโครงสร้าง เป็นสำคัญ ยิ่งกว่านั้นการแลกเปลี่ยนตัวอย่าง bootstrap กับผู้อื่นจำเป็นต้องมีการแลกเปลี่ยนข้อมูลมากกว่าวิธีการสร้างข้อมูล
ถ้าเราสามารถกระจายพาราเมทริกให้กับข้อมูลหรือหาโมเดลพาราเมทริกที่ใกล้พอแล้วนี่เป็นตัวอย่างหนึ่งที่เราสามารถสร้างชุดข้อมูลสังเคราะห์
มีวิธีอื่นใดอีกบ้าง? ฉันสนใจข้อมูลมิติสูงข้อมูลที่กระจัดกระจายและข้อมูลอนุกรมเวลา สำหรับข้อมูลมิติสูงฉันจะมองหาวิธีที่สามารถสร้างโครงสร้าง (เช่นโครงสร้างความแปรปรวนร่วมแบบจำลองเชิงเส้นต้นไม้เป็นต้น) ที่น่าสนใจ สำหรับข้อมูลอนุกรมเวลาจากการแจกแจงผ่าน FFTs รุ่น AR หรือตัวกรองอื่น ๆ หรือตัวแบบการพยากรณ์อื่น ๆ ดูเหมือนจะเป็นการเริ่มต้น สำหรับข้อมูลที่กระจัดกระจายการสร้างรูปแบบการกระจัดกระจายนั้นมีประโยชน์
ฉันเชื่อว่าสิ่งเหล่านี้เป็นเพียงแค่รอยขีดข่วนบนพื้นผิว - สิ่งเหล่านี้เป็นแบบเรียนรู้ได้ไม่ใช่แบบทางการ มีการอ้างอิงหรือแหล่งข้อมูลสำหรับการสร้างข้อมูลสังเคราะห์ที่ผู้ปฏิบัติงานควรรู้หรือไม่?
หมายเหตุ 1: ฉันรู้ว่าคำถามนี้เน้นที่วรรณกรรมว่าจะสร้างข้อมูลได้อย่างไรเช่นตัวแบบอนุกรมเวลา ความแตกต่างที่นี่คือการปฏิบัติโดยเฉพาะอย่างยิ่งเพื่อระบุโครงสร้างที่รู้จัก (คำถามของฉัน) เมื่อเทียบกับความคล้ายคลึงกัน / ความจงรักภักดีต่อชุดข้อมูลที่มีอยู่ ในกรณีของฉันไม่จำเป็นต้องมีความคล้ายคลึงกันมากเท่ากับโครงสร้างที่รู้จักแม้ว่าความคล้ายคลึงกันจะเป็นที่นิยมอย่างมากต่อความแตกต่างกัน ชุดข้อมูลสังเคราะห์ที่แปลกใหม่ซึ่งแบบจำลองแสดงสัญญาเป็นที่ต้องการน้อยกว่าการจำลองที่เหมือนจริง
หมายเหตุ 2: รายการ Wikipedia สำหรับข้อมูลสังเคราะห์ชี้ให้เห็นว่าผู้ทรงคุณวุฒิเช่น Rubin และ Fienberg ได้แก้ไขปัญหานี้แม้ว่าฉันจะไม่พบข้อมูลอ้างอิงเกี่ยวกับแนวปฏิบัติที่ดีที่สุด มันจะน่าสนใจที่จะรู้ว่าอะไรจะเกิดขึ้นกับผู้ชุมนุมพูดว่าพงศาวดารของสถิติประยุกต์ (หรือ AOS) หรือในงานตรวจสอบในวารสารเหล่านี้หรือวารสารอื่น ๆ ในแง่ที่ง่ายและแปลกใครอาจถามว่าเกณฑ์ระหว่าง "(ยอมรับได้) สุก" และ "สุกเกินไป" มีอยู่ที่ไหน?
หมายเหตุ 3: ถึงแม้ว่ามันไม่ได้ส่งผลกระทบต่อคำถามที่ว่าสถานการณ์การใช้งานอยู่ในการสร้างแบบจำลองของแตกต่างกันขนาดใหญ่สูงมิติชุดข้อมูลที่วาระการวิจัยคือการเรียนรู้ (ทั้งจากมนุษย์และเครื่อง ;-)) โครงสร้างของข้อมูล ต่างจาก univariate, bivariate และสถานการณ์มิติต่ำอื่น ๆ โครงสร้างไม่อนุมานได้อย่างง่ายดาย ในขณะที่เราก้าวไปสู่ความเข้าใจที่ดีขึ้นของโครงสร้างความสามารถในการสร้างชุดข้อมูลที่มีคุณสมบัติคล้ายกันเป็นที่น่าสนใจเพื่อดูว่าวิธีการสร้างแบบจำลองโต้ตอบกับข้อมูล (เช่นเพื่อตรวจสอบความมั่นคงของพารามิเตอร์) อย่างไรก็ตามคู่มือที่มีอายุมากกว่าเกี่ยวกับข้อมูลสังเคราะห์มิติต่ำอาจเป็นจุดเริ่มต้นที่อาจขยายหรือปรับให้เหมาะสมกับชุดข้อมูลมิติที่สูงขึ้น