แนวทางปฏิบัติมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์คืออะไร?


26

ตามบริบท: เมื่อทำงานกับชุดข้อมูลที่มีขนาดใหญ่มากบางครั้งฉันถูกถามว่าเราสามารถสร้างชุดข้อมูลสังเคราะห์ที่เรา "รู้จัก" ความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนองหรือความสัมพันธ์ระหว่างตัวทำนาย

ในช่วงหลายปีที่ผ่านมาฉันดูเหมือนจะพบชุดข้อมูลสังเคราะห์แบบครั้งเดียวซึ่งดูเหมือนว่าพวกมันถูกปรุงในลักษณะเฉพาะกิจหรือชุดข้อมูลที่มีโครงสร้างมากขึ้นซึ่งดูดีเป็นพิเศษสำหรับวิธีการสร้างแบบจำลองของนักวิจัย

ฉันเชื่อว่าฉันกำลังมองหาวิธีมาตรฐานในการสร้างชุดข้อมูลสังเคราะห์ แม้ว่า bootstrap resampling เป็นวิธีการทั่วไปหนึ่งในการสร้างชุดข้อมูลสังเคราะห์ แต่ก็ไม่เป็นไปตามเงื่อนไขที่เรารู้ว่าโครงสร้าง เป็นสำคัญ ยิ่งกว่านั้นการแลกเปลี่ยนตัวอย่าง bootstrap กับผู้อื่นจำเป็นต้องมีการแลกเปลี่ยนข้อมูลมากกว่าวิธีการสร้างข้อมูล

ถ้าเราสามารถกระจายพาราเมทริกให้กับข้อมูลหรือหาโมเดลพาราเมทริกที่ใกล้พอแล้วนี่เป็นตัวอย่างหนึ่งที่เราสามารถสร้างชุดข้อมูลสังเคราะห์

มีวิธีอื่นใดอีกบ้าง? ฉันสนใจข้อมูลมิติสูงข้อมูลที่กระจัดกระจายและข้อมูลอนุกรมเวลา สำหรับข้อมูลมิติสูงฉันจะมองหาวิธีที่สามารถสร้างโครงสร้าง (เช่นโครงสร้างความแปรปรวนร่วมแบบจำลองเชิงเส้นต้นไม้เป็นต้น) ที่น่าสนใจ สำหรับข้อมูลอนุกรมเวลาจากการแจกแจงผ่าน FFTs รุ่น AR หรือตัวกรองอื่น ๆ หรือตัวแบบการพยากรณ์อื่น ๆ ดูเหมือนจะเป็นการเริ่มต้น สำหรับข้อมูลที่กระจัดกระจายการสร้างรูปแบบการกระจัดกระจายนั้นมีประโยชน์

ฉันเชื่อว่าสิ่งเหล่านี้เป็นเพียงแค่รอยขีดข่วนบนพื้นผิว - สิ่งเหล่านี้เป็นแบบเรียนรู้ได้ไม่ใช่แบบทางการ มีการอ้างอิงหรือแหล่งข้อมูลสำหรับการสร้างข้อมูลสังเคราะห์ที่ผู้ปฏิบัติงานควรรู้หรือไม่?


หมายเหตุ 1: ฉันรู้ว่าคำถามนี้เน้นที่วรรณกรรมว่าจะสร้างข้อมูลได้อย่างไรเช่นตัวแบบอนุกรมเวลา ความแตกต่างที่นี่คือการปฏิบัติโดยเฉพาะอย่างยิ่งเพื่อระบุโครงสร้างที่รู้จัก (คำถามของฉัน) เมื่อเทียบกับความคล้ายคลึงกัน / ความจงรักภักดีต่อชุดข้อมูลที่มีอยู่ ในกรณีของฉันไม่จำเป็นต้องมีความคล้ายคลึงกันมากเท่ากับโครงสร้างที่รู้จักแม้ว่าความคล้ายคลึงกันจะเป็นที่นิยมอย่างมากต่อความแตกต่างกัน ชุดข้อมูลสังเคราะห์ที่แปลกใหม่ซึ่งแบบจำลองแสดงสัญญาเป็นที่ต้องการน้อยกว่าการจำลองที่เหมือนจริง

หมายเหตุ 2: รายการ Wikipedia สำหรับข้อมูลสังเคราะห์ชี้ให้เห็นว่าผู้ทรงคุณวุฒิเช่น Rubin และ Fienberg ได้แก้ไขปัญหานี้แม้ว่าฉันจะไม่พบข้อมูลอ้างอิงเกี่ยวกับแนวปฏิบัติที่ดีที่สุด มันจะน่าสนใจที่จะรู้ว่าอะไรจะเกิดขึ้นกับผู้ชุมนุมพูดว่าพงศาวดารของสถิติประยุกต์ (หรือ AOS) หรือในงานตรวจสอบในวารสารเหล่านี้หรือวารสารอื่น ๆ ในแง่ที่ง่ายและแปลกใครอาจถามว่าเกณฑ์ระหว่าง "(ยอมรับได้) สุก" และ "สุกเกินไป" มีอยู่ที่ไหน?

หมายเหตุ 3: ถึงแม้ว่ามันไม่ได้ส่งผลกระทบต่อคำถามที่ว่าสถานการณ์การใช้งานอยู่ในการสร้างแบบจำลองของแตกต่างกันขนาดใหญ่สูงมิติชุดข้อมูลที่วาระการวิจัยคือการเรียนรู้ (ทั้งจากมนุษย์และเครื่อง ;-)) โครงสร้างของข้อมูล ต่างจาก univariate, bivariate และสถานการณ์มิติต่ำอื่น ๆ โครงสร้างไม่อนุมานได้อย่างง่ายดาย ในขณะที่เราก้าวไปสู่ความเข้าใจที่ดีขึ้นของโครงสร้างความสามารถในการสร้างชุดข้อมูลที่มีคุณสมบัติคล้ายกันเป็นที่น่าสนใจเพื่อดูว่าวิธีการสร้างแบบจำลองโต้ตอบกับข้อมูล (เช่นเพื่อตรวจสอบความมั่นคงของพารามิเตอร์) อย่างไรก็ตามคู่มือที่มีอายุมากกว่าเกี่ยวกับข้อมูลสังเคราะห์มิติต่ำอาจเป็นจุดเริ่มต้นที่อาจขยายหรือปรับให้เหมาะสมกับชุดข้อมูลมิติที่สูงขึ้น

คำตอบ:


7

ฉันไม่แน่ใจว่ามีเป็นมาตรฐานการปฏิบัติสำหรับการสร้างข้อมูลสังเคราะห์ - ก็ใช้อย่างหนักในแง่มุมที่แตกต่างกันจำนวนมากของการวิจัยที่ข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์ดูเหมือนว่าจะเป็นวิธีการร่วมกันมากขึ้นและเนื้อหาที่เหมาะสมมากขึ้น

สำหรับฉันแล้วแนวทางปฏิบัติมาตรฐานที่ดีที่สุดของฉันคือไม่สร้างชุดข้อมูลเพื่อให้ทำงานได้ดีกับโมเดล นั่นเป็นส่วนหนึ่งของขั้นตอนการวิจัยไม่ใช่ส่วนหนึ่งของขั้นตอนการสร้างข้อมูล แต่ควรออกแบบข้อมูลให้สะท้อนกระบวนการสร้างข้อมูลแทน ตัวอย่างเช่นสำหรับการศึกษาแบบจำลองในระบาดวิทยาฉันมักจะเริ่มต้นจากประชากรสมมุติฐานขนาดใหญ่ที่มีการกระจายที่รู้จักและจากนั้นจำลองการสุ่มตัวอย่างการศึกษาจากประชากรนั้นแทนที่จะสร้าง "ประชากรศึกษา" โดยตรง

ตัวอย่างเช่นจากการสนทนาของเราด้านล่างสองตัวอย่างของข้อมูลจำลองที่ฉันทำ:

  • ค่อนข้างคล้ายกับตัวอย่างแบบจำลอง SIR ของคุณด้านล่างฉันเคยใช้แบบจำลองทางคณิตศาสตร์ของการแพร่กระจายของโรคผ่านเครือข่ายเพื่อแสดงตัวเองผ่านการจำลองว่าพารามิเตอร์ค่าคงที่ที่เฉพาะเจาะจงไม่จำเป็นต้องบ่งบอกถึงอันตรายคงที่หากคุณปฏิบัติตามผลลัพธ์ ของการศึกษาตามรุ่น มันเป็นข้อพิสูจน์ถึงแนวคิดที่มีประโยชน์ในขณะที่ฉันไปขุดหาวิธีวิเคราะห์
  • ฉันต้องการสำรวจผลกระทบของรูปแบบการสุ่มตัวอย่างบางอย่างสำหรับกรณีศึกษาการควบคุม แทนที่จะพยายามที่จะสร้างการศึกษาทันทีฉันเดินผ่านแต่ละขั้นตอนของกระบวนการ ประชากร 1,000,000 คนมีความชุกของโรคและรูปแบบโควาเรียที่รู้จักกันดี จากนั้นเป็นการจำลองกระบวนการสุ่มตัวอย่าง - ในกรณีนี้มีการสุ่มตัวอย่างและควบคุมจากประชากรอย่างไร จากนั้นฉันก็โยนโมเดลเชิงสถิติที่เกิดขึ้นจริงที่ "การศึกษาแบบจำลอง" ที่รวบรวมได้

การจำลองสถานการณ์เช่นนี้เป็นเรื่องธรรมดามากเมื่อตรวจสอบผลกระทบของวิธีการสรรหาการศึกษาแนวทางเชิงสถิติในการควบคุมการแปรปรวนร่วม ฯลฯ


ขอบคุณสำหรับคำตอบ. อย่างไรก็ตามจากสิ่งที่ฉันรู้เกี่ยวกับระบาดวิทยาได้มีการทำมากขึ้นในการพัฒนาตัวแบบสุ่มที่มีประโยชน์พอสมควร สิ่งนี้ไม่เป็นความจริงในหลาย ๆ โดเมนแม้ว่าความสามารถในการพัฒนาโมเดลข้อมูลสุ่มที่ยอมรับได้อย่างรวดเร็วนั้นเป็นส่วนหนึ่งของความตั้งใจของฉัน
Iterator

@Iterator นั้นขึ้นอยู่กับว่าคุณอยู่ที่ไหนและคุณกำลังพูดถึงลักษณะของโรคระบาด ยกตัวอย่างเช่นนักระบาดวิทยาโรคมะเร็งจะต้องตกใจเมื่อได้ยินว่า "มีจำนวนมากขึ้น" ที่ทำกับแบบจำลอง SIR - พวกเขาไม่เคยพบใครในงานของพวกเขา ในขณะที่แบบจำลองชนิด SIR นั้นเป็นส่วนหนึ่งของระบาดวิทยา (Epi โรคติดเชื้อและถึงตอนนั้นแม้จะไม่ใช่ชุดใหญ่ของ ID Epi) แต่ระบาดวิทยาเป็นสนามที่ใช้โมเดลเชิงสถิติอย่างมากโดยเฉพาะแบบจำลองเชิงเส้นทั่วไปการอยู่รอด การวิเคราะห์และอนุกรมเวลา
Fomite

โว้ว. ฉันไม่ได้กล่าวว่ารุ่น SIR นั้นเป็นตัวอย่างที่ดีของแบบจำลองการสร้างข้อมูลมาตรฐาน แน่นอนฉันรู้ว่ามีพื้นที่อื่นของ epi ที่ใช้สเปกตรัมทั้งหมดของวิธีการสร้างแบบจำลอง หากคุณมีพอยน์เตอร์หรือการอ้างอิงเกี่ยวกับวิธีการสร้างข้อมูลอื่น ๆ ที่ใช้ในการระบาดวิทยาฉันก็ค่อนข้างเปิดกว้างสำหรับพวกเขา
Iterator

1
@Iterator ขออภัยหากฉันแสดงผลว่าฉันไม่พอใจ ไม่มาก;) มันเป็นเพียงบางสิ่งที่ฉันได้รับเพราะฉันนั่งเป็นสี่เหลี่ยมในจุดตัดระหว่าง epi เชิงคณิตศาสตร์และระบาดวิทยาเชิงสังเกตการณ์และผู้คนในพื้นที่หนึ่งมีอาการงุนงงมาก ฉันจะแก้ไขคำตอบของฉันด้วยตัวอย่างที่ไม่ใช่ SIR
Fomite

2

แพ็คเกจทางสถิติ R มีฟังก์ชันจำลองที่จะจำลองข้อมูลตามแบบจำลองที่เหมาะสมกับข้อมูลที่มีอยู่ สิ่งนี้ใช้โมเดลที่ถูกติดตั้งเป็นความสัมพันธ์ของประชากร "รู้จัก" จากนั้นจำลองข้อมูลใหม่ตามโมเดลนั้น มีวิธีการสำหรับฟังก์ชั่นนี้ในแพ็คเกจ lme4 วัตถุที่ได้รับการติดตั้งเหล่านี้สามารถนำมาพิจารณาผลกระทบและความสัมพันธ์แบบสุ่มและถาวร (รวมถึงการหาค่าอัตโนมัติสำหรับอนุกรมเวลา)

สิ่งนี้อาจทำงานได้ตามที่คุณต้องการ


ขอบคุณสำหรับคำแนะนำ ฟังก์ชั่นนี้มีประโยชน์อย่างแน่นอนแม้ว่าความสนใจของฉันจะมากขึ้นในแง่ของการปฏิบัติทางสถิติและวิธีการมากกว่ารหัสสำหรับการแก้ปัญหาเฉพาะ นี่คือคล้ายกับถามเกี่ยวกับวิธีการสุ่มตัวอย่างหรือการวิเคราะห์ที่ทำซ้ำได้มากกว่าแพคเกจเฉพาะที่ใช้วิธีการและการวิเคราะห์ดังกล่าว อย่างไรก็ตามวิธีการที่ดีควรกลายเป็นแพ็คเกจ :)
Iterator
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.