ในการวิเคราะห์การถดถอยความแตกต่างระหว่าง 'กระบวนการสร้างข้อมูล' และ 'แบบจำลอง' คืออะไร
ในการวิเคราะห์การถดถอยความแตกต่างระหว่าง 'กระบวนการสร้างข้อมูล' และ 'แบบจำลอง' คืออะไร
คำตอบ:
เราทุกคนมีความรู้สึกที่ดีว่า "แบบจำลอง" อาจหมายถึงอะไรแม้ว่าคำจำกัดความทางเทคนิคจะแตกต่างกันในแต่ละสาขาวิชา เพื่อเปรียบเทียบสิ่งนี้กับ DGP ฉันเริ่มต้นด้วยการดูห้าอันดับแรก (นับสองครั้งที่มีผู้เขียนคนเดียวกัน) ใน Googling "กระบวนการสร้างข้อมูล"
กระดาษเกี่ยวกับวิธีการกองทัพอากาศสหรัฐจริงสร้างข้อมูลในการสนับสนุนจิสติกส์
บทคัดย่อของกระดาษที่ตีพิมพ์ในสิ่งแวดล้อมและการวางแผน A เกี่ยวกับวิธีการ "สร้าง micropopulations สังเคราะห์" ผ่านทางคอมพิวเตอร์ "แบบจำลองสถานการณ์จำลอง"
เว็บเพจที่ "สร้างข้อมูลสังเคราะห์"; นั่นคือการจำลอง "เพื่อสำรวจผลกระทบของลักษณะข้อมูลบางอย่างบน ... แบบจำลอง"
บทคัดย่อของเอกสารการประชุมในการขุดข้อมูลยืนยันว่า "ข้อมูลในฐานข้อมูลเป็นผลลัพธ์ของกระบวนการสร้างข้อมูลพื้นฐาน (dgp)"
บทหนังสือที่ลักษณะข้อมูลที่น่าสนใจว่า "ที่เกิดขึ้นจากการเปลี่ยนแปลงบางของต้นแบบ [สุ่ม] กระบวนการ ... บางส่วนหรือทั้งหมด [ที่] อาจจะไม่มีใครสังเกต ..."
ลิงก์เหล่านี้แสดงการใช้แตกต่างกันเล็กน้อย แต่มีความเกี่ยวข้องอย่างใกล้ชิดกับคำว่า "กระบวนการสร้างข้อมูล" commonest อยู่ในบริบทของการจำลองทางสถิติ คนอื่น ๆ อ้างถึงวิธีการจริงที่ข้อมูลถูกสร้างขึ้นในสถานการณ์ต่อเนื่อง (โลจิสติกส์) และแบบจำลองความน่าจะเป็นสำหรับกระบวนการสร้างข้อมูลอย่างต่อเนื่องโดยมีจุดประสงค์ที่จะไม่ถูกวิเคราะห์โดยตรง ในกรณีสุดท้ายข้อความจะแยกความแตกต่างของกระบวนการสุ่มที่ไม่สามารถสังเกตเห็นได้ซึ่งเป็นแบบจำลองทางคณิตศาสตร์จากตัวเลขจริงที่จะวิเคราะห์
คำแนะนำเหล่านี้มีคำตอบที่แตกต่างกันเล็กน้อยสองข้อที่สามารถรักษาได้:
ในบริบทของการจำลองหรือการสร้างข้อมูล "สังเคราะห์" สำหรับการวิเคราะห์กระบวนการ "การสร้างข้อมูล" เป็นวิธีการสร้างข้อมูลสำหรับการศึกษาครั้งต่อไปซึ่งโดยปกติจะใช้เครื่องกำเนิดตัวเลขสุ่มหลอกของคอมพิวเตอร์ การวิเคราะห์จะนำมาใช้แบบจำลองบางอย่างที่อธิบายคุณสมบัติทางคณิตศาสตร์ของ DGP นี้
ในบริบทของการวิเคราะห์ทางสถิติเราอาจต้องการแยกความแตกต่างของปรากฏการณ์ในโลกแห่งความเป็นจริง (DGP) จากการสังเกตที่จะถูกวิเคราะห์ เรามีแบบจำลองสำหรับทั้งปรากฏการณ์และการสังเกตรวมถึงแบบจำลองสำหรับการเชื่อมต่อทั้งสองแบบ
ในการถดถอยจากนั้นDGPจะอธิบายวิธีชุดข้อมูล = ,ถูกสร้างขึ้นมา เช่นที่สามารถตั้งค่าได้โดยทดลองหรือพวกเขาอาจจะตั้งข้อสังเกตในทางใดทางหนึ่งแล้วได้รับการสันนิษฐานว่าสาเหตุหรือจะเกี่ยวข้องกับค่าของYฉัน ตัวแบบจะอธิบายวิธีที่เป็นไปได้ที่ข้อมูลเหล่านี้อาจเกี่ยวข้องกับคณิตศาสตร์ เช่นเราอาจจะบอกว่าแต่ละY ฉันเป็นตัวแปรสุ่มที่มีความคาดหวังและความแปรปรวน σ 2สำหรับพารามิเตอร์ที่ไม่รู้จักเบต้าและσ
DGP เป็นรูปแบบที่แท้จริง แบบจำลองคือสิ่งที่เราพยายามใช้โดยใช้ทักษะที่ดีที่สุดของเราเพื่อแสดงถึงสภาพที่แท้จริงของธรรมชาติ DGP ได้รับอิทธิพลจาก "สัญญาณรบกวน" เสียงรบกวนสามารถเป็นได้หลายชนิด:
หากคุณไม่ได้ควบคุม 6 รายการเหล่านี้เกินความสามารถในการระบุ DGP ที่แท้จริงจะลดลง
คำตอบของ Whuber นั้นยอดเยี่ยม แต่มันก็คุ้มค่าที่จะเน้นไปที่ข้อเท็จจริงที่ว่าแบบจำลองทางสถิติไม่จำเป็นต้องคล้ายกับตัวสร้างข้อมูลทุกประการเพื่อเป็นแบบจำลองที่เหมาะสมสำหรับการสำรวจข้อมูลแบบอนุมาน Liu และ Meng อธิบายว่าจุดนั้นมีความชัดเจนอย่างมากในกระดาษ arXived ล่าสุดของพวกเขา ( http://arxiv.org/abs/1510.08539 ):
ความเข้าใจผิด 1. โมเดลความน่าจะเป็นต้องอธิบายการสร้างข้อมูล
) ไม่มีจุดนี้ชัดเจนกว่าในแอปพลิเคชันที่เกี่ยวข้องกับการทดลองทางคอมพิวเตอร์โดยใช้รูปแบบความน่าจะเป็นเพื่ออธิบายข้อมูลตามรูปแบบที่กำหนด (แต่ซับซ้อนสูง) ที่รู้จัก (Kennedy and O'Hagan, 2001; Conti et al., 2009) เราต้องการโมเดลเชิงพรรณนาไม่จำเป็นต้องเป็นโมเดลเชิงกำเนิด ดู Lehmann (1990), Breiman (2001) และ Hansen and Yu (2001) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับประเด็นนี้
DGP เป็นเสมือนจริงและเป็นสูตรเฉพาะสำหรับการจำลอง แบบจำลองคือชุดของ DGP หรือวิธีที่เป็นไปได้ที่ข้อมูลอาจถูกสร้างขึ้น
อ่านหน้าแรกของหลักสูตรมินินี้โดย Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf