ในการวิเคราะห์การถดถอยความแตกต่างระหว่างกระบวนการสร้างข้อมูลและตัวแบบคืออะไร?


19

ในการวิเคราะห์การถดถอยความแตกต่างระหว่าง 'กระบวนการสร้างข้อมูล' และ 'แบบจำลอง' คืออะไร


1
กระบวนการสร้างข้อมูลไม่เป็นที่รู้จักเราเลือกโมเดลด้วยความหวังว่าเราจะประมาณกระบวนการสร้างข้อมูลได้อย่างเพียงพอ นั่นเป็นหนึ่งในคำตอบที่เป็นไปได้มันจะช่วยถ้าคุณให้บริบทมากขึ้นดังนั้นจึงเป็นสิ่งที่ชัดเจนว่าคุณต้องการคำตอบประเภทใด ลองดูการแชทซึ่งขณะนี้สโมสรวารสารที่ต่อเนื่องคุยกันถึงบทความที่มีการหยิบยกประเด็นนี้ขึ้นมา
mpiktas

3
คำตอบสำหรับคำถามนี้จะแตกต่างกันไปตามที่ควรเพราะทั้ง "กระบวนการสร้างข้อมูล" และ "รูปแบบ" ถูกใช้ในรูปแบบที่หลากหลายโดยผู้เขียนหลายคน @ Weijie คุณมีการอ้างอิงโดยเฉพาะอย่างยิ่งในใจ?
whuber

คำตอบ:


15

เราทุกคนมีความรู้สึกที่ดีว่า "แบบจำลอง" อาจหมายถึงอะไรแม้ว่าคำจำกัดความทางเทคนิคจะแตกต่างกันในแต่ละสาขาวิชา เพื่อเปรียบเทียบสิ่งนี้กับ DGP ฉันเริ่มต้นด้วยการดูห้าอันดับแรก (นับสองครั้งที่มีผู้เขียนคนเดียวกัน) ใน Googling "กระบวนการสร้างข้อมูล"

  1. กระดาษเกี่ยวกับวิธีการกองทัพอากาศสหรัฐจริงสร้างข้อมูลในการสนับสนุนจิสติกส์

  2. บทคัดย่อของกระดาษที่ตีพิมพ์ในสิ่งแวดล้อมและการวางแผน A เกี่ยวกับวิธีการ "สร้าง micropopulations สังเคราะห์" ผ่านทางคอมพิวเตอร์ "แบบจำลองสถานการณ์จำลอง"

  3. เว็บเพจที่ "สร้างข้อมูลสังเคราะห์"; นั่นคือการจำลอง "เพื่อสำรวจผลกระทบของลักษณะข้อมูลบางอย่างบน ... แบบจำลอง"

  4. บทคัดย่อของเอกสารการประชุมในการขุดข้อมูลยืนยันว่า "ข้อมูลในฐานข้อมูลเป็นผลลัพธ์ของกระบวนการสร้างข้อมูลพื้นฐาน (dgp)"

  5. บทหนังสือที่ลักษณะข้อมูลที่น่าสนใจว่า "ที่เกิดขึ้นจากการเปลี่ยนแปลงบางของต้นแบบ [สุ่ม] กระบวนการ ... บางส่วนหรือทั้งหมด [ที่] อาจจะไม่มีใครสังเกต ..."Wเสื้อVเสื้อ

ลิงก์เหล่านี้แสดงการใช้แตกต่างกันเล็กน้อย แต่มีความเกี่ยวข้องอย่างใกล้ชิดกับคำว่า "กระบวนการสร้างข้อมูล" commonest อยู่ในบริบทของการจำลองทางสถิติ คนอื่น ๆ อ้างถึงวิธีการจริงที่ข้อมูลถูกสร้างขึ้นในสถานการณ์ต่อเนื่อง (โลจิสติกส์) และแบบจำลองความน่าจะเป็นสำหรับกระบวนการสร้างข้อมูลอย่างต่อเนื่องโดยมีจุดประสงค์ที่จะไม่ถูกวิเคราะห์โดยตรง ในกรณีสุดท้ายข้อความจะแยกความแตกต่างของกระบวนการสุ่มที่ไม่สามารถสังเกตเห็นได้ซึ่งเป็นแบบจำลองทางคณิตศาสตร์จากตัวเลขจริงที่จะวิเคราะห์

คำแนะนำเหล่านี้มีคำตอบที่แตกต่างกันเล็กน้อยสองข้อที่สามารถรักษาได้:

  1. ในบริบทของการจำลองหรือการสร้างข้อมูล "สังเคราะห์" สำหรับการวิเคราะห์กระบวนการ "การสร้างข้อมูล" เป็นวิธีการสร้างข้อมูลสำหรับการศึกษาครั้งต่อไปซึ่งโดยปกติจะใช้เครื่องกำเนิดตัวเลขสุ่มหลอกของคอมพิวเตอร์ การวิเคราะห์จะนำมาใช้แบบจำลองบางอย่างที่อธิบายคุณสมบัติทางคณิตศาสตร์ของ DGP นี้

  2. ในบริบทของการวิเคราะห์ทางสถิติเราอาจต้องการแยกความแตกต่างของปรากฏการณ์ในโลกแห่งความเป็นจริง (DGP) จากการสังเกตที่จะถูกวิเคราะห์ เรามีแบบจำลองสำหรับทั้งปรากฏการณ์และการสังเกตรวมถึงแบบจำลองสำหรับการเชื่อมต่อทั้งสองแบบ

ในการถดถอยจากนั้นDGPจะอธิบายวิธีชุดข้อมูล = ,ถูกสร้างขึ้นมา เช่นที่สามารถตั้งค่าได้โดยทดลองหรือพวกเขาอาจจะตั้งข้อสังเกตในทางใดทางหนึ่งแล้วได้รับการสันนิษฐานว่าสาเหตุหรือจะเกี่ยวข้องกับค่าของYฉัน ตัวแบบจะอธิบายวิธีที่เป็นไปได้ที่ข้อมูลเหล่านี้อาจเกี่ยวข้องกับคณิตศาสตร์ เช่นเราอาจจะบอกว่าแต่ละY ฉันเป็นตัวแปรสุ่มที่มีความคาดหวัง(X,Y)ผม(X1ผม,X2ผม,...,Xพีผม,Yผม)ผม=1,2,...,nXJผมYผมYผมและความแปรปรวน σ 2สำหรับพารามิเตอร์ที่ไม่รู้จักเบต้าและσXβσ2βσ


คุณเขียนคำว่า "สาเหตุ" หรือ "ที่เกี่ยวข้อง" ฉันมีคำถามเกี่ยวกับเรื่องนี้ จากคำตอบของคุณดูเหมือนว่าแนวคิด DGP ไม่ได้บ่งบอกถึงสาเหตุ อย่างไรก็ตาม "ความสัมพันธ์" นี้เป็นอะไรที่มากกว่าความสัมพันธ์ (หรือความสัมพันธ์ใด ๆ ) หรือไม่? ดูคำถามนี้ที่เกี่ยวข้องกับฉัน: stats.stackexchange.com/questions/399671/ …
markowitz

@markowitz "Correlation" พูดอย่างเคร่งครัดหมายถึงช่วงเวลาที่สองของตัวแปรสุ่มตัวแปร ฉันใช้ "ที่เกี่ยวข้อง" ในแง่กว้างของ "ไม่ [สถิติ] อิสระ"
whuber

ฉันรู้และด้วยเหตุนี้ฉันจึงกล่าวว่า "หรือการสมาคม [เฉพาะเชิงสถิติ] ใด ๆ " ฉันสามารถทำซ้ำคำถามของฉันเป็น: อย่างไรก็ตาม "ความสัมพันธ์" นี้เป็นอะไรที่มากกว่าความสัมพันธ์หรือไม่? เริ่มจากแนวคิดของ "ตัวแบบที่แท้จริง" บางครั้งใช้เป็นคำพ้องความหมายของ DGP ดูเหมือนว่าจะมีอะไรมากกว่านั้น ถ้าเป็นเช่นนั้นฉันไม่เข้าใจว่ามันคืออะไร ลิงค์ก่อนหน้าของฉันให้ตัวอย่าง
markowitz

@markowitz ฉันเกรงว่าฉันไม่เข้าใจสิ่งที่คุณพยายามถาม อาจเป็นเพราะฉันไม่แน่ใจว่าคุณหมายถึงอะไรโดย "ความสัมพันธ์" หรือ "การเชื่อมโยง" ฉันดูที่ลิงค์ของคุณ แต่การใช้ภาษาอังกฤษที่ผิดปกติไม่ได้สื่อความหมายอะไรกับฉัน
whuber

ฉันขอโทษสำหรับภาษาอังกฤษของฉัน ฉันพยายามแก้ไขคำถามที่เชื่อมโยงอย่างชัดเจนยิ่งขึ้น ฉันหวังว่ามันจะเข้าใจได้
markowitz

4

DGP เป็นรูปแบบที่แท้จริง แบบจำลองคือสิ่งที่เราพยายามใช้โดยใช้ทักษะที่ดีที่สุดของเราเพื่อแสดงถึงสภาพที่แท้จริงของธรรมชาติ DGP ได้รับอิทธิพลจาก "สัญญาณรบกวน" เสียงรบกวนสามารถเป็นได้หลายชนิด:

  1. การแทรกแซงครั้งเดียว
  2. เลื่อนระดับ
  3. แนวโน้ม
  4. การเปลี่ยนแปลงในฤดูกาล
  5. การเปลี่ยนแปลงในพารามิเตอร์รุ่น
  6. การเปลี่ยนแปลงในความแปรปรวน

หากคุณไม่ได้ควบคุม 6 รายการเหล่านี้เกินความสามารถในการระบุ DGP ที่แท้จริงจะลดลง


4

คำตอบของ Whuber นั้นยอดเยี่ยม แต่มันก็คุ้มค่าที่จะเน้นไปที่ข้อเท็จจริงที่ว่าแบบจำลองทางสถิติไม่จำเป็นต้องคล้ายกับตัวสร้างข้อมูลทุกประการเพื่อเป็นแบบจำลองที่เหมาะสมสำหรับการสำรวจข้อมูลแบบอนุมาน Liu และ Meng อธิบายว่าจุดนั้นมีความชัดเจนอย่างมากในกระดาษ arXived ล่าสุดของพวกเขา ( http://arxiv.org/abs/1510.08539 ):

ความเข้าใจผิด 1. โมเดลความน่าจะเป็นต้องอธิบายการสร้างข้อมูล

θ) ไม่มีจุดนี้ชัดเจนกว่าในแอปพลิเคชันที่เกี่ยวข้องกับการทดลองทางคอมพิวเตอร์โดยใช้รูปแบบความน่าจะเป็นเพื่ออธิบายข้อมูลตามรูปแบบที่กำหนด (แต่ซับซ้อนสูง) ที่รู้จัก (Kennedy and O'Hagan, 2001; Conti et al., 2009) เราต้องการโมเดลเชิงพรรณนาไม่จำเป็นต้องเป็นโมเดลเชิงกำเนิด ดู Lehmann (1990), Breiman (2001) และ Hansen and Yu (2001) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับประเด็นนี้


+1 ฉันชอบความแตกต่างระหว่างข้อมูลเชิงพรรณนาและแบบจำลองเชิงกำเนิด
whuber

1

DGP เป็นเสมือนจริงและเป็นสูตรเฉพาะสำหรับการจำลอง แบบจำลองคือชุดของ DGP หรือวิธีที่เป็นไปได้ที่ข้อมูลอาจถูกสร้างขึ้น

อ่านหน้าแรกของหลักสูตรมินินี้โดย Russell Davidson:

http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.