การสร้างแบบจำลองทางสถิติคืออะไร


15

การสร้างแบบจำลองทางสถิติคืออะไร

ทุกวันนี้เมื่อฉันสมัครงานวิจัยหรืองานที่ปรึกษามักจะมีคำว่า "การสร้างแบบจำลอง" หรือ "การสร้างแบบจำลอง" ขึ้นมา คำนี้ฟังดูเท่ห์ แต่พวกเขาหมายถึงอะไรกันแน่ วิธีทำคุณสร้างแบบจำลองของคุณ?

ฉันค้นหาแบบจำลองการคาดการณ์ซึ่งรวมถึง k-nn และการถดถอยโลจิสติก


1
มันค่อนข้างกว้างมันอาจหมายถึงโมเดลที่หลากหลาย - การถดถอยหลายแบบโมเดลหลายระดับต้นไม้และสายพันธุ์การจัดกลุ่ม .... ฯลฯ
Peter Flom - Reinstate Monica

แบบจำลองทางสถิติเหมือนกับแบบจำลองทางคณิตศาสตร์ยกเว้นแบบจำลองทางสถิติมีการบัญชีผันแปรสำหรับข้อผิดพลาด แบบจำลองทางคณิตศาสตร์: น้ำหนัก = ความสูง * 2.7 แบบจำลองทางสถิติ: น้ำหนัก = ส่วนสูง * 2.7 + ข้อผิดพลาด
Neil McGuigan

2
ฉันต้องการอ้างถึงบทความนี้: การสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม
13985

คำตอบ:


12

ฉันจะหยุดพักที่นี่แม้ว่าฉันจะไม่ได้เป็นนักสถิติ แต่อย่างใด แต่ทำขึ้นเพื่อทำ 'การสร้างแบบจำลอง' มากมาย - สถิติและไม่ใช่สถิติ

ก่อนอื่นเรามาเริ่มด้วยพื้นฐาน:

โมเดลคืออะไรกันแน่

แบบจำลองเป็นตัวแทนของความเป็นจริงแม้ว่าจะง่ายขึ้นมาก ลองนึกถึงหุ่นขี้ผึ้งหรือไม้สำหรับบ้าน คุณสามารถสัมผัส / รู้สึก / ดมได้ ตอนนี้แบบจำลองทางคณิตศาสตร์เป็นการแสดงถึงความเป็นจริงโดยใช้ตัวเลข

'ความจริง' นี่คืออะไรฉันได้ยินคุณถาม ตกลง. ดังนั้นคิดว่าสถานการณ์ง่าย ๆ นี้: ผู้ว่าการรัฐของคุณใช้นโยบายที่บอกว่าราคาบุหรี่หนึ่งซองจะมีราคา $ 100 สำหรับปีถัดไป 'เป้าหมาย' คือขัดขวางผู้คนจากการซื้อบุหรี่ดังนั้นการลดการสูบบุหรี่จึงทำให้ผู้สูบบุหรี่มีสุขภาพดีขึ้น (เพราะพวกเขาต้องการเลิกสูบบุหรี่)

หลังจาก 1 ปีผู้ว่าการรัฐขอให้คุณ - นี่เป็นความสำเร็จหรือไม่ คุณจะพูดอย่างนั้นได้อย่างไร คุณสามารถเก็บข้อมูลเช่นจำนวนของแพ็คเก็ตที่ขาย / วันหรือต่อปีการตอบแบบสำรวจข้อมูลที่สามารถวัดได้ที่คุณสามารถรับมือได้ซึ่งเกี่ยวข้องกับปัญหา คุณเพิ่งเริ่มต้น 'จำลอง' ปัญหา ตอนนี้คุณต้องการวิเคราะห์ว่า 'รุ่น' นี้พูดอะไร นั่นคือสิ่งที่การสร้างแบบจำลองทางสถิติมีประโยชน์ คุณสามารถเรียกใช้พล็อตสหสัมพันธ์ / สแกตเตอร์เพื่อดูว่าโมเดล 'มีลักษณะอย่างไร' คุณอาจนึกอยากรู้สาเหตุเช่นถ้าราคาที่เพิ่มขึ้นนำไปสู่การลดลงของการสูบบุหรี่หรือมีปัจจัยอื่นที่ทำให้สับสนในการเล่น (เช่นอาจเป็นอย่างอื่นบ้างและแบบจำลองของคุณอาจพลาดไป)

ตอนนี้การสร้างแบบจำลองนี้ทำได้โดย 'ชุดของกฎ' (เช่นแนวทางเพิ่มเติม) คืออะไร / ไม่ถูกกฎหมายหรืออะไรที่ไม่สมเหตุสมผล คุณควรรู้ว่าคุณกำลังทำอะไรและจะตีความผลลัพธ์ของรุ่นนี้ได้อย่างไร การสร้าง / การดำเนินการ / การตีความโมเดลนี้จำเป็นต้องมีความรู้พื้นฐานด้านสถิติ ในตัวอย่างข้างต้นคุณจำเป็นต้องรู้เกี่ยวกับความสัมพันธ์ / แผนการกระจายการถดถอย (uni และหลายตัวแปร) และสิ่งอื่น ๆ ฉันขอแนะนำให้อ่านสถิติการทำความเข้าใจอย่างสนุกสนาน / ให้ข้อมูลอย่างสังหรณ์ใจ: ค่า p คืออะไรมันเป็นคำแนะนำเกี่ยวกับสถิติที่น่าขบขันและจะสอนให้คุณ 'สร้างแบบจำลอง' ตลอดเส้นทางจากง่ายไปจนถึงขั้นสูง (เช่นการถดถอยเชิงเส้น) จากนั้นคุณสามารถไปอ่านสิ่งอื่นได้

ดังนั้นจำรูปแบบเป็นตัวแทนของความเป็นจริงและที่ว่า"ทุกรุ่นจะผิด แต่บางคนจะมีประโยชน์มากกว่าคนอื่น ๆ" แบบจำลองเป็นการนำเสนอความเป็นจริงที่ง่ายขึ้นและคุณไม่สามารถพิจารณาทุกสิ่งได้แต่คุณต้องรู้ว่าต้องทำอะไรและไม่ควรพิจารณาถึงแบบจำลองที่ดีที่สามารถให้ผลลัพธ์ที่มีความหมายแก่คุณ

มันไม่ได้หยุดอยู่แค่นี้ คุณสามารถสร้างแบบจำลองเพื่อจำลองความเป็นจริงได้เช่นกัน! นั่นคือจำนวนของตัวเลขจะเปลี่ยนไปตามเวลา (พูด) ตัวเลขเหล่านี้จับคู่กับการตีความที่มีความหมายในโดเมนของคุณ คุณยังสามารถสร้างแบบจำลองเหล่านี้เพื่อขุดข้อมูลของคุณเพื่อดูว่ามาตรการต่าง ๆ เกี่ยวข้องกันอย่างไร (การประยุกต์ใช้สถิติที่นี่อาจเป็นปัญหา แต่ไม่ต้องกังวลตอนนี้) ตัวอย่าง: คุณดูที่ร้านขายของชำสำหรับร้านค้าต่อเดือนและตระหนักว่าเมื่อใดก็ตามที่มีการซื้อเบียร์จะมีผ้าอ้อมหนึ่งชุด (คุณสร้างแบบจำลองที่วิ่งผ่านชุดข้อมูลและแสดงให้คุณเห็นถึงความสัมพันธ์นี้) มันอาจจะแปลก แต่ก็อาจบอกเป็นนัย ๆ ว่าพ่อส่วนใหญ่ซื้อสิ่งนี้ในช่วงสุดสัปดาห์เมื่อทารกนั่งเลี้ยงลูกของพวกเขา? ใส่ผ้าอ้อมใกล้เบียร์และคุณอาจเพิ่มยอดขายของคุณ! Aaah! การสร้างแบบจำลอง :)

นี่เป็นเพียงตัวอย่างและไม่ได้มีการอ้างอิงสำหรับการทำงานระดับมืออาชีพ โดยทั่วไปคุณสร้างแบบจำลองเพื่อทำความเข้าใจ / ประเมินความเป็นจริงที่ว่า / จะทำหน้าที่อย่างไรและเพื่อการตัดสินใจที่ดีขึ้นตามผลลัพธ์ สถิติหรือไม่คุณอาจทำแบบจำลองตลอดชีวิตของคุณโดยไม่รู้ตัว ขอให้โชคดี :)


11

การสร้างแบบจำลองทางสถิติเกี่ยวข้องกับการสร้างคำอธิบายทางคณิตศาสตร์ของปรากฏการณ์ในโลกแห่งความจริงบางอย่างซึ่งอธิบายถึงความไม่แน่นอนและ / หรือการสุ่มที่เกี่ยวข้องในระบบนั้น ขึ้นอยู่กับสาขาของแอปพลิเคชันสิ่งนี้อาจแตกต่างจากสิ่งที่ง่ายเหมือนการถดถอยเชิงเส้นหรือการทดสอบสมมติฐานขั้นพื้นฐานผ่านการวิเคราะห์ปัจจัยหลายตัวแปรที่ซับซ้อนหรือการทำเหมืองข้อมูล


5
ฉันได้ยกระดับสิ่งนี้เพราะมันเป็นความพยายามที่กล้าหาญและมีสาระสำคัญในการตอบคำถามที่กว้างมาก ฉันมีข้อสงสัยบางอย่างเกี่ยวกับว่า "การขุดข้อมูล" เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติใด ๆ หรือไม่และขอขอบคุณที่ได้เห็นตัวอย่างหรือการอธิบายความหมายของวลีที่คุณหมายถึง
whuber

@ เมื่อ LASSO เลือกคุณลักษณะแล้วนั่นไม่ใช่การสร้างแบบจำลองการถดถอยในแง่หนึ่ง
user13985

พูดอีกอย่างหนึ่งก็คือมันเหมือนกับการสร้างบ้านโดยใช้อิฐในจินตนาการและปูน? ความคิดเห็นลึกลับของฉันถูกกล่าวอย่างสนุกสนาน :)
แกรมวอลช์

1
การขุดข้อมูลอาจใช้เป็นส่วนหนึ่งของกระบวนการสร้างหรือตรวจสอบความถูกต้องของแบบจำลองที่กำหนด
Dave

5

การทำโมเดลให้ฉันเกี่ยวข้องกับการระบุกรอบความน่าจะเป็นสำหรับข้อมูลที่สังเกตได้ด้วยพารามิเตอร์ที่ประมาณได้ซึ่งสามารถใช้เพื่อแยกแยะความแตกต่างที่มีค่าในข้อมูลที่สังเกตได้เมื่อมีอยู่ นี่เรียกว่าพลังงาน แบบจำลองความน่าจะเป็นสามารถใช้สำหรับการทำนายหรือการอนุมาน สามารถใช้ในการปรับเทียบเครื่องจักรเพื่อแสดงให้เห็นถึงความบกพร่องในผลตอบแทนจากการลงทุนพยากรณ์อากาศหรือหุ้นหรือทำให้การตัดสินใจทางการแพทย์ง่ายขึ้น

ไม่จำเป็นต้องสร้างแบบจำลอง ในการทดสอบแบบแยกเดี่ยวเราสามารถใช้วิธีการสร้างแบบจำลองที่ไม่ใช่พารามิเตอร์เช่น t-test เพื่อตรวจสอบว่ามีความแตกต่างอย่างมีนัยสำคัญในวิธีการระหว่างสองกลุ่ม อย่างไรก็ตามสำหรับวัตถุประสงค์ในการพยากรณ์หลายแบบสามารถสร้างแบบจำลองเพื่อตรวจจับการเปลี่ยนแปลงในเวลา ตัวอย่างเช่นโมเดล Markov ที่ใช้การเปลี่ยนแปลงสามารถใช้ในการทำนายการแกว่งขึ้นและลงของมูลค่าตลาดสำหรับการลงทุน แต่การ "จุ่ม" ในขอบเขตใดที่ถือว่าแย่กว่าที่คาดไว้? การใช้หลักฐานทางประวัติศาสตร์และตัวทำนายที่สังเกตได้เราสามารถสร้างแบบจำลองที่มีความซับซ้อนเพื่อปรับเทียบว่าจุดที่สังเกตได้นั้นแตกต่างจากที่เคยมีมาในอดีตหรือไม่ การใช้เครื่องมือต่าง ๆ เช่นแผนภูมิควบคุมแผนภูมิอุบัติการณ์เส้นโค้งการอยู่รอดและแผนภูมิ "อิงตามเวลา" อื่น ๆ

อีกวิธีหนึ่งคือ "สร้าง" โดยมีความยืดหยุ่นในการปรับตัวตามการเติบโตของข้อมูล การตรวจจับแนวโน้มและระบบการแนะนำของ Netflix ของ Twitter เป็นตัวอย่างสำคัญของโมเดลดังกล่าว พวกเขามีข้อกำหนดทั่วไป (Bayesian Model Averaging สำหรับหลัง) ที่ช่วยให้แบบจำลองที่ยืดหยุ่นเพื่อรองรับการเปลี่ยนแปลงทางประวัติศาสตร์และแนวโน้มและปรับเทียบเพื่อรักษาคำทำนายที่ดีที่สุดเช่นการแนะนำภาพยนตร์ที่มีแรงกระแทกสูง การเปลี่ยนแปลงอย่างมากในการตั้งค่าภาพยนตร์เนื่องจากฤดูกาล

มีการนำเสนอวิธีการทำเหมืองข้อมูลบางอย่างเพราะพวกเขามีความเชี่ยวชาญสูงในการบรรลุแนวทางการพยากรณ์บางประเภท (อีกครั้งปัญหาของการได้รับแนวโน้มหรือค่านิยมในข้อมูล "ที่คาดหวัง") K-NN เป็นวิธีการรวมข้อมูลมิติสูงและอนุมานว่าผู้ทดลองสามารถได้รับการทำนายที่เชื่อถือได้เพียงเพราะความใกล้ชิด (ไม่ว่าจะมาจากอายุรสนิยมทางดนตรีประวัติศาสตร์ทางเพศหรือลักษณะอื่น ๆ ที่วัดได้) การถดถอยแบบลอจิสติกในอีกทางหนึ่งสามารถรับตัวจําแนกแบบไบนารีได้ แต่มักใช้เพื่ออนุมานเกี่ยวกับความสัมพันธ์ระหว่างผลลัพธ์แบบไบนารีกับการสัมผัสและเงื่อนไขหนึ่งหรือหลายครั้งผ่านพารามิเตอร์ที่เรียกว่าอัตราส่วนอัตราต่อรอง เนื่องจากทฤษฎีบทที่ จำกัด และความสัมพันธ์กับแบบจำลองเชิงเส้นทั่วไปอัตราส่วนอัตราต่อรองเป็นพารามิเตอร์ปกติสูงที่มีข้อผิดพลาดประเภท "อนุรักษ์สูง" ประเภทที่ 1 (เช่น


ขอบคุณสำหรับคำพูดของคุณ ในกรณีของการตรวจจับ Netflix ของ Twitter นั่นไม่ใช่ขอบเขตการเรียนรู้ของเครื่องหรือไม่ ฉันไม่สามารถวาดเส้นแบ่งระหว่างการสร้างแบบจำลองและการเรียนรู้ของเครื่องได้
user13985

1
การเรียนรู้ของเครื่องมักจะเป็นแบบจำลองมิติสูง วิธีการหลายกรณีเป็นกรณีพิเศษของวิธีการตามโอกาสที่มีอยู่กับการลงโทษหรือน้ำหนักที่ใช้
AdamO

ขอบคุณสำหรับการตรวจสอบความคิดของฉันแจ้งให้เราทราบหากคุณต้องการสิ่งอื่นใด
user13985

3

การสร้างแบบจำลองเป็นกระบวนการในการระบุรูปแบบที่เหมาะสม

บ่อยครั้งที่ modeller จะมีความคิดที่ดีเกี่ยวกับตัวแปรที่สำคัญและอาจมีพื้นฐานทางทฤษฎีสำหรับแบบจำลองเฉพาะ พวกเขาจะรู้ข้อเท็จจริงบางอย่างเกี่ยวกับการตอบสนองและความสัมพันธ์ทั่วไปกับผู้ทำนาย แต่อาจยังไม่แน่ใจว่าความคิดทั่วไปของแบบจำลองของพวกเขานั้นเพียงพอแล้ว - แม้จะมีความคิดทางทฤษฎีที่ยอดเยี่ยมว่าค่าเฉลี่ยควรทำงานอย่างไร ตัวอย่างเช่นอาจไม่มั่นใจว่าค่าความแปรปรวนไม่เกี่ยวข้องกับค่าเฉลี่ยหรือพวกเขาอาจสงสัยว่าการพึ่งพาอนุกรมอาจเป็นไปได้

ดังนั้นอาจมีวงจรของการระบุตัวแบบหลายขั้นตอนที่อ้างอิงถึง (อย่างน้อยบางส่วน) ข้อมูล ทางเลือกคือการเสี่ยงกับการมีโมเดลที่ไม่เหมาะสมเป็นประจำ

(แน่นอนถ้าพวกเขามีความรับผิดชอบพวกเขาจะต้องคำนึงถึงวิธีการใช้ข้อมูลด้วยวิธีนี้ส่งผลกระทบต่อการอนุมานของพวกเขา)

กระบวนการที่เกิดขึ้นจริงแตกต่างกันไปในแต่ละพื้นที่และจากคนสู่คน แต่ก็เป็นไปได้ที่จะหาบางคนที่ระบุขั้นตอนในกระบวนการของพวกเขา (เช่นกล่องและเจนกินส์ร่างหนึ่งแนวทางดังกล่าวในหนังสือของพวกเขาในชุดเวลา) แนวคิดเกี่ยวกับวิธีการระบุตัวแบบเปลี่ยนแปลงตลอดเวลา


0

ฉันไม่คิดว่ามีคำจำกัดความทั่วไปของสิ่งที่ถือเป็นแบบจำลองทางสถิติ จากประสบการณ์ของฉันในอุตสาหกรรมดูเหมือนว่าจะเป็นคำพ้องความหมายกับสิ่งที่เศรษฐศาสตร์เรียกว่าแบบจำลองที่ลดลง ฉันจะอธิบาย

F=ม.d2xdเสื้อ2

รุ่นนี้จะมีสิ่งที่นักฟิสิกส์เรียกว่า "ค่าคงที่" หรือ "coeffiecients" เช่นความหนาแน่นของอากาศที่อุณหภูมิและระดับความสูงที่กำหนด คุณจะต้องค้นหาว่าสัมประสิทธิ์เหล่านี้ทดลองอะไร ในกรณีของเราเราจะขอให้ปืนใหญ่ยิงปืนใหญ่ภายใต้สภาวะที่แตกต่างกันและควบคุมอย่างเข้มงวดเช่นมุมอุณหภูมิ ฯลฯ

เรารวบรวมข้อมูลทั้งหมดและปรับโมเดลให้เหมาะสมโดยใช้เทคนิคทางสถิติ มันอาจจะง่ายเหมือนการถดถอยเชิงเส้นหรือค่าเฉลี่ย เมื่อได้ค่าสัมประสิทธิ์ทั้งหมดตอนนี้เรารันโมเดลทางคณิตศาสตร์ของเราเพื่อสร้างตารางการยิง นี่คือคำอธิบายอย่างประณีตในเอกสารที่ไม่เป็นความลับที่นี่เรียกว่า "การผลิตแท็บเล็ตสำหรับปืนใหญ่ปืนใหญ่"

สิ่งที่ฉันอธิบายไม่ใช่แบบจำลองเชิงสถิติ ใช่มันใช้สถิติ แต่รุ่นนี้ใช้สร้างกฎของฟิสิกส์ซึ่งเป็นสาระสำคัญของแบบจำลอง ที่นี่สถิติเป็นเพียงเครื่องมือในการกำหนดค่าของพารามิเตอร์ที่สำคัญบางประการ การเปลี่ยนแปลงของระบบมีการอธิบายและกำหนดล่วงหน้าโดยสนาม

สมมติว่าเราไม่ทราบหรือไม่สนใจกฎของฟิสิกส์และพยายามสร้างความสัมพันธ์ระหว่างระยะทางในการบินของปืนใหญ่กับพารามิเตอร์เช่นมุมการยิงและอุณหภูมิโดยใช้ "แบบจำลองเชิงสถิติ" เราจะสร้างชุดข้อมูลขนาดใหญ่ที่มีตัวแปรตัวเลือกหรือคุณสมบัติและการแปลงตัวแปรอาจเป็นชุดพหุนามอุณหภูมิเป็นต้นจากนั้นเราจะทำการถดถอยแบบแปลก ๆ และสัมประสิทธิ์ที่ระบุ สัมประสิทธิ์เหล่านี้อาจไม่จำเป็นต้องสร้างการตีความในสนาม เราเรียกมันว่าความไวต่ออุณหภูมิของสี่เหลี่ยมจัตุรัสเป็นต้นแบบจำลองนี้อาจจะค่อนข้างดีในการทำนายจุดสิ้นสุดของลูกปืนใหญ่เนื่องจากกระบวนการพื้นฐานนั้นค่อนข้างเสถียร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.