คุณจะเลือกรุ่นจากรุ่นที่แตกต่างกันซึ่งเลือกโดยวิธีการที่แตกต่างกัน (เช่นการเลือกถอยหลังหรือการส่งต่อ)
นอกจากนี้แบบจำลองทางการเงินคืออะไร?
คุณจะเลือกรุ่นจากรุ่นที่แตกต่างกันซึ่งเลือกโดยวิธีการที่แตกต่างกัน (เช่นการเลือกถอยหลังหรือการส่งต่อ)
นอกจากนี้แบบจำลองทางการเงินคืออะไร?
คำตอบ:
แบบจำลองทางการเงินเป็นแบบจำลองที่บรรลุระดับคำอธิบายหรือการทำนายที่ต้องการโดยใช้ตัวแปรตัวทำนายน้อยที่สุดเท่าที่จะทำได้
สำหรับการประเมินรูปแบบมีวิธีการที่แตกต่างกันขึ้นอยู่กับสิ่งที่คุณต้องการรู้ โดยทั่วไปมีสองวิธีในการประเมินรูปแบบ: ขึ้นอยู่กับการคาดการณ์และขึ้นอยู่กับความดีของความพอดีกับข้อมูลปัจจุบัน ในกรณีแรกคุณต้องการทราบว่าแบบจำลองของคุณทำนายข้อมูลใหม่ได้เพียงพอหรือไม่ในกรณีที่สองคุณต้องการทราบว่าแบบจำลองของคุณเพียงพออธิบายความสัมพันธ์ในข้อมูลปัจจุบันของคุณหรือไม่ นั่นเป็นสองสิ่งที่แตกต่างกัน
วิธีที่ดีที่สุดในการประเมินแบบจำลองที่ใช้ในการทำนายคือ สั้นมากคุณตัดชุดข้อมูลของคุณในเช่น 10 ชิ้นที่แตกต่างกันใช้ 9 ชิ้นเพื่อสร้างแบบจำลองและทำนายผลลัพธ์สำหรับชุดข้อมูลที่สิบ ความแตกต่างยกกำลังสองอย่างง่ายระหว่างค่าที่สังเกตและค่าที่ทำนายได้ทำให้คุณสามารถวัดความแม่นยำในการทำนายได้ ในขณะที่คุณทำซ้ำสิบครั้งนี้คุณจะคำนวณความแตกต่างกำลังสองเฉลี่ยของการวนซ้ำทั้งสิบครั้งเพื่อให้ได้ค่าทั่วไปพร้อมค่าเบี่ยงเบนมาตรฐาน สิ่งนี้ช่วยให้คุณสามารถเปรียบเทียบแบบจำลองทั้งสองอีกครั้งเกี่ยวกับความแม่นยำในการทำนายโดยใช้เทคนิคทางสถิติมาตรฐาน (t-test หรือ ANOVA)
ตัวแปรในชุดรูปแบบคือเกณฑ์ PRESS (การทำนายผลรวมของกำลังสอง) ที่กำหนดเป็น
ไหนYฉัน( - ฉัน)เป็นค่าที่คาดการณ์ไว้สำหรับการสังเกต ith โดยใช้รูปแบบตามข้อสังเกตทั้งหมดลบด้วยมูลค่าที่ i เกณฑ์นี้มีประโยชน์อย่างยิ่งหากคุณไม่มีข้อมูลมาก ในกรณีดังกล่าวการแยกข้อมูลของคุณเช่นเดียวกับวิธีการข้ามค่าข้อมูลอาจส่งผลให้ส่วนย่อยของข้อมูลมีขนาดเล็กเกินไปสำหรับการปรับให้มีเสถียรภาพ
ให้ฉันก่อนระบุว่าสิ่งนี้แตกต่างอย่างแท้จริงขึ้นอยู่กับกรอบรูปแบบที่คุณใช้ ตัวอย่างเช่นการทดสอบอัตราส่วนความน่าจะเป็นสามารถใช้กับแบบจำลองการผสมแบบทั่วไปสำหรับการใช้งานคลาสสิกแบบเกาส์สำหรับข้อผิดพลาด แต่ไม่มีความหมายในกรณีของตัวแปรทวินาม
ก่อนอื่นคุณมีวิธีการเปรียบเทียบที่ใช้งานง่ายกว่า คุณสามารถใช้ Aikake Information Criterion (AIC) หรือ Bayesian Information Criterion (BIC) เพื่อเปรียบเทียบความดีของความพอดีสำหรับสองรุ่น แต่ไม่มีอะไรบอกคุณว่าทั้งสองรุ่นต่างกันจริงๆ
อีกอันหนึ่งคือเกณฑ์ Cp ของเมลโลว์ สิ่งนี้จะตรวจสอบความลำเอียงที่อาจเกิดขึ้นได้ในแบบจำลองของคุณโดยการเปรียบเทียบแบบจำลองกับ submodels ที่เป็นไปได้ทั้งหมด (หรือการเลือกอย่างระมัดระวัง) ดูเพิ่มเติมที่http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
หากแบบจำลองที่คุณต้องการเปรียบเทียบเป็นแบบจำลองที่ซ้อนกัน (เช่นตัวทำนายและการโต้ตอบทั้งหมดของแบบจำลองที่มีคุณสมบัติมากขึ้นก็จะเกิดขึ้นในแบบจำลองที่สมบูรณ์ยิ่งขึ้น) คุณสามารถใช้การเปรียบเทียบแบบเป็นทางการในรูปแบบของการทดสอบอัตราส่วนความน่าจะเป็น หรือการทดสอบ F ในกรณีที่เหมาะสมเช่นเมื่อเปรียบเทียบแบบจำลองเชิงเส้นอย่างง่ายที่ติดตั้งโดยใช้กำลังสองน้อยที่สุด) การทดสอบนี้จะควบคุมว่าตัวทำนายหรือการโต้ตอบพิเศษนั้นปรับปรุงแบบจำลองหรือไม่ เกณฑ์นี้มักจะใช้ในวิธีการตามขั้นตอนไปข้างหน้าหรือข้างหลัง
คุณมีผู้สนับสนุนและคุณมีศัตรูของวิธีนี้ โดยส่วนตัวฉันไม่ชอบการเลือกรูปแบบอัตโนมัติโดยเฉพาะอย่างยิ่งไม่เกี่ยวกับการอธิบายรูปแบบและนี่คือเหตุผลหลายประการ:
โดยพื้นฐานแล้วฉันเห็นมากขึ้นในการเปรียบเทียบชุดรุ่นที่เลือกไว้ล่วงหน้า หากคุณไม่สนใจเกี่ยวกับการประเมินทางสถิติของแบบจำลองและการทดสอบสมมติฐานคุณสามารถใช้ crossvalidation เพื่อเปรียบเทียบความแม่นยำในการทำนายของแบบจำลองของคุณ
แต่ถ้าคุณหลังจากเลือกตัวแปรเพื่อการคาดการณ์จริงๆแล้วคุณอาจต้องการดูวิธีอื่น ๆ สำหรับการเลือกตัวแปรเช่นเครื่องเวกเตอร์สนับสนุนเครือข่ายประสาทเทียมป่าสุ่มและไลค์ สิ่งเหล่านี้มักใช้ในยาเพื่อหาว่าโปรตีนที่วัดได้หนึ่งพันสามารถทำนายได้อย่างเพียงพอว่าคุณเป็นมะเร็งหรือไม่ เพียงแค่ให้ตัวอย่าง (มีชื่อเสียง):
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
วิธีการทั้งหมดนี้มีตัวแปรการถดถอยสำหรับข้อมูลต่อเนื่องเช่นกัน
การใช้การเลือกถอยหลังหรือไปข้างหน้าเป็นกลยุทธ์ทั่วไป แต่ไม่ใช่สิ่งที่ฉันสามารถแนะนำได้ ผลลัพธ์ที่ได้จากการสร้างแบบจำลองนั้นผิดทั้งหมด ค่า p ต่ำเกินไปค่าสัมประสิทธิ์จะมีอคติห่างจาก 0 และมีปัญหาอื่น ๆ ที่เกี่ยวข้อง
หากคุณต้องทำการเลือกตัวแปรอัตโนมัติฉันขอแนะนำให้ใช้วิธีการที่ทันสมัยกว่าเช่น LASSO หรือ LAR
ฉันเขียนงานนำเสนอ SAS เกี่ยวกับเรื่องนี้ชื่อ"การหยุดแบบขั้นตอน: ทำไมวิธีแบบขั้นตอนและวิธีที่คล้ายกันไม่ดีและสิ่งที่คุณควรใช้"
แต่ถ้าเป็นไปได้ฉันจะหลีกเลี่ยงวิธีการแบบอัตโนมัติทั้งหมดและพึ่งพาความเชี่ยวชาญในเรื่อง แนวคิดหนึ่งคือการสร้างแบบจำลองที่สมเหตุสมผล 10 แบบและเปรียบเทียบกับเกณฑ์ข้อมูล @Nick Sabbe ได้กล่าวถึงสิ่งเหล่านี้ไว้ในคำตอบของเขา
คำตอบสำหรับสิ่งนี้จะขึ้นอยู่กับเป้าหมายของคุณเป็นอย่างมาก คุณอาจกำลังมองหาค่าสัมประสิทธิ์ที่มีนัยสำคัญทางสถิติหรือคุณอาจจะออกไปเพื่อหลีกเลี่ยงการผิดประเภทมากที่สุดเท่าที่จะเป็นไปได้เมื่อทำนายผลลัพธ์สำหรับการสังเกตใหม่หรือคุณอาจสนใจโมเดลที่มีผลบวกน้อยที่สุด บางทีคุณอาจต้องการเส้นโค้งที่ใกล้เคียงที่สุดกับข้อมูล
ในกรณีใด ๆ ข้างต้นคุณต้องมีมาตรการบางอย่างสำหรับสิ่งที่คุณกำลังมองหา มาตรการบางอย่างที่ได้รับความนิยมพร้อมแอปพลิเคชันที่แตกต่างกันคือ AUC, BIC, AIC, ข้อผิดพลาดที่เหลือ, ...
คุณคำนวณการวัดที่ตรงกับเป้าหมายของคุณมากที่สุดสำหรับแต่ละรุ่นแล้วเปรียบเทียบ 'คะแนน' สำหรับแต่ละรุ่น สิ่งนี้นำไปสู่โมเดลที่ดีที่สุดสำหรับเป้าหมายของคุณ
มาตรการเหล่านี้บางอย่าง (เช่น AIC) วางความเครียดเป็นพิเศษกับจำนวนของค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์ในรูปแบบเนื่องจากการใช้มากเกินไปอาจเป็นการใส่ข้อมูลให้มากเกินไป ประชากร). อาจมีเหตุผลอื่นที่ทำให้แบบจำลองต้องเก็บตัวแปร 'ให้น้อยที่สุดเท่าที่จะเป็นไปได้' เช่นถ้ามันมีค่าใช้จ่ายสูงในการวัดพวกมันทั้งหมดเพื่อการทำนาย 'ความเรียบง่ายของ' หรือ 'ตัวแปรจำนวนน้อยใน' โมเดลมักถูกอ้างถึงว่าเป็นแบบ parsimony
ดังนั้นในระยะสั้นโมเดล parsimoneous จึงเป็นโมเดล 'แบบง่าย' ไม่เก็บตัวแปรมากเกินไป
บ่อยครั้งที่คำถามประเภทนี้ฉันจะแนะนำคุณไปยังองค์ประกอบหนังสือการเรียนรู้ทางสถิติที่ยอดเยี่ยมสำหรับข้อมูลเชิงลึกเกี่ยวกับหัวข้อและประเด็นที่เกี่ยวข้อง
ฉันพบว่าการสนทนาที่นี่น่าสนใจโดยเฉพาะการอภิปรายระหว่าง Parsimonious และ Model ที่มีค่าสัมประสิทธิ์และตัวแปรมากขึ้น
ศาสตราจารย์ของฉัน ปลายดร. สตีฟเคยให้ความสำคัญกับแบบจำลองที่มีค่า R ^ 2 ต่ำเมื่อเทียบกับรุ่นอื่นที่มีขนาดพอดีดีกว่า / ขนาดใหญ่ R ^ 2
ขอบคุณสำหรับปลาทั้งหมดที่นี่!
Akash