สถิติและข้อมูลขนาดใหญ่ predictive-models

1

ในคำถามที่ฉันถามเมื่อเร็ว ๆ นี้ฉันได้รับการบอกว่ามันเป็นเรื่องใหญ่ "ไม่ห้าม" ในการคาดการณ์ด้วยเหลือง แต่ในบทความล่าสุดของ Nate Silver ใน FiveThirtyEight.comเขาได้พูดคุยกันโดยใช้คำทำนายการเลือกตั้ง เขากำลังพูดถึงลักษณะเฉพาะของการคาดการณ์ที่ก้าวร้าวและอนุรักษ์นิยมกับดินเหลือง แต่ฉันอยากรู้ว่าความถูกต้องของการคาดการณ์ในอนาคตจะเป็นอย่างไร ฉันยังสนใจในการสนทนานี้และมีทางเลือกอื่นที่อาจมีประโยชน์คล้ายกับเหลือง

23 time-series forecasting predictive-models loess politics

2

ค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ใน Scikit-Learn [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา เราจะคำนวณค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ของการคาดคะเนของเราโดยใช้ Python และ scikit-Learn ได้อย่างไร จากเอกสารเรามีเพียง 4 ฟังก์ชันเมตริกสำหรับการถดถอยเท่านั้น: metrics.explained_variance_score (y_true, y_pred) metrics.mean_absolute_error (y_true, y_pred) metrics.mean_squared_error (y_true, y_pred) metrics.r2_score (y_true, y_pred)

23 predictive-models python scikit-learn mape

3

การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง

สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

23 data-visualization classification predictive-models binary-data calibration

3

ไซต์สำหรับการแข่งขันการสร้างแบบจำลองการทำนาย

ผมมีส่วนร่วมในการแข่งขันการสร้างแบบจำลองการคาดการณ์ในKaggle , TunedItและCrowdAnalytix ฉันพบว่าเว็บไซต์เหล่านี้เป็นวิธีที่ดีในการ "ออกกำลังกาย" เพื่อการเรียนรู้ทางสถิติ / เครื่อง มีเว็บไซต์อื่น ๆ ที่ฉันควรรู้หรือไม่? คุณรู้สึกอย่างไรเกี่ยวกับการแข่งขันที่โฮสต์ต้องการทำกำไรจากการส่งผลงานของคู่แข่ง? / แก้ไข: นี่คือรายการที่สมบูรณ์มากขึ้น: Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder

23 machine-learning predictive-models

2

Generative vs discriminative models (ในบริบทของ Bayesian)

อะไรคือความแตกต่างระหว่างแบบจำลองเชิงกำเนิดและแบบเลือกปฏิบัติ (แบบเลือกปฏิบัติ) (ในบริบทของการเรียนรู้และการอนุมานแบบเบย์)? และอะไรคือสิ่งที่เกี่ยวข้องกับการทำนายทฤษฎีการตัดสินใจหรือการเรียนรู้ที่ไม่มีผู้ดูแล

22 bayesian predictive-models unsupervised-learning

3

วิธีการทำนายผลลัพธ์ด้วยการฝึกอบรมเชิงบวกเท่านั้น?

เพื่อความเรียบง่ายสมมติว่าฉันทำงานกับตัวอย่างคลาสสิกของอีเมลสแปม / จดหมายขยะ ฉันมีอีเมลหนึ่งชุด ในบรรดาสิ่งเหล่านี้ฉันรู้ว่า 2000 เป็นสแปม แต่ฉันไม่มีตัวอย่างของอีเมลขยะ ฉันต้องการที่จะคาดการณ์ว่าส่วนที่เหลืออีก 18,000 เป็นสแปมหรือไม่ ตามหลักการแล้วผลลัพธ์ที่ฉันค้นหาคือความน่าจะเป็น (หรือค่า p) ที่อีเมลเป็นสแปม ฉันสามารถใช้อัลกอริทึมใดในการทำนายอย่างสมเหตุสมผลในสถานการณ์นี้ ในขณะนี้ฉันกำลังคิดถึงวิธีการทางไกลที่จะบอกฉันว่าอีเมลของฉันคล้ายกับอีเมลสแปมที่รู้จักกันอย่างไร ฉันมีตัวเลือกอะไรบ้าง โดยทั่วไปฉันสามารถใช้วิธีการเรียนรู้แบบมีผู้สอนหรือฉันจำเป็นต้องมีกรณีที่เป็นลบในชุดฝึกอบรมเพื่อทำเช่นนั้นหรือไม่? ฉัน จำกัด วิธีการเรียนรู้ที่ไม่ได้รับการดูแลหรือไม่? วิธีการกึ่งควบคุมดูแล?

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

2

เทคนิคการเพิ่มข้อมูลสำหรับชุดข้อมูลทั่วไป?

ในหลาย ๆ แอปพลิเคชันการเรียนรู้ของเครื่องวิธีการเสริมข้อมูลที่เรียกว่าได้อนุญาตให้สร้างแบบจำลองที่ดีกว่า ตัวอย่างเช่นสมมติชุดฝึกสุนัขและแมวจำนวนภาพ โดยการหมุน, การทำมิเรอร์, การปรับคอนทราสต์ ฯลฯ เป็นไปได้ที่จะสร้างภาพเพิ่มเติมจากภาพต้นฉบับ100100100 ในกรณีของภาพการเพิ่มข้อมูลค่อนข้างตรงไปตรงมา อย่างไรก็ตามสมมติว่ามีตัวอย่างชุดฝึกอบรมจำนวนตัวอย่างและตัวแปรต่อเนื่องสองสามร้อยตัวที่เป็นตัวแทนของสิ่งต่าง ๆ การเพิ่มข้อมูลดูเหมือนจะไม่ง่ายอีกต่อไป จะทำอะไรได้บ้างในกรณีเช่นนี้?100100100

21 machine-learning predictive-models dataset independence data-augmentation

2

ฟังก์ชัน“ น่าสนใจ” สำหรับคำถาม StackExchange

คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 8 ปีที่ผ่านมา ฉันกำลังพยายามรวบรวมแพ็คเกจการขุดข้อมูลสำหรับเว็บไซต์ StackExchange และโดยเฉพาะฉันติดอยู่ในการพยายามที่จะกำหนดคำถาม "น่าสนใจที่สุด" ฉันต้องการใช้คะแนนคำถาม แต่ลบอคติเนื่องจากจำนวนการดู แต่ฉันไม่ทราบวิธีเข้าหานี้อย่างจริงจัง ในโลกอุดมคติฉันสามารถเรียงลำดับคำถามด้วยการคำนวณโดยที่คือจำนวนโหวตทั้งหมดและคือจำนวนการดู หลังจากนั้นมันจะวัดเปอร์เซ็นต์ของผู้ที่ upvote คำถามลบด้วยเปอร์เซ็นต์ของคนที่ downvote คำถามโวลต์nโวลต์n\frac{v}{n}โวลต์โวลต์vnnn น่าเสียดายที่รูปแบบการลงคะแนนมีความซับซ้อนมากขึ้น การลงคะแนนมีแนวโน้มที่จะ "ที่ราบสูง" ในระดับหนึ่งและสิ่งนี้มีผลกระทบจากการประเมินคำถามยอดนิยมอย่างรุนแรง ในทางปฏิบัติคำถามที่มี 1 มุมมองและ 1 upvote จะให้คะแนนและเรียงลำดับสูงกว่าคำถามอื่น ๆ ที่มี 10,000 ครั้ง แต่น้อยกว่า 10,000 คะแนน ขณะนี้ฉันใช้เป็นสูตรเชิงประจักษ์ แต่ฉันต้องการความแม่นยำ ฉันจะแก้ไขปัญหานี้ด้วยความเข้มงวดทางคณิตศาสตร์ได้อย่างไรโวลต์เข้าสู่ระบบn +1โวลต์เข้าสู่ระบบ⁡n+1\frac{v}{\log{n}+1} เพื่อที่จะแสดงความคิดเห็นบางส่วนฉันจะพยายามแก้ไขปัญหาด้วยวิธีที่ดีกว่า: สมมติว่าผมมีคำถามกับคะแนนโหวตทั้งหมดและมุมมอง ฉันต้องการที่จะสามารถที่จะประเมินสิ่งที่คะแนนโหวตทั้งหมดมีแนวโน้มมากที่สุดเมื่อมุมมองถึงn_1โวลต์0โวลต์0v_0n0n0n_0โวลต์1โวลต์1v_1n1n1n_1 ด้วยวิธีนี้ฉันสามารถเลือกค่าเล็กน้อยสำหรับและสั่งซื้อคำถามทั้งหมดตามผลรวมคาดไว้n1n1n_1โวลต์1โวลต์1v_1 ฉันสร้างแบบสอบถามสองรายการบน SO datadump เพื่อให้แสดงผลที่ฉันพูดถึงได้ดีขึ้น: …

20 data-mining predictive-models

2

Bayesian กำลังคิดเรื่องกำลังพลเกินกำลัง

ฉันทุ่มเทเวลาอย่างมากในการพัฒนาวิธีการและซอฟต์แวร์สำหรับตรวจสอบแบบจำลองการทำนายในโดเมนสถิติที่ใช้บ่อย ในการนำแนวคิดแบบเบย์มาใช้ในการฝึกฝนและการสอนฉันเห็นความแตกต่างที่สำคัญในการโอบกอด ขั้นแรกการสร้างแบบจำลองการทำนายแบบเบย์ขอให้นักวิเคราะห์คิดอย่างหนักเกี่ยวกับการแจกแจงก่อนหน้าซึ่งอาจปรับให้เข้ากับคุณสมบัติของผู้สมัครและนักบวชเหล่านี้จะดึงแบบจำลองไปทางพวกเขา (กล่าวคือบรรลุการหด / ลงโทษ ) ประการที่สองวิธีเบย์ "ของจริง" ไม่ได้ส่งผลให้มีรูปแบบเดียว แต่ก็มีการกระจายหลังทั้งหมดสำหรับการทำนาย เมื่อคำนึงถึงคุณสมบัติของเบย์เซียนแล้วความหมายของการ overfitting หมายความว่าอะไร? เราควรประเมินมันหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร เราจะรู้ได้อย่างไรว่าแบบจำลองแบบเบย์มีความน่าเชื่อถือสำหรับการใช้งานภาคสนาม? หรือว่าเป็นจุดที่สงสัยตั้งแต่ผู้โพสต์จะดำเนินการตามความไม่แน่นอนให้เตือนทั้งหมดเมื่อเราใช้แบบจำลองที่เราพัฒนาขึ้นสำหรับการทำนาย? ความคิดจะเปลี่ยนไปอย่างไรถ้าเราบังคับให้แบบจำลอง Bayesian กลั่นเป็นตัวเลขเดียวเช่นความเสี่ยงด้านหลัง / โหมด / ค่ามัธยฐานด้านหลัง? ผมเห็นความคิดที่เกี่ยวข้องบางอย่างที่นี่ การอภิปรายขนานอาจจะพบได้ที่นี่ คำถามติดตามผล :: ถ้าเราเป็นคนเบย์อย่างเต็มที่และใช้เวลาคิดเกี่ยวกับนักบวชก่อนที่จะเห็นข้อมูลและเราพอดีกับแบบจำลองที่มีการระบุความน่าจะเป็นของข้อมูลอย่างเหมาะสมเราถูกบังคับให้พอใจกับแบบจำลองของเรา ? หรือเราจำเป็นต้องทำในสิ่งที่เราทำในโลกที่มีผู้ถูกเลือกแบบสุ่มอาจถูกคาดการณ์ได้ดีโดยเฉลี่ย แต่ถ้าเราเลือกวิชาที่มีการทำนายต่ำมากหรือมีค่าที่คาดการณ์ไว้สูงมากจะมีการถดถอย หมายถึงอะไร

20 bayesian cross-validation predictive-models validation regression-strategies

2

การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน

อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν∈[0,1]ν∈[0,1]\nu \in [0,1] ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364: การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνν\nuMMMνν\nuMMM การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MMMMMM ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνν\nuMMM เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

19 machine-learning data-mining predictive-models boosting overfitting

1

การทำนายแบบจำลอง - เราควรใส่ใจกับการสร้างแบบจำลองที่หลากหลายหรือไม่

สำหรับการสร้างแบบจำลองการทำนายเราจำเป็นต้องคำนึงถึงตัวเราด้วยแนวคิดทางสถิติเช่นเอฟเฟกต์แบบสุ่มและการไม่เป็นอิสระจากการสังเกต (มาตรการซ้ำ ๆ )? ตัวอย่างเช่น.... ฉันมีข้อมูลจากแคมเปญอีเมลโดยตรง 5 รายการ (เกิดขึ้นในช่วงหนึ่งปี) ที่มีคุณลักษณะและการตั้งค่าสถานะการซื้อต่างๆ เป็นการดีที่ฉันจะใช้ข้อมูลทั้งหมดนี้รวมกันเพื่อสร้างแบบจำลองสำหรับการซื้อที่กำหนดคุณลักษณะของลูกค้าในช่วงเวลาของแคมเปญ เหตุผลคือเหตุการณ์การซื้อหายากและฉันต้องการใช้ข้อมูลให้มากที่สุด มีโอกาสที่ลูกค้าที่กำหนดอาจอยู่ในทุก ๆ 1 ถึง 5 ของแคมเปญ - หมายความว่าไม่มีความเป็นอิสระระหว่างบันทึก ไม่สำคัญเมื่อใช้: 1) วิธีการเรียนรู้ของเครื่อง (เช่น tree, MLP, SVM) 2) วิธีการทางสถิติ (การถดถอยโลจิสติก)? **ADD:** ความคิดของฉันเกี่ยวกับการสร้างแบบจำลองการคาดการณ์คือถ้าแบบจำลองใช้งานได้ เพื่อให้ฉันไม่เคยพิจารณาความสำคัญของสมมติฐาน การนึกถึงกรณีที่ฉันอธิบายไว้ข้างต้นทำให้ฉันสงสัย MLP and SVMใช้ขั้นตอนวิธีการเรียนรู้เครื่องเช่น สิ่งเหล่านี้ถูกใช้อย่างประสบความสำเร็จในการสร้างแบบจำลองเหตุการณ์ไบนารีเช่นตัวอย่างของฉันด้านบน แต่ยังมีข้อมูลอนุกรมเวลาที่มีความสัมพันธ์อย่างชัดเจน อย่างไรก็ตามฟังก์ชั่นการสูญเสียการใช้งานจำนวนมากที่มีความเป็นไปได้และมาจากการสันนิษฐานว่าเป็นข้อผิดพลาดคือ id ตัวอย่างเช่นต้นไม้เพิ่มระดับความลาดชันใน R gbmใช้ฟังก์ชั่นการสูญเสียความเบี่ยงเบนที่ได้มาจากทวินาม ( หน้า 10 )

19 machine-learning predictive-models repeated-measures assumptions

2

จะคาดการณ์ได้อย่างไรว่าเหตุการณ์ต่อไปจะเกิดขึ้นตามเวลาของเหตุการณ์ก่อนหน้า?

ฉันเป็นนักเรียนมัธยมปลายและฉันกำลังทำงานในโครงการการเขียนโปรแกรมคอมพิวเตอร์ แต่ฉันไม่มีประสบการณ์ในด้านสถิติและการสร้างแบบจำลองข้อมูลนอกเหนือจากหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน โดยพื้นฐานแล้วฉันมีรายการที่มีขนาดใหญ่พอสมควร (สมมติว่ามันใหญ่พอที่จะตรงตามข้อสันนิษฐานสำหรับการทดสอบทางสถิติหรือมาตรการต่าง ๆ ) จำนวนครั้งที่มีคนตัดสินใจพิมพ์เอกสาร จากรายการนี้ฉันต้องการสร้างแบบจำลองทางสถิติของการเรียงลำดับบางอย่างที่จะทำนายเวลาที่น่าจะเป็นไปได้มากที่สุดสำหรับงานพิมพ์ถัดไปที่ให้เวลาเหตุการณ์ก่อนหน้านี้ทั้งหมด ฉันได้อ่านสิ่งนี้แล้ว แต่คำตอบไม่ได้ช่วยในสิ่งที่ฉันมีในใจสำหรับโครงการของฉัน ฉันได้ทำการวิจัยเพิ่มเติมและพบว่าโมเดลของ Markov ที่ซ่อนอยู่นั้นน่าจะทำให้ฉันทำอย่างถูกต้อง แต่ฉันไม่สามารถหาลิงก์เกี่ยวกับวิธีสร้างโมเดลของ Markov ที่ซ่อนอยู่ได้โดยใช้เวลาเพียงไม่กี่ครั้ง ฉันยังพบว่าการใช้ตัวกรองคาลมานในรายการอาจมีประโยชน์ แต่โดยทั่วไปฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับตัวกรองจากคนที่ใช้งานจริงและรู้ข้อ จำกัด และข้อกำหนดก่อนที่จะลองทำบางสิ่งและหวังว่ามันจะได้ผล ขอบคุณมัด!

19 probability modeling data-mining predictive-models

4

การกำหนดฟังก์ชันการกระชับส่วนโค้งที่เหมาะสมที่สุดจากฟังก์ชันเชิงเส้น, เลขชี้กำลังและฟังก์ชันลอการิทึม

บริบท: จากคำถามเกี่ยวกับ Mathematics Stack Exchange (ฉันสามารถสร้างโปรแกรม)มีใครบางคนมีชุดของจุดและต้องการให้พอดีกับเส้นโค้งกับมันเส้นเชิงเส้นชี้แจงหรือลอการิทึม วิธีปกติคือการเริ่มต้นด้วยการเลือกหนึ่งในวิธีเหล่านี้ (ซึ่งระบุรุ่น) แล้วทำการคำนวณทางสถิติx - yx-Yx-y แต่สิ่งที่เป็นที่ต้องการจริงๆคือการหาเส้นโค้ง 'ที่ดีที่สุด' จากเส้นตรง, เลขชี้กำลังหรือลอการิทึม เห็นได้ชัดว่าใครจะลองทั้งสามและเลือกเส้นโค้งที่พอดีที่สุดของทั้งสามตามค่าสัมประสิทธิ์สหสัมพันธ์ที่ดีที่สุด แต่อย่างใดฉันรู้สึกว่านี่ไม่ใช่เพียว วิธีที่ได้รับการยอมรับโดยทั่วไปคือการเลือกแบบจำลองของคุณก่อนหนึ่งในสามนั้น (หรือฟังก์ชันการเชื่อมโยงอื่น ๆ ) จากนั้นข้อมูลจะคำนวณค่าสัมประสิทธิ์ และโพสต์พฤตินัยการเลือกที่ดีที่สุดของทั้งหมดคือการเก็บเชอร์รี่ แต่สำหรับฉันไม่ว่าคุณจะกำหนดฟังก์ชั่นหรือค่าสัมประสิทธิ์จากข้อมูลที่ยังคงเป็นสิ่งเดียวกันขั้นตอนของคุณคือการค้นพบสิ่งที่ดีที่สุด ... (สมมติว่าฟังก์ชันใดคือ คำถาม: เหมาะสมหรือไม่ที่จะเลือกแบบจำลองการกระชับที่ดีที่สุดจากแบบจำลองเชิงเส้นเอ็กซ์โพเนนเชียลและลอการิทึมตามการเปรียบเทียบสถิติแบบเต็ม? ถ้าเป็นเช่นนั้นวิธีที่เหมาะสมที่สุดในการทำเช่นนี้คืออะไร? หากการถดถอยช่วยค้นหาพารามิเตอร์ (สัมประสิทธิ์) ในฟังก์ชั่นเหตุใดจึงไม่มีพารามิเตอร์ที่แยกออกมาเพื่อเลือกว่าตระกูลใดในสามตระกูลที่ดีที่สุดมาจากไหน

18 regression predictive-models model-selection curve-fitting

3

การรับสูตรสำหรับการ จำกัด การทำนายในตัวแบบเชิงเส้น (เช่น: ช่วงการทำนาย)

ลองมาตัวอย่างต่อไปนี้: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) สิ่งนี้สร้างรูปแบบของ y โดยยึดตาม x1 และ x2 โดยใช้การถดถอยแบบ OLS ถ้าเราต้องการที่จะคาดการณ์ปีสำหรับให้ x_vec summary(fit)เราก็สามารถใช้สูตรที่เราได้รับจาก อย่างไรก็ตามถ้าเราต้องการที่จะทำนายการคาดการณ์ที่ต่ำกว่าและบนของ y? (สำหรับระดับความเชื่อมั่นที่กำหนด) แล้วเราจะสร้างสูตรได้อย่างไร

18 r regression predictive-models prediction-interval

1

Stepwise AIC - มีข้อโต้แย้งรอบ ๆ หัวข้อนี้หรือไม่?

ฉันได้อ่านโพสต์นับไม่ถ้วนในเว็บไซต์นี้ซึ่งต่อต้านการเลือกตัวแปรแบบขั้นตอนโดยใช้เกณฑ์ใด ๆ ไม่ว่าจะเป็นค่า p ตาม AIC, BIC เป็นต้น ฉันเข้าใจว่าทำไมขั้นตอนเหล่านี้โดยทั่วไปค่อนข้างยากจนสำหรับการเลือกตัวแปร โพสต์ที่มีชื่อเสียงอาจเป็นของ gung ที่นี่แสดงให้เห็นอย่างชัดเจนว่าทำไม; ท้ายที่สุดเรากำลังตรวจสอบสมมติฐานบนชุดข้อมูลเดียวกับที่เราเคยทำกับสมมติฐานซึ่งเป็นเพียงการขุดลอกข้อมูล นอกจากนี้ค่า p จะได้รับผลกระทบจากปริมาณเช่น collinearity และค่าผิดปกติซึ่งทำให้ผลลัพธ์เบ้หนักเป็นต้น แต่ผมได้รับการศึกษาการพยากรณ์อนุกรมเวลาไม่น้อยเมื่อเร็ว ๆ นี้และได้เจอตำรานับหน้าถือตา Hyndman ของที่เขากล่าวถึงที่นี่ใช้ตัวเลือกแบบขั้นตอนที่จะหาคำสั่งซื้อที่เหมาะสมของแบบจำลอง ARIMA โดยเฉพาะอย่างยิ่ง ในความเป็นจริงในforecastแพคเกจใน R อัลกอริทึมที่รู้จักกันดีที่รู้จักกันเป็นauto.arimaค่าเริ่มต้นใช้การเลือกแบบขั้นตอน (กับ AIC ไม่ใช่ค่า p) นอกจากนี้เขายังวิจารณ์การเลือกคุณสมบัติตามค่า p ซึ่งสอดคล้องกับโพสต์หลายรายการในเว็บไซต์นี้ ในที่สุดเราควรข้ามการตรวจสอบในบางวิธีในตอนท้ายถ้าเป้าหมายคือการพัฒนาแบบจำลองที่ดีสำหรับการพยากรณ์ / การทำนาย อย่างไรก็ตามแน่นอนว่านี่เป็นสิ่งที่ไม่เห็นด้วยที่นี่เมื่อพูดถึงขั้นตอนการประเมินตัวชี้วัดอื่น ๆ นอกเหนือจากค่า p ไม่มีใครมีความคิดเห็นใด ๆ เกี่ยวกับการใช้ AIC แบบขั้นตอนในบริบทนี้ แต่โดยทั่วไปยังอยู่นอกบริบทนี้ด้วย ฉันได้รับการสอนให้เชื่อว่าการเลือกตามขั้นตอนใด ๆ …

17 forecasting predictive-models arima aic stepwise-regression

คำถามติดแท็ก predictive-models