คำถามติดแท็ก prediction

การทำนายปริมาณสุ่มที่ไม่รู้จักโดยใช้แบบจำลองทางสถิติ


9
ความน่าจะเป็นของเหตุการณ์ในอนาคตเดียวในชีวิตจริง: หมายความว่าอย่างไรเมื่อพวกเขาพูดว่า“ ฮิลลารีมีโอกาสชนะ 75%”
เนื่องจากการเลือกตั้งเป็นเหตุการณ์ครั้งเดียวจึงไม่ใช่การทดลองที่สามารถทำซ้ำได้ ดังนั้นคำว่า "ฮิลลารีมีโอกาสชนะ 75%" ในทางเทคนิคหมายความว่าอะไร? ฉันกำลังมองหาความหมายที่ถูกต้องทางสถิติไม่ใช่สิ่งที่เข้าใจง่ายหรือเป็นแนวคิด ฉันเป็นแฟนสถิติมือสมัครเล่นที่พยายามตอบคำถามนี้ที่เกิดขึ้นในการสนทนา ฉันค่อนข้างมั่นใจว่ามีการตอบสนองตามวัตถุประสงค์ที่ดี แต่ฉันไม่สามารถทำได้ด้วยตัวเอง ...

6
การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?
คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3] ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1] ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2] ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด …

9
แผนภูมินี้แสดงแนวโน้มของการโจมตีของผู้ก่อการร้ายที่เป็นประโยชน์หรือไม่?
ฉันเห็นภาพนี้ผ่านไปมาก ฉันมีความรู้สึกว่าข้อมูลที่ให้ในลักษณะนี้ไม่สมบูรณ์หรือผิดพลาด แต่ฉันไม่มีประสบการณ์เพียงพอในสถิติที่จะตอบสนอง มันทำให้ฉันคิดว่าการ์ตูน xkcdนี้ถึงแม้จะมีข้อมูลทางประวัติศาสตร์ที่แข็งแกร่งบางสถานการณ์ก็สามารถเปลี่ยนวิธีการทำนายสิ่งต่าง ๆ ได้ แผนภูมินี้ตามที่นำเสนอมีประโยชน์สำหรับการแสดงระดับภัยคุกคามจากผู้ลี้ภัยอย่างถูกต้องหรือไม่ มีบริบททางสถิติที่จำเป็นที่ทำให้แผนภูมินี้มีประโยชน์มากขึ้นหรือน้อยลง? หมายเหตุ: พยายามเก็บไว้ในเงื่อนไขของคนธรรมดา :)

6
ข้อผิดพลาดมาตรฐานสำหรับการทำนายด้วยเชือกโดยใช้ R
ฉันพยายามใช้โมเดล LASSO เพื่อการคาดการณ์และฉันต้องประเมินข้อผิดพลาดมาตรฐาน มีคนเขียนแพคเกจเพื่อทำสิ่งนี้แล้ว แต่เท่าที่ฉันเห็นไม่มีแพ็คเกจใน CRAN ที่ทำการทำนายโดยใช้ LASSO จะส่งกลับข้อผิดพลาดมาตรฐานสำหรับการคาดการณ์เหล่านั้น ดังนั้นคำถามของฉันคือ: มีแพ็คเกจหรือรหัส R บางอย่างที่สามารถคำนวณข้อผิดพลาดมาตรฐานสำหรับการทำนาย LASSO ได้หรือไม่?

5
ใช้การเรียนรู้เชิงลึกสำหรับการทำนายอนุกรมเวลา
ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและสำหรับฉันขั้นตอนแรกคือการอ่านบทความที่น่าสนใจจากเว็บไซต์ deeplearning.net ในเอกสารเกี่ยวกับการเรียนรู้อย่างลึกซึ้งฮินตันและคนอื่น ๆ ส่วนใหญ่พูดถึงการใช้มันกับปัญหาภาพ ใครบางคนพยายามที่จะตอบฉันว่ามันสามารถนำไปใช้กับปัญหาของการทำนายค่าอนุกรมเวลา (การเงินการจราจรทางอินเทอร์เน็ต ... ) และสิ่งที่สำคัญที่ฉันควรมุ่งเน้นถ้าเป็นไปได้?

5
การทำนายในการถดถอยแบบค็อกซ์
ฉันกำลังทำการถดถอยหลายตัวแปร Cox ฉันมีตัวแปรอิสระที่สำคัญและค่าเบต้า รูปแบบเหมาะสมกับข้อมูลของฉันได้เป็นอย่างดี ตอนนี้ฉันต้องการใช้แบบจำลองของฉันและทำนายความอยู่รอดของการสังเกตใหม่ ฉันไม่ชัดเจนว่าจะทำอย่างไรกับโมเดล Cox ในการถดถอยเชิงเส้นหรือแบบลอจิสติกมันจะง่ายเพียงแค่ใส่ค่าของการสังเกตใหม่ลงในการถดถอยและทวีคูณพวกมันด้วยเบตาดังนั้นผมจึงมีการทำนายผล ฉันจะตัดสินอันตรายพื้นฐานของฉันได้อย่างไร ฉันต้องการมันนอกเหนือจากการคำนวณการทำนาย สิ่งนี้ทำในรูปแบบ Cox ได้อย่างไร?

2
ช่วงการทำนายสำหรับโมเดลเอฟเฟกต์ผสม lmer () ใน R
ฉันต้องการรับช่วงการทำนายรอบการทำนายจากโมเดล lmer () ฉันได้พบการสนทนาเกี่ยวกับเรื่องนี้: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq แต่ดูเหมือนว่าพวกเขาจะไม่คำนึงถึงความไม่แน่นอนของเอฟเฟกต์แบบสุ่ม นี่คือตัวอย่างที่เฉพาะเจาะจง ฉันแข่งปลาทอง ฉันมีข้อมูลในการแข่ง 100 ครั้งที่ผ่านมา ฉันต้องการที่จะคาดการณ์ลำดับที่ 101 โดยคำนึงถึงความไม่แน่นอนของการประมาณการ RE ของฉันและการประมาณ FE ฉันรวมถึงการสกัดกั้นแบบสุ่มสำหรับปลา (มี 10 ปลาที่แตกต่างกัน) และผลคงที่สำหรับน้ำหนัก (ปลาที่หนักน้อยกว่านั้นเร็วกว่า) library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat …

8
ความแตกต่างระหว่างการทำนายและการอนุมานคืออะไร?
ฉันกำลังอ่านคำว่า " ความรู้เบื้องต้นเกี่ยวกับสถิติ " ในบทที่ 2 พวกเขาหารือเกี่ยวกับเหตุผลสำหรับการประเมินการทำงานฉfff 2.1.1 ทำไมประมาณการ ?fff มีสองเหตุผลหลักที่เราอาจต้องการที่จะประเมินเป็นF : การคาดการณ์และการอนุมาน เราคุยกันในทางกลับกัน ฉันอ่านมันมาสองสามครั้งแล้ว แต่ฉันก็ยังไม่ชัดเจนเกี่ยวกับความแตกต่างระหว่างการทำนายและการอนุมาน มีคนให้ตัวอย่างที่แตกต่าง (จริง) หรือไม่?

2
หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?
ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

3
การตีความการทำนายอย่างง่ายต่ออัตราต่อรองในการถดถอยโลจิสติก
ฉันค่อนข้างใหม่ในการใช้การถดถอยโลจิสติกและสับสนเล็กน้อยโดยความแตกต่างระหว่างการตีความของฉันของค่าต่อไปนี้ซึ่งฉันคิดว่าจะเหมือนกัน: ค่าเบต้าแบบยกกำลัง ทำนายความน่าจะเป็นของผลลัพธ์โดยใช้ค่าเบต้า นี่คือรุ่นที่เรียบง่ายของรุ่นที่ฉันใช้ซึ่งการขาดสารอาหารและการประกันภัยเป็นทั้งไบนารีและความมั่งคั่งยังคงต่อเนื่อง: Under.Nutrition ~ insurance + wealth แบบจำลองของฉัน (จริง) คืนค่าเบต้าเป็นเลขชี้กำลัง 0.8 สำหรับการประกันซึ่งฉันจะตีความว่า: "ความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับผู้ประกันตนคือ 0.8 เท่าของความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับบุคคลที่ไม่มีประกัน" อย่างไรก็ตามเมื่อฉันคำนวณความแตกต่างของความน่าจะเป็นของแต่ละบุคคลโดยการใส่ค่า 0 และ 1 ลงในตัวแปรประกันภัยและค่าเฉลี่ยของความมั่งคั่งความแตกต่างของการขาดสารอาหารเพียง 0.04 นั่นคือการคำนวณดังนี้: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมค่าเหล่านี้แตกต่างกันและการตีความที่ดีกว่า (โดยเฉพาะสำหรับค่าที่สอง) อาจจะเป็นอย่างไร การแก้ไขคำชี้แจงเพิ่มเติม เมื่อฉันเข้าใจแล้วความน่าจะเป็นที่ได้รับการเลี้ยงดูสำหรับบุคคลที่ไม่มีประกัน (ที่ B1 สอดคล้องกับการประกันภัย) คือ: Prob(Unins) …

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
ฉันจะตีความเมทริกซ์ความสับสนของ Sklearn ได้อย่างไร
ฉันใช้เมทริกซ์ความสับสนเพื่อตรวจสอบประสิทธิภาพของตัวจําแนกของฉัน ฉันกำลังใช้ Scikit-Learn ฉันสับสนเล็กน้อย ฉันจะตีความผลลัพธ์ได้อย่างไร from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) ฉันจะตัดสินใจได้อย่างไรว่าค่าที่คาดการณ์นี้ดีหรือไม่


2
มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงทำนาย
ในการอนุมานแบบเบย์การกระจายการทำนายสำหรับข้อมูลในอนาคตนั้นได้มาจากการรวมเอาพารามิเตอร์ที่ไม่รู้จัก การบูรณาการการกระจายหลังของพารามิเตอร์เหล่านั้นจะช่วยให้การกระจายการคาดการณ์หลัง - การกระจายสำหรับข้อมูลในอนาคตเงื่อนไขตามที่สังเกตไว้แล้ว มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ที่มีการคำนึงถึงความไม่แน่นอนในการประมาณค่าพารามิเตอร์ ทุกคนรู้วิธีคำนวณช่วงเวลาการทำนายหลังจากการถดถอยเชิงเส้น แต่อะไรคือหลักการที่อยู่เบื้องหลังการคำนวณและวิธีการที่พวกเขาสามารถนำไปใช้ในสถานการณ์อื่น ๆ (เช่นการคำนวณช่วงเวลาการทำนายที่แน่นอนสำหรับการเปลี่ยนแปลงแบบเอ็กซ์โปเนนเชียล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.