สถิติและข้อมูลขนาดใหญ่ predictive-models

3

วิธีลดตัวทำนายวิธีที่ถูกต้องสำหรับตัวแบบการถดถอยโลจิสติก

ดังนั้นฉันจึงได้อ่านหนังสือบางเล่ม (หรือบางส่วนของพวกเขา) เกี่ยวกับการสร้างแบบจำลอง (กลยุทธ์การสร้างแบบจำลองการถดถอยของเอฟแฮร์เรลล์ในกลุ่มอื่น ๆ ) เนื่องจากสถานการณ์ปัจจุบันของฉันตอนนี้คือฉันต้องทำแบบจำลองโลจิสติกส์ ฉันมีทั้งข้อมูลอย่างต่อเนื่องหมวดหมู่และไบนารี (ตัวทำนาย) ในชุดข้อมูลของฉัน โดยพื้นฐานแล้วฉันมีผู้ทำนายประมาณ 100 คนในตอนนี้ซึ่งเห็นได้ชัดว่ามากเกินไปสำหรับแบบจำลองที่ดี นอกจากนี้ตัวทำนายหลายตัวเหล่านี้มีความสัมพันธ์กันเนื่องจากพวกเขามักจะอยู่บนพื้นฐานของตัวชี้วัดเดียวกันแม้ว่าจะแตกต่างกันเล็กน้อย อย่างไรก็ตามสิ่งที่ฉันได้อ่านโดยใช้เทคนิคการถดถอยแบบไม่รวมตัวแปรและขั้นตอนที่ชาญฉลาดเป็นสิ่งที่แย่ที่สุดที่คุณสามารถทำได้เพื่อลดจำนวนผู้ทำนาย ฉันคิดว่าเทคนิค LASSO นั้นค่อนข้างโอเค (ถ้าฉันเข้าใจถูกต้อง) แต่เห็นได้ชัดว่าคุณไม่สามารถใช้สิ่งนี้กับผู้ทำนาย 100 คนและคิดว่าจะมีประโยชน์อะไรเกิดขึ้น ดังนั้นสิ่งที่ตัวเลือกของฉันอยู่ที่นี่? ฉันต้องนั่งคุยกับหัวหน้างานของฉันและคนฉลาดในที่ทำงานจริง ๆ หรือไม่และคิดว่าตัวพยากรณ์ที่ดีที่สุด 5 อันดับแรกควรเป็น / หรือ (เราอาจจะผิด) หรือฉันควรจะใช้วิธีใด พิจารณาแทนไหม และใช่ฉันยังรู้ว่าหัวข้อนี้มีการกล่าวถึงอย่างมาก (ออนไลน์และในหนังสือ) แต่บางครั้งดูเหมือนว่าจะค่อนข้างล้นหลามเมื่อคุณเป็นคนใหม่ในสาขาการสร้างแบบจำลองนี้ แก้ไข: ก่อนอื่นขนาดตัวอย่างของฉันคือ +1000 ผู้ป่วย (ซึ่งมีจำนวนมากในสาขาของฉัน) และจากจำนวนที่มีการตอบรับในเชิงบวกระหว่าง 70-170 (เช่น 170 ใช่การตอบสนองเทียบกับประมาณ 900 ไม่มีการตอบสนองในกรณีใดกรณีหนึ่ง) . โดยพื้นฐานแล้วแนวคิดคือการทำนายความเป็นพิษหลังการรักษาด้วยรังสี …

9 logistic predictive-models feature-selection regression-strategies

1

มันยุติธรรมแค่ไหนที่จะใช้คำว่า "ทำนาย" สำหรับการถดถอย (โลจิสติก)?

ความเข้าใจของฉันคือว่าแม้การถดถอยไม่ได้ก่อให้เกิดเวรกรรม มันสามารถให้ความสัมพันธ์ระหว่างตัวแปร y และตัวแปร x และทิศทางที่เป็นไปได้ ฉันถูกไหม? ฉันมักพบวลีที่คล้ายกับ "x ทำนาย y" แม้ในตำราเรียนส่วนใหญ่และในหน้าหลักสูตรออนไลน์ต่างๆ และคุณมักจะเรียก regressors เป็นตัวทำนายและ y เป็นคำตอบ มันยุติธรรมแค่ไหนที่จะใช้กับการถดถอยเชิงเส้น? วิธีการเกี่ยวกับการถดถอยโลจิสติก? (ถ้าฉันมีเกณฑ์ t ซึ่งฉันสามารถเปรียบเทียบความน่าจะเป็นได้หรือไม่)

9 regression logistic predictive-models terminology causality

2

ข้อมูลอนุกรมเวลารวมจากแหล่งที่มีความละเอียดเชิงพื้นที่ / สเกลหลายตัว

ฉันมีภาพแรสเตอร์ดาวเทียมจำนวนมากจากเซ็นเซอร์ที่แตกต่างกัน จากสิ่งเหล่านี้ coarser มีความละเอียดทางโลกที่เหลือใช้มาก ตัวแก้ไขความละเอียดปานกลางมักจะมีวันที่ซื้อน้อย แต่ก็ยังมีข้อมูลบางส่วนอยู่ คนที่มีความละเอียดปลีกย่อยมีความคมชัดทางโลกต่ำมากซึ่งประกอบไปด้วยวันที่สังเกตจาก 2 ถึง 6 ในไม่เกินสองปี ฉันสงสัยว่าถ้าใครรู้ถึงความพยายามใด ๆ ในการศึกษาซีรีย์เวลาหลายขนาดประเภทนี้ในทางใดทางหนึ่ง? ฉันจะสนใจในการทำนายค่าในอนาคตที่ระดับปลีกย่อยโดยใช้ข้อมูลที่มีอยู่จาก coarser มันสมเหตุสมผลสำหรับฉันที่ข้อมูลจะต้องเกี่ยวข้อง (ใช่ภาพครอบคลุมภูมิภาคเดียวกัน) แต่ฉันไม่รู้ว่าจะเริ่มมีเพศสัมพันธ์ข้อมูลนี้ในรูปแบบการทำนาย

9 time-series machine-learning predictive-models multivariate-regression

1

โมเดล Markov ที่ซ่อนอยู่สำหรับการทำนายเหตุการณ์

คำถาม : การตั้งค่าด้านล่างนี้ใช้งานได้ดีกับโมเดลซ่อนมาร์คอฟหรือไม่? ฉันมีชุดข้อมูลการ108,000สังเกต (ใช้เวลากว่า 100 วัน) และประมาณ2000เหตุการณ์ตลอดช่วงเวลาการสังเกตทั้งหมด ข้อมูลดูเหมือนว่ารูปด้านล่างที่ตัวแปรที่สังเกตสามารถใช้ค่าไม่ต่อเนื่อง 3 ค่าและคอลัมน์สีแดงเน้นเวลาเหตุการณ์เช่น 's:[ 1 , 2 , 3 ][1,2,3][1,2,3]เสื้อEเสื้อEt_E ดังที่แสดงด้วยสี่เหลี่ยมสีแดงในรูปฉันได้ตัด {ถึง } สำหรับแต่ละเหตุการณ์โดยปฏิบัติต่อสิ่งเหล่านี้อย่าง "หน้าต่างก่อนเหตุการณ์" ได้อย่างมีประสิทธิภาพเสื้อEเสื้อEt_Eเสื้อE- 5เสื้อE-5t_{E-5} การฝึกอบรม HMM:ฉันวางแผนที่จะฝึกอบรมโมเดล Markov ที่ซ่อนอยู่ (HMM) โดยอ้างอิงจาก "หน้าต่างก่อนเหตุการณ์ทั้งหมด" โดยใช้วิธีการสังเกตหลายฉากตามที่แนะนำในหน้า Pg 273 ของ Rabiner ของกระดาษ หวังว่านี่จะช่วยให้ฉันฝึก HMM ที่รวบรวมรูปแบบลำดับที่นำไปสู่เหตุการณ์ อืมทำนาย:แล้วฉันวางแผนที่จะใช้ HMM นี้เพื่อทำนาย ในวันที่ใหม่ที่จะเป็นเวกเตอร์หน้าต่างบานเลื่อนการปรับปรุงในเวลาจริงเพื่อให้มีการสังเกตระหว่างเวลาปัจจุบันและเป็นวันที่ไปl o g[ พี(Observations|HMM)]ล.โอก.[P(OขsอีRโวลต์aเสื้อผมโอns|HMM)]log[P(Observations|HMM)]ObservationsOขsอีRโวลต์aเสื้อผมโอnsObservationstเสื้อtt−5เสื้อ-5t-5 ฉันคาดว่าจะเห็นเพิ่มขึ้นสำหรับการที่มีลักษณะคล้ายกับ "หน้าต่างก่อนเหตุการณ์" …

9 time-series machine-learning predictive-models markov-chain hidden-markov-model

1

แนวคิดที่ไม่ซ้ำ (?) สำหรับการคาดการณ์ยอดขาย

ฉันกำลังพัฒนาโมเดลเพื่อทำนายยอดขายรวมของผลิตภัณฑ์ ฉันมีข้อมูลการจองประมาณปีครึ่งดังนั้นฉันสามารถทำการวิเคราะห์อนุกรมเวลาได้ อย่างไรก็ตามฉันยังมีข้อมูลจำนวนมากเกี่ยวกับ 'โอกาส' (การขายที่เป็นไปได้) ที่ปิดหรือสูญหาย 'โอกาส' จะถูกดำเนินการไปตามขั้นตอนต่างๆของไปป์ไลน์จนกว่าจะปิดหรือสูญหาย พวกเขายังมีข้อมูลที่เกี่ยวข้องเกี่ยวกับผู้ซื้อที่คาดหวังพนักงานขายประวัติปฏิสัมพันธ์อุตสาหกรรมขนาดการจองโดยประมาณเป็นต้น เป้าหมายของฉันคือการทำนายการจองทั้งหมดในที่สุด แต่ฉันต้องการข้อมูลทั้งหมดเกี่ยวกับ 'โอกาส' ปัจจุบันซึ่งเป็น 'สาเหตุที่แท้จริง' ของการจอง หนึ่งความคิดที่ฉันมีคือการใช้สองรุ่นที่แตกต่างกันดังนี้: ใช้ 'โอกาส' ทางประวัติศาสตร์เพื่อสร้างแบบจำลองที่ทำนายการจองที่เกิดขึ้นจาก 'โอกาส' ของแต่ละบุคคล (ฉันอาจใช้ฟอเรสต์แบบสุ่มหรือแม้แต่การถดถอยเชิงเส้นแบบเก่าธรรมดาสำหรับขั้นตอนนี้) ใช้แบบจำลองจาก 1 เพื่อทำนายการจอง 'โอกาส' โดยประมาณทั้งหมดในขณะนี้จากนั้นรวมการประมาณการเหล่านั้นตามเดือน 'โอกาส' ที่ถูกสร้างขึ้น ใช้โมเดลอนุกรมเวลา (อาจเป็น ARIMA) โดยใช้ข้อมูลอนุกรมเวลาย้อนหลังรายเดือน 1.5 ปีและทำนาย (โดยใช้โมเดลจาก 1) การจองทั้งหมดสำหรับ 'โอกาส' ทั้งหมดที่สร้างขึ้นในเดือนนั้น ได้รับจะมีความล่าช้าในโอกาสเหล่านั้นที่เปลี่ยนไปเป็นการจองจริง แต่โมเดลอนุกรมเวลาควรสามารถจัดการกับความล่าช้าได้ เสียงนี้เป็นอย่างไร ฉันได้อ่านหนังสือตามเวลาและทำนายยอดขายเป็นจำนวนมากและจากสิ่งที่ฉันสามารถบอกได้ว่านี่เป็นวิธีที่ไม่เหมือนใคร ดังนั้นฉันขอขอบคุณข้อเสนอแนะใด ๆ จริงๆ!

9 predictive-models forecasting econometrics

5

การจัดกลุ่มล่วงหน้าช่วยในการสร้างแบบจำลองการทำนายที่ดีขึ้นหรือไม่?

สำหรับภารกิจของการปั่นแบบจำลองฉันกำลังพิจารณา: คำนวณ k กลุ่มสำหรับข้อมูล สร้างโมเดล k สำหรับแต่ละคลัสเตอร์แยกกัน เหตุผลก็คือว่าไม่มีอะไรที่จะพิสูจน์ว่าประชากรของผู้ใต้บังคับบัญชาเป็นเนื้อเดียวกันดังนั้นจึงมีเหตุผลที่จะคิดว่ากระบวนการสร้างข้อมูลอาจแตกต่างกันสำหรับ "กลุ่ม" ที่แตกต่างกัน คำถามของฉันคือมันเป็นวิธีการที่เหมาะสมหรือไม่ มันละเมิดอะไรหรือไม่หรือถือว่าไม่ดีด้วยเหตุผลบางอย่าง? ถ้าเป็นเช่นนั้นทำไม ถ้าไม่คุณจะแบ่งปันแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับปัญหานั้นหรือไม่ และสิ่งที่สอง - เป็นการดีกว่าหรือแย่กว่าการทำ preclustering กว่าโมเดลต้นไม้ (ตามที่กำหนดไว้ใน Witten, Frank - ต้นไม้จำแนก / ถดถอยด้วยแบบจำลองที่ใบไม้) สังหรณ์ใจดูเหมือนว่าสเตจต้นไม้ตัดสินใจเป็นเพียงรูปแบบการรวมกลุ่มอื่น idk หากมีข้อได้เปรียบเหนือการจัดกลุ่ม "ปกติ")

9 machine-learning clustering data-mining predictive-models

1

วิธีที่ดีที่สุดในการจัดการชุดข้อมูลมัลติคลาสที่ไม่สมดุลด้วย SVM

ฉันกำลังพยายามสร้างแบบจำลองการทำนายด้วย SVM บนข้อมูลที่ไม่สมดุล เลเบล / เอาต์พุตของฉันมีสามคลาส, บวก, เป็นกลางและลบ ฉันจะบอกว่าตัวอย่างบวกทำประมาณ 10 - 20% ของข้อมูลของฉันเป็นกลางประมาณ 50 - 60% และลบประมาณ 30 - 40% ฉันพยายามที่จะสร้างความสมดุลให้กับชั้นเรียนเนื่องจากค่าใช้จ่ายที่เกี่ยวข้องกับการทำนายที่ไม่ถูกต้องในชั้นเรียนนั้นไม่เหมือนกัน วิธีหนึ่งคือการสุ่มข้อมูลการฝึกอบรมซ้ำและสร้างชุดข้อมูลที่มีความสมดุลเท่ากันซึ่งใหญ่กว่าแบบเดิม ที่น่าสนใจเมื่อฉันทำเช่นนั้นฉันมักจะได้รับการคาดการณ์ที่ดีกว่าสำหรับชั้นเรียนอื่น (เช่นเมื่อฉันสร้างความสมดุลให้กับข้อมูลฉันเพิ่มจำนวนตัวอย่างสำหรับชั้นเรียนที่เป็นบวก แต่จากการคาดการณ์ตัวอย่าง ทุกคนสามารถอธิบายได้โดยทั่วไปว่าทำไมสิ่งนี้เกิดขึ้น ถ้าฉันเพิ่มจำนวนตัวอย่างสำหรับคลาสลบฉันจะได้อะไรที่คล้ายกับคลาสบวกจากการคาดการณ์ตัวอย่าง (เช่นการคาดคะเนที่ดีขึ้น) นอกจากนี้ยังเปิดกว้างมากสำหรับความคิดอื่น ๆ เกี่ยวกับวิธีที่ฉันสามารถจัดการกับข้อมูลที่ไม่สมดุลทั้งผ่านการกำหนดค่าใช้จ่ายที่แตกต่างกันในการจัดประเภทที่ผิดพลาดหรือการใช้ตุ้มน้ำหนักระดับใน LibSVM (ไม่แน่ใจว่าจะเลือก /

9 machine-learning predictive-models svm unbalanced-classes

คำถามติดแท็ก predictive-models