การถดถอยโลจิสติกสำหรับอนุกรมเวลา


21

ฉันต้องการใช้แบบจำลองการถดถอยแบบลอจิสติกแบบไบนารีในบริบทของการสตรีมข้อมูล (อนุกรมเวลาหลายมิติ) เพื่อทำนายค่าของตัวแปรตามของข้อมูล (เช่นแถว) ที่เพิ่งมาถึงจากการสังเกตที่ผ่านมา เท่าที่ฉันทราบการถดถอยโลจิสติกส์นั้นใช้สำหรับการวิเคราะห์หลังการตายซึ่งตัวแปรตามแต่ละตัวได้ถูกตั้งค่าไว้แล้ว (ไม่ว่าจะโดยการตรวจสอบหรือโดยธรรมชาติของการศึกษา)

สิ่งที่เกิดขึ้นในกรณีของอนุกรมเวลา แต่ที่เราต้องการที่จะทำให้การคาดการณ์ (การบิน) เกี่ยวกับตัวแปรในแง่ของข้อมูลทางประวัติศาสตร์ (ตัวอย่างเช่นในหน้าต่างเวลาของสุดท้ายวินาที) และแน่นอนก่อนหน้านี้ ประมาณการของตัวแปรตามt

และถ้าคุณเห็นระบบข้างต้นเมื่อเวลาผ่านไปมันควรจะถูกสร้างขึ้นอย่างไรเพื่อให้การถดถอยทำงานได้? เราต้องฝึกมันก่อนโดยการติดฉลากสมมติว่า 50 แถวแรกของข้อมูลของเรา (เช่นการตั้งค่าตัวแปรตามเป็น 0 หรือ 1) จากนั้นใช้ประมาณการปัจจุบันของเวกเตอร์เพื่อประเมินความน่าจะเป็นใหม่ของตัวแปรตาม 0 หรือ 1 สำหรับข้อมูลที่เพิ่งมาถึง (เช่นแถวใหม่ที่เพิ่งเพิ่มไปยังระบบ)β

เพื่อทำให้ปัญหาของฉันชัดเจนยิ่งขึ้นฉันพยายามสร้างระบบที่แยกวิเคราะห์ชุดข้อมูลทีละแถวและพยายามคาดคะเนของผลลัพธ์ไบนารี (ตัวแปรตาม) ให้ความรู้ (การสังเกตหรือการประเมิน) ของทั้งหมดขึ้นอยู่กับหรืออธิบาย ตัวแปรที่มาถึงในช่วงเวลาที่แน่นอน ระบบของฉันอยู่ใน Rerl และใช้ R สำหรับการอนุมาน


5
คุณสามารถสมมติโครงสร้างความสัมพันธ์กับข้อมูลของคุณได้หรือไม่? กรณีของคุณเป็นกรณีพิเศษของ GLMM พร้อมลิงก์การเชื่อมต่อ แต่โครงสร้างความสัมพันธ์ในข้อมูลอนุกรมเวลาต้องได้รับการสร้างแบบจำลองอย่างถูกต้องเพื่อรับคำตอบที่สมเหตุสมผล
suncoolsu

1
Yเสื้อYเสื้อ-1

2
คุณช่วยอธิบายคำอธิบายสั้น ๆ ของข้อมูลให้ฉันเพื่อให้คำตอบที่เป็นรูปธรรมได้ไหม? คุณสามารถแก้ไขปัญหาบางอย่างเช่นstat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
suncoolsu

2
ฉันมีชุดเวลาการรับส่งข้อมูลเครือข่ายของแบบฟอร์มต่อไปนี้: โปรโตคอล, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength TCP, 200.80.199.105,3523,207.216.233.144,9658,11223344,9418,62 , 1751,244.72.151.2,1935, 11223344,941843,60 ฉันต้องการประเมินว่าแพ็กเก็ต (หรือกลุ่มของแพ็กเก็ต) เป็นอันตรายหรือไม่โดยใช้ความรู้จากชุดข้อมูลที่ติดป้ายกำกับเพื่อสร้างแบบจำลองที่ผ่านการฝึกอบรมด้วยตนเอง ค่าเฉลี่ยที่ฉันกำลังพูดถึงถูกนำไปใช้ที่ตัวชี้วัดด้านบนเพื่อให้ระดับการรวมตัวกันและทำให้ระบบปฏิบัติได้มากขึ้นสำหรับปริมาณการใช้ข้อมูลสูง
Regressor

2
มันฟังดูเหมือนงานสำหรับเครื่องเวกเตอร์สนับสนุน ฉันพลาดอะไรไปรึเปล่า? หากคุณกังวลเกี่ยวกับความสัมพันธ์อัตโนมัติหรือโครงสร้างอนุกรมเวลาของข้อมูลของคุณคุณอาจลองใช้ ARIMA และ / หรือโมเดลแบบยาวหลายระดับ ฉันแนะนำให้ใช้การวิเคราะห์ข้อมูลตามยาวของวิลเล็ตและซิงเกอร์ซึ่งเว็บไซต์ UCLA ATSมีตัวอย่างรหัส R
Ashaw

คำตอบ:


6

มีสองวิธีในการพิจารณา:

  1. ใช้ตัวอย่างอินพุต N ล่าสุดเท่านั้น สมมติว่าสัญญาณอินพุตของคุณมีขนาด D จากนั้นคุณมีตัวอย่าง N * D ต่อเลเบลจริง วิธีนี้คุณสามารถฝึกอบรมโดยใช้ตัวจําแนกใด ๆ ที่คุณต้องการรวมถึงการถดถอยโลจิสติก วิธีนี้แต่ละเอาต์พุตถือว่าเป็นอิสระจากเอาต์พุตอื่นทั้งหมด

  2. ใช้ตัวอย่างอินพุต N สุดท้ายและเอาต์พุต N สุดท้ายที่คุณสร้าง ปัญหาคือแล้วคล้ายกับถอดรหัส Viterbi คุณสามารถสร้างคะแนนที่ไม่ใช่ไบนารีโดยอิงจากตัวอย่างอินพุตและรวมคะแนนของตัวอย่างจำนวนมากโดยใช้ตัวถอดรหัส viterbi นี่ดีกว่าวิธีที่ 1 ถ้าคุณมีบางอย่างเกี่ยวกับความสัมพันธ์ทางโลกระหว่างผลลัพธ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.