คุณสมบัติสำหรับการจำแนกอนุกรมเวลา


43

ฉันพิจารณาปัญหาของการจัดประเภทตามอนุกรมเวลาของความยาวผันแปรนั่นคือเพื่อค้นหาฟังก์ชัน ผ่านการแสดงทั่วโลกของชุดเวลาโดยชุดของคุณสมบัติที่เลือกขนาดคงที่เป็นอิสระจาก , จากนั้นใช้วิธีการจำแนกมาตรฐานในชุดคุณสมบัตินี้ ฉันไม่สนใจการคาดการณ์เช่นการทำนายf ( X T ) = y [ 1 .. K ]Tv ฉัน D T ϕ ( X T ) = v 1 , , v DR , x T + 1

f(XT)=y[1..K]for XT=(x1,,xT)with xtRd ,
viDT
ϕ(XT)=v1,,vDR ,
xT+1. ตัวอย่างเช่นเราอาจวิเคราะห์วิธีที่บุคคลเดินเพื่อทำนายเพศของบุคคล

อะไรคือคุณสมบัติมาตรฐานที่ฉันอาจนำมาพิจารณา ในตัวอย่างที่เราเห็นได้ชัดว่าสามารถใช้ค่าเฉลี่ยและความแปรปรวนของเซเรียอา (หรือช่วงเวลาที่การสั่งซื้อสูงกว่า) และยังมองเข้าไปในโดเมนความถี่เช่นพลังงานที่มีอยู่ในช่วงเวลาของบางอย่างไม่ต่อเนื่องแปลงฟูเรียของเซเรียอา (หรือไม่ต่อเนื่องแปลงเวฟเล็ต )

คำตอบ:


45

คุณสมบัติทางสถิติอย่างง่าย

  • หมายถึงในแต่ละมิติd
  • ค่าเบี่ยงเบนมาตรฐานของมิติd
  • เบ้ , โด่งและสูงกว่าช่วงเวลาที่คำสั่งของมิติd
  • สูงสุดและขั้นต่ำค่า

คุณสมบัติที่เกี่ยวข้องกับการวิเคราะห์อนุกรมเวลา

  • ข้ามความสัมพันธ์ระหว่างแต่ละมิติและ Auto-ความสัมพันธ์dd×d1 d
  • คำสั่งของ autoregressive (AR), integrated (I) และ moving average (MA) เป็นส่วนหนึ่งของโมเดลARIMAโดยประมาณ
  • พารามิเตอร์ของส่วน AR
  • พารามิเตอร์ของส่วน MA

คุณสมบัติที่เกี่ยวข้องกับโดเมนความถี่

ดูMorchen03เพื่อศึกษาคุณสมบัติการประหยัดพลังงานบน DFT และ DWT

  • ความถี่ของยอดในความกว้างในDFTsสำหรับdetrendedมิติdk d
  • k -quantilesของ DFT เหล่านี้

1
Emile คำถามนี้คล้ายกับคำถามที่ฉันเพิ่งโพสต์ ( stats.stackexchange.com/questions/51475/… ) คุณจะสามารถโพสต์รหัส R สำหรับคุณสมบัติ DFT หรือไม่
B_Miner

มีวิธีการใดขึ้นอยู่กับ shapelets สำหรับอนุกรมเวลาความยาวตัวแปร?
Simone

8

Emile ฉันคิดว่าคุณสมบัติที่ระบุไว้ในคำตอบของคุณนั้นเป็นจุดเริ่มต้นที่ค่อนข้างดี แต่เช่นเคยฉันคิดว่าความเชี่ยวชาญด้านโดเมนบางอย่าง (หรืออย่างน้อยก็คิดดีมานาน) เกี่ยวกับปัญหาของคุณก็มีความสำคัญเท่าเทียมกัน

คุณอาจต้องการพิจารณารวมถึงคุณสมบัติที่คำนวณจากสัญญาซื้อขายล่วงหน้า (หรืออินทิกรัล) ของสัญญาณของคุณ ตัวอย่างเช่นฉันจะเดิมพันว่าการเร่งความเร็ว / การลดความเร็วอย่างรวดเร็วเป็นตัวทำนายที่ดีพอสมควรในการขับขี่โดยอุบัติเหตุ ข้อมูลดังกล่าวยังคงปรากฏอยู่ในสัญญาณตำแหน่งอย่างชัดเจน แต่ก็ยังไม่ชัดเจน

คุณอาจต้องการพิจารณาแทนที่ค่าสัมประสิทธิ์ฟูริเยร์ด้วยการแทนแพ็คเก็ตเวฟเล็ตหรือเวฟเล็ต ข้อได้เปรียบที่สำคัญของเวฟเล็ตคือช่วยให้คุณสามารถ จำกัด สถานที่ได้ทั้งความถี่และเวลาในขณะที่ค่าสัมประสิทธิ์ฟูริเยร์แบบดั้งเดิมนั้น จำกัด ไว้เพียงครั้งเดียวเท่านั้น สิ่งนี้อาจมีประโยชน์อย่างยิ่งหากข้อมูลของคุณมีส่วนประกอบที่เปิด / ปิดไม่สม่ำเสมอหรือมีพัลส์คล้ายคลื่นสี่เหลี่ยมซึ่งอาจเป็นปัญหาสำหรับวิธีฟูริเยร์


6

ตามคำตอบอื่น ๆ ที่แนะนำมีคุณลักษณะของอนุกรมเวลาจำนวนมากที่สามารถใช้เป็นคุณลักษณะที่เป็นไปได้ มีคุณสมบัติที่เรียบง่ายเช่นค่าเฉลี่ย, อนุกรมเวลาที่เกี่ยวข้องกับคุณสมบัติเช่นค่าสัมประสิทธิ์ของแบบจำลอง AR หรือคุณสมบัติที่มีความซับซ้อนสูงเช่นสถิติการทดสอบของการทดสอบสมมติฐานเพิ่มเติม dickey fuller

ภาพรวมที่ครอบคลุมเกี่ยวกับคุณสมบัติอนุกรมเวลาที่เป็นไปได้

แพ็คเกจ python tsfreshทำการแยกคุณสมบัติเหล่านั้นโดยอัตโนมัติ เอกสารอธิบายถึงคุณสมบัติที่คำนวณได้แตกต่างกัน คุณสามารถพบหน้าพร้อมกับคุณสมบัติที่คำนวณได้ที่นี่

คำเตือน: ฉันเป็นหนึ่งในผู้เขียนของ tsfresh


5

ฉันขอแนะนำให้คุณแทนที่จะใช้วิธีการแบบคลาสสิกสำหรับการแยกฟีเจอร์ที่ออกแบบด้วยมือให้ใช้ประโยชน์จากระบบเข้ารหัสอัตโนมัติ Autoencoders มีบทบาทสำคัญในการดึงคุณสมบัติของสถาปัตยกรรมการเรียนรู้ลึก

autoencoder พยายามที่จะเรียนรู้ฟังก์ชั่นfในคำอื่น ๆ ก็จะพยายามที่จะเรียนรู้การประมาณฟังก์ชั่นตัวตนเพื่อให้เป็นไปส่งออกที่คล้ายกับX_TX T X Tf(XT)XTX^TXT

ฟังก์ชั่นตัวตนดูเหมือนฟังก์ชั่นเล็ก ๆ น้อย ๆ โดยเฉพาะอย่างยิ่งที่จะพยายามที่จะเรียนรู้; แต่ด้วยการวางข้อ จำกัด บนเครือข่ายเช่นโดยการ จำกัด จำนวนของหน่วยที่ซ่อนอยู่เราสามารถค้นพบโครงสร้างที่น่าสนใจเกี่ยวกับข้อมูล

คุณสมบัติดูด

ด้วยวิธีนี้คุณต้องการจะเทียบเท่ากับค่าการส่งออกของชั้นชั้นกลางใน autoencoder ลึกถ้าคุณ จำกัด จำนวนหน่วยที่ซ่อนอยู่ในชั้นกลางในการพัฒนาϕ(XT)=v1,,vDRD

นอกจากนี้คุณสามารถใช้ตัวเข้ารหัสอัตโนมัติหลายรสชาติเพื่อค้นหาวิธีแก้ไขปัญหาที่ดีที่สุด



1

ขึ้นอยู่กับความยาวของอนุกรมเวลาของคุณวิธีการปกติคือยุคข้อมูลในกลุ่มเช่น 10 วินาที

อย่างไรก็ตามบ่อยครั้งก่อนที่จะแบ่งอนุกรมเวลาออกเป็นส่วน ๆ จำเป็นต้องทำการประมวลผลล่วงหน้าเช่นการกรองและการปฏิเสธสิ่งประดิษฐ์ จากนั้นคุณสามารถคำนวณคุณสมบัติที่หลากหลายเช่นคุณลักษณะตามความถี่ (เช่นใช้ FFT สำหรับแต่ละยุค) เวลา (เช่นค่าเฉลี่ยความแปรปรวน ฯลฯ ของอนุกรมเวลาในยุคนั้น) หรือรูปร่าง (เช่นรูปร่างของสัญญาณ / อนุกรมเวลาในแต่ละยุคสมัย)

โดยปกติแล้วคุณสมบัติที่ใช้ในการจำแนกกลุ่ม (epochs) ของอนุกรมเวลา / สัญญาณเป็นแบบเฉพาะโดเมน แต่การวิเคราะห์เวฟเล็ต / ฟูริเยร์เป็นเพียงเครื่องมือที่ช่วยให้คุณตรวจสอบสัญญาณของคุณในโดเมนความถี่ / เวลาความถี่แทนที่จะเป็นคุณสมบัติในตัวเอง

ในปัญหาการจำแนกประเภทแต่ละยุคจะมีเลเบลของคลาสเช่น 'สุข' หรือ 'เศร้า' คุณจะต้องฝึกแยกประเภทเพื่อแยกแยะความแตกต่างระหว่างกาล 'แฮปปี้' และ 'เศร้า' โดยใช้ 6 คุณสมบัติที่คำนวณสำหรับแต่ละยุค

ในกรณีที่แต่ละชุดเวลาแทนกรณีเดียวสำหรับการจัดหมวดหมู่คุณต้องคำนวณแต่ละคุณลักษณะในตัวอย่างทั้งหมดของอนุกรมเวลา FFT มีความเกี่ยวข้องเฉพาะที่นี่หากสัญญาณเป็น Linear time invariant (LTI) นั่นคือถ้าสัญญาณสามารถพิจารณาได้ว่าอยู่นิ่งตลอดทั้งอนุกรมอนุกรมหากสัญญาณไม่นิ่งในช่วงเวลาที่สนใจการวิเคราะห์เวฟเล็ตอาจจะเป็น เหมาะสมกว่า วิธีการนี้จะหมายความว่าแต่ละชุดเวลาจะสร้างเวกเตอร์หนึ่งคุณลักษณะและจะประกอบไปด้วยกรณีหนึ่งสำหรับการจัดหมวดหมู่


ฉันมักจะรู้สึกว่าอนุกรมเวลาหมดสภาพกระบวนการต่อเนื่องตามธรรมชาติในช่วงเวลาที่ไม่ต่อเนื่อง (หรือยุค) ส่งผลให้ข้อมูลสูญหาย ในกรณีที่ไม่มี epochs ตามธรรมชาติในซีรีย์ใครจะเลือก epochs ได้อย่างไร? มีแนวโน้มว่าจะพบยุคที่เหมาะกับผลลัพธ์ที่ต้องการ
Cam.Davidson.Pilon

1
ไม่แน่ใจว่าสามารถพบยุคที่เหมาะกับทุกผลลัพธ์ แต่สำหรับปัญหาการปฏิบัติใด ๆ ด้วยสัญญาณที่ไม่หยุดนิ่งคุณจำเป็นต้องหาวิธีที่จะคำนึงถึงการแปรผันของกาลเวลา (ถ้าสัญญาณ / อนุกรมเวลาอธิบายไว้อย่างเพียงพอหรือเป็นค่าคงที่ของเวลาเชิงเส้น ไม่จำเป็น) ความยาวของยุคเป็นอีกโดเมนหนึ่งที่เฉพาะเจาะจง แต่มักเลือกให้สั้นพอที่สัญญาณจะอยู่กับที่ในช่วงเวลาที่น่าสนใจ
BGreene

BGreene คุณสามารถอธิบายได้ว่าอะไรคือประโยชน์ของการแบ่งเซเรียร์ให้เป็นยุคเพื่อเลือกคุณสมบัติที่ใช้ในการจำแนกประเภท? ฉันเห็นว่าการแบ่งพาร์ติชันนี้เป็นตัวช่วยสำหรับการคำนวณในภายหลัง (เช่น FFT) แต่ไม่ใช่สิ่งที่เกี่ยวข้องกับการเลือกคุณลักษณะด้วยตนเอง อาจเกี่ยวข้องกับ "สัณฐานวิทยา" ที่คุณกล่าวถึง
Emile

การแบ่งเป็นยุคไม่มีส่วนเกี่ยวข้องกับการเลือกคุณสมบัติ หากคุณมีสัญญาณยาว (เช่น 10 ชั่วโมงของการบันทึกตัวอย่างที่ @ 100Hz) เพื่อตรวจสอบว่าสัญญาณมีการเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไปคุณต้องแบ่งมันออกเป็นยุค ในปัญหาการจำแนกประเภทแต่ละยุคจะมีเลเบลของคลาสเช่น 'สุข' หรือ 'เศร้า' คุณจะต้องฝึกแยกประเภทเพื่อแยกแยะความแตกต่างระหว่างกาล 'แฮปปี้' และ 'เศร้า' โดยใช้ 6 คุณสมบัติที่คำนวณสำหรับแต่ละยุค
BGreene

ตกลง :) มันไม่เกี่ยวข้องกับคำถามเดิมของฉันอย่างแน่นอน ฉันพิจารณากรณีที่ชั้นเรียนติดฉลากชุดทั้งชุด ฉันจะแก้ไขคำถามของฉันเพื่อเพิ่มตัวอย่างที่ชัดเจน
Emile
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.