เทคนิคการแยกคุณสมบัติ - สรุปลำดับของข้อมูล


11

ฉันมักจะสร้างแบบจำลอง (การจำแนกประเภทหรือการถดถอย) ที่ฉันมีตัวแปรตัวทำนายบางอย่างที่เป็นลำดับและฉันพยายามค้นหาคำแนะนำทางเทคนิคสำหรับการสรุปพวกเขาด้วยวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อรวมไว้เป็นตัวทำนายในแบบจำลอง

ตัวอย่างที่เป็นรูปธรรมสมมติว่ามีการสร้างแบบจำลองเพื่อคาดการณ์ว่าลูกค้าจะออกจาก บริษัท ในอีก 90 วันข้างหน้า (ทุกเวลาระหว่าง t ถึง t + 90 ซึ่งเป็นผลลัพธ์ไบนารี) หนึ่งในตัวทำนายที่มีคือระดับของยอดคงเหลือทางการเงินของลูกค้าสำหรับช่วงเวลา t_0 ถึง t-1 บางทีนี่อาจหมายถึงการสังเกตรายเดือนสำหรับ 12 เดือนก่อนหน้า (เช่น 12 การวัด)

ฉันกำลังมองหาวิธีสร้างคุณสมบัติจากซีรี่ส์นี้ ฉันใช้คำอธิบายของชุดลูกค้าแต่ละชุดเช่นค่าเฉลี่ยสูงต่ำ std dev. พอดีกับการถดถอย OLS เพื่อรับแนวโน้ม มีวิธีอื่นในการคำนวณคุณสมบัติหรือไม่ มาตรการอื่น ๆ ของการเปลี่ยนแปลงหรือความผันผวน?

เพิ่ม:

ดังที่ได้กล่าวไว้ในการตอบกลับด้านล่างฉันยังพิจารณา (แต่ลืมที่จะเพิ่มที่นี่) โดยใช้ Dynamic Time Warping (DTW) และการจัดกลุ่มตามลำดับชั้นบนเมทริกซ์ระยะทางที่ได้ - สร้างกลุ่มจำนวนหนึ่งแล้วใช้กลุ่มสมาชิกเป็นคุณลักษณะ การให้คะแนนข้อมูลการทดสอบน่าจะเป็นไปตามกระบวนการที่ทำ DTW ในกรณีใหม่และกลุ่ม centroids - จับคู่ชุดข้อมูลใหม่กับ centroids ที่ใกล้เคียงที่สุดของพวกเขา ...

คำตอบ:


7

ชอบที่จะเห็นกล่องเขียนซึ่งรวบรวมกรณีศึกษาเกี่ยวกับคุณสมบัติทางวิศวกรรม / การสกัด

กรุณาแนะนำว่านี้ช่วย

  1. การแยกประเภทของข้อมูลอนุกรมเวลา http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. การลดทอนอนุกรมเวลาให้เหมาะสมเพื่อการค้นหาความรู้ https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. ประสบ SAX: การเป็นตัวแทนสัญลักษณ์ใหม่ของอนุกรมเวลา http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. การจัดทำดัชนีสำหรับการสำรวจเชิงโต้ตอบของ Big Data Series http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. ทั่วไปสกัดคุณลักษณะสำหรับรูปแบบโครงสร้างการรับรู้ในเวลาชุดข้อมูล http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. การคำนวณและการจัดแนวการแปรปรวนเวลาแบบไดนามิกใน R: แพ็คเกจ dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

สิ่งที่คุณพยายามทำที่นี่คือลดขนาดของคุณสมบัติของคุณ คุณสามารถค้นหาการลดขนาดเพื่อรับหลายตัวเลือก แต่เทคนิคหนึ่งที่ได้รับความนิยมมากคือการวิเคราะห์องค์ประกอบหลัก (PCA) องค์ประกอบหลักไม่สามารถตีความได้เช่นเดียวกับตัวเลือกที่คุณพูดถึง แต่มันทำงานได้ดีในการสรุปข้อมูลทั้งหมด


ความกังวลของฉันกับคำตอบนี้คือ PCA ไม่รู้จักการอ้างอิงที่ชัดเจนระหว่างชุด t และ t + 1
B_Miner

หากการอ้างอิง t และ t + 1 เป็นแนวโน้มหรือฤดูกาล - พิจารณาแยกและจัดการกับส่วนที่เหลือเช่นเดียวกับตัวแปรอิสระ
Diego

2

การแยกคุณลักษณะเป็นสิ่งที่ท้าทายและเป็นหัวข้อที่ได้รับการแก้ไขน้อยกว่าเนื่องจากเป็นแอพพลิเคชั่นที่ใช้กันอย่างแพร่หลาย

แนวคิดบางอย่างที่คุณสามารถลอง:

  • ข้อมูลดิบวัดทุกวัน นั่นเป็นสิ่งที่ชัดเจนด้วยนัยยะและการประมวลผลล่วงหน้า (การทำให้เป็นมาตรฐาน) เพื่อทำให้ไทม์ไลน์ของความยาวแตกต่างกัน
  • ช่วงเวลาที่สูงขึ้น: ความเบ้, ความโด่ง, ฯลฯ
  • อนุพันธ์: ความเร็วของการวิวัฒนาการ
  • การขยายเวลานั้นไม่ใหญ่มาก แต่บางทีมันก็คุ้มค่าที่จะลองใช้คุณสมบัติการวิเคราะห์อนุกรมเวลาเช่นตัวอย่างอัตโนมัติ
  • คุณลักษณะที่ปรับแต่งเองบางอย่างเช่นแบ่งเวลาเป็นสัปดาห์และวัดปริมาณที่คุณวัดแล้วในแต่ละสัปดาห์แยกจากกัน จากนั้นลักษณนามที่ไม่เป็นเชิงเส้นก็สามารถรวมกันได้เช่นฟีเจอร์สัปดาห์แรกกับฟีเจอร์สัปดาห์ที่แล้วเพื่อรับข้อมูลเชิงลึกเกี่ยวกับวิวัฒนาการในเวลา

คำแนะนำที่ดี! คุณช่วยเพิ่มการใช้ตราสารอนุพันธ์มากขึ้นได้ไหม?
B_Miner

ฉันเห็นด้วยอย่างยิ่งกับคำสั่งแรกของคุณ ฉันชอบที่จะเห็นกล่องเขียนซึ่งรวบรวมกรณีศึกษาเกี่ยวกับคุณสมบัติทางวิศวกรรม / การสกัด สุภาษิตคือการสร้างคุณสมบัตินั้นสำคัญกว่าอัลกอริธึมที่ยิ่งใหญ่ที่สุดในการทำนายประสิทธิภาพของแบบจำลอง
B_Miner

2

คุณจะต้องแยกฟีเจอร์ออกจากอนุกรมเวลาของคุณ (x - 12) - x วิธีหนึ่งที่เป็นไปได้คือการคำนวณตัวชี้วัดสรุป: ค่าเฉลี่ยการกระจาย ฯลฯ แต่การทำเช่นนั้นคุณจะสูญเสียข้อมูลที่เกี่ยวข้องกับอนุกรมเวลาทั้งหมด แต่ข้อมูลที่สกัดจากรูปร่างโค้งอาจมีประโยชน์ทีเดียว ผมขอแนะนำให้คุณมองผ่านนี้บทความที่ผู้เขียนเสนออัลกอริทึมสำหรับชุดการจัดกลุ่มเวลา หวังว่ามันจะมีประโยชน์ นอกจากการจัดกลุ่มดังกล่าวคุณสามารถเพิ่มสถิติสรุปลงในรายการคุณสมบัติของคุณ


ขอบคุณสำหรับลิงค์ ฉันพิจารณาด้วยการใช้ DTW และการจัดกลุ่มเชิงลำดับชั้น ฉันได้ทดลองกับแพ็คเกจ R สำหรับ DWT jstatsoft.org/v31/i07/paper
B_Miner

1
ฉันพิจารณาว่าจะสร้างกลุ่ม n โดยเฉพาะและใช้ความเป็นสมาชิกกลุ่มเป็นคุณสมบัติ
B_Miner
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.