ฉันกำลังมองหาเทคนิคที่มีประสิทธิภาพในการลบค่าผิดพลาดและข้อผิดพลาด (ไม่ว่าจะเกิดอะไร) จากข้อมูลอนุกรมเวลาการเงิน (เช่น tickdata)
ข้อมูลอนุกรมเวลาทางการเงินแบบ Tick-by-tick นั้นยุ่งมาก มันมีช่องว่างขนาดใหญ่ (เวลา) เมื่อการแลกเปลี่ยนถูกปิดและกระโดดอย่างมากเมื่อการแลกเปลี่ยนเปิดขึ้นอีกครั้ง เมื่อการแลกเปลี่ยนเปิดขึ้นปัจจัยทุกชนิดจะแนะนำการซื้อขายในระดับราคาที่ไม่ถูกต้อง (ไม่ได้เกิดขึ้น) และ / หรือไม่ได้เป็นตัวแทนของตลาด (ขัดขวางเนื่องจากการเสนอราคาที่ป้อนไม่ถูกต้องหรือขอราคาตัวอย่าง) บทความนี้โดย tickdata.com (PDF) ทำงานได้ดีในการสรุปปัญหา แต่เสนอวิธีแก้ไขปัญหาที่เป็นรูปธรรมเล็กน้อย
เอกสารส่วนใหญ่ที่ฉันสามารถหาได้ทางออนไลน์ที่กล่าวถึงปัญหานี้ก็คือไม่ต้องสนใจ (ติ๊กถูกสันนิษฐานว่าถูกกรอง) หรือรวมการกรองไว้เป็นส่วนหนึ่งของรูปแบบการค้าขนาดใหญ่ซึ่งซ่อนขั้นตอนการกรองที่มีประโยชน์
มีใครตระหนักถึงการทำงานในเชิงลึกมากขึ้นในพื้นที่นี้หรือไม่?
อัปเดต: คำถามนี้ดูเหมือนกับพื้นผิว แต่:
- ซีรี่ส์เวลาทางการเงินคือ (อย่างน้อยก็ที่ระดับเห็บ) ที่ไม่ใช่งวด
- เอฟเฟ็กต์เปิดเป็นปัญหาใหญ่เพราะคุณไม่สามารถใช้ข้อมูลของวันสุดท้ายเป็นการเริ่มต้นแม้ว่าคุณจะชอบจริงๆ (เพราะไม่เช่นนั้นคุณก็ไม่มีอะไร) เหตุการณ์ภายนอกอาจทำให้การเปิดตัวของวันใหม่แตกต่างกันอย่างมากทั้งในระดับที่แน่นอนและความผันผวนจากวันก่อนหน้า
- ความถี่ที่ผิดปกติอย่างมากของข้อมูลที่เข้ามา ใกล้เปิดและปิดของวันจำนวนดาต้าพอยน์ / วินาทีสามารถสูงกว่าค่าเฉลี่ย 10 ครั้งในระหว่างวัน คำถามอื่น ๆ ที่เกี่ยวข้องกับข้อมูลตัวอย่างเป็นประจำ
- "ค่าผิดปกติ" ในข้อมูลทางการเงินแสดงรูปแบบเฉพาะบางอย่างที่สามารถตรวจพบได้ด้วยเทคนิคเฉพาะที่ไม่สามารถใช้ได้ในโดเมนอื่นและฉันกำลังมองหาเทคนิคเฉพาะเหล่านั้น
- ในกรณีที่รุนแรงมากขึ้น (เช่นเกิดความผิดพลาดของแฟลช) ค่าผิดปกติอาจมีจำนวนมากกว่า 75% ของข้อมูลในช่วงเวลานานกว่า (> 10 นาที) นอกจากนี้ความถี่ (สูง) ของข้อมูลที่เข้ามามีข้อมูลบางอย่างเกี่ยวกับลักษณะภายนอกของสถานการณ์