ความแตกต่างระหว่างการวิเคราะห์ข้อมูลการทำงานและการวิเคราะห์ข้อมูลมิติสูงคืออะไร


10

มีการอ้างอิงจำนวนมากในวรรณกรรมทางสถิติถึง " ข้อมูลการทำงาน " (เช่นข้อมูลที่เป็นเส้นโค้ง) และในแนวขนานกับ " ข้อมูลมิติสูง " (เช่นเมื่อข้อมูลเป็นเวกเตอร์มิติสูง) คำถามของฉันเกี่ยวกับความแตกต่างระหว่างข้อมูลสองประเภท

เมื่อพูดถึงวิธีการทางสถิติที่ประยุกต์ใช้ในกรณีที่ 1 สามารถเข้าใจได้ว่าเป็นการใช้วิธีการใหม่จากกรณีที่ 2 ถึงการฉายภาพในขอบเขตย่อยที่มีขอบเขตมิติของพื้นที่ของฟังก์ชั่น . และจะแปลปัญหาการทำงานให้เป็นปัญหาเวคเตอร์แบบมิติแน่นอน (เนื่องจากในวิชาคณิตศาสตร์ประยุกต์ทุกอย่างก็มีขอบเขตในบางจุด)

คำถามของฉันคือ เราสามารถพูดได้ว่ากระบวนการทางสถิติใด ๆ ที่ใช้กับข้อมูลการทำงานสามารถนำไปใช้ (เกือบจะโดยตรง) กับข้อมูลมิติสูงและกระบวนการใด ๆ ที่อุทิศให้กับข้อมูลมิติสูงสามารถนำไปใช้กับข้อมูลการทำงานได้หรือไม่

หากคำตอบคือไม่คุณสามารถอธิบายได้ไหม?

แก้ไข / ปรับปรุงด้วยความช่วยเหลือของคำตอบของ Simon Byrne:

  • sparsity (สมมติฐาน S-เบาบางลูกและอ่อนแอลิตรPลูกP < 1 ) ใช้เป็นสมมติฐานโครงสร้างในการวิเคราะห์ทางสถิติสูงมิติล.พีล.พีพี<1
  • "ความเรียบ" ใช้เป็นข้อสมมติฐานเชิงโครงสร้างในการวิเคราะห์ข้อมูลการทำงาน

ในทางกลับกันการแปลงฟูริเยร์และการแปลงเวฟเล็ตแบบผกผันจะเปลี่ยนความเป็นช่องว่างให้เป็นความเรียบเนียนและความเรียบเนียนจะถูกเปลี่ยนเป็นแบบ Sparcity โดยการแปลงเวฟเล็ตและฟูริเยร์ สิ่งนี้ทำให้ความแตกต่างที่สำคัญที่ Simon พูดถึงไม่สำคัญอย่างนั้นเหรอ?


1
การปรับให้เรียบเป็นส่วนใหญ่ของการวิเคราะห์ข้อมูลการทำงานและสามารถแปลงเป็นปัญหาการประมาณค่าเฉลี่ยเวกเตอร์โดยการฉายภาพลงบนพื้นฐานที่เหมาะสม (เช่นฟูริเยร์หรือเวฟเล็ต) แต่มีปัญหาอื่น ๆ ในการวิเคราะห์ข้อมูลการทำงาน แปลได้อย่างง่ายดาย ใช้ตัวอย่างการถดถอยเชิงฟังก์ชันที่คุณสนใจในการทำนายการตอบสนองการทำงานจาก covariates
vqv

คำตอบ:


12

ข้อมูลการทำงานมักเกี่ยวข้องกับคำถามที่แตกต่าง ฉันได้อ่านการวิเคราะห์ข้อมูลการใช้งาน, Ramsey และ Silverman และพวกเขาใช้เวลามากมายพูดคุยเกี่ยวกับการลงทะเบียนเส้นโค้ง, ฟังก์ชั่นการแปรปรวนและการประมาณอนุพันธ์ของเส้นโค้ง สิ่งเหล่านี้มักจะเป็นคำถามที่แตกต่างจากคำถามที่ผู้คนสนใจศึกษาข้อมูลมิติสูง


เห็นด้วยอย่างเต็มที่ ! คำถามที่ถามนั้นแตกต่างกัน การลงทะเบียนการทำเครื่องหมายการประมาณราคาของตราสารอนุพันธ์สามารถเกิดขึ้นได้จากมุมมองการทำงาน สิ่งนี้ทำให้ฉันมั่นใจ! ดังนั้นเรื่องใหญ่กับข้อมูลการทำงาน (ตามที่อยู่ในวรรณคดีทางสถิติ) จะไม่ว่ามันจะถูกกำหนดไว้ในชุดต่อเนื่อง
robin girard

ไม่ใช่แค่ว่ามันถูกกำหนดไว้ในชุดสั่ง มิฉะนั้นคุณจะแยกความแตกต่างการวิเคราะห์อนุกรมเวลาจากการวิเคราะห์ข้อมูลการทำงานได้อย่างไร ฉันเห็นด้วยกับ @ user549 ว่ามันเป็นประเภทของคำถามที่ถาม พวกเขาเฉพาะโครงสร้างของข้อมูล
vqv

15

ใช่และไม่. ในระดับทฤษฎีทั้งสองกรณีสามารถใช้เทคนิคและกรอบงานที่คล้ายกัน (ตัวอย่างที่ยอดเยี่ยมคือการถดถอยแบบกระบวนการเสียน)

ความแตกต่างที่สำคัญคือข้อสมมติฐานที่ใช้เพื่อป้องกันการ overfitting (normalization):

  • ในกรณีที่ใช้งานได้มักจะมีข้อสันนิษฐานของความเรียบในคำอื่น ๆ ค่าที่เกิดขึ้นใกล้เคียงกันควรจะคล้ายกันในบางวิธีที่เป็นระบบ สิ่งนี้นำไปสู่การใช้เทคนิคต่าง ๆ เช่นเส้นโค้งเหลืองเหลืองแบบเกาส์ ฯลฯ

  • ในกรณีที่มีมิติสูงมักจะมีการสันนิษฐานของ sparsity นั่นคือมีเพียงส่วนย่อยของมิติที่จะมีสัญญาณใด ๆ สิ่งนี้นำไปสู่เทคนิคที่มีเป้าหมายในการระบุมิติเหล่านั้น (Lasso, LARS, Priab พื้นและเข็ม ฯลฯ )

UPDATE:

ฉันไม่ได้คิดเกี่ยวกับวิธีการเวฟเล็ต / ฟูริเยร์ แต่ใช่เทคนิคการกำหนดเป้าหมายใหม่สำหรับวิธีการดังกล่าวมีจุดมุ่งหมายเพื่อกระจัดกระจายในพื้นที่ที่ฉาย ในทางกลับกันเทคนิคมิติสูงบางสมมติว่ามีการฉายภาพไปยังนานามิติที่ต่ำกว่า (เช่นการวิเคราะห์องค์ประกอบหลัก) ซึ่งเป็นข้อสันนิษฐานประเภทความนุ่มนวล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.