คุณมีวิสัยทัศน์ระดับโลกเกี่ยวกับเทคนิคการวิเคราะห์เหล่านั้นหรือไม่?


24

ขณะนี้ฉันอยู่ในโครงการที่ฉันต้องการโดยทั่วไปเหมือนกับที่เราทุกคนเข้าใจว่าเอาต์พุตเกี่ยวข้องกับอินพุตอย่างไร พิลึกนี่คือข้อมูลที่จะได้รับการฉันหนึ่งชิ้นในเวลาดังนั้นฉันต้องการที่จะปรับปรุงการวิเคราะห์ของฉันทุกครั้งที่ผมได้รับใหม่x) ฉันเชื่อว่าสิ่งนี้เรียกว่าการประมวลผลแบบ "ออนไลน์" ซึ่งตรงข้ามกับการประมวลผลแบบ "แบทช์" ซึ่งคุณมีข้อมูลทั้งหมดที่จำเป็นและทำการคำนวณโดยใช้ข้อมูลทั้งหมดในเวลาเดียวกันyx(y,x)(y,x)

ดังนั้นฉันจึงมองหาแนวคิดและท้ายที่สุดฉันก็สรุปว่าโลกแบ่งออกเป็นสาม:

  • ส่วนแรกคือดินแดนแห่งสถิติและเศรษฐมิติ คนที่นั่นมี OLS, GLS, ตัวแปรเครื่องดนตรี, ARIMA, การทดสอบ, ความแตกต่างของความแตกต่าง, PCA และ whatnot ดินแดนนี้ส่วนใหญ่ถูกครอบงำด้วยความเป็นเส้นตรงและใช้การประมวลผลแบบ "แบทช์" เท่านั้น

  • ส่วนที่สองคือเกาะแห่งการเรียนรู้ของเครื่องและคำอื่น ๆ เช่นปัญญาประดิษฐ์การเรียนรู้แบบมีผู้สอนและไม่มีผู้ดูแลเครือข่ายประสาทและ SVM การประมวลผล "แบทช์" และ "ออนไลน์" เสร็จสิ้นแล้วที่นี่

  • ส่วนที่สามเป็นทั้งทวีปที่ฉันเพิ่งค้นพบซึ่งส่วนใหญ่มีประชากรโดยวิศวกรไฟฟ้าจึงดูเหมือนว่า มีคนมักจะเพิ่มคำว่า "กรอง" เพื่อเป็นเครื่องมือของพวกเขาและพวกเขาคิดค้นวัตถุดิบที่ดีเยี่ยมเช่นอัลกอริทึม Widrow-ฮอฟฟ์ซ้ำสองน้อยที่สุดที่ตัวกรอง Wienerการกรองคาลมาและอาจจะสิ่งอื่น ๆ ที่ฉันไม่ได้ค้นพบเลย เห็นได้ชัดว่าพวกเขาส่วนใหญ่ทำการ "ออนไลน์" การประมวลผลตามที่เหมาะกับความต้องการของพวกเขา

ดังนั้นคำถามของฉันคือคุณมีวิสัยทัศน์ระดับโลกในเรื่องทั้งหมดนี้หรือไม่? ฉันอยู่ภายใต้ความประทับใจที่ทั้งสามส่วนของโลกไม่ได้พูดคุยกันมากเกินไป ฉันผิดหรือเปล่า? มีทฤษฎีการเข้าใจที่ครบวงจรที่ยิ่งใหญ่ว่ากับอย่างไร? คุณรู้หรือไม่ว่ามีแหล่งข้อมูลใดบ้างที่ฐานของทฤษฎีนั้นอาจถูกวางลง?YX

ฉันไม่แน่ใจว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่ฉันหลงทางเล็กน้อยระหว่างทฤษฎีเหล่านั้นทั้งหมด ฉันจินตนาการคำตอบของคำถามที่ว่า "ฉันควรใช้สิ่งนี้หรือไม่?" จะเป็น "ขึ้นอยู่กับสิ่งที่คุณต้องการจะทำ (และขึ้นอยู่กับข้อมูลของคุณ)" อย่างไรก็ตามฉันรู้สึกว่าทั้งสามโลกนั้นพยายามตอบคำถามเดียวกัน ( ?) ดังนั้นจึงควรมีมุมมองที่สูงขึ้นในเรื่องนี้ทั้งหมดและเข้าใจอย่างลึกซึ้งว่าอะไรทำให้แต่ละเทคนิคมีความพิเศษy=f(x)


ฉันคิดว่า 2 พื้นที่แรกพูดคุยกันมากขึ้นในทุกวันนี้ เป็นคำถามที่ยอดเยี่ยม!
ซัค

หัวข้อไดนาไมต์และคำถามที่เขียนดี!
rolando2

1
กรุณาทำ CW นี้
พระคาร์ดินัล

1
ฉันจะเรียกตัวเองว่าเป็นนักสถิติ แต่ฉันทำสิ่งต่าง ๆ มากมายทำแบบจำลองที่ไม่เชิงเส้นหลายชนิดและตบเบา ๆ อย่างน้อย AI ฉันคิดว่าความแตกต่างในเครื่องมือทั่วไปมีส่วนเกี่ยวข้องกับปัญหาที่ผู้คนมักเผชิญ ในกรณีที่ปัญหาของพวกเขามาบรรจบกันไม่ช้าก็เร็วพวกเขามักจะพบหรือคิดค้นเครื่องมือเดียวกัน (มักจะอยู่ภายใต้ชื่อที่แตกต่างกันและมีระฆังและนกหวีดแตกต่างกันเล็กน้อย)
Glen_b -Reinstate Monica

คำตอบ:


4

ในแง่ของแบทช์กับออนไลน์ประสบการณ์ของฉันบอกฉันว่าบางครั้งคุณรวมทั้งสองอย่าง สิ่งที่ฉันหมายถึงคือให้คุณยกของหนัก ๆ เช่นการคำนวณแบบเร่งรัดที่เกี่ยวข้องกับการกำหนดแบบจำลองให้ทำแบบออฟไลน์จากนั้นใช้วิธีการแบบเร็ว / แบบปรับตัวเพื่อใช้โมเดลเหล่านี้ เราพบว่า "ข้อมูลใหม่" สามารถใช้งานได้สามวิธี; 1. เพียงแค่คาดการณ์ 2. เพื่อแก้ไขพารามิเตอร์ของโมเดลที่รู้จักและ 3. เพื่อแก้ไขพารามิเตอร์และอาจแก้ไขโมเดล วิธีการทั้งสามนี้ใช้สำหรับ "การวิเคราะห์สด" และแน่นอนว่าเวลาในการทำหนึ่งในสามขั้นตอนเหล่านี้ขึ้นอยู่กับทั้งซอฟต์แวร์ที่ใช้และฮาร์ดแวร์ที่มีอยู่

ตอนนี้ถึงจุดอื่นของคุณเกี่ยวกับวิธีการสร้างแบบจำลอง y vs x ฉันชอบที่จะใช้เวอร์ชันที่ขยายเพิ่มขึ้นของการถดถอย (เรียกว่าฟังก์ชันการถ่ายโอนหรือโมเดล ARMAX) เป็นพื้นฐานของการดึงผลกระทบของประวัติของ y และค่าปัจจุบันและค่า p ของ x จำเป็นอย่างยิ่งที่จะต้องตรวจสอบข้อกำหนดของเกาส์เซียนและรวมเอาพร็อกซีที่จำเป็นสำหรับทั้งโครงสร้างที่กำหนดไว้ที่ถูกละไว้ นอกจากนี้หนึ่งต้องการให้แน่ใจว่าไม่มีการใช้ข้อมูลมากเกินไป (การทดสอบความคงที่ของพารามิเตอร์) และความแปรปรวนข้อผิดพลาดที่ไม่คงที่ซึ่งเป็นผลมาจากความแปรปรวนข้อผิดพลาดที่กำหนดขึ้น / ผิดพลาดและ / หรือการเชื่อมโยงระหว่างค่าที่คาดหวังของ y และความแปรปรวนของ ส่วนเหลือ

ตอนนี้ในอดีต (หรือถ้าคุณต้องการ) ไซโลแห่งความคิดที่แตกต่างกันได้พยายามที่จะกำหนดวิธีการ โมเดล Ad-hoc จำนวนมากที่ใช้โดยอ้อยบรรพบุรุษของเราจะแสดงเป็นชุดย่อยของฟังก์ชั่นการถ่ายโอน แต่มีชุดข้อมูลที่สามารถจินตนาการได้ซึ่งจะท้าทายสมมติฐานของฟังก์ชันถ่ายโอน แม้ว่าชุดข้อมูลเหล่านี้อาจมีอยู่ แต่ก็ไม่ควรคิดว่าจะมีผลกระทบกับคุณโดยตรงเว้นแต่การวิเคราะห์จะให้ข้อสรุปนั้น

ข้อความเช่น Wei (Addison-Wessley) หรือ Box-Jenkins ควรจัดทำแผนที่ถนนที่เหมาะสมเพื่อสนับสนุนชุมชนของฉันและเพื่อนำคุณไปสู่ ​​"คำตอบ" เพิ่มเติม

นี่เป็นคำถามที่ยอดเยี่ยม!

นอกจากนี้หากคุณมีข้อมูลใด ๆ ที่คุณต้องการใช้ฉันสามารถแสดงตัวเลือกต่างๆที่อธิบายไว้ในที่นี้ โปรดโพสต์ข้อมูลของคุณไปยังเว็บเพื่อให้ทุกคนได้เห็นและใช้ในความพยายามของพวกเขาเพื่อเชื่อมโยง "y to x"


ขอบคุณสำหรับคำตอบ! ฉันจะดูอย่างลึกซึ้งยิ่งขึ้นทันทีที่ฉันมีเวลาและอาจจะกลับไปหาคุณ ฉันต้องบอกว่าฉันไม่รู้โมเดล ARMAX ฉันเดาว่าฉันเคยไปที่ VAR ที่อยู่ภายนอกทั้งหมด สำหรับข้อมูลนั้นเรายังคงสร้างสิ่งอื่น ๆ สำหรับโครงการของเราดังนั้นฉันจึงไม่มีข้อมูลที่เกี่ยวข้องมากในตอนนี้ แต่ขอบคุณมากคุณควรได้ยินจากฉันอีกครั้ง!
อาเธอร์

"ตรวจสอบความต้องการของ Gaussian": Gaussian / nonparametric / forget-modelling (ก้าว Breiman) ไม่ใช่การแบ่งที่ลึกซึ้งใช่ไหม
เดนิส

2

Breiman กล่าวถึงปัญหานี้ใน "การสร้างแบบจำลองเชิงสถิติ: สองวัฒนธรรม " คำตอบแรกสำหรับคำถามที่ยอดเยี่ยม


ขอบคุณ! การเชื่อมโยงของคุณไม่ได้ทำงานสำหรับฉันที่หนึ่งผลงานและนี้นำไปสู่รูปแบบไฟล์ PDF ฉันอ่านบทคัดย่อและบางส่วนโดยการสุ่มในข้อความเท่านั้นและมันก็ดูน่าสนใจมาก พวกดูเหมือนจะเป็น "สถิติการต่อต้านคลาสสิก" โดยสิ้นเชิง ขอบคุณอีกครั้ง.
อาเธอร์

เยี่ยมมาก - ฉันอัพเดทลิงค์ มันสนุกที่จะอ่าน - สนุก!
Ram Ahluwalia

มีการกล่าวถึง "สองวัฒนธรรม" ของ Breiman ที่นี่ : บางประเด็นที่น่าสนใจ แต่ก็ยากที่จะเปลี่ยนแปลงหรืออธิบายความคิดของคน
เดนิส

1

ฉันสงสัยว่าคำตอบสำหรับคำถามนี้คือบางสิ่งที่เรียงตามแนวของ "ไม่มีอาหารกลางวันฟรี" บางทีเหตุผลที่นักสถิตินักวิทยาศาสตร์คอมพิวเตอร์และวิศวกรไฟฟ้าได้พัฒนาอัลกอริทึมที่แตกต่างกันก็คือพวกเขามีความสนใจในการแก้ปัญหาต่าง ๆ


0

ฉันจะบอกว่าสามกลุ่มที่คุณระบุมีเพียงสองกลุ่มเท่านั้น:

  • สถิติ
  • การเรียนรู้ของเครื่องปัญญาประดิษฐ์และการจดจำรูปแบบ

ทุกสาขาที่เกี่ยวข้องกับการกรองสัญญาณจะขึ้นอยู่กับสองด้าน: การสกัดคุณลักษณะ (wavelets, Gabor และ Fourier) ซึ่งเป็นของการจดจำรูปแบบและการแปลงฟูริเยร์ต่อเนื่องซึ่งเป็นของคณิตศาสตร์ยาก อันที่จริงแล้วตัวกรองดิจิทัลนั้นอยู่ใกล้กับด้านวิศวกรรมมากขึ้นเนื่องจากพยายามแก้ไขปัญหาการจดจำรูปแบบนี้โดยใช้อัลกอริธึมต้นทุนต่ำและง่ายในการคำนวณ แต่โดยพื้นฐานแล้วมันคือการเรียนรู้ของเครื่อง

ยิ่งไปกว่านั้นการกรองเวฟเล็ตกาบอร์และฟูเรียร์ถูกนำมาใช้อย่างกว้างขวางในการประมวลผลภาพซึ่งเป็นแกนหลักของการมองเห็นแบบประดิษฐ์

ความแตกต่างอยู่ระหว่างสถิติและการเรียนรู้ของเครื่อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.