ศาสดาจาก Facebook ต่างจากการถดถอยเชิงเส้นหรือไม่?


11

ดังนั้นสิ่งที่ฉันได้อ่านเกี่ยวกับผู้เผยพระวจนะของ Facebook ก็คือมันจะแบ่งช่วงเวลาออกเป็นแนวโน้มและฤดูกาล ตัวอย่างเช่นแบบจำลองเพิ่มเติมจะถูกเขียนเป็น:

y(t)=g(t)+s(t)+h(t)+et

กับ

  • tเวลา
  • g(t)แนวโน้ม (อาจเป็นเชิงเส้นหรือโลจิสติก)
  • s(t)ฤดูกาล (รายวันรายสัปดาห์รายปี ... )
  • h(t)วันหยุด
  • etข้อผิดพลาด

คำถามของฉันคือ: มันไม่สามารถทำได้ด้วยการถดถอยเชิงเส้นอย่างง่าย? อะไรคือความแตกต่างในแง่ของผลลัพธ์ถ้าเราเปรียบเทียบพวกเขาและทำไม?


ใช่คุณสามารถทำได้ด้วยโมเดลเชิงเส้น ฉันไม่รู้จักผู้เผยพระวจนะ แต่ถ้านี่คือสิ่งที่มันทำแล้วไม่มีความแตกต่าง
user2974951

คำตอบ:


13

ปัญหาที่นี่คือการได้รับสมการที่แยกวิเคราะห์ข้อมูลที่สังเกตได้กับสัญญาณและเสียงรบกวน หากข้อมูลของคุณง่ายวิธีการถดถอยของคุณอาจใช้ได้ ควรใช้ความระมัดระวังเพื่อทำความเข้าใจสมมติฐานบางอย่างที่พวกเขาทำกับศาสดา คุณควรเข้าใจสิ่งที่ศาสดาทำดีกว่าเพราะมันไม่ได้เป็นแค่รูปแบบเรียบง่าย แต่พยายามเพิ่มโครงสร้างบางอย่าง

ตัวอย่างเช่นภาพสะท้อนบางอย่างที่ฉันทำหลังจากอ่านคำแนะนำที่เขียนเป็นลายลักษณ์อักษรอาจช่วยคุณในการประเมินของคุณ ฉันต้องขออภัยล่วงหน้าหากฉันเข้าใจผิดเกี่ยวกับวิธีการของพวกเขาและต้องการแก้ไขหากเป็นเช่นนั้น

1) ตัวอย่างนำของพวกเขามีสองจุดพักในแนวโน้ม แต่พวกเขาเท่านั้นจับชัดเจนที่สุด

2) พวกเขาไม่สนใจโครงสร้าง ARIMA ใด ๆ และทั้งหมดที่สะท้อนชุดสโตแคสติกที่ละเว้นหรือค่าของการใช้ค่าประวัติของ Y เพื่อเป็นแนวทางในการพยากรณ์

3) พวกมันไม่สนใจการเปลี่ยนแปลงใด ๆ ที่เป็นไปได้ (เอฟเฟกต์ตะกั่วและความล่าช้า) ของซีรี่ส์ที่สุ่มเลือกและกำหนดขึ้น ผลการถดถอยเชิงสาเหตุของท่านศาสดานั้นเกิดขึ้นพร้อมกัน

4) ไม่มีการพยายามระบุขั้นตอน / ระดับการเปลี่ยนแปลงในซีรีส์หรือจังหวะตามฤดูกาลเช่นการเปลี่ยนแปลงในผลของ MONDAY ครึ่งเวลาเนื่องจากเหตุการณ์ภายนอกที่ไม่ทราบ ศาสดาถือว่า "การเติบโตเชิงเส้นอย่างง่าย" แทนที่จะตรวจสอบโดยการตรวจสอบความเป็นไปได้ทางเลือกสำหรับตัวอย่างที่เป็นไปได้นี้ดูการคาดการณ์คำสั่งซื้อที่เกิดซ้ำสำหรับธุรกิจการสมัครสมาชิกออนไลน์โดยใช้ Facebook Prophet และ R

5) Sines และ Cosines เป็นวิธีการที่ชัดเจนในการจัดการกับฤดูกาลในขณะที่ผลกระทบตามฤดูกาลเช่นวันต่อสัปดาห์, วันต่อเดือน, สัปดาห์ต่อเดือน, เดือนของปี มีประสิทธิภาพมากขึ้น / ให้ข้อมูลเมื่อต้องรับมือกับผลของมนุษย์ (จัดการกับมนุษย์!)

การแนะนำความถี่ของ 365.25 สำหรับรูปแบบรายปีนั้นสมเหตุสมผลเล็กน้อยเพราะเราไม่ได้ทำแบบเดียวกันในวันเดียวกับที่เราทำเมื่อปีที่แล้วขณะที่กิจกรรมรายเดือนยังคงติดตาอยู่มาก แต่ศาสดาไม่ปรากฏตัวชี้วัดรายเดือน 11 รายการ ตัวเลือก ความถี่รายสัปดาห์ 52 มีเหตุผลเล็กน้อยเนื่องจากเราไม่มี 52 สัปดาห์ในแต่ละปี

6) ไม่มีความพยายามใด ๆ ในการตรวจสอบความผิดพลาดของกระบวนการเป็นแบบเกาส์ดังนั้นการทดสอบที่มีความสำคัญอย่างมีนัยสำคัญสามารถทำได้

7) ไม่ต้องกังวลเกี่ยวกับความแปรปรวนของข้อผิดพลาดของแบบจำลองที่เป็นเนื้อเดียวกันคือไม่เปลี่ยนแปลงไปตามจุดต่าง ๆ ในช่วงเวลาที่กำหนดเพื่อบอกน้ำหนักกำลังสองน้อยที่สุด ไม่ต้องกังวลกับการหาการแปลงพลังงานที่เหมาะสมเพื่อจัดการความแปรปรวนข้อผิดพลาดที่เป็นสัดส่วนกับค่าที่คาดหวังเมื่อใด (และเพราะเหตุใด) ที่คุณควรบันทึกการกระจาย (ของตัวเลข)? .

8) ผู้ใช้จะต้องระบุล่วงหน้าโอกาสและความล่าช้าที่เป็นไปได้ทั้งหมดเกี่ยวกับเหตุการณ์ / วันหยุด ตัวอย่างเช่นยอดขายรายวันมักจะเริ่มเพิ่มขึ้นในช่วงปลายเดือนพฤศจิกายนซึ่งสะท้อนถึงผลกระทบระยะยาวของคริสต์มาส

9) ไม่ต้องกังวลว่าข้อผิดพลาดที่เกิดขึ้นนั้นไม่มีโครงสร้างแนะนำวิธีการปรับปรุงตัวแบบผ่านการตรวจวินิจฉัยเพื่อความเพียงพอ

10) เห็นได้ชัดว่าไม่มีความกังวลกับการปรับปรุงตัวแบบโดยการลบโครงสร้างที่ไม่สำคัญออกไป

11) ไม่มีสิ่งอำนวยความสะดวกที่จะได้รับครอบครัวของการพยากรณ์ที่จำลองซึ่งข้อ จำกัด ของความเชื่อมั่นอาจไม่จำเป็นต้องสมมาตรเมื่อทำการบู๊ตข้อผิดพลาดของโมเดลด้วยค่าเผื่อความผิดปกติที่อาจเกิดขึ้น

12) การให้ผู้ใช้ตั้งสมมติฐานเกี่ยวกับเทรนด์ (# ของเทรนด์เบรกพอยต์และเบรกพอยต์ที่เกิดขึ้นจริง) ให้ความยืดหยุ่นที่ไม่พึงประสงค์ / ไม่สามารถใช้งานได้ในการเผชิญกับการวิเคราะห์ขนาดใหญ่ซึ่งโดยชื่อของมัน


เห็นด้วย แต่ฉันบอกว่าสิ่งเหล่านั้นใกล้เคียงกับฟีเจอร์ "ดีที่มี" จากนั้น "ต้องมี" คุณสามารถมีแบบจำลองการพยากรณ์คุณภาพสูงที่ขาดบางแบบ แต่อย่างที่ฉันบอกว่าคะแนนที่ดีและรีวิวที่ดี
ทิม

คุณค่อนข้างถูกต้องในการสะท้อนของคุณ ... ความซับซ้อนโดยธรรมชาติของ "ข้อมูล" เป็นปัญหาการพิจารณาคดี ข้อมูลอย่างง่าย .. ต้องการคำตอบที่ง่าย .. ข้อมูลที่ซับซ้อนแสดงให้เห็นว่า "ดีที่มี" อาจกลายเป็น "จำเป็นต้องมี" ข้อมูลของคุณเท่านั้นที่รู้แน่นอน! มีดโกนของ Occam มาถึงใจ ..
IrishStat

@ Tim stats.stackexchange.com/questions/417908/...กระทู้แสดงให้เห็นว่ามีคุณสมบัติบางอย่างที่ "ดีมี" ในความเป็นจริงควรจะเป็น "ต้องมี" เพื่อทำลายสมมติฐานที่ไม่เหมาะสมเช่น "แนวโน้มเชิงเส้นอย่างง่าย"
IrishStat

10

ฉันไม่ได้ใช้มัน แต่นี่เป็นนามธรรมของพวกเขา

การพยากรณ์เป็นงานด้านวิทยาศาสตร์ข้อมูลทั่วไปที่ช่วยองค์กรในการวางแผนกำลังการผลิตการกำหนดเป้าหมายและการตรวจจับความผิดปกติ แม้จะมีความสำคัญของมันมีความท้าทายร้ายแรงที่เกี่ยวข้องกับการผลิตการคาดการณ์ที่มีคุณภาพสูงและเชื่อถือได้ - โดยเฉพาะอย่างยิ่งเมื่อมีความหลากหลายของอนุกรมเวลาและนักวิเคราะห์ที่มีความเชี่ยวชาญในการสร้างแบบจำลองอนุกรมเวลาจะค่อนข้างหายาก เพื่อจัดการกับความท้าทายเหล่านี้เราได้อธิบายวิธีการปฏิบัติเพื่อการคาดการณ์“ ตามขนาด” ที่รวมโมเดลที่สามารถกำหนดค่าได้กับการวิเคราะห์ประสิทธิภาพแบบวิเคราะห์ในวง. เราเสนอรูปแบบการถดถอยแบบแยกส่วนพร้อมพารามิเตอร์ที่สามารถตีความได้ซึ่งสามารถปรับได้โดยนักวิเคราะห์ที่มีความรู้ด้านโดเมนเกี่ยวกับอนุกรมเวลา เราอธิบายการวิเคราะห์ประสิทธิภาพเพื่อเปรียบเทียบและประเมินขั้นตอนการพยากรณ์และตั้งค่าการคาดการณ์อัตโนมัติสำหรับการตรวจสอบและปรับด้วยตนเอง เครื่องมือที่ช่วยให้นักวิเคราะห์ใช้ความเชี่ยวชาญของพวกเขาอย่างมีประสิทธิภาพมากที่สุดเปิดใช้งานการคาดการณ์เชิงเวลาที่เชื่อถือได้ของชุดเวลาธุรกิจ

ในการแนะนำ:

เราได้สังเกตสองประเด็นหลักในการฝึกการสร้างการคาดการณ์ทางธุรกิจ ประการแรกเทคนิคการพยากรณ์อัตโนมัติอย่างสมบูรณ์อาจยากที่จะปรับแต่งและมักจะไม่ยืดหยุ่นเกินกว่าที่จะรวมสมมติฐานหรือการวิเคราะห์พฤติกรรมที่เป็นประโยชน์ ประการที่สองนักวิเคราะห์ที่รับผิดชอบงานด้านวิทยาศาสตร์ข้อมูลทั่วทั้งองค์กรมักจะมีความเชี่ยวชาญในระดับลึกเกี่ยวกับผลิตภัณฑ์หรือบริการเฉพาะที่พวกเขาสนับสนุน แต่มักจะไม่มีการฝึกอบรมในการพยากรณ์อนุกรมเวลา

ดังนั้นสำหรับฉันแล้วดูเหมือนว่าพวกเขาไม่ได้อ้างว่าได้ทำสถิติล่วงหน้าจำนวนมากที่นี่ (แม้ว่ามันจะมีความสามารถมากกว่าแบบจำลองที่คุณร่าง) แต่พวกเขาอ้างว่าระบบของพวกเขาทำให้เป็นไปได้สำหรับคนจำนวนมากที่ไม่มีความเชี่ยวชาญในการวิเคราะห์อนุกรมเวลาเพื่อสร้างการพยากรณ์ในขณะที่ใช้ความเชี่ยวชาญด้านโดเมนของตนเองและข้อ จำกัด เฉพาะของระบบ

หากคุณมีความเชี่ยวชาญทั้งในการวิเคราะห์อนุกรมเวลาและในการเข้ารหัสโมเดลที่ซับซ้อนสิ่งนี้อาจไม่เป็นประโยชน์กับคุณมากนัก แต่ถ้าการเรียกร้องของพวกเขาเป็นจริงสิ่งนี้อาจเป็นประโยชน์อย่างมหาศาล! วิทยาศาสตร์ (และการค้า) ก้าวหน้าไม่เพียงเพราะความคิดใหม่ แต่ยังเป็นเพราะเครื่องมือใหม่ ๆ และการแพร่กระจายของพวกเขา (ดูที่ชิ้นส่วนฟรีแมนไดสันสั้น ๆเกี่ยวกับหัวข้อและคำตอบนี้ )

เพื่อยกตัวอย่างจากสถิติเอง: Rไม่ได้แสดงถึงความก้าวหน้าทางสถิติ แต่มันมีอิทธิพลอย่างมากเพราะทำให้ผู้คนจำนวนมากทำการวิเคราะห์ทางสถิติได้ง่ายขึ้น มันเป็นโครงร่างที่สร้างความเข้าใจทางสถิติอย่างมาก หากเราโชคดีท่านศาสดาอาจมีบทบาทคล้ายกัน

ไดสัน, ฟรีแมนเจ "วิทยาศาสตร์ส่วนใหญ่ขับเคลื่อนด้วยความคิดหรือโดยเครื่องมือ?" วิทยาศาสตร์ 338 เลขที่ 6113 (2012): 1426-1427


0

คุณพลาดจุดเปลี่ยนแปลงเส้นโค้งเชิงเส้นแบบชิ้นเดียวซึ่งสามารถนำไปใช้กับโมเดลเชิงเส้นได้

คุณมีสิทธิ์ที่อย่างน้อยในกรณี จำกัด มันเป็นการถดถอยเชิงเส้นเชิงเส้น (การทำให้เป็นมาตรฐาน L1 และ L2)

โปรดทราบว่ามีรูปแบบของผู้เผยพระวจนะที่แยกต่างหากคือการเจริญเติบโตของการขนส่ง

นอกจากนี้คุณกำลังสมมติว่าปัจจัยตามฤดูกาลนั้นเป็นสารเติมแต่ง แต่พวกมันยังสนับสนุนเอฟเฟ็กต์ตามฤดูกาลแบบทวีคูณซึ่งดูเหมือนเป็นธรรมชาติมากขึ้นสำหรับการสร้างแบบจำลองการเติบโต


ข้อสันนิษฐานของผู้เผยพระวจนะในการบันทึกบันทึกอยู่ในหน้าของการสนทนาที่มีค่านี้ ... stats.stackexchange.com/questions/18844/ … ที่การแปลงพลังงานเป็นธรรมขึ้นอยู่กับความสัมพันธ์เชิงประจักษ์ระหว่างค่าคาดหวังและความแปรปรวนข้อผิดพลาดของแบบจำลองหรือเฉพาะ การสันนิษฐานที่ไม่ใช่เชิงเส้นขึ้นอยู่กับความรู้ในโดเมน
IrishStat

@IrishStat ขอบคุณสำหรับจุดนั้น (ฉันลืมไปแล้วว่าพวกเขาเข้าสู่ระบบการแปลงเพื่อดำเนินการตามฤดูกาล multiplicative พวกเขาใช้ STAN ดังนั้นฉันเชื่อว่าพวกเขาสามารถใช้แบบจำลองที่ไม่ใช่เชิงเส้นแทนการบันทึก) คุณช่วยอธิบายความแตกต่างของคุณระหว่างข้อสันนิษฐานเกี่ยวกับฤดูกาลแบบทวีคูณและ 'ข้อสันนิษฐานแบบไม่เชิงเส้น .. '
seanv507

หากคุณดูที่ @ whuber คำตอบstats.stackexchange.com/questions/298/ …เขาแนะนำการแปลง "เมื่อทฤษฎีทางวิทยาศาสตร์บ่งชี้" ซึ่งอาจเป็นสมมติฐานที่ไม่เป็นเชิงเส้นที่เป็นไปได้ตามความรู้ในโดเมน การแปลงพลังงานเชิงประจักษ์มีประโยชน์เมื่อพบความแปรปรวนของข้อผิดพลาดเป็นสัดส่วนกับค่าที่คาดไว้มิฉะนั้นอาจเป็นเพียง "การตกแต่งหน้าต่าง"
IrishStat

0

สามารถทำได้หลายอย่างด้วยการถดถอยเชิงเส้นอย่างง่าย แต่ไม่ใช่ทุกสิ่งที่ศาสดาทำ เพียงแค่ตัวอย่างเดียวคุณสามารถระบุผู้สมัครจุดเปลี่ยนแปลงของคุณสำหรับเทรนด์และศาสดาจะใช้มันก่อน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.