ฉันจะตรวจจับเซ็กเมนต์ของชุดข้อมูลโดยทางโปรแกรมให้เหมาะสมกับเส้นโค้งที่ต่างกันได้อย่างไร


14

มีอัลกอริธึมที่มีเอกสารใด ๆ ในการแยกส่วนของชุดข้อมูลที่กำหนดเป็นส่วนโค้งที่แตกต่างกันของชุดข้อมูลที่เหมาะสมที่สุดหรือไม่?

ตัวอย่างเช่นมนุษย์ส่วนใหญ่ที่ดูแผนภูมิข้อมูลนี้จะแบ่งออกเป็น 3 ส่วนอย่างง่าย: ส่วนของไซน์, ส่วนเชิงเส้นและส่วนอธิบายอินเวอร์ส อันที่จริงฉันสร้างสิ่งนี้ขึ้นมาด้วยคลื่นไซน์เส้นและสูตรเลขชี้กำลังแบบง่าย

แผนภูมิข้อมูลที่มองเห็นได้สามส่วน

มีอัลกอริธึมที่มีอยู่สำหรับการค้นหาชิ้นส่วนเช่นนั้นซึ่งสามารถติดตั้งแยกกันกับส่วนโค้ง / เส้นต่าง ๆ เพื่อสร้างชุดข้อมูลเชิงประกอบที่เหมาะที่สุดกับชุดย่อยของข้อมูลหรือไม่?

โปรดทราบว่าถึงแม้ว่าตัวอย่างจะมีส่วนท้ายของกลุ่มค่อนข้างมาก แต่ก็ไม่จำเป็นต้องเป็นอย่างนั้น นอกจากนี้ยังอาจมีการกระทุ้งฉับพลันในค่าที่ตัดส่วน บางทีกรณีเหล่านั้นจะง่ายต่อการตรวจจับ

อัปเดต: นี่คือรูปภาพของข้อมูลจริงเล็กน้อย: แผนภูมิโลกแห่งความจริง

อัปเดต 2: นี่คือชุดข้อมูลจริงขนาดเล็กผิดปกติ (มีเพียง 509 จุดข้อมูล):

4,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235

นี่มันเป็นสถานที่เกิดเหตุด้วยappoximateตำแหน่งของบางองค์ประกอบโลกแห่งความจริงที่รู้จักกันขอบทำเครื่องหมายด้วยเส้นประหรูหราเราจะไม่ปกติมี:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามความหรูหราอย่างหนึ่งที่เรามีคือการเข้าใจถึงปัญหาหลังเหตุการณ์ข้อมูลในกรณีของฉันไม่ใช่อนุกรมเวลา แต่มีความสัมพันธ์เชิงพื้นที่ มันสมเหตุสมผลแล้วที่จะวิเคราะห์ชุดข้อมูลทั้งหมด (โดยปกติคือจุดข้อมูล 5,000 - 15,000 จุด) ในคราวเดียวไม่ใช่อย่างต่อเนื่อง


1
ps โพสต์แรกไปที่ CV; ฉันเป็นนักพัฒนาซอฟต์แวร์และโดยปกติแล้วฉันจะออกไปเที่ยวมากกว่านี้ ขอโทษถ้าฉันละเมิดข้อห้ามในท้องถิ่นใด ๆ การค้นหาคำตอบของฉันจำนวนมากนำมาที่นี่ดังนั้นฉันคิดว่านี่จะเป็นสถานที่ที่ดีที่สุดที่จะถาม
Whybird

ทำไมคุณไม่โพสต์ข้อมูลและฉันจะพยายามตอบคำถามของคุณตามตัวอย่าง
IrishStat

ความเป็นไปได้อย่างหนึ่งคือเพื่อให้พอดีกับทั้งครอบครัวของเส้นโค้งในคราวเดียวโดยใช้แบบจำลองเมตา ในการทำให้สิ่งต่าง ๆ มีความแม่นยำมากขึ้นสมมติว่าเป้าหมายสูงสุดของคุณคือทำให้ฮิสโตแกรมนั้นราบรื่นขึ้นโดยใช้ KDE จากนั้นการประมาณแบบราบรื่นของคุณจาก KDE จะแม่นยำยิ่งขึ้นหากคุณใช้แบบจำลองที่ความกว้างของเคอร์เนลได้รับอนุญาตให้เปลี่ยนแปลงช่วงค่าของเช่นเดียวกับในรูปแบบที่ใช้ที่นี่สมการ (2) - (3)x
user603

1
คุณสร้างตัวอย่างเพื่อให้ความคิดนั้นสมเหตุสมผล: จนถึงดีมาก ด้วยฮิสโทแกรมจริงมันเป็นเรื่องธรรมดามากที่รูปร่างที่ซับซ้อนสะท้อนให้เห็นถึงการผสมผสานของการกระจายที่ทับซ้อนกัน: ความสนใจนั้นไม่ได้อยู่ในการเปลี่ยนแปลงบนฮิสโตแกรมที่สังเกตซึ่งโดยทั่วไปไม่มีอยู่จริงหรือไม่ใช่วิธีที่ถูกต้อง อย่างไรก็ตามเป็นไปได้ว่าคุณกำลังใช้ "ฮิสโตแกรม" ในทางที่กว้างกว่ามาตรฐานวิทยาศาสตร์ทางสถิติซึ่งหมายถึงแผนภูมิแท่งความถี่หรือการแจกแจงความน่าจะเป็น (เฉพาะ)
Nick Cox

@IrishStat - ชุดข้อมูลปกติมีรายการ 5,000 ถึง 15,000 ฉันพยายามเตรียมของจริงที่สรุปไว้สำหรับที่นี่ แต่มันกลับกลายเป็นตัวอย่างที่ไม่ดีและฉันต้องเริ่มต้นใหม่ ในทางกลับกันการทำเช่นนั้นได้แนะนำคำตอบบางส่วนให้กับฉันในแง่ของการทำให้เรียบและเฉลี่ยกลุ่มข้อมูลสำหรับการมองหารูปแบบในตอนแรกเพื่อที่จะได้ finessed ในภายหลังดังนั้นขอบคุณสำหรับ :) ฉันมีตัวจริง ดูเหมือนว่าจะดี ฉันจะเพิ่มเข้าไปในคำถามเมื่อฉันสามารถ
Whybird

คำตอบ:


2

การตีความของฉันของคำถามคือ OP กำลังมองหาวิธีการที่จะพอดีกับรูปร่างของตัวอย่างที่มีให้ไม่ใช่ HAC ที่เหลือ นอกจากนี้ยังต้องมีการทำกิจวัตรอัตโนมัติที่ไม่ต้องการการแทรกแซงจากมนุษย์หรือนักวิเคราะห์ที่สำคัญ Box-Jenkins อาจไม่เหมาะสมแม้ว่าพวกเขาจะเน้นในหัวข้อนี้เนื่องจากพวกเขาต้องมีส่วนร่วมนักวิเคราะห์อย่างมาก

มีโมดูล R สำหรับการจับคู่รูปแบบที่ไม่ใช่แบบอิงช่วงเวลานี้ การจัดกลุ่มการจัดเรียงการเรียงสับเปลี่ยนเป็นเทคนิคการจับคู่รูปแบบที่พัฒนาโดยนักวิทยาศาสตร์ Max Planck Institute ที่ตรงตามเกณฑ์ที่คุณระบุไว้ แอปพลิเคชั่นคือข้อมูลอนุกรมเวลา แต่ไม่ จำกัด เฉพาะ นี่คือการอ้างอิงสำหรับโมดูล R ที่ได้รับการพัฒนา:

pdc: แพ็คเกจ R สำหรับการจัดกลุ่มตามเวลาที่ซับซ้อนโดย Andreas Brandmaier

นอกจาก PDC แล้วยังมีการเรียนรู้ของเครื่องจักรอีกด้วย iSax พัฒนาโดย Eamon Keogh ที่ UC Irvine ซึ่งเป็นสิ่งที่ควรค่าแก่การเปรียบเทียบ

ในที่สุดก็มีบทความนี้เกี่ยวกับData Smashing: Uncovering Lurking Order ใน Dataโดย Chattopadhyay และ Lipson นอกเหนือจากชื่อที่ฉลาดแล้วยังมีจุดประสงค์ในการทำงานอย่างจริงจัง นี่คือนามธรรม: "จากการรู้จำเสียงอัตโนมัติไปจนถึงการค้นพบดาวฤกษ์ที่ผิดปกติงานการค้นพบอัตโนมัติเกือบทั้งหมดคือความสามารถในการเปรียบเทียบและเปรียบเทียบกระแสข้อมูลกับแต่ละอื่น ๆ เพื่อระบุการเชื่อมต่อและค้นหาค่าผิดปกติ คอขวดที่สำคัญคืออัลกอริธึมการเปรียบเทียบข้อมูลส่วนใหญ่ในปัจจุบันพึ่งพาผู้เชี่ยวชาญของมนุษย์เพื่อระบุว่า 'คุณสมบัติ' ของข้อมูลใดที่เกี่ยวข้องกับการเปรียบเทียบที่นี่เราเสนอหลักการใหม่สำหรับการประเมินความคล้ายคลึงกันระหว่างแหล่งที่มาของกฎเกณฑ์ สตรีมข้อมูลโดยไม่ใช้ความรู้ในโดเมนและการเรียนรู้เราสาธิตการประยุกต์ใช้หลักการนี้ในการวิเคราะห์ข้อมูลจากปัญหาท้าทายในโลกแห่งความจริง รวมถึงความไม่ชัดเจนของรูปแบบอิเล็กโทรโฟกาเลเตอร์ที่เกี่ยวข้องกับอาการชักจากลมบ้าหมูการตรวจจับการเต้นของหัวใจผิดปกติจากการบันทึกเสียงหัวใจและการจำแนกวัตถุทางดาราศาสตร์จากแสงดิบ ในทุกกรณีเหล่านี้และไม่สามารถเข้าถึงความรู้เกี่ยวกับโดเมนใด ๆ เราแสดงให้เห็นถึงประสิทธิภาพที่เท่าเทียมกับความถูกต้องของอัลกอริทึมและการวิเคราะห์พฤติกรรมเฉพาะที่ผู้เชี่ยวชาญด้านโดเมน เราแนะนำว่าหลักการยอดเยี่ยมของข้อมูลอาจเปิดประตูไปสู่ความเข้าใจการสังเกตที่ซับซ้อนมากขึ้นโดยเฉพาะอย่างยิ่งเมื่อผู้เชี่ยวชาญไม่ทราบว่าจะมองหาอะไร " ในกรณีเหล่านี้ทั้งหมดและไม่สามารถเข้าถึงความรู้เกี่ยวกับโดเมนใด ๆ เราแสดงให้เห็นถึงประสิทธิภาพที่เท่าเทียมกับความถูกต้องที่เกิดจากอัลกอริทึมเฉพาะและการวิเคราะห์พฤติกรรมที่คิดค้นโดยผู้เชี่ยวชาญด้านโดเมน เราแนะนำว่าหลักการยอดเยี่ยมของข้อมูลอาจเปิดประตูไปสู่ความเข้าใจการสังเกตที่ซับซ้อนมากขึ้นโดยเฉพาะอย่างยิ่งเมื่อผู้เชี่ยวชาญไม่ทราบว่าจะมองหาอะไร " ในกรณีเหล่านี้ทั้งหมดและไม่สามารถเข้าถึงความรู้เกี่ยวกับโดเมนใด ๆ เราแสดงให้เห็นถึงประสิทธิภาพที่เท่าเทียมกับความถูกต้องที่เกิดจากอัลกอริทึมเฉพาะและการวิเคราะห์พฤติกรรมที่คิดค้นโดยผู้เชี่ยวชาญด้านโดเมน เราแนะนำว่าหลักการยอดเยี่ยมของข้อมูลอาจเปิดประตูไปสู่ความเข้าใจการสังเกตที่ซับซ้อนมากขึ้นโดยเฉพาะอย่างยิ่งเมื่อผู้เชี่ยวชาญไม่ทราบว่าจะมองหาอะไร "

วิธีนี้ไปไกลกว่าเส้นโค้งแบบพอดี มันคุ้มค่าที่จะเช็คเอาท์


ขอบคุณ - คุณถูกต้องว่าสิ่งที่ฉันต้องการคือการหากลุ่มโดยอัตโนมัติโดยไม่มีการแทรกแซงของนักวิเคราะห์ สำหรับสิ่งที่ฉันต้องการจะทำงานฉันจะต้องแบ่งดาต้าเซ็ตของดาต้าเซ็ต 5,000-15,000 ออกเป็นกระจุกซึ่งแต่ละตัวนั้นสอดคล้องกับสูตรง่าย ๆ (รวมถึงทวนซ้ำ) โดยไม่มีการแทรกแซงของมนุษย์ในกลุ่มประมาณ 50,000 ชุดดังกล่าวในกรอบเวลาที่ยอมรับได้ โดยมนุษย์เกี่ยวกับฮาร์ดแวร์คอมพิวเตอร์ในประเทศ
Whybird

สำหรับเส้นโค้งที่เหมาะกับแต่ละกลุ่มเมื่อฉันตรวจพบขอบเขตด้วยวิธีการใด ๆ มันก็ง่ายพอที่ฉันคิดว่าจะลองแบบจำลองที่แตกต่างกัน (คลื่นไซน์, พหุนาม, เอกซ์โปเนนเชียล) และดูว่าจะให้ r สามัญ 2 แบบไหนดีกว่า
Whybird

2
ตกลงฉันคิดว่าการสื่อสารผิดพลาดเกิดขึ้นจากสิ่งนี้: Sax และ iSax เป็นรูปแบบการนำเสนอสำหรับการจัดเก็บและประมวลผลอนุกรมเวลา แต่ไม่ใช่การจัดกลุ่มหรืออัลกอริทึมการตรวจจับ / ส่วน / รูปแบบ (ต่อโพสต์ของ OP) ความเข้าใจของฉันจากคำตอบของคุณคือ Keogh เกิดอัลกอริธึมที่อิงตามรูปแบบการแสดง SAX และเกิดขึ้นเพื่อแก้ไขปัญหาของ OP แต่ฉันคิดว่านี่ไม่ใช่สิ่งที่คุณหมายถึง?
Zhubarb

2
ตกลงไม่จำเป็นต้องไปถึง Keogh ฉันรู้เกี่ยวกับiSaxและSaxพวกเขาเป็นรูปแบบที่เป็นตัวแทนสำหรับการขุดที่มีประสิทธิภาพของอนุกรมเวลา ลิงก์อธิบาย iSax เป็นรุ่นที่ใหม่กว่า ฉันรู้สึกตื่นเต้นกับความเข้าใจผิดที่มีต่อคำตอบของคุณดังนั้นคำถาม (ไม่พยายามอวดรู้) :)
Zhubarb

2
ฉันไม่ได้พยายามปกปิดอะไรเลยฉันตีความ 'isax กิจวัตร' เป็นอัลกอริทึมที่ทำงานบน isax ฉันขอแนะนำคำตอบของคุณต้องการ re-wording / modified หลังจากคำชี้แจง
Zhubarb

2

การตรวจจับจุดเปลี่ยนแปลงในอนุกรมเวลานั้นต้องการการสร้างโมเดล ARIMA ระดับโลกที่มีข้อบกพร่อง (ข้อบกพร่องอย่างแน่นอนจากการเปลี่ยนแปลงแบบจำลองและการเปลี่ยนแปลงพารามิเตอร์เมื่อเวลาผ่านไปในกรณีของคุณ) จากนั้นระบุจุดเปลี่ยนที่สำคัญที่สุดในพารามิเตอร์ของรุ่นนั้น การใช้ค่า 509 ของคุณจุดเปลี่ยนแปลงที่สำคัญที่สุดคือประมาณ 353 ช่วงเวลาฉันใช้อัลกอริธึมกรรมสิทธิ์ที่มีใน AUTOBOX (ซึ่งฉันได้ช่วยพัฒนา) ซึ่งอาจได้รับใบอนุญาตสำหรับแอปพลิเคชันที่คุณกำหนดเอง แนวคิดพื้นฐานคือการแยกข้อมูลออกเป็นสองส่วนและเมื่อค้นหาจุดเปลี่ยนที่สำคัญที่สุดจะทำการวิเคราะห์แต่ละช่วงเวลาอีกครั้งแยกกัน (1-352; 353-509) เพื่อกำหนดจุดเปลี่ยนแปลงเพิ่มเติมในแต่ละชุด ซ้ำจนกว่าคุณจะมี k ส่วนย่อย ฉันได้แนบขั้นตอนแรกโดยใช้วิธีนี้ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


ทำไม 353 ถูกตั้งค่าสถานะเมื่อ 153 และ 173 มีค่า P ต่ำกว่า
Nick Cox

@NickCox เป็นคำถามที่ดี! ความคิดเห็นที่ดีสำหรับวัตถุประสงค์ในการพยากรณ์ความคิดทั้งหมดคือการแยกชุดย่อย (สำคัญ) ล่าสุดจากชุดย่อยเก่าซึ่งเป็นเหตุผลว่าทำไม 353 ชนะ .... สำหรับจุดประสงค์ที่นี่ใครจะเลือก 173
IrishStat

ชื่อ "จุดแบ่งที่สำคัญที่สุดล่าสุดพยายามบอกเรื่องราว
IrishStat

ขอขอบคุณ! นี่เป็นเรื่องที่น่าสนใจและชื่นชมมาก ฉันอาจจะติดต่อคุณเพื่อขอรายละเอียดเพิ่มเติม
Whybird

ขอบคุณสำหรับคำอธิบาย: ความคิดที่ชัดเจนในหมายเหตุสุดท้าย (บังเอิญฉันไม่ได้เห็นกรณีบนมากขึ้นในการแสดงผลของโปรแกรมตั้งแต่ประมาณต้นปี 1990 ฉันขอแนะนำให้เปลี่ยน "ระดับความมั่นใจ 95%" เป็น "ระดับนัยสำคัญ 5%" โดยสมมติว่าเป็นสิ่งที่มีความหมาย)
Nick Cox

2

ฉันคิดว่าชื่อของเธรดนั้นทำให้เข้าใจผิด: คุณไม่ได้ต้องการเปรียบเทียบฟังก์ชันความหนาแน่น แต่จริงๆแล้วคุณกำลังมองหาการแบ่งโครงสร้างในอนุกรมเวลา อย่างไรก็ตามคุณไม่ได้ระบุว่าควรจะพบตัวแบ่งโครงสร้างเหล่านี้ในหน้าต่างเวลาที่ใช้ในการหมุนหรือในการเข้าใจย้อนหลังโดยดูที่ประวัติทั้งหมดของอนุกรมเวลา ในแง่นี้คำถามของคุณเป็นจริงซ้ำกับสิ่งนี้: วิธีใดที่จะตรวจจับการแบ่งโครงสร้างในอนุกรมเวลา

ตามที่ระบุไว้โดย Rob Hyndman ในลิงค์นี้ R เสนอแพคเกจ Strucchange สำหรับวัตถุประสงค์นี้ ฉันเล่นกับข้อมูลของคุณ แต่ฉันต้องบอกว่าผลลัพธ์ผิดหวัง [คือจุดข้อมูลแรก 4 จริง ๆ หรือควรจะ 54?]:

raw = c(54,53,53,53,53,58,56,52,49,52,56,51,44,39,39,39,37,33,27,21,18,12,19,30,45,66,92,118,135,148,153,160,168,174,181,187,191,190,191,192,194,194,194,193,193,201,200,199,199,199,197,193,190,187,176,162,157,154,144,126,110,87,74,57,46,44,51,60,65,66,90,106,99,87,84,85,83,91,95,99,101,102,102,103,105,110,107,108,135,171,171,141,120,78,42,44,52,54,103,128,82,103,46,27,73,123,125,77,24,30,27,36,42,49,32,55,20,16,21,31,78,140,116,99,58,139,70,22,44,7,48,32,18,16,25,16,17,35,29,11,13,8,8,18,14,0,10,18,2,1,4,0,61,87,91,2,0,2,9,40,21,2,14,5,9,49,116,100,114,115,62,41,119,191,190,164,156,109,37,15,0,5,1,0,0,2,4,2,0,48,129,168,112,98,95,119,125,191,241,209,229,230,231,246,249,240,99,32,0,0,2,13,28,39,15,15,19,31,47,61,92,91,99,108,114,118,121,125,129,129,125,125,131,135,138,142,147,141,149,153,152,153,159,161,158,158,162,167,171,173,174,176,178,184,190,190,185,190,200,199,189,196,197,197,196,199,200,195,187,191,192,190,186,184,184,179,173,171,170,164,156,155,156,151,141,141,139,143,143,140,146,145,130,126,127,127,125,122,122,127,131,134,140,150,160,166,175,192,208,243,251,255,255,255,249,221,190,181,181,181,181,179,173,165,159,153,162,169,165,154,144,142,145,136,134,131,130,128,124,119,115,103,78,54,40,25,8,2,7,12,25,13,22,15,33,34,57,71,48,16,1,2,0,2,21,112,174,191,190,152,153,161,159,153,71,16,28,3,4,0,14,26,30,26,15,12,19,21,18,53,89,125,139,140,142,141,135,136,140,159,170,173,176,184,180,170,167,168,170,167,161,163,170,164,161,160,163,163,160,160,163,169,166,161,156,155,156,158,160,150,149,149,151,154,156,156,156,151,149,150,153,154,151,146,144,149,150,151,152,151,150,148,147,144,141,137,133,130,128,128,128,136,143,159,180,196,205,212,218,222,225,227,227,225,223,222,222,221,220,220,220,220,221,222,223,221,223,225,226,227,228,232,235,234,236,238,240,241,240,239,237,238,240,240,237,236,239,238,235)
raw = log(raw+1)
d = as.ts(raw,frequency = 12)
dd = ts.intersect(d = d, d1 = lag(d, -1),d2 = lag(d, -2),d3 = lag(d, -3),d4 = lag(d, -4),d5 = lag(d, -5),d6 = lag(d, -6),d7 = lag(d, -7),d8 = lag(d, -8),d9 = lag(d, -9),d10 = lag(d, -10),d11 = lag(d, -11),d12 = lag(d, -12))

(breakpoints(d ~d1 + d2+ d3+ d4+ d5+ d6+ d7+ d8+ d9+ d10+ d11+ d12, data = dd))
>Breakpoints at observation number:
>151 
>Corresponding to breakdates:
>163 

(breakpoints(d ~d1 + d2, data = dd))
>Breakpoints at observation number:
>95 178 
>Corresponding to breakdates:
>107 190 

ฉันไม่ใช่ผู้ใช้ทั่วไปของแพ็คเกจ อย่างที่คุณเห็นมันขึ้นอยู่กับรุ่นที่คุณพอดีกับข้อมูล คุณสามารถทดลองกับ

library(forecast)
auto.arima(raw)

ซึ่งจะช่วยให้คุณได้รูปแบบ ARIMA ที่เหมาะสมที่สุด


ขอขอบคุณ! ฉันได้แก้ไขคำว่า 'ฮิสโตแกรม' จากชื่อเรื่องแล้ว ตอนแรกฉันใช้มันไม่ถูกต้องและลืมที่จะแก้ไขชื่อเมื่อฉันลบมันออกจากร่างกายในการแก้ไขก่อนหน้านี้เพื่อตอบสนองต่อความคิดเห็น
Whybird

ข้อมูลของฉันเป็นชุดของข้อมูลที่เกี่ยวข้องเชิงพื้นที่ไม่ใช่ตามเวลาและมักจะไม่มีอยู่ในแนวเส้นตรงหรือแม้กระทั่งในระนาบบ่อยครั้งเพียงพอ - แต่คุณถูกต้องที่ระดับพื้นฐานบางอย่างสามารถพิจารณาได้ในระดับเดียวกัน วิธี; ฉันเดาว่าอาจเป็นส่วนหนึ่งของสาเหตุที่การค้นหาก่อนหน้าของฉันไม่พบคำตอบที่ฉันคาดหวัง
Whybird

จุดข้อมูลแรกในตัวอย่างนั้นคือ 4 จริง ๆ แต่มันอาจเป็นไปได้ว่าเราเกิดขึ้นกับจุดสิ้นสุดของโครงสร้างก่อนหน้าหรืออาจเป็นเสียง ฉันมีความสุขที่จะปล่อยมันออกมาเป็นสิ่งสำคัญ แต่ระบบใดก็ตามที่ฉันเข้ามาจะต้องรับมือกับสิ่งต่าง ๆ เช่นนั้น
Whybird

โอ้และการวิเคราะห์อยู่ในปัญหาย้อนหลัง ฉันจะแก้ไขคำถามเพื่อชี้แจง
Whybird
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.