สถิติและข้อมูลขนาดใหญ่ outliers

3

เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ

ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร

12 machine-learning svm outliers cart boosting

4

แบบฟอร์มที่ดีสำหรับการลบค่าผิดปกติ?

ฉันกำลังทำงานเกี่ยวกับสถิติสำหรับการสร้างซอฟต์แวร์ ฉันมีข้อมูลสำหรับแต่ละบิลด์เมื่อผ่าน / ไม่ผ่านและเวลาที่ผ่านไปและเราสร้าง ~ 200 ต่อสัปดาห์ อัตราความสำเร็จนั้นง่ายต่อการรวบรวมฉันสามารถพูดได้ว่า 45% ผ่านไปสัปดาห์ใดก็ตาม แต่ฉันต้องการรวมเวลาที่ผ่านไปด้วยและฉันต้องการตรวจสอบให้แน่ใจว่าฉันไม่ได้บิดเบือนข้อมูลที่ไม่ดีเกินไป คิดว่าฉันควรถามข้อดี :-) บอกว่าฉันมี 10 ช่วงเวลา พวกเขาเป็นตัวแทนของทั้งสองกรณีผ่านและล้มเหลว บางงานสร้างล้มเหลวทันทีซึ่งทำให้ระยะเวลาสั้นผิดปกติ บางคนหยุดระหว่างการทดสอบและหมดเวลาในที่สุดทำให้เกิดระยะเวลาที่ยาวนานมาก เราสร้างผลิตภัณฑ์ที่แตกต่างกันดังนั้นการสร้างที่ประสบความสำเร็จก็แตกต่างกันไประหว่าง 90 วินาทีและ 4 ชั่วโมง ฉันอาจได้ชุดแบบนี้: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] วิธีแรกของฉันคือการหาค่ามัธยฐานโดยเรียงลำดับชุดและเลือกค่ากลางในกรณีนี้ 7812 (ฉันไม่ได้ใส่ใจกับค่าเฉลี่ยเลขคณิตสำหรับชุดเลขคู่) น่าเสียดายนี่ดูเหมือนจะสร้างความเปลี่ยนแปลงได้มากมายเนื่องจากฉันเลือกเพียงมูลค่าที่กำหนด ดังนั้นถ้าฉันจะแนวโน้มค่านี้มันจะกระเด้งประมาณระหว่าง 5,000-10,000 วินาทีขึ้นอยู่กับว่ารุ่นใดอยู่ที่ค่ามัธยฐาน เพื่อทำให้เรื่องนี้ราบรื่นขึ้นฉันลองวิธีอื่น - ลบค่าผิดปกติแล้วคำนวณค่าเฉลี่ยของค่าที่เหลือ ฉันตัดสินใจที่จะแยกมันออกเป็น tertiles และทำงานเฉพาะตรงกลาง: [50, 60, …

12 outliers robust average

3

STL ตรงเวลาที่มีค่าขาดหายไปสำหรับการตรวจจับความผิดปกติ

ฉันพยายามตรวจจับค่าที่ผิดปกติในอนุกรมเวลาของข้อมูลภูมิอากาศพร้อมกับการสังเกตที่หายไป ค้นหาเว็บฉันพบวิธีการมากมาย ในบรรดาเหล่านั้น stl การสลายตัวดูเหมือนน่าสนใจในแง่ของการลบแนวโน้มและองค์ประกอบตามฤดูกาล อ่านSTL: ฤดูกาล-Trend สลายตัวขั้นตอนบนพื้นฐานของดินเหลือง , stlดูเหมือนจะมีความยืดหยุ่นในการกำหนดค่าการตั้งค่าสำหรับการกำหนดแปรปรวนรับผลกระทบจากค่าผิดปกติและเป็นไปได้ที่จะใช้แม้จะมีค่าหายไป แต่พยายามที่จะใช้มันในRกับสี่ปีของการสังเกตและการกำหนดค่าพารามิเตอร์ทั้งหมดตามhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html , พบฉัน ข้อผิดพลาด: "time series contains internal NAs"(เมื่อna.action=na.omit) และ "series is not periodic or has less than two periods"(เมื่อna.action=na.exclude) ฉันตรวจสอบซ้ำแล้วซ้ำอีกว่าความถี่นั้นถูกต้องแล้ว ฉันเห็นคำถามที่เกี่ยวข้องในบล็อก แต่ไม่พบข้อเสนอแนะใด ๆ ที่สามารถแก้ปัญหานี้ได้ เป็นไปไม่ได้ที่จะใช้stlกับซีรี่ส์ที่มีค่าขาดหายไปหรือไม่? ฉันลังเลที่จะสอดแทรกพวกเขาเนื่องจากฉันไม่ต้องการที่จะแนะนำสิ่งประดิษฐ์ (และการตรวจจับ ... ) ด้วยเหตุผลเดียวกันฉันไม่ทราบว่าจะแนะนำให้ใช้วิธี ARIMA แทนอย่างไร (และหากค่าที่หายไปยังคงเป็นปัญหา) กรุณาแบ่งปันหากคุณรู้วิธีที่จะใช้stlในซีรีส์ที่มีค่าที่หายไปหรือถ้าคุณเชื่อว่าตัวเลือกของฉันไม่เป็นระเบียบแบบแผนหรือหากคุณมีข้อเสนอแนะที่ดีกว่านี้ ฉันค่อนข้างใหม่ในสนามและถูกครอบงำด้วยกองข้อมูลที่เกี่ยวข้อง (ดูเหมือน ... )

12 r time-series outliers missing-data

1

ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom

หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

การตรวจจับค่าผิดปกติในชุดเล็กมาก

ฉันต้องได้ค่าที่ถูกต้องที่สุดเท่าที่จะเป็นไปได้สำหรับความสว่างของแหล่งกำเนิดแสงที่เสถียรเป็นหลักซึ่งให้ค่าความส่องสว่างตัวอย่างสิบสองค่า เซ็นเซอร์ไม่สมบูรณ์และแสงบางครั้งอาจ "กะพริบ" สว่างขึ้นหรือมืดลงซึ่งสามารถเพิกเฉยได้ดังนั้นฉันจึงจำเป็นต้องมีการตรวจจับในระยะไกล (ฉันคิดว่า?) ฉันได้อ่านวิธีการต่าง ๆ ที่นี่และไม่สามารถตัดสินใจได้ว่าจะใช้วิธีใด จำนวนของค่าผิดปกติไม่เคยทราบล่วงหน้าและมักจะเป็นศูนย์ โดยทั่วไปการสั่นไหวนั้นเป็นค่าเบี่ยงเบนขนาดใหญ่มากจากความสว่างที่คงที่ (เพียงพอที่จะยุ่งกับค่าเฉลี่ยที่ถ่ายด้วยของที่มีขนาดใหญ่) แต่ไม่จำเป็นต้องเป็นเช่นนั้น ต่อไปนี้เป็นตัวอย่างชุดการวัด 12 รายการสำหรับความสมบูรณ์ของคำถาม: 295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837 ความรู้สึกของฉันไม่น่าจะมีค่าผิดปกติในชุดนั้นแม้ว่า 292 และ 295 ดูสูงเล็กน้อย ดังนั้นคำถามของฉันคืออะไรวิธีที่ดีที่สุดที่นี่? ฉันควรพูดถึงว่าค่ามาจากการใช้ระยะทางแบบยุคลิดของส่วนประกอบ RG และ B ของแสงจากจุดศูนย์ (สีดำ) มันจะเจ็บปวดโดยทางโปรแกรม แต่เป็นไปได้ที่จะกลับไปใช้ค่าเหล่านี้หากจำเป็น ระยะทางแบบยุคลิดนั้นใช้เป็นตัวชี้วัดของ "ความแข็งแรงโดยรวม" เนื่องจากฉันไม่ได้สนใจสีแค่ความแรงของเอาท์พุท อย่างไรก็ตามมีโอกาสที่เหมาะสมที่กะพริบที่ฉันกล่าวถึงมีองค์ประกอบ RGB ที่แตกต่างกันไปยังเอาต์พุตปกติ ในขณะนี้ฉันกำลังเล่นกับฟังก์ชั่นบางอย่างที่จะทำซ้ำจนกว่าจะถึงการเป็นสมาชิกที่มั่นคงของมาตรการที่ได้รับอนุญาต: การหาค่าเบี่ยงเบนมาตรฐาน วางทุกอย่างไว้นอกพูด …

12 classification outliers algorithms

4

การตรวจจับที่ผิดพลาดในอนุกรมเวลา: วิธีลดผลบวกปลอม?

ฉันพยายามที่จะทำงานโดยอัตโนมัติขอบเขตการตรวจสอบในอนุกรมเวลาและฉันใช้การปรับเปลี่ยนของการแก้ปัญหาที่เสนอโดยร็อบ Hyndman ที่นี่ บอกว่าฉันวัดการเข้าชมเว็บไซต์ทุกวันจากหลายประเทศ สำหรับบางประเทศที่การเข้าชมรายวันเป็นสองสามหมื่นหรือหลายพันวิธีการของฉันดูเหมือนจะทำงานได้อย่างสมเหตุสมผล อย่างไรก็ตามในกรณีที่ประเทศหนึ่งนำไปสู่การเยี่ยมชมเพียง 1 หรือ 2 ครั้งต่อวันข้อ จำกัด ของอัลกอริทึมนั้นแคบมาก (เช่น 1 ± 0.001) ดังนั้นการเข้าชม 2 ครั้งจึงถือว่าเป็นค่าที่ผิดปกติ ฉันจะตรวจจับกรณีดังกล่าวโดยอัตโนมัติได้อย่างไรและฉันจะปฏิบัติต่อพวกเขาเพื่อระบุค่าผิดปกติได้อย่างไร ฉันไม่ต้องการตั้งเกณฑ์แบบกำหนดเองเป็น 100 ครั้งต่อวัน ขอบคุณ!

11 time-series outliers computational-statistics

1

การประเมินความแข็งแรงของความแข็งแรง?

ฉันกำลังใช้ตัวประมาณปกติสำหรับ kurtosisแต่ฉันสังเกตเห็นว่าแม้แต่ 'ค่าผิดปกติ' ในการแจกแจงเชิงประจักษ์ของฉัน เช่นยอดเขาเล็ก ๆ ห่างจากศูนย์กลางส่งผลกระทบอย่างมาก มีตัวประมาณค่าความโด่งซึ่งมีความทนทานกว่านี้หรือไม่?K^= μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

11 outliers robust moments kurtosis

2

โมเดลเชิงเส้นผสมแบบทั่วไป: การวินิจฉัย

ฉันมีการถดถอยแบบลอจิสติกเพื่อสกัดกั้นแบบสุ่ม (เนื่องจากการวัดซ้ำ) และฉันต้องการที่จะทำการวินิจฉัยบางอย่างโดยเฉพาะเกี่ยวกับค่าผิดปกติและการสังเกตที่มีอิทธิพล ฉันดูที่เหลือเพื่อดูว่ามีข้อสังเกตที่โดดเด่นหรือไม่ แต่ฉันก็อยากจะดูบางอย่างเช่นระยะทางของ Cook หรือ DFFITS Hosmer และ Lemeshow (2000) กล่าวว่าเนื่องจากการขาดเครื่องมือวินิจฉัยแบบจำลองสำหรับข้อมูลที่มีความสัมพันธ์หนึ่งควรจะพอดีกับแบบจำลองการถดถอยโลจิสติกปกติละเว้นความสัมพันธ์และใช้เครื่องมือวินิจฉัยที่มีอยู่สำหรับการถดถอยโลจิสติกปกติ พวกเขายืนยันว่าสิ่งนี้จะดีกว่าไม่ได้ทำการวินิจฉัยใด ๆ เลย หนังสือเล่มนี้มาจากปี 2000 และฉันสงสัยว่าตอนนี้มีวิธีการสำหรับการวินิจฉัยแบบจำลองที่มีผลกระทบการถดถอยโลจิสติกแบบผสมหรือไม่? สิ่งที่จะเป็นวิธีที่ดีในการตรวจสอบค่าผิดปกติ? แก้ไข (5 พฤศจิกายน 2013): เนื่องจากการขาดการตอบสนองฉันสงสัยว่าการทำการวินิจฉัยด้วยโมเดลที่หลากหลายนั้นไม่ได้ทำโดยทั่วไปหรือไม่ใช่ขั้นตอนที่สำคัญเมื่อทำการสร้างแบบจำลองข้อมูล ดังนั้นฉันขอใช้ถ้อยคำใหม่คำถามของฉัน: คุณจะทำอย่างไรเมื่อคุณพบรูปแบบการถดถอยที่ "ดี"?

11 mixed-model outliers glmm cooks-distance

2

IQR มีความแม่นยำเพียงใดในการตรวจจับค่าผิดปกติ

ฉันกำลังเขียนสคริปต์ที่วิเคราะห์เวลาทำงานของกระบวนการ ฉันไม่แน่ใจเกี่ยวกับการแจกจ่ายของพวกเขา แต่ฉันต้องการทราบว่ากระบวนการทำงาน "ยาวเกินไป" หรือไม่ จนถึงตอนนี้ฉันใช้ค่าเบี่ยงเบนมาตรฐาน 3 ครั้งในการรันครั้งล่าสุด (n> 30) แต่ฉันก็บอกว่ามันไม่ได้ให้ประโยชน์อะไรเลยหากข้อมูลไม่ปกติ ฉันพบการทดสอบนอกกรอบอื่นที่ระบุว่า: ค้นหาช่วงควอไทล์ระหว่างซึ่งเป็น IQR = ไตรมาส 3 - Q1 โดยที่ไตรมาสที่สามคือควอไทล์ที่สามและไตรมาสที่ 1 เป็นควอไทล์แรก จากนั้นหาตัวเลขสองตัวนี้: a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR จุดเป็นค่าผิดปกติถ้า <a หรือ> b ข้อมูลของฉันมีแนวโน้มที่จะเป็นเช่น 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... ที่ 300sec นั้นเป็นค่าที่เกิน …

11 outliers reliability average

1

การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ

วิธีที่ดีที่สุดในการเลือกคุณสมบัติโดยอัตโนมัติสำหรับการตรวจจับความผิดปกติคืออะไร? ผมปกติการรักษาความผิดปกติของการตรวจสอบเป็นขั้นตอนวิธีการที่คุณสมบัติที่ได้รับการคัดเลือกโดยผู้เชี่ยวชาญของมนุษย์: สิ่งที่สำคัญคือการส่งออกช่วง (ในขณะที่ "การป้อนข้อมูลที่ผิดปกติ - ส่งออกผิดปกติ") ดังนั้นแม้จะมีคุณสมบัติหลายอย่างที่คุณสามารถมากับชุดย่อยขนาดเล็กมากโดยการรวม คุณสมบัติ. อย่างไรก็ตามสมมติว่าในกรณีทั่วไปรายการคุณลักษณะอาจมีขนาดใหญ่บางทีการเรียนรู้แบบอัตโนมัติบางครั้งก็เป็นที่นิยมกว่า เท่าที่ฉันเห็นมีความพยายามบางอย่าง: "การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ" ( pdf ) ซึ่งสรุปคำอธิบายข้อมูลเวกเตอร์สนับสนุน "ระบบตรวจจับการบุกรุกบนโฮสต์ที่รวดเร็วโดยใช้ทฤษฎีการตั้งค่าแบบคร่าวๆ" (ไม่มีไฟล์ PDF ให้ใช้?) ซึ่งฉันเดาว่าใช้ทฤษฎีการตั้งค่าแบบหยาบ "กฎการเรียนรู้สำหรับการตรวจจับความผิดปกติของการรับส่งข้อมูลเครือข่ายที่ไม่เป็นมิตร" ( pdf , วิดีโอ ) ซึ่งใช้วิธีการทางสถิติ ดังนั้นตอนนี้ฉันสงสัยว่าใครสามารถบอกได้ - สมมติว่ามีการตรวจจับความผิดปกติและชุดคุณลักษณะที่มีขนาดใหญ่มาก (หลายร้อย?): ฟีเจอร์ที่ยิ่งใหญ่เหล่านี้เหมาะสมหรือไม่? เราไม่ควรลดคุณสมบัติที่ตั้งไว้พูดสองสามสิบแล้วใช่มั้ย หากชุดคุณลักษณะขนาดใหญ่เข้ากันได้อย่างใดอย่างหนึ่งในวิธีการด้านบนจะให้การคาดการณ์ที่ดีขึ้นและทำไม? มีอะไรที่ไม่ได้ระบุไว้ซึ่งดีกว่ามาก? ทำไมพวกเขาควรให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับพูดลดขนาดหรือสร้างโครงสร้างผ่านการจัดกลุ่ม / อันดับ / ฯลฯ

11 feature-selection outliers

3

ค้นหาจุด GPS เฉลี่ย

ฉันต้องเขียนโปรแกรมเพื่อค้นหาจุด GPS เฉลี่ยจากประชากรของจุด ในทางปฏิบัติสิ่งต่อไปนี้เกิดขึ้น: ในแต่ละเดือนบุคคลจะบันทึกจุด GPS ของสินทรัพย์คงที่เดียวกัน เนื่องจากลักษณะของ GPS คะแนนเหล่านี้แตกต่างกันเล็กน้อยในแต่ละเดือน บางครั้งคนทำผิดบันทึกการทดสอบผิดในตำแหน่งที่แตกต่างอย่างสิ้นเชิง จุด GPS แต่ละจุดมีน้ำหนักที่แน่นอน ( HDOP ) ซึ่งระบุว่าข้อมูล GPS ปัจจุบันนั้นแม่นยำแค่ไหน จุด GPS ที่มีค่า HDOP ที่ดีกว่าเป็นที่ต้องการมากกว่าจุดต่ำ ฉันจะตรวจสอบสิ่งต่อไปนี้ได้อย่างไร: จัดการกับข้อมูลที่มี 2 ค่าเทียบกับค่าเดียวเช่นอายุ (ค้นหาอายุเฉลี่ยในประชากรของผู้คน) กำหนดค่าผิดปกติ ในตัวอย่างด้านล่างนี้จะเป็น [-28.252, 25.018] และ [-28.632, 25.219] หลังจากไม่รวมค่าผิดปกติให้หาจุด GPS เฉลี่ยในจุดนี้อาจเป็น [-28.389, 25.245] มันจะเป็นโบนัสถ้าสามารถทำงาน "น้ำหนัก" ที่จัดทำโดยค่า HDOP สำหรับแต่ละจุด

11 outliers spatial

2

การตรวจสอบก่อนหน้านี้โดยใช้การถดถอย

สามารถใช้การถดถอยสำหรับการตรวจสอบ lier ออก ฉันเข้าใจว่ามีวิธีในการปรับปรุงรูปแบบการถดถอยโดยการลบค่าผิดปกติ แต่เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย

11 regression outliers

6

การระบุค่าผิดปกติสำหรับการถดถอยเชิงเส้น

ฉันกำลังวิจัยเกี่ยวกับการตอบสนองการทำงานของไร ฉันต้องการทำการถดถอยเพื่อประเมินพารามิเตอร์ (อัตราการโจมตีและเวลาจัดการ) ของฟังก์ชัน Rogers type II ฉันมีชุดข้อมูลของการวัด ฉันจะกำหนดค่าผิดปกติได้ดีที่สุดอย่างไร สำหรับการถดถอยของฉันฉันใช้สคริปต์ต่อไปนี้ใน R (การถดถอยเชิงเส้นที่ไม่ใช่): (dateet เป็นไฟล์ข้อความ 2 คอลัมน์แบบง่าย ๆ ที่เรียกว่าdata.txtไฟล์ที่มีN0ค่า (จำนวนเหยื่อเริ่มต้น) และFRค่า (จำนวนเหยื่อกินในช่วง 24 ชั่วโมง): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N …

11 r outliers nonlinear-regression

3

หนังสือที่ดีครอบคลุมกระบวนการเตรียมข้อมูลและเทคนิคการตรวจหาค่าผิดปกติ

ใคร ๆ ก็รู้ว่าหนังสือทันสมัยที่ครอบคลุมข้อมูลก่อนการประมวลผลโดยทั่วไปและโดยเฉพาะอย่างยิ่งเทคนิคการตรวจหาค่าผิดปกติหรือไม่ หนังสือเล่มนี้ไม่จำเป็นต้องให้ความสำคัญกับเรื่องนั้นเป็นพิเศษ แต่ควรจัดการกับหัวข้อดังกล่าวอย่างละเอียดถี่ถ้วน - ฉันจะไม่พอใจกับสิ่งที่เป็นจุดเริ่มต้นและเสนอราคารายการเอกสารคำอธิบายเกี่ยวกับเทคนิคต่าง ๆ จะต้องปรากฏใน หนังสือตัวเอง เทคนิคในการจัดการกับข้อมูลที่หายไปที่ต้องการ แต่ไม่จำเป็น ...

11 dataset data-mining references outliers

5

วิธีแก้ไขค่าผิดปกติที่ตรวจพบเมื่อทำการพยากรณ์ข้อมูลอนุกรมเวลา?

ฉันพยายามหาวิธีแก้ไขค่าผิดปกติเมื่อฉันค้นหา / ตรวจจับพวกมันในข้อมูลอนุกรมเวลา วิธีการบางอย่างเช่น nnetar ใน R ให้ข้อผิดพลาดบางประการสำหรับอนุกรมเวลาที่มีค่าผิดปกติจำนวนมาก / มาก ฉันจัดการเพื่อแก้ไขค่าที่หายไปแล้ว แต่ผู้นอกองค์กรยังคงสร้างความเสียหายต่อการคาดการณ์ของฉัน ...

10 time-series forecasting outliers winsorizing

คำถามติดแท็ก outliers