คำถามติดแท็ก outliers

ค่าผิดปกติคือการสังเกตที่ดูเหมือนจะผิดปกติหรืออธิบายไม่ได้ดีเมื่อเทียบกับการอธิบายลักษณะของชุดข้อมูลอย่างง่าย ความเป็นไปได้ที่ไม่น่าไว้วางใจคือข้อมูลเหล่านี้มาจากประชากรที่แตกต่างจากที่ตั้งใจจะศึกษา

2
การตรวจจับความผิดปกติ: อัลกอริธึมที่ใช้?
บริบท: ฉันกำลังพัฒนาระบบที่วิเคราะห์ข้อมูลทางคลินิกเพื่อกรองข้อมูลที่ไม่น่าเชื่อที่อาจเป็นตัวพิมพ์ผิด สิ่งที่ฉันทำจนถึง: ในการหาปริมาณที่เป็นไปได้ความพยายามของฉันคือการทำให้ข้อมูลเป็นปกติแล้วคำนวณค่าความน่าเชื่อถือสำหรับจุด p ตามระยะทางไปยังจุดข้อมูลที่ทราบในชุด D (= ชุดฝึกอบรม): plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) ด้วยการหาปริมาณนั้นฉันสามารถเลือกเกณฑ์ที่แยกข้อมูลที่เป็นไปได้จากข้อมูลที่ไม่น่าเชื่อ ฉันใช้ python / numpy ปัญหาของฉัน: อัลกอริทึมนี้ไม่สามารถตรวจพบมิติอิสระ เป็นการดีที่ฉันสามารถใส่ทุกสิ่งที่ฉันรู้เกี่ยวกับบันทึกลงในอัลกอริทึมและปล่อยให้มันค้นพบด้วยตัวเองว่ามิติ X ไม่มีผลต่อความน่าเชื่อถือของบันทึก อัลกอริทึมไม่ทำงานสำหรับค่าที่ไม่ต่อเนื่องเช่นบูลีนหรืออินพุตที่เลือก พวกเขาสามารถแมปกับค่าต่อเนื่อง แต่มันเป็นเคาน์เตอร์ที่ใช้งานง่ายว่า Select 1 ใกล้กับ Select 2 มากกว่า to Select 3 คำถาม: ฉันควรมองหาอัลกอริธึมประเภทใดสำหรับงานนี้ ดูเหมือนว่าจะมีตัวเลือกมากมายรวมถึงวิธีที่อยู่ใกล้เคียงที่สุดการจัดกลุ่มตามแนวทางและสถิติ นอกจากนี้ฉันมีปัญหาในการค้นหาเอกสารที่เกี่ยวข้องกับการตรวจจับความผิดปกติของความซับซ้อนนี้ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก [แก้ไข] ตัวอย่าง: สมมติว่าข้อมูลประกอบด้วยความสูงของบุคคลน้ำหนักของบุคคลและการประทับเวลา - ดังนั้นจึงเป็นข้อมูล 3D น้ำหนักและส่วนสูงมีความสัมพันธ์กัน แต่การประทับเวลามีความเป็นอิสระอย่างสมบูรณ์ หากฉันพิจารณาระยะทางแบบยุคลิดฉันจะต้องเลือกขีด จำกัด …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
ฮิสโตแกรมที่มีชุดถังขยะสม่ำเสมอและไม่สม่ำเสมอ
คำถามนี้อธิบายถึงความแตกต่างพื้นฐานระหว่างเครื่องแบบและฮิสโตแกรมที่ไม่ใช่แบบฟอร์ม และคำถามนี้กล่าวถึงกฎของหัวแม่มือสำหรับการเลือกจำนวนช่องเก็บของฮิสโตแกรมสม่ำเสมอที่ปรับให้เหมาะสม (ในบางแง่มุม) ระดับที่ฮิสโทแกรมแสดงถึงการกระจายตัวจากการสุ่มตัวอย่างข้อมูล ดูเหมือนว่าฉันจะไม่พบการสนทนา "การมองโลกในแง่ดี" แบบเดียวกันเกี่ยวกับฮิสโตแกรมชุดที่ไม่เหมือนกัน ฉันมีการแจกแจงแบบไม่อิงพารามิเตอร์แบบกระจุกตัวและมีค่าผิดปกติที่อยู่ไกลดังนั้นฮิสโตแกรมที่ไม่สม่ำเสมอทำให้เข้าใจได้ง่ายขึ้น แต่ฉันชอบที่จะเห็นการวิเคราะห์ที่แม่นยำยิ่งขึ้นของคำถามสองข้อต่อไปนี้: ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ ฮิสโตแกรมที่ไม่สม่ำเสมอนั้นมีจำนวนเท่าใด สำหรับฮิสโตแกรมที่ไม่เหมือนกันฉันถือว่าเป็นกรณีที่ง่ายที่สุดที่เรานำตัวอย่างจากการแจกแจงที่ไม่รู้จักเรียงลำดับค่าและแยกพวกมันออกเป็น b เช่นที่แต่ละ bin มีของสิ่งเหล่านี้ ตัวอย่าง (สมมติว่าสำหรับบางจำนวนเต็มขนาดใหญ่ ) ช่วงที่จะเกิดขึ้นโดยการจุดกึ่งกลางระหว่างของค่าในถังผมและ\ นาทีของค่าในถังi + 1 ที่นี่และนี่คือลิงค์ที่อธิบายฮิสโทแกรมที่ไม่เหมือนกันประเภทนี้nnnnnnkkkknkn\frac{k}{n}n ≡ c kn≡คkn \equiv c kคคcสูงสุดสูงสุด\maxผมผมiนาทีนาที\minฉัน+ 1ผม+1i+1

2
ส่วนที่เหลือที่มีอิทธิพลกับค่าผิดปกติ
อันดับแรกฉันควรระบุว่าฉันได้ค้นหาคำตอบในเว็บไซต์นี้ ฉันไม่พบคำถามที่ตอบคำถามหรือระดับความรู้ของฉันต่ำมากฉันไม่ทราบว่าฉันได้อ่านคำตอบแล้ว ฉันกำลังศึกษาเพื่อสอบสถิติ AP ฉันต้องเรียนรู้การถดถอยเชิงเส้นและหนึ่งในหัวข้อคือส่วนที่เหลือ ฉันมีสำเนาของข้อมูลเบื้องต้นเกี่ยวกับสถิติและการวิเคราะห์ข้อมูลในหน้า 253 จุดที่ผิดปกติในชุดข้อมูล bivariate คือจุดที่หลุดออกจากจุดอื่น ๆ ส่วนใหญ่ใน scatterplot ในทิศทางหรือทิศทางxxxyyy การสังเกตอาจเป็นการสังเกตที่มีอิทธิพลถ้ามันมีค่าที่อยู่ห่างจากข้อมูลที่เหลือ (แยกออกจากส่วนที่เหลือของข้อมูลในทิศทาง ) ในการตรวจสอบว่าการสังเกตนั้นมีอิทธิพลจริงหรือไม่เราประเมินว่าการลบการสังเกตนี้มีผลกระทบอย่างมากต่อมูลค่าของความชันหรือจุดตัดของเส้นที่มีกำลังสองน้อยที่สุดหรือไม่xxxxxx การสังเกตเป็นค่าผิดปกติหากมีสิ่งตกค้างขนาดใหญ่ การสังเกตการณ์ในระยะไกลอยู่ห่างจากเส้นที่มีกำลังสองน้อยที่สุดไปในทิศทางyyy Stattreck.comระบุสี่วิธีในการกำหนดค่าผิดพลาดจากสิ่งตกค้าง: จุดข้อมูลที่แตกต่างกันอย่างมากจากรูปแบบโดยรวมเรียกว่าค่าผิดปกติ มีสี่วิธีที่จุดข้อมูลอาจถูกพิจารณาว่าผิดปกติ มันอาจมีค่า X มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น มันอาจมีค่า Y มากเมื่อเปรียบเทียบกับจุดข้อมูลอื่น มันอาจมีค่า X และ Y มาก อาจอยู่ห่างจากข้อมูลที่เหลือแม้ไม่มีค่า X หรือ Y มาก แหล่งที่มาทั้งสองนี้ดูเหมือนจะขัดแย้งกัน ใครสามารถช่วยกำจัดความสับสนของฉัน นอกจากนี้หนึ่งจะกำหนดวิธีการที่รุนแรง สถิติ AP ใช้กฎหากจุดข้อมูลอยู่นอก (Q1-1.5IQR, Q3 + 1.5IQR) ซึ่งเป็นค่าที่ผิดปกติ …

4
การตรวจหาค่าผิดปกติทางออนไลน์
ฉันต้องการประมวลผลภาพกล้องจุลทรรศน์แบบแบ่งส่วนโดยอัตโนมัติเพื่อตรวจจับภาพที่ผิดปกติและ / หรือการแบ่งส่วนที่ผิดพลาดซึ่งเป็นส่วนหนึ่งของขั้นตอนการถ่ายภาพความเร็วสูง มีโฮสต์ของพารามิเตอร์ที่สามารถคำนวณได้สำหรับแต่ละอิมเมจดิบและการแบ่งเซ็กเมนต์และจะกลายเป็น "สุดขีด" เมื่อรูปภาพมีข้อบกพร่อง ตัวอย่างเช่นฟองอากาศในภาพจะส่งผลให้เกิดความผิดปกติเช่นขนาดใหญ่ในหนึ่งใน "เซลล์" ที่ตรวจพบหรือจำนวนเซลล์ต่ำผิดปกติสำหรับทั้งสนาม ฉันกำลังมองหาวิธีที่มีประสิทธิภาพในการตรวจจับกรณีผิดปกติเหล่านี้ เป็นการดีที่ฉันต้องการวิธีการที่มีคุณสมบัติดังต่อไปนี้ (ตามลําดับความต้องการ): ไม่ต้องการขีด จำกัด สัมบูรณ์ที่กำหนดไว้ล่วงหน้า (แม้ว่าเปอร์เซ็นต์ที่กำหนดไว้ล่วงหน้าจะใช้ได้); ไม่จำเป็นต้องมีข้อมูลทั้งหมดในหน่วยความจำหรือแม้แต่เคยเห็นข้อมูลทั้งหมด มันจะโอเคสำหรับวิธีการปรับตัวและปรับปรุงเกณฑ์เมื่อเห็นข้อมูลเพิ่มเติม (เห็นได้ชัดว่ามีความเป็นไปได้น้อยความผิดปกติอาจเกิดขึ้นก่อนที่ระบบจะเห็นข้อมูลเพียงพอและจะพลาด ฯลฯ ) เป็นแบบขนานได้: เช่นในรอบแรกโหนดจำนวนมากทำงานในการผลิตความผิดปกติของผู้สมัครระดับกลางซึ่งจากนั้นจะได้รับการคัดเลือกรอบที่สองหนึ่งหลังจากรอบแรกเสร็จสมบูรณ์ ความผิดปกติที่ฉันกำลังมองหานั้นไม่ลึกซึ้ง มันเป็นชนิดที่ชัดเจนอย่างชัดเจนหากมองที่ฮิสโตแกรมของข้อมูล แต่ปริมาณของข้อมูลที่เป็นปัญหาและเป้าหมายสูงสุดของการตรวจจับความผิดปกติแบบเรียลไทม์เมื่อมีการสร้างภาพขึ้นตัดการแก้ปัญหาใด ๆ ขอบคุณ!
10 outliers  online 

1
ความแตกต่างระหว่างค่าผิดปกติและค่าเริ่มต้น
ฉันสะดุดกับคำที่มาก่อนในการวัด LOF (Local Outlier Factor) ฉันคุ้นเคยกับเงื่อนไขของค่าผิดปกติ (โดยทั่วไปคือ liers - อินสแตนซ์ที่ไม่ทำงานเหมือนกับอินสแตนซ์อื่น ๆ ) 'Inliers' หมายถึงอะไรในบริบทของการตรวจจับความผิดปกติ และวิธีการที่เกี่ยวข้องกับ (แตกต่างจาก) ค่าผิดปกติ?

2
วิธีตีความและพยากรณ์โดยใช้แพ็คเกจ tsoutliers และ auto.arima
ฉันได้รับข้อมูลรายเดือนตั้งแต่ปี 1993 ถึงปี 2558 และต้องการคาดการณ์ข้อมูลเหล่านี้ ฉันใช้แพ็คเกจ tsoutliers เพื่อตรวจหาค่าผิดปกติ แต่ฉันไม่รู้ว่าฉันจะคาดการณ์ข้อมูลชุดของฉันได้อย่างไร นี่คือรหัสของฉัน: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) นี่คือผลลัพธ์ของฉันจากแพ็คเกจ tsoutliers ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 …

2
การทดสอบย้อนกลับหรือการตรวจสอบความถูกต้องข้ามเมื่อกระบวนการสร้างแบบจำลองเป็นแบบโต้ตอบ
ฉันมีตัวแบบทำนายผลซึ่งฉันต้องการทดสอบกลับ (เช่นนำชุดข้อมูลของฉัน "ย้อนกลับ" ไปยังจุดก่อนหน้าในเวลาและดูว่าตัวแบบนั้นจะทำแบบมุ่งหวังได้อย่างไร) ปัญหาคือว่าบางรุ่นของฉันถูกสร้างขึ้นผ่านกระบวนการโต้ตอบ ตัวอย่างเช่นทำตามคำแนะนำในกลยุทธ์การสร้างแบบจำลองการถดถอยของ Frank Harrell ในแบบจำลองหนึ่งฉันใช้ splines ลูกบาศก์แบบ จำกัด เพื่อจัดการความสัมพันธ์แบบไม่เชิงเส้นที่เป็นไปได้ระหว่างคุณลักษณะและการตอบสนอง ฉันจัดสรรระดับความเป็นอิสระของแต่ละอิสระขึ้นอยู่กับการรวมกันของความรู้ในโดเมนและการวัดความแข็งแกร่งของสมาคม แต่องศาอิสระที่ฉันต้องการอนุญาตให้แบบจำลองของฉันขึ้นอยู่กับขนาดของชุดข้อมูลซึ่งแตกต่างกันอย่างมากเมื่อทำการทดสอบย้อนหลัง หากฉันไม่ต้องการแยกองศาอิสระแยกจากกันในแต่ละครั้งที่รุ่นถูกทดสอบซ้ำตัวเลือกอื่นของฉันคืออะไร สำหรับตัวอย่างอื่นฉันกำลังตรวจจับค่าผิดปกติผ่านการหาจุดที่มีเลเวอเรจสูง ถ้าฉันมีความสุขที่จะทำสิ่งนี้ด้วยมือฉันจะดูที่จุดข้อมูลที่มีประโยชน์สูงแต่ละจุดตรวจสอบอย่างมีเหตุผลว่าข้อมูลนั้นสะอาดและกรองออกหรือทำความสะอาดด้วยมือ แต่สิ่งนี้ขึ้นอยู่กับความรู้เกี่ยวกับโดเมนจำนวนมากดังนั้นฉันจึงไม่ทราบวิธีการดำเนินการอัตโนมัติ ฉันขอขอบคุณคำแนะนำและวิธีแก้ปัญหาทั้งสอง (ก) ถึงปัญหาทั่วไปของการสร้างส่วนโต้ตอบอัตโนมัติของกระบวนการสร้างแบบจำลองหรือ (ข) คำแนะนำเฉพาะสำหรับสองกรณีนี้ ขอบคุณ!

6
วิธีการเตรียม / สร้างฟีเจอร์สำหรับการตรวจจับความผิดปกติ (ข้อมูลความปลอดภัยเครือข่าย)
เป้าหมายของฉันคือการวิเคราะห์บันทึกเครือข่าย (เช่น Apache, syslog, การตรวจสอบความปลอดภัยของ Active Directory และอื่น ๆ ) โดยใช้การตรวจจับกลุ่ม / ความผิดปกติเพื่อวัตถุประสงค์ในการตรวจจับการบุกรุก จากบันทึกฉันมีฟิลด์ข้อความจำนวนมากเช่นที่อยู่ IP ชื่อผู้ใช้ชื่อโฮสต์พอร์ตปลายทางพอร์ตต้นทางและอื่น ๆ (รวมทั้งหมด 15-20 ฟิลด์) ฉันไม่ทราบว่ามีการโจมตีในบันทึกหรือไม่และต้องการเน้นเหตุการณ์ที่น่าสงสัยที่สุด (ผู้ผิด) โดยปกติการตรวจจับความผิดปกติจะทำเครื่องหมายจุดที่มีความน่าจะเป็น / ความถี่ต่ำเป็นความผิดปกติ อย่างไรก็ตามครึ่งหนึ่งของบันทึกรายการบันทึกประกอบด้วยเขตข้อมูลที่ไม่ซ้ำกัน ดังนั้นครึ่งหนึ่งของการบันทึกในชุดข้อมูลจะมีความถี่ต่ำสุดที่เป็นไปได้ ถ้าฉันใช้การตรวจจับความผิดปกติโดยพิจารณาจากการจัดกลุ่ม (เช่นค้นหากลุ่มแล้วเลือกจุดที่อยู่ไกลจากศูนย์คลัสเตอร์ทั้งหมด) ฉันต้องหาระยะทางระหว่างจุดต่าง ๆ เนื่องจากฉันมีฟิลด์ 15-20 ฟิลด์มันจะเป็นพื้นที่แบบหลายมิติซึ่ง dimesions คือชื่อผู้ใช้พอร์ตที่อยู่ IP และอื่น ๆ อย่างไรก็ตามระยะทาง Mahalanobis สามารถใช้ได้กับฟีเจอร์การกระจายแบบปกติเท่านั้น ซึ่งหมายความว่าไม่มีทางที่จะหาระยะห่างระหว่างจุดข้อมูลและสร้างกลุ่ม ... ตัวอย่างเช่นลองนึกภาพว่าฉันมีผู้ใช้ Alice, Bob, Carol, Dave, Eve …

2
ตัดค่าเฉลี่ยกับค่ามัธยฐาน
ฉันมีชุดข้อมูลที่มีการโทรทั้งหมดไปยังบริการฉุกเฉินและเวลาตอบสนองของแผนกรถพยาบาล พวกเขายอมรับว่ามีข้อผิดพลาดบางอย่างกับเวลาตอบสนองเนื่องจากมีบางกรณีที่พวกเขาไม่ได้เริ่มบันทึก (ดังนั้นค่าคือ 0) หรือที่พวกเขาไม่หยุดนาฬิกา (ดังนั้นค่าอาจสูงมาก) ฉันต้องการทราบถึงแนวโน้มที่เป็นศูนย์กลางและฉันสงสัยว่ามันเป็นการดีกว่าถ้าใช้มัธยฐานหรือค่าเฉลี่ยที่ถูกตัดออกเพื่อกำจัดค่าผิดปกติหรือไม่

1
การเลือก k-value สำหรับการวิเคราะห์ตรวจจับ Local Outlier Factor (LOF)
ฉันมีชุดข้อมูลสามมิติและฉันพยายามใช้การวิเคราะห์ Local Outlier Factor เพื่อระบุค่าที่แปลกที่สุดหรือแปลกที่สุด เราจะตัดสินใจ k-value ที่จะใช้ในการวิเคราะห์ LOF ได้อย่างไร? ฉันเข้าใจสิ่งที่ค่า k กำหนดและดังนั้นฉันจึงไม่แปลกใจเลยที่ฉันเห็นผลลัพธ์ที่แตกต่างกันเล็กน้อยเมื่อใช้ k ที่ต่างกัน แต่ฉันไม่แน่ใจว่ามีลักษณะของชุดข้อมูลของฉันที่จะผลักดันฉันไปยังค่าหนึ่งมากกว่าค่าอื่น ๆ . ขอบคุณ!

2
การลบค่าผิดปกติจากข้อมูล - จำนวนค่าผิดพลาดสูงสุดที่คุณสามารถลบได้หรือไม่
ฉันมีข้อมูลผิดปกติอยู่สองสามตัวและฉันต้องการแยกพวกเขาออกเพื่อดูว่าการเปลี่ยนแปลงนี้มีผลหรือไม่ ในความเห็นของคุณจำนวนสูงสุดของค่าผิดปกติที่หนึ่งควร จำกัด ตัวเองคืออะไร? ขอบคุณ!
9 outliers 

1
ค่าการตัดระยะทางของ Cook
ฉันได้อ่านระยะทางของแม่ครัวเพื่อระบุตัวผิดที่มีอิทธิพลต่อการถดถอยของฉัน ในการศึกษาดั้งเดิมของ Cook เขาบอกว่าอัตราการตัด 1 ควรเทียบเคียงเพื่อระบุผู้มีอิทธิพล อย่างไรก็ตามการศึกษาอื่น ๆ ใช้4n4n\frac{4}{n} หรือ 4n - k - 14n-k-1\frac{4}{n-k-1} เป็นตัวตัด ในการศึกษาของฉันไม่มีของเหลือของฉันมีค่า D สูงกว่า 1 อย่างไรก็ตามถ้าฉันใช้ 4n4n\frac{4}{n} เป็นทางลัด (4149= .026 )(4149=0.026)(\frac{4}{149}= .026)แล้วมีจุดข้อมูลต่าง ๆ ซึ่งถือว่าเป็นผู้มีอิทธิพล ฉันตัดสินใจที่จะทดสอบว่าการลบจุดข้อมูลเหล่านี้จะสร้างความแตกต่างให้กับการถดถอยเชิงเส้นทั่วไปของฉันหรือไม่ IV ทั้งหมดของฉันยังคงมีความสำคัญและไม่มีการเปลี่ยนแปลงที่ชัดเจน ฉันควรรักษาจุดข้อมูลทั้งหมดของฉันไว้และใช้อัตราการตัด 1 หรือลบออก?

4
วิธีปรับให้พอดีกับแบบจำลองสำหรับอนุกรมเวลาที่มีค่าผิดปกติ
ฉันได้ติดตั้งแบบจำลอง ARIMA (5,1,2) โดยใช้auto.arima()ฟังก์ชั่นใน R และโดยลำดับการค้นหาเราสามารถพูดได้ว่านี่ไม่ใช่แบบจำลองที่ดีที่สุดในการคาดการณ์ หากมีค่าผิดปกติอยู่ในชุดข้อมูลวิธีการใดที่จะพอดีกับแบบจำลองกับข้อมูลดังกล่าว

4
เราสามารถละทิ้งข้อมูลจากการวิจัยเพราะมันไม่สำคัญหรือไม่?
ผมเคยเจอประโยคนี้ในขณะที่อ่านบทความเกี่ยวกับ sciencemag.org ในท้ายที่สุดการตอบสนองจากนักวิจัยเพียง 7600 คนใน 12 ประเทศถูกรวมเข้าด้วยกันเพราะข้อมูลที่เหลือไม่ถือว่ามีนัยสำคัญทางสถิติ นี่เป็นวิธีที่เหมาะสมในการทำวิจัยหรือไม่? ที่จะออกผลเพราะพวกเขาไม่ถือว่ามีนัยสำคัญทางสถิติ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.