คำถามติดแท็ก outliers

ค่าผิดปกติคือการสังเกตที่ดูเหมือนจะผิดปกติหรืออธิบายไม่ได้ดีเมื่อเทียบกับการอธิบายลักษณะของชุดข้อมูลอย่างง่าย ความเป็นไปได้ที่ไม่น่าไว้วางใจคือข้อมูลเหล่านี้มาจากประชากรที่แตกต่างจากที่ตั้งใจจะศึกษา

13
วิธีที่ดีที่สุดในการระบุค่าผิดปกติในข้อมูลหลายตัวแปรคืออะไร
สมมติว่าฉันมีชุดข้อมูลหลายตัวแปรขนาดใหญ่ที่มีตัวแปรอย่างน้อยสามตัว ฉันจะหาผู้ผิดได้อย่างไร Scatterplots แบบ Pairwise จะไม่ทำงานอย่างที่เป็นไปได้สำหรับค่าที่มีอยู่ใน 3 มิติที่ไม่ได้เป็นค่าที่เกินในพื้นที่ย่อย 2 มิติใด ๆ ฉันไม่ได้คิดถึงปัญหาการถดถอย แต่เป็นข้อมูลหลายตัวแปรที่แท้จริง ดังนั้นคำตอบที่เกี่ยวข้องกับการถดถอยที่แข็งแกร่งหรือการใช้ประโยชน์จากการคำนวณนั้นไม่มีประโยชน์ ความเป็นไปได้อย่างหนึ่งคือการคำนวณคะแนนองค์ประกอบหลักและมองหาค่าที่ผิดเพี้ยนในการกระจาย bivariate ของสองคะแนนแรก นั่นจะรับประกันได้หรือไม่ มีแนวทางที่ดีกว่านี้ไหม?

6
การทดสอบการตรวจสอบข้อมูลที่สำคัญ
ในบทบาทงานของฉันฉันมักจะทำงานกับชุดข้อมูลของคนอื่นไม่ใช่ผู้เชี่ยวชาญนำข้อมูลทางคลินิกมาให้ฉันและฉันช่วยให้พวกเขาสรุปและดำเนินการทดสอบทางสถิติ ปัญหาที่ฉันมีอยู่คือชุดข้อมูลที่ฉันนำมานั้นมักจะเต็มไปด้วยความผิดพลาดความไม่สอดคล้องกันและปัญหาอื่น ๆ อีกมากมาย ฉันสนใจที่จะรู้ว่าคนอื่นมีการทดสอบมาตรฐานที่พวกเขาทำเพื่อพยายามตรวจสอบชุดข้อมูลใด ๆ ที่เข้ามา ฉันเคยวาดฮิสโทแกรมของตัวแปรแต่ละตัวเพื่อดู แต่ตอนนี้ฉันรู้แล้วว่ามีข้อผิดพลาดที่น่ากลัวมากมายที่สามารถอยู่รอดได้จากการทดสอบนี้ ตัวอย่างเช่นฉันมีชุดข้อมูลที่ทำซ้ำในวันอื่น ๆ ซึ่งสำหรับบางคนการวัดซ้ำนั้นเหมือนกันที่เวลา 2 เหมือนเดิมที่เวลา 1 นี่เป็นการพิสูจน์ว่าไม่ถูกต้องตามที่คุณคาดหวัง ชุดข้อมูลอีกชุดหนึ่งมีบุคคลที่เปลี่ยนจากการมีความไม่เป็นระเบียบอย่างรุนแรง (แสดงด้วยคะแนนสูง) เป็นไร้ปัญหาโดยมี 0 ชุดทั่วกระดาน นี่เป็นไปไม่ได้แม้ว่าฉันจะไม่สามารถพิสูจน์ได้อย่างแน่นอน ดังนั้นการทดสอบขั้นพื้นฐานใดที่ฉันสามารถใช้กับชุดข้อมูลแต่ละชุดเพื่อให้แน่ใจว่าไม่มีชุดตัวพิมพ์ผิดและไม่มีค่าที่เป็นไปไม่ได้ ขอบคุณล่วงหน้า!

1
การตีความพล็อต. lm ()
ฉันมีคำถามเกี่ยวกับการตีความกราฟที่สร้างขึ้นโดยพล็อต (lm) ในอาร์ฉันสงสัยว่าพวกคุณจะบอกวิธีการตีความสเกลตำแหน่งและพล็อตที่เหลือ? ความคิดเห็นใด ๆ ที่จะได้รับการชื่นชม สมมติว่ามีความรู้พื้นฐานเกี่ยวกับสถิติการถดถอยและเศรษฐมิติ

14
อัลกอริทึมง่าย ๆ สำหรับการตรวจหาค่าผิดปกติทางออนไลน์ของอนุกรมเวลาทั่วไป
ฉันทำงานกับอนุกรมเวลาจำนวนมาก อนุกรมเวลาเหล่านี้โดยทั่วไปแล้วการวัดเครือข่ายมาทุก ๆ 10 นาทีและบางส่วนนั้นเป็นระยะ (เช่นแบนด์วิดท์) ในขณะที่บางส่วนไม่ได้เป็น (เช่นปริมาณการรับส่งข้อมูลเส้นทาง) ฉันต้องการอัลกอริทึมง่าย ๆ สำหรับการทำแบบออนไลน์ โดยทั่วไปฉันต้องการเก็บไว้ในหน่วยความจำ (หรือบนดิสก์) ข้อมูลประวัติทั้งหมดสำหรับแต่ละชุดเวลาและฉันต้องการตรวจสอบค่าผิดปกติใด ๆ ในสถานการณ์สด (ทุกครั้งที่มีการสุ่มตัวอย่างใหม่) วิธีที่ดีที่สุดในการบรรลุผลลัพธ์เหล่านี้คืออะไร? ฉันกำลังใช้ค่าเฉลี่ยเคลื่อนที่เพื่อลบเสียงรบกวน แต่แล้วจะทำอย่างไรต่อไป สิ่งที่เรียบง่ายเช่นค่าเบี่ยงเบนมาตรฐาน, บ้า, ... กับชุดข้อมูลทั้งหมดทำงานได้ไม่ดี (ฉันไม่สามารถคิดว่าอนุกรมเวลาคงที่) และฉันต้องการบางสิ่งที่ "แม่นยำ" ยิ่งกว่าเดิมกล่องดำแบบ: double outlier_detection (double * vector, double value); โดยที่ vector คืออาร์เรย์ของ double ที่มีข้อมูลประวัติและค่าส่งคืนคือคะแนนความผิดปกติสำหรับ "value" ตัวอย่างใหม่

14
ทำไมสถิติที่ไม่ทนทาน (และทนทาน) จึงถูกแทนที่ด้วยเทคนิคแบบดั้งเดิม?
เมื่อแก้ปัญหาทางธุรกิจโดยใช้ข้อมูลเป็นเรื่องธรรมดาที่มีสมมติฐานอย่างน้อยหนึ่งข้อที่ว่าสถิติแบบดั้งเดิมไม่ถูกต้อง ส่วนใหญ่ไม่มีใครมารบกวนการตรวจสอบสมมติฐานเหล่านั้นเพื่อให้คุณไม่เคยรู้จริง ตัวอย่างเช่นเมตริกเว็บทั่วไปจำนวนมากจึงเป็น "แบบหางยาว" (สัมพันธ์กับการแจกแจงแบบปกติ) คือตอนนี้มีการบันทึกไว้เป็นอย่างดีเพื่อให้เราได้รับอนุญาต อีกตัวอย่างหนึ่งชุมชนออนไลน์ - แม้ในชุมชนที่มีสมาชิกนับพันก็มีเอกสารครบถ้วนว่าส่วนแบ่งที่ใหญ่ที่สุดของการมีส่วนร่วมในการมีส่วนร่วมในชุมชนเหล่านี้ส่วนใหญ่เป็นของกลุ่มผู้มีอิทธิพลน้อย (เช่นไม่กี่เดือนที่ผ่านมาหลังจากที่ SO API ให้บริการในรุ่นเบต้าสมาชิกStackOverflowเผยแพร่การวิเคราะห์สั้น ๆ จากข้อมูลที่เขาเก็บรวบรวมผ่านทาง API ข้อสรุปของเขา - น้อยกว่าร้อยละหนึ่งของบัญชีสมาชิก SO ส่วนใหญ่ กิจกรรมบน SO (สมมุติว่าถามคำถามและตอบคำถาม) อีก 1-2% คิดเป็นสัดส่วนที่เหลือและสมาชิกส่วนใหญ่ที่ไม่ทำอะไรเลย) การแจกแจงของการเรียงลำดับนั้น - บ่อยครั้งมากกว่ากฎแทนที่จะเป็นข้อยกเว้น - มักถูกสร้างแบบจำลองที่ดีที่สุดด้วยฟังก์ชันความหนาแน่นของกฎกำลังไฟฟ้า สำหรับการแจกแจงแบบนี้แม้แต่ทฤษฎีบทขีด จำกัด กลางก็เป็นปัญหาที่จะนำมาใช้ ดังนั้นเมื่อมีประชากรจำนวนมากเช่นนี้เป็นที่สนใจของนักวิเคราะห์และเนื่องจากรูปแบบคลาสสิกนั้นมีประสิทธิภาพในการแสดงข้อมูลเหล่านี้ได้ไม่ดีนักและเนื่องจากวิธีการที่แข็งแกร่งและทนทานได้เกิดขึ้นมาระยะหนึ่งแล้ว (อย่างน้อย 20 ปี) พวกเขาไม่ได้ใช้บ่อยขึ้นหรือไม่ (ฉันยังสงสัยว่าทำไมฉันไม่ใช้บ่อยขึ้น แต่นั่นไม่ใช่คำถามสำหรับCrossValidated ) ใช่ฉันรู้ว่ามีบทตำราที่อุทิศให้กับสถิติที่มีประสิทธิภาพและฉันรู้ว่ามี (ไม่กี่) R แพ็คเกจ ( robustbaseเป็นสิ่งที่ฉันคุ้นเคยและใช้) เป็นต้น …

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
Outliers ควรได้รับการจัดการอย่างไรในการวิเคราะห์การถดถอยเชิงเส้น
บ่อยครั้งที่นักวิเคราะห์ทางสถิติถูกส่งชุดข้อมูลชุดและขอให้พอดีกับรูปแบบการใช้เทคนิคเช่นการถดถอยเชิงเส้น บ่อยครั้งที่ชุดข้อมูลนั้นมีข้อความปฏิเสธความรับผิดชอบคล้ายกับ "ใช่แล้วเราทำสิ่งที่ผิดพลาดในการรวบรวมจุดข้อมูลเหล่านี้ - ทำในสิ่งที่คุณทำได้" สถานการณ์นี้นำไปสู่การถดถอยที่เหมาะสมซึ่งได้รับผลกระทบอย่างมากจากการมีค่าผิดปกติที่อาจเป็นข้อมูลที่ผิดพลาด รับดังต่อไปนี้: มันเป็นอันตรายจากทั้งมุมมองทางวิทยาศาสตร์และศีลธรรมในการโยนข้อมูลโดยไม่มีเหตุผลอื่นนอกจาก "ทำให้ดูไม่ดี" ในชีวิตจริงคนที่รวบรวมข้อมูลนั้นมักจะไม่สามารถตอบคำถามเช่น "เมื่อสร้างชุดข้อมูลนี้ซึ่งเป็นประเด็นข้อใดที่คุณสับสน การทดสอบทางสถิติหรือกฎของหัวแม่มือสามารถใช้เป็นพื้นฐานสำหรับการยกเว้นค่าผิดปกติในการวิเคราะห์การถดถอยเชิงเส้น? มีข้อควรพิจารณาเป็นพิเศษสำหรับการถดถอยหลายชั้นหรือไม่?

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

4
การถดถอยเชิงเส้นอย่างรวดเร็วแข็งแกร่งต่อค่าผิดปกติ
ฉันกำลังจัดการกับข้อมูลเชิงเส้นที่มีค่าผิดปกติซึ่งบางส่วนอยู่ที่ 5 ส่วนเบี่ยงเบนมาตรฐานห่างจากเส้นการถดถอยโดยประมาณ ฉันกำลังมองหาเทคนิคการถดถอยเชิงเส้นที่ลดอิทธิพลของจุดเหล่านี้ จนถึงตอนนี้สิ่งที่ฉันทำคือการประมาณค่าเส้นถดถอยกับข้อมูลทั้งหมดแล้วทิ้งจุดข้อมูลที่มีค่ากำลังสองเหลือมาก (พูดยอด 10%) และทำซ้ำการถดถอยซ้ำโดยไม่มีจุดเหล่านั้น ในวรรณคดีมีวิธีการที่เป็นไปได้มากมาย: สี่เหลี่ยมจัตุรัสที่ถูกตัดทอนน้อยที่สุดการถดถอยแบบควอไทล์เอ็ม - ตัวประมาณ ฯลฯ ฉันไม่รู้จริง ๆ ว่าวิธีใดที่ฉันควรลองดังนั้นฉันกำลังมองหาคำแนะนำ สิ่งสำคัญสำหรับฉันคือวิธีการที่เลือกควรเร็วเนื่องจากการคำนวณที่ถดถอยจะถูกคำนวณในแต่ละขั้นตอนของการปรับให้เหมาะสม ขอบคุณมาก!

8
คำจำกัดความที่เข้มงวดของค่าผิดปกติ?
ผู้คนมักพูดคุยเกี่ยวกับการจัดการกับค่าผิดปกติในสถิติ สิ่งที่รบกวนจิตใจฉันเกี่ยวกับเรื่องนี้คือเท่าที่ฉันสามารถบอกได้นิยามของค่าผิดปกตินั้นเป็นไปโดยสิ้นเชิง ตัวอย่างเช่นหากการแจกแจงที่แท้จริงของตัวแปรสุ่มบางตัวนั้นมีความหนามากหรือ bimodal การสร้างภาพมาตรฐานหรือสถิติสรุปใด ๆ สำหรับการตรวจจับค่าผิดปกติจะลบส่วนต่าง ๆ ของการแจกแจงที่คุณต้องการสุ่มตัวอย่างออกอย่างไม่ถูกต้อง อะไรคือคำจำกัดความที่เข้มงวดของค่าผิดปกติถ้ามีอยู่และค่าผิดปกติสามารถจัดการได้อย่างไร

1
การตรวจจับค่าผิดปกติในอนุกรมเวลา (LS / AO / TC) โดยใช้แพ็คเกจ tsoutliers ใน R จะแสดงค่าผิดปกติในรูปแบบสมการได้อย่างไร
ความคิดเห็นที่: ประการแรกผมอยากจะบอกว่าใหญ่ขอบคุณไปยังผู้เขียนของใหม่tsoutliersแพคเกจซึ่งดำเนินเฉินและหลิวการตรวจสอบอนุกรมเวลาค่าผิดปกติซึ่งได้รับการตีพิมพ์ในวารสารของสมาคมอเมริกันสถิติในปี 1993 อยู่ในซอฟต์แวร์โอเพนซอร์สRRRR แพ็คเกจตรวจจับค่าผิดปกติ 5 ประเภทที่ซ้ำกันในข้อมูลอนุกรมเวลา: สารเติมแต่ง (AO) นวัตกรรมล้ำหน้า (IO) Level Shift (LS) การเปลี่ยนแปลงชั่วคราว (TC) การเลื่อนระดับตามฤดูกาล (SLS) สิ่งที่ดียิ่งกว่าคือแพคเกจนี้ใช้ auto.arima จากแพ็คเกจพยากรณ์เพื่อตรวจจับค่าผิดปกติได้อย่างราบรื่น นอกจากนี้แพ็กเกจยังสร้างพล็อตที่ดีเพื่อความเข้าใจที่ดีขึ้นของข้อมูลอนุกรมเวลา ด้านล่างเป็นคำถามของฉัน: ฉันลองใช้งานตัวอย่างโดยใช้แพ็คเกจนี้และมันก็ใช้งานได้ดี ค่าผิดปกติเพิ่มเติมและการเลื่อนระดับนั้นใช้งานง่าย อย่างไรก็ตามฉันมีคำถาม 2 ข้อเกี่ยวกับการส่งค่าผิดปกติชั่วคราวและค่าผิดปกติทางนวัตกรรมซึ่งฉันไม่สามารถเข้าใจได้ ตัวอย่างการเปลี่ยนแปลงค่าผิดพลาดชั่วคราว: ลองพิจารณาตัวอย่างต่อไปนี้: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) โปรแกรมตรวจพบการเลื่อนระดับอย่างถูกต้องและการเปลี่ยนแปลงชั่วคราวที่ตำแหน่งต่อไปนี้ Outliers: type ind time coefhat tstat 1 LS 12 …

8
ตกลงเพื่อลบค่าผิดปกติจากข้อมูลหรือไม่
ฉันมองหาวิธีที่จะลบค่าผิดปกติออกจากชุดข้อมูลและฉันพบคำถามนี้ ในความคิดเห็นและคำตอบสำหรับคำถามนี้บางคนกล่าวว่าเป็นการปฏิบัติที่ไม่ดีที่จะลบค่าผิดปกติออกจากข้อมูล ในชุดข้อมูลของฉันฉันมีค่าผิดปกติหลายอย่างที่น่าจะเกิดจากข้อผิดพลาดในการวัด แม้ว่าบางส่วนจะไม่ฉันก็ไม่มีวิธีตรวจสอบเป็นกรณี ๆ ไปเนื่องจากมีจุดข้อมูลมากเกินไป มีความถูกต้องทางสถิติมากกว่าเพียงแค่ลบค่าผิดปกติหรือไม่ หรือถ้าไม่วิธีแก้ปัญหาอื่นอาจเป็นอย่างไร หากฉันเพิ่งออกจากจุดเหล่านั้นพวกเขามีอิทธิพลต่อเช่นค่าเฉลี่ยในทางที่ไม่สะท้อนความเป็นจริง (เพราะส่วนใหญ่เป็นข้อผิดพลาดอยู่แล้ว) แก้ไข: ฉันกำลังทำงานกับข้อมูลสื่อกระแสไฟฟ้าของผิวหนัง ค่าที่สุดขีดส่วนใหญ่เกิดจากสิ่งประดิษฐ์เช่นมีคนดึงสายไฟ แก้ไข 2: ความสนใจหลักของฉันในการวิเคราะห์ข้อมูลคือการตรวจสอบว่ามีความแตกต่างระหว่างสองกลุ่ม
33 outliers 

3
ป่าสุ่มไม่ไวต่อค่าผิดปกติอย่างไร
ฉันได้อ่านในแหล่งข้อมูลไม่กี่แห่งซึ่งรวมถึงอันนี้ว่าป่าสุ่มไม่ไวต่อค่าผิดปกติ (เช่นวิธีการที่ Logistic Regression และวิธีการ ML อื่น ๆ เป็นตัวอย่าง) อย่างไรก็ตามสัญชาตญาณสองชิ้นบอกฉันเป็นอย่างอื่น: เมื่อใดก็ตามที่ต้นไม้การตัดสินใจถูกสร้างขึ้นคะแนนทั้งหมดจะต้องจำแนก ซึ่งหมายความว่าแม้แต่ผู้ผิดกฎหมายก็จะถูกจัดประเภทและด้วยเหตุนี้จะส่งผลต่อต้นไม้การตัดสินใจที่พวกเขาได้รับเลือกในระหว่างการส่งเสริม Bootstrapping เป็นส่วนหนึ่งของการสุ่มตัวอย่างแบบสุ่มป่าไม้ การบูตสแตรปมีความอ่อนไหวต่อค่าผิดปกติ มีวิธีใดบ้างที่จะกระทบยอดปรีชาญาณของฉันเกี่ยวกับความอ่อนไหวต่อผู้ผิดกฎหมายกับแหล่งที่ไม่เห็นด้วยหรือไม่?

1
เชื่อมโยงการตรวจจับความผิดปกติในเครือข่ายชั่วคราว
ฉันมาข้ามบทความนี้ที่ใช้เชื่อมโยงการตรวจสอบความผิดปกติในการทำนายแนวโน้มหัวข้อและผมพบว่ามันไม่น่าเชื่อที่น่าสนใจ: กระดาษ"การค้นพบหัวข้อที่เกิดขึ้นใหม่ในกระแสสังคมผ่านการเชื่อมโยงความผิดปกติของการตรวจสอบ" ฉันชอบที่จะทำซ้ำในชุดข้อมูลอื่น แต่ฉันไม่คุ้นเคยกับวิธีการที่จะรู้วิธีใช้ สมมติว่าฉันมีชุดของภาพรวมของเครือข่ายของโหนดในช่วงหกเดือน โหนมีการกระจายระดับเทลด์เทอร์มินัลโดยส่วนใหญ่มีการเชื่อมต่อเพียงเล็กน้อย แต่บางอันมีจำนวนมาก โหนดใหม่ปรากฏขึ้นภายในช่วงเวลานี้ ฉันจะใช้การคำนวณความน่าจะเป็นสูงสุดปกติแบบลดตามลำดับที่ใช้ในกระดาษเพื่อตรวจจับลิงก์ผิดปกติที่ฉันคิดว่าอาจเป็นตัวตั้งต้นให้เกิดการระเบิดได้อย่างไร มีวิธีการอื่นที่เหมาะสมกว่าหรือไม่ ฉันถามทั้งในทางทฤษฎีและในทางปฏิบัติ หากใครบางคนชี้ให้ฉันเห็นวิธีการใช้สิ่งนี้ใน python หรือ R นั่นจะเป็นประโยชน์อย่างมาก ใคร? ฉันรู้ว่าคุณสมาร์ทคนมีความคิดเริ่มต้นสำหรับคำตอบ

8
แทนที่ค่าผิดปกติด้วยค่าเฉลี่ย
คำถามนี้ถามโดยเพื่อนของฉันที่ไม่เข้าใจอินเทอร์เน็ต ฉันไม่มีภูมิหลังด้านสถิติและฉันได้ทำการค้นหาข้อมูลในอินเทอร์เน็ตจากคำถามนี้ คำถามคือเป็นไปได้ไหมที่จะแทนที่ค่าผิดปกติด้วยค่าเฉลี่ย? ถ้าเป็นไปได้มีหนังสืออ้างอิง / วารสารเพื่อสำรองข้อความนี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.