สถิติและข้อมูลขนาดใหญ่ outliers

4

ตรวจจับค่าผิดปกติโดยใช้ค่าเบี่ยงเบนมาตรฐาน

ตามคำถามของฉันที่นี่ฉันสงสัยว่ามีมุมมองที่แข็งแกร่งสำหรับหรือต่อต้านการใช้ส่วนเบี่ยงเบนมาตรฐานในการตรวจสอบค่าผิดปกติ (เช่นดาต้าพอยน์ใด ๆ ที่มากกว่า 2 ส่วนเบี่ยงเบนมาตรฐานเป็นค่าผิดปกติ) ฉันรู้ว่าสิ่งนี้ขึ้นอยู่กับบริบทของการศึกษาเช่นจุดข้อมูลขนาด 48 กิโลกรัมจะเป็นค่าที่สูงกว่าในการศึกษาน้ำหนักของทารก แต่ไม่ได้อยู่ในการศึกษาน้ำหนักของผู้ใหญ่ Outliers เป็นผลมาจากปัจจัยหลายประการเช่นความผิดพลาดในการป้อนข้อมูล ในกรณีของฉันกระบวนการเหล่านี้แข็งแกร่ง ฉันเดาว่าคำถามที่ฉันถามคือการใช้วิธีการตรวจสอบค่าผิดปกติหรือไม่?

27 outliers

1

เหตุใด PCA จึงไวต่อผู้ผิด

มีโพสต์มากมายใน SE นี้ที่กล่าวถึงวิธีการที่แข็งแกร่งในการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ฉันไม่สามารถหาคำอธิบายที่ดีเพียงข้อเดียวว่าทำไม PCA จึงไวต่อผู้ผิดกฎหมายในตอนแรก

26 machine-learning pca outliers

4

เหตุใด RANSAC จึงไม่ใช้กันอย่างแพร่หลายในสถิติ

มาจากมุมมองของคอมพิวเตอร์ฉันมักจะใช้วิธีRANSAC (Random Sample Consensus) สำหรับการปรับโมเดลให้เหมาะสมกับข้อมูลที่มีค่าผิดปกติจำนวนมาก อย่างไรก็ตามฉันไม่เคยเห็นมันใช้โดยนักสถิติและฉันมักจะอยู่ภายใต้ความประทับใจว่ามันไม่ได้ถือว่าเป็นวิธี "สถิติเสียง" เหตุผลที่เป็นเช่นนั้น? มันเป็นการสุ่มในธรรมชาติซึ่งทำให้ยากต่อการวิเคราะห์ แต่เป็นวิธีการบูตสแตรป หรือเป็นเพียงกรณีของนักวิชาการที่ไม่ได้พูดคุยกัน

26 outliers bootstrap robust

3

การประยุกต์ใช้ขั้นตอนวิธีการตรวจจับความผิดปกติของเวฟเล็ตตามอนุกรมเวลา

ฉันเริ่มทำงานผ่านทางบทเรียนการทำเหมืองข้อมูลทางสถิติโดย Andrew Moore (แนะนำเป็นอย่างยิ่งสำหรับคนอื่นที่เริ่มเข้ามาในสาขานี้) ฉันเริ่มต้นด้วยการอ่านPDF ที่น่าสนใจอย่างยิ่งนี้ในหัวข้อ "ภาพรวมเบื้องต้นของอัลกอริธึมการตรวจจับความผิดปกติตามอนุกรมเวลา"ซึ่งมัวร์ติดตามด้วยเทคนิคต่างๆที่ใช้ในการสร้างอัลกอริทึมในการตรวจหาการระบาดของโรค ครึ่งทางผ่านภาพนิ่งในหน้า 27 เขาแสดงรายการ "วิธีการอันทันสมัย" อื่น ๆ อีกจำนวนหนึ่งที่ใช้ในการตรวจจับการระบาด คนแรกที่ระบุไว้เป็นระลอกคลื่น Wikipeida อธิบายเวฟเล็ตเป็น การแกว่งของคลื่นคล้ายกับแอมพลิจูดที่เริ่มต้นที่ศูนย์เพิ่มและลดลงกลับเป็นศูนย์ โดยทั่วไปสามารถมองเห็นเป็น "การแกว่งสั้น ๆ " แต่ไม่ได้อธิบายถึงแอปพลิเคชันของพวกเขาต่อสถิติและการค้นหาโดย Google ของฉันให้ผลงานทางวิชาการสูงซึ่งถือว่ามีความรู้ว่าเวฟเล็ตเกี่ยวข้องกับสถิติหรือหนังสือเล่มเต็มในเรื่อง ฉันต้องการความเข้าใจขั้นพื้นฐานเกี่ยวกับวิธีการนำเวฟเล็ตมาใช้ในการตรวจจับความผิดปกติของอนุกรมเวลาซึ่งมัวร์แสดงให้เห็นถึงเทคนิคอื่น ๆ ในการสอนของเขา บางคนสามารถให้คำอธิบายเกี่ยวกับวิธีการตรวจจับโดยใช้งานเวฟเล็ตหรือลิงก์ไปยังบทความที่เข้าใจได้ในเรื่องนี้หรือไม่?

25 time-series outliers signal-processing wavelet

3

การตรวจสอบก่อนหน้านี้เกี่ยวกับการแจกแจงแบบเบ้

ภายใต้นิยามคลาสสิกของค่าผิดปกติเป็นจุดข้อมูลที่อยู่ด้านนอก 1.5 * IQR จากควอไทล์ชั้นบนหรือล่างมีการสันนิษฐานของการแจกแจงแบบไม่เอียง สำหรับการแจกแจงแบบเบ้ (เอกซ์โพเนนเชียลปัวซองเรขาคณิต ฯลฯ ) เป็นวิธีที่ดีที่สุดในการตรวจหาค่าผิดปกติโดยการวิเคราะห์การแปลงฟังก์ชันดั้งเดิมหรือไม่? ตัวอย่างเช่นการแจกแจงแบบกระจายที่ควบคุมโดยการแจกแจงแบบเอ็กซ์โพเนนเชียลสามารถถูกแปลงด้วยฟังก์ชันบันทึก - ณ จุดไหนที่สามารถยอมรับค่าผิดปกติตามนิยาม IQR เดียวกันได้หรือไม่?

24 distributions outliers skewness exponential interquartile

2

คุณควรทำการวินิจฉัยการถดถอยเชิงเส้นในลำดับใด

ในการวิเคราะห์การถดถอยเชิงเส้นเราวิเคราะห์ค่าผิดปกติตรวจสอบความสัมพันธ์หลายระดับทดสอบความแตกต่าง คำถามคือ: มีคำสั่งให้ใช้สิ่งเหล่านี้หรือไม่? ฉันหมายความว่าเราต้องวิเคราะห์ค่าผิดปกติก่อนแล้วจึงตรวจสอบค่าความสัมพันธ์หลายระดับ? หรือย้อนกลับ มีกฎของหัวแม่มือเกี่ยวกับเรื่องนี้หรือไม่?

24 regression multiple-regression outliers

2

การกระจายของระยะทาง Mahalanobis ระดับสังเกต

ถ้าฉันมีตัวอย่าง iid ปกติหลายตัวแปรและกำหนด (ซึ่งเป็นชนิดของระยะทาง Mahalanobis [กำลังสอง] จากจุดตัวอย่างไปยังเวกเตอร์โดยใช้เมทริกซ์สำหรับการถ่วงน้ำหนัก) อะไรคือการกระจายตัวของ (ระยะทาง Mahalanobis sample meanโดยใช้เมทริกซ์ความแปรปรวนร่วมตัวอย่าง )?d 2 i ( b , A ) = ( X i - b ) ′ A - 1 ( X i - b ) a AX1, … , Xn∼ Nพี( μ , Σ )X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim …

23 multivariate-analysis outliers

4

จะทำการลบกรณีที่ถูกตั้งค่าสถานะเป็นค่าผิดปกติโดยซอฟต์แวร์ทางสถิติเมื่อทำการถดถอยหลายครั้งหรือไม่?

ฉันทำการวิเคราะห์การถดถอยหลายครั้งและฉันไม่แน่ใจว่าควรลบค่าผิดปกติในข้อมูลของฉันหรือไม่ ข้อมูลที่ฉันกังวลปรากฏเป็น "แวดวง" ในกล่องสี่เหลี่ยมของ SPSS อย่างไรก็ตามไม่มีเครื่องหมายดอกจัน (ซึ่งทำให้ฉันคิดว่าพวกเขาไม่ใช่ 'แย่') กรณีที่ฉันกังวลจะปรากฏภายใต้ตาราง "การวินิจฉัย casewise" ในผลลัพธ์ - ดังนั้นฉันควรลบกรณีเหล่านี้หรือไม่

23 regression outliers

1

ตรวจจับค่าผิดปกติในข้อมูลการนับ

ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 …

21 outliers count-data fitting

3

จะประเมินความเบ้จาก boxplot ได้อย่างไร?

วิธีการตัดสินใจความเบ้โดยดูที่ boxplot ที่สร้างจากข้อมูลนี้: 340, 300, 520, 340, 320, 290, 260, 330 หนังสือเล่มหนึ่งบอกว่า "ถ้าควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบนแล้วการแจกแจงจะเบ้ในทางลบ" แหล่งข้อมูลอื่นหลายแห่งกล่าวว่าเหมือนกันมากหรือน้อย ฉันสร้าง boxplot โดยใช้ R มันเหมือนดังต่อไปนี้: ฉันคิดว่ามันเอียงเชิงลบเพราะควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบน แต่ปัญหาคือเมื่อฉันใช้วิธีอื่นเพื่อกำหนดความเบ้: หมายถึง (337.5)> ค่ามัธยฐาน (325) นี้แสดงให้เห็นข้อมูลเป็นเบ้บวก ฉันพลาดอะไรไปหรือเปล่า?

19 outliers skewness boxplot

2

Bootstrapping - ฉันต้องลบค่าผิดปกติก่อนหรือไม่

เราได้ทำการทดสอบแยกคุณลักษณะของผลิตภัณฑ์ใหม่และต้องการวัดว่าการเพิ่มขึ้นของรายได้นั้นสำคัญหรือไม่ โดยทั่วไปการสังเกตของเราจะไม่ได้รับการเผยแพร่อย่างแน่นอน (ผู้ใช้ส่วนใหญ่ของเราไม่ใช้จ่ายและภายในที่ทำนั้นจะมีการบิดเบือนอย่างมากต่อผู้ใช้รายย่อยจำนวนมากและผู้ใช้รายใหญ่สองสามราย) เราได้ตัดสินใจใช้ bootstrapping เพื่อเปรียบเทียบวิธีการเพื่อให้ได้ข้อมูลที่ไม่ได้รับการเผยแพร่ตามปกติ (คำถามด้านข้าง: นี่เป็นการใช้ bootstrapping ที่ถูกกฎหมายหรือไม่) คำถามของฉันคือฉันจำเป็นต้องตัดค่าชุดข้อมูล (เช่นผู้ใช้จ่ายจำนวนน้อยมาก) ก่อนที่จะเรียกใช้ bootstrapping หรือไม่นั้นสำคัญหรือไม่?

19 bootstrap outliers

2

การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา

TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

4

พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?

นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้): หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์: Boxplot แตกต่างshapiro.test, ad.testหรือ …

17 outliers normality-assumption qq-plot boxplot

1

เราสามารถใช้การละทิ้งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อเปิดเผยค่าผิดปกติได้ไหม

สมมติว่าฉันมีการกระจายข้อมูลตามปกติ สำหรับแต่ละองค์ประกอบของข้อมูลฉันต้องการตรวจสอบว่ามี SDs จำนวนเท่าใดที่อยู่ห่างจากค่าเฉลี่ย อาจมีค่าผิดปกติในข้อมูล (น่าจะมีเพียงหนึ่ง แต่อาจมีสองหรือสาม) หรือไม่ แต่ค่าผิดปกตินี้เป็นสิ่งที่ฉันกำลังมองหา เป็นเรื่องที่สมเหตุสมผลหรือไม่ที่จะแยกองค์ประกอบที่ฉันกำลังดูจากการคำนวณค่าเฉลี่ยและ SD ชั่วคราว ความคิดของฉันคือถ้าใกล้เคียงกับค่าเฉลี่ยมันจะไม่มีผลกระทบใด ๆ หากเป็นค่าผิดปกติอาจมีอคติในการคำนวณค่าเฉลี่ยและ SD และลดความน่าจะเป็นที่ตรวจพบได้ ฉันไม่ใช่นักสถิติดังนั้นความช่วยเหลือใด ๆ ที่ชื่นชม!

17 cross-validation standard-deviation mean outliers

3

จะแสดงโครงเรื่องของกล่องที่มีค่าผิดพลาดรุนแรงได้อย่างไร?

ฉันสามารถใช้แนวทางบางอย่างเกี่ยวกับการนำเสนอข้อมูลบางอย่าง พล็อตแรกนี้เป็นการเปรียบเทียบการควบคุมกรณีสำหรับ cytokine IL-10 ฉันได้ตั้งแกน y ด้วยตนเองเพื่อรวม 99% ของข้อมูล เหตุผลที่ฉันตั้งค่าด้วยตนเองนี้เป็นเพราะกลุ่มเคสมีค่าผิดปกติมาก ผู้ทำงานร่วมกันของฉันลังเลที่จะทำการลบข้อมูลในชุดข้อมูลของเราออกไป ฉันโอเคกับมัน แต่พวกเขาไม่ต้องการ นั่นเป็นทางออกที่ชัดเจน แต่ถ้าฉันจะเก็บข้อมูลทั้งหมดและไม่ลบค่าผิดปกตินี้ฉันจะแสดง boxplot นี้อย่างเหมาะสมได้อย่างไร แกนแยก? เป็นที่ยอมรับหรือไม่ที่จะใช้เพียงกราฟแรกและทราบว่าสร้างขึ้นเพื่อรวมข้อมูลทั้งหมดหรือไม่ (ตัวเลือกนี้รู้สึกไม่สุจริตสำหรับฉัน) คำแนะนำใด ๆ ที่จะดี

17 r data-visualization outliers boxplot presentation

คำถามติดแท็ก outliers