สถิติและข้อมูลขนาดใหญ่ robust

1

ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ<t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่าαα\alpha[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2]α > 0α>0\alpha > 00 ≤ t1< t20≤เสื้อ1<เสื้อ20 \leq t_1 < t_2[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2][ …

17 pca logistic predictive-models robust

4

t-test ที่แข็งแกร่งสำหรับค่าเฉลี่ย

ฉันกำลังพยายามทดสอบ nullเทียบกับทางเลือกทางเลือกสำหรับตัวแปรสุ่มซึ่งมีระดับความเบ้เล็กน้อยถึงปานกลางและความผิดปกติของตัวแปรสุ่ม ตามคำแนะนำของวิลคอกซ์ใน 'การแนะนำเบื้องต้นเกี่ยวกับการประมาณค่าที่ทนทานและการทดสอบสมมติฐาน' ฉันได้ดูการทดสอบตามค่าเฉลี่ยที่ถูกตัดค่ามัธยฐานและค่าประมาณ M ของสถานที่ตั้ง (ขั้นตอนเดียว "วิลค็อกซ์") การทดสอบที่มีประสิทธิภาพเหล่านี้มีประสิทธิภาพเหนือกว่ามาตรฐาน t-test ในแง่ของพลังเมื่อทดสอบกับการกระจายที่ไม่เบ้E[X]=0E[X]=0E[X] = 0E[X]>0E[X]>0E[X] > 0XXX อย่างไรก็ตามเมื่อทำการทดสอบด้วยการแจกแจงแบบเบ้การทดสอบด้านเดียวเหล่านี้มีความเสรีมากเกินไปหรือมากเกินไปที่จะอนุรักษ์ภายใต้สมมติฐานว่างขึ้นอยู่กับว่าการแจกแจงนั้นเอียงไปทางซ้ายหรือขวาเอียงตามลำดับ ตัวอย่างเช่นเมื่อมีการสังเกต 1,000 ครั้งการทดสอบตามค่ามัธยฐานจะปฏิเสธจริง ~ 40% ของเวลาที่ระดับ 5% เล็กน้อย เหตุผลนี้ชัดเจนสำหรับการแจกแจงแบบเบ้ค่ามัธยฐานและค่าเฉลี่ยต่างกัน อย่างไรก็ตามในใบสมัครของฉันฉันต้องทดสอบค่าเฉลี่ยไม่ใช่ค่ามัธยฐานไม่ใช่ค่าเฉลี่ยที่ถูกตัดทอน t-test เวอร์ชันที่แข็งแกร่งกว่านี้จริง ๆ แล้วทำการทดสอบหาค่าเฉลี่ยหรือไม่ โดยหลักการแล้วกระบวนการนี้จะทำงานได้ดีในกรณีที่ไม่มีการเอียงและมีความรุนแรงสูงเช่นกัน การทดสอบ 'ขั้นตอนเดียว' เกือบจะดีพอโดยที่พารามิเตอร์ 'bend' ตั้งค่าค่อนข้างสูง แต่มีประสิทธิภาพน้อยกว่าการทดสอบค่าเฉลี่ยที่ถูกตัดเมื่อไม่มีความลาดเอียงและมีปัญหาบางอย่างในการรักษาระดับการปฏิเสธภายใต้ความเบ้ . พื้นหลัง:เหตุผลที่ฉันสนใจค่าเฉลี่ยและไม่ใช่ค่ามัธยฐานคือการทดสอบจะถูกใช้ในการสมัครทางการเงิน ตัวอย่างเช่นหากคุณต้องการทดสอบว่าพอร์ตโฟลิโอมีผลตอบแทนที่คาดหวังในเชิงบวกหรือไม่ค่าเฉลี่ยนั้นเหมาะสมจริง ๆ เพราะถ้าคุณลงทุนในพอร์ตโฟลิโอคุณจะได้รับผลตอบแทนทั้งหมด (ซึ่งเป็นค่าเฉลี่ยคูณด้วยจำนวนตัวอย่าง) แทนซ้ำกันของค่ามัธยฐาน นั่นคือผมสนใจเกี่ยวกับผลรวมของดึงจาก RV XnnnnnnXXX

17 hypothesis-testing t-test finance robust

1

PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ

PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร

17 pca outliers covariance-matrix robust anomaly-detection

3

การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ

ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

17 r distributions maximum-likelihood fitting robust

1

ความหมายและการบรรจบกันของกำลังสองน้อยที่สุดที่ได้รับคืน

ฉันได้ใช้กำลังสองน้อยที่สุดซ้ำอย่างน้อยกำลังสอง (IRLS) เพื่อย่อฟังก์ชันของแบบฟอร์มต่อไปนี้ J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) โดยที่NNNคือจำนวนอินสแตนซ์ของxi∈Rxi∈Rx_i \in \mathbb{R} , m∈Rm∈Rm \in \mathbb{R}คือค่าประมาณที่ฉันต้องการและρρ\rhoเป็นฟังก์ชันการปรับค่าที่เหมาะสม สมมติว่ามันเป็นนูน (แต่ไม่จำเป็นต้องเข้มงวด) และเปลี่ยนแปลงได้ในตอนนี้ เป็นตัวอย่างที่ดีของดังกล่าวρρ\rhoเป็นฟังก์ชั่นการสูญเสีย Huber สิ่งที่ฉันทำคือแยกความแตกต่างJ(m)J(m)J(m)เทียบกับmmm (และจัดการ) ที่จะได้รับ dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) และแก้ปัญหานี้ซ้ำ ๆ โดยการตั้งค่าให้เท่ากับ 0 และกำหนดน้ำหนักที่การวนซ้ำkkkเป็นwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(หมายเหตุว่าภาวะเอกฐานการรับรู้ที่xi=m(k)xi=m(k)x_i=m{(k)}คือจริงๆเอกพจน์ที่ถอดออกได้ในทุกρρ\rho's ฉันอาจจะเกี่ยวกับการดูแล) จากนั้นฉันก็จะได้ ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} …

16 estimation least-squares robust irls

2

การประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติ: ค่ามัธยฐานแทนค่าเฉลี่ย?

วิธีการทั่วไปในการประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติคือการใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน / ความแปรปรวนตัวอย่าง อย่างไรก็ตามหากมีค่าผิดปกติค่ามัธยฐานและค่าเบี่ยงเบนเฉลี่ยจากค่ามัธยฐานควรจะแข็งแกร่งกว่านี้ใช่ไหม ในชุดข้อมูลบางชุดที่ฉันพยายามการแจกแจงแบบปกติประมาณโดยดูเหมือนจะทำให้เกิดอะไรมากมาย ดีกว่าแบบคลาสสิกโดยใช้ค่าเฉลี่ยและส่วนเบี่ยงเบน RMSN ( μ , σ )N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma) มีเหตุผลใดที่จะไม่ใช้ค่ามัธยฐานถ้าคุณคิดว่ามีค่าผิดปกติบางอย่างในชุดข้อมูลหรือไม่? คุณรู้การอ้างอิงบางส่วนสำหรับวิธีการนี้หรือไม่? การค้นหาอย่างรวดเร็วบน Google ไม่พบผลลัพธ์ที่มีประโยชน์ที่พูดถึงประโยชน์ของการใช้สื่อตรงกลางที่นี่ (แต่เห็นได้ชัดว่า "มัธยฐานการประมาณค่าพารามิเตอร์การกระจายทั่วไป" ไม่ใช่คำค้นหาที่เจาะจงมาก) ค่าเบี่ยงเบนเฉลี่ย, มันมีอคติหรือไม่? ฉันควรคูณมันด้วยเพื่อลดอคติหรือไม่n−1nn−1n\frac{n-1}{n} คุณรู้วิธีการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพที่ใกล้เคียงกันสำหรับการแจกแจงอื่น ๆ เช่นการแจกแจงแกมม่าหรือการแจกแจงแบบเกาส์แบบเอ็กซ์โปเนนเชียล (ซึ่งต้องการความเบ้ในการประมาณค่าพารามิเตอร์และค่าผิดปกติทำให้ยุ่งเหยิง)

15 normal-distribution estimation outliers robust unbiased-estimator

1

ทำไมค่าสัมประสิทธิ์การถดถอย rlm () ประมาณต่างจาก lm () ใน R?

ฉันกำลังใช้ rlm ในแพ็คเกจ R MASS เพื่อถดถอยโมเดลเชิงเส้นหลายตัวแปร มันใช้งานได้ดีสำหรับตัวอย่างจำนวนหนึ่ง แต่ฉันได้รับค่าสัมประสิทธิ์เสมือนสำหรับรุ่นเฉพาะ: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 …

15 r multiple-regression robust

3

หลักสูตรความผิดพลาดในการประมาณค่าเฉลี่ยที่มีประสิทธิภาพ

ฉันมีการประมาณ (ประมาณ 1,000 รายการ) และพวกเขาทั้งหมดควรจะประมาณความยืดหยุ่นในระยะยาว น้อยกว่าครึ่งหนึ่งของจำนวนนี้ประมาณโดยใช้วิธี A และที่เหลือใช้วิธี B บางแห่งที่ฉันอ่านบางสิ่งบางอย่างเช่น "ฉันคิดว่าวิธี B ประมาณการบางสิ่งที่แตกต่างจากวิธี A มากขึ้นเนื่องจากการประมาณการสูงกว่ามาก (50-60%) " ความรู้เกี่ยวกับสถิติที่แข็งแกร่งของฉันนั้นอยู่ถัดจากอะไรเลยดังนั้นฉันจึงคำนวณค่าเฉลี่ยตัวอย่างและค่ามัธยฐานของตัวอย่างทั้งสอง ... และฉันเห็นความแตกต่างทันที วิธี A มีความเข้มข้นมากความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยน้อยมาก แต่ตัวอย่างวิธี B แตกต่างกันอย่างมาก ฉันได้ข้อสรุปว่าค่าผิดปกติและการวัดผิดพลาดทำให้ตัวอย่างวิธี B ดังนั้นฉันโยนค่าประมาณ 50 ค่า (ประมาณ 15%) ที่ไม่สอดคล้องกับทฤษฎี ... และทันใดนั้นค่าเฉลี่ยของทั้งสองตัวอย่าง (รวมถึง CI) มีความคล้ายคลึงกันมาก . ความหนาแน่นของแปลงก็เช่นกัน (ในการค้นหาการกำจัดค่าผิดปกติฉันดูช่วงของตัวอย่าง A และลบจุดตัวอย่างทั้งหมดใน B ที่อยู่นอกมัน) ฉันอยากให้คุณบอกฉันว่าฉันสามารถหาข้อมูลเบื้องต้นเกี่ยวกับการประมาณค่าที่แข็งแกร่งของวิธีการที่จะ อนุญาตให้ฉันตัดสินสถานการณ์นี้อย่างจริงจังมากขึ้น และจะมีการอ้างอิงบางอย่าง ฉันไม่ต้องการความเข้าใจอย่างลึกซึ้งในเทคนิคต่าง …

15 mean outliers robust references

2

การทดสอบทางสถิติที่แข็งแกร่งคืออะไร การทดสอบทางสถิติที่มีประสิทธิภาพคืออะไร

การทดสอบทางสถิติบางอย่างมีประสิทธิภาพและบางการทดสอบนั้นไม่ ความทนทานหมายถึงอะไรกันแน่? น่าแปลกที่ฉันไม่พบคำถามดังกล่าวในเว็บไซต์นี้ นอกจากนี้บางครั้งความแข็งแรงและพลังของการทดสอบจะถูกกล่าวถึงด้วยกัน และอย่างสังหรณ์ใจฉันไม่สามารถแยกความแตกต่างระหว่างสองแนวคิด การทดสอบที่ทรงพลังคืออะไร? มันแตกต่างจากการทดสอบทางสถิติที่มีประสิทธิภาพอย่างไร

14 statistical-significance power robust

3

โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่?

เพื่อนร่วมงานคนหนึ่งในสำนักงานของฉันพูดกับฉันในวันนี้ว่า "แบบจำลองต้นไม้ไม่ดีเพราะพวกเขาถูกจับด้วยการสังเกตอย่างหนัก" การค้นหาที่นี่ส่งผลให้เธรดนี้รองรับการอ้างสิทธิ์โดยทั่วไป ข้อใดทำให้ฉันมีคำถาม - โมเดลรถเข็น CART ในสถานการณ์ใดจะมีประสิทธิภาพและจะแสดงได้อย่างไร?

14 regression classification robust cart

3

วิธีการคำนวณ Rousseeuw's และ Croux '(1993) Qn scale estimator สำหรับตัวอย่างขนาดใหญ่

Let ดังนั้นสำหรับตัวอย่างสั้น ๆ เช่น{ 1 , 3 , 6 , 2 , 7 , 5 }มันสามารถคำนวณได้จากการค้นหาลำดับที่kที่มีความแตกต่างกันแบบคู่: Qn= Cn. { | Xผม- XJ| ; ฉัน<j }( k )Qn=Cn.{|Xi−Xj|;i<j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}{ 1 , 3 , 6 , 2 , 7 , 5 }{1,3,6,2,7,5}\{1,3,6,2,7,5\}kkk 7 6 5 3 2 1 1 …

13 data-transformation scales robust optimal-scaling

4

แบบฟอร์มที่ดีสำหรับการลบค่าผิดปกติ?

ฉันกำลังทำงานเกี่ยวกับสถิติสำหรับการสร้างซอฟต์แวร์ ฉันมีข้อมูลสำหรับแต่ละบิลด์เมื่อผ่าน / ไม่ผ่านและเวลาที่ผ่านไปและเราสร้าง ~ 200 ต่อสัปดาห์ อัตราความสำเร็จนั้นง่ายต่อการรวบรวมฉันสามารถพูดได้ว่า 45% ผ่านไปสัปดาห์ใดก็ตาม แต่ฉันต้องการรวมเวลาที่ผ่านไปด้วยและฉันต้องการตรวจสอบให้แน่ใจว่าฉันไม่ได้บิดเบือนข้อมูลที่ไม่ดีเกินไป คิดว่าฉันควรถามข้อดี :-) บอกว่าฉันมี 10 ช่วงเวลา พวกเขาเป็นตัวแทนของทั้งสองกรณีผ่านและล้มเหลว บางงานสร้างล้มเหลวทันทีซึ่งทำให้ระยะเวลาสั้นผิดปกติ บางคนหยุดระหว่างการทดสอบและหมดเวลาในที่สุดทำให้เกิดระยะเวลาที่ยาวนานมาก เราสร้างผลิตภัณฑ์ที่แตกต่างกันดังนั้นการสร้างที่ประสบความสำเร็จก็แตกต่างกันไประหว่าง 90 วินาทีและ 4 ชั่วโมง ฉันอาจได้ชุดแบบนี้: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] วิธีแรกของฉันคือการหาค่ามัธยฐานโดยเรียงลำดับชุดและเลือกค่ากลางในกรณีนี้ 7812 (ฉันไม่ได้ใส่ใจกับค่าเฉลี่ยเลขคณิตสำหรับชุดเลขคู่) น่าเสียดายนี่ดูเหมือนจะสร้างความเปลี่ยนแปลงได้มากมายเนื่องจากฉันเลือกเพียงมูลค่าที่กำหนด ดังนั้นถ้าฉันจะแนวโน้มค่านี้มันจะกระเด้งประมาณระหว่าง 5,000-10,000 วินาทีขึ้นอยู่กับว่ารุ่นใดอยู่ที่ค่ามัธยฐาน เพื่อทำให้เรื่องนี้ราบรื่นขึ้นฉันลองวิธีอื่น - ลบค่าผิดปกติแล้วคำนวณค่าเฉลี่ยของค่าที่เหลือ ฉันตัดสินใจที่จะแยกมันออกเป็น tertiles และทำงานเฉพาะตรงกลาง: [50, 60, …

12 outliers robust average

1

ทำไมไม่ถดถอยอย่างหนักทุกครั้ง?

ตัวอย่างของการแสดงหน้านี้ว่าการถดถอยอย่างง่ายได้รับผลกระทบอย่างเห็นได้ชัดโดยค่าผิดปกติและสามารถเอาชนะได้โดยใช้เทคนิคของการถดถอยที่แข็งแกร่ง: http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ ฉันเชื่อว่า lmrob และ ltsReg เป็นเทคนิคการถดถอยที่มีประสิทธิภาพอื่น ๆ เหตุใดจึงไม่ควรทำการถดถอยที่มีประสิทธิภาพ (เช่น rlm หรือ rq) ทุกครั้งแทนที่จะทำการถดถอยง่าย (lm) มีข้อเสียของเทคนิคการถดถอยที่แข็งแกร่งเหล่านี้หรือไม่ ขอบคุณสำหรับความเข้าใจของคุณ

12 regression multiple-regression robust

1

การประเมินความแข็งแรงของความแข็งแรง?

ฉันกำลังใช้ตัวประมาณปกติสำหรับ kurtosisแต่ฉันสังเกตเห็นว่าแม้แต่ 'ค่าผิดปกติ' ในการแจกแจงเชิงประจักษ์ของฉัน เช่นยอดเขาเล็ก ๆ ห่างจากศูนย์กลางส่งผลกระทบอย่างมาก มีตัวประมาณค่าความโด่งซึ่งมีความทนทานกว่านี้หรือไม่?K^= μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

11 outliers robust moments kurtosis

2

Gaussian แบบหลายตัวแปรที่ทนทานใน R

ฉันต้องพอดีกับการแจกแจงแบบเกาส์ทั่วไปกับคลาวด์ 7-point ที่บรรจุค่าผิดปกติจำนวนมากและมีเลเวอเรจสูง คุณรู้จักแพ็คเกจ R ที่ดีสำหรับงานนี้หรือไม่?

11 r distributions normal-distribution robust

คำถามติดแท็ก robust