มีวิธีการที่แข็งแกร่งจริง ๆ ดีกว่า?

ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน

นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ<t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่า $\alpha$ $[t_1, t_2]$ $\alpha > 0$ $0 \leq t_1 < t_2$ $[t_1, t_2]$ $[t_3,t_4]$ $[t_1,t_2] \cap [t_3,t_4] = \emptyset$ . เพื่อลดขนาดของข้อมูลฉันจัดกลุ่มตัวทำนายที่เกี่ยวข้องเข้าด้วยกัน (เช่นเวลารวมของความเครียดทั้งหมดด้วยกัน) และใช้การวิเคราะห์องค์ประกอบหลักเพื่อเป็นตัวแทนของแต่ละคลัสเตอร์ เนื่องจากตัวแปรเบ้ฉันลองสองเส้นทางอื่น:

ก่อนทำ PCA ฉันใช้การแปลงลอการิทึมเพื่อลดความเบ้ในตัวแปร
ฉันใช้อัลกอริทึม ROBPCA ของ Mia Hubert ตามที่นำมาใช้โดยแพ็คเกจ rrcov ใน R, (PcaHubert) เพื่อค้นหาส่วนประกอบหลักที่แข็งแกร่ง

ฉันใช้รูปร่างโดยรวมของเส้นโค้ง ROC รูปร่างของเส้นโค้งความแม่นยำในการเรียกคืนและพื้นที่ใต้เส้นโค้ง ROC (AUC) เป็นตัววัดประสิทธิภาพการทำงานของฉันและฉันต้องการผลลัพธ์ที่คล้ายกันสำหรับชุดข้อมูล A และ B ฉันคาดหวังว่าจะได้รับผลลัพธ์ที่ดีขึ้นมากจากการใช้ส่วนประกอบหลักที่แข็งแกร่ง แต่ด้วยความประหลาดใจของฉันวิธีแรกทำได้ดีกว่า: ค่า AUC ที่ดีกว่าสำหรับชุดข้อมูล A และ B ทั้งคู่ A และ B มีความคล้ายคลึงกันมากขึ้นระหว่างเส้นโค้ง ROC เส้นโค้ง

คำอธิบายสำหรับสิ่งนี้คืออะไร? และฉันจะใช้ส่วนประกอบหลักที่แข็งแกร่งแทนที่จะพยายามทำให้ข้อมูลของฉันดูเหมือนปกติได้อย่างไร มีวิธี PCA ที่มีประสิทธิภาพที่คุณต้องการแนะนำแทนที่จะเป็น ROBPCA หรือไม่?

— user765195
แหล่งที่มา

"ฉันรวมตัวทำนายที่เกี่ยวข้องเข้าด้วยกัน" คุณสามารถอธิบายขั้นตอนที่เกี่ยวข้องได้ดีขึ้นหรือไม่ "ฉันคาดหวังว่าจะได้รับผลลัพธ์ที่ดีขึ้นมากจากการใช้ส่วนประกอบหลักที่แข็งแกร่ง" คุณช่วยอธิบายว่าคุณวัดผลได้อย่างไร

— user603

ทำไมคุณคิดว่าจะเป็นการดีกว่าที่จะรวมชุดข้อมูล ฉันไม่เห็นด้วยเลย ปัญหาหนึ่งที่ปัญหาแบบนี้อาศัยอยู่กับข้อมูลที่เฉพาะเจาะจงมากเกินไป การทดสอบแบบจำลองในชุดข้อมูลอื่นเป็นความคิดที่ดี

— Peter Flom - Reinstate Monica

PCA ปกติของตัวแปรบันทึก "ดีกว่า" ในแง่ใด มันใช้งานง่ายกว่านี้ไหม? มันให้ผลลัพธ์ที่ดีขึ้นในชุดข้อมูลที่สองหรือไม่?

— Peter Flom - Reinstate Monica

ขอบคุณ @PeterFlom สำหรับความคิดเห็นของคุณ! ฉันได้อัปเดตคำถามตามความคิดเห็นของคุณแล้ว

— user765195

ขอบคุณ @ user603 สำหรับความคิดเห็นของคุณ! ฉันได้อัปเดตคำถามเพื่อแสดงความคิดเห็นของคุณแล้ว

— user765195

ในระยะสั้นและจากคำอธิบายของคุณคุณกำลังเปรียบเทียบแอปเปิ้ลกับส้ม .... ในสองวิธี

$\log$

ลองพิจารณาตัวอย่างนี้:

library("MASS")
library("copula")
library("rrcov")
p<-2;n<-100;

eps<-0.2
l1<-list()
l3<-list(rate=1)
#generate assymetric data
model<-mvdc(claytonCopula(1,dim=p),c("unif","exp"),list(l1,l3));
x1<-rMvdc(ceiling(n*(1-eps)),model);
#adding 20% of outliers at the end:
x1<-rbind(x1,mvrnorm(n-ceiling(n*(1-eps)),c(7,3),1/2*diag(2)))

ข้อมูล

ตอนนี้พอดีทั้งสองรุ่น (ROBPCA และ pca คลาสสิกทั้งในบันทึกของข้อมูล):

x2<-log(x1)
v0<-PcaClassic(x2)
v1<-PcaHubert(x2,mcd=FALSE,k=2)

ทีนี้ลองพิจารณาถึงแกนของการแปรผันที่เล็กที่สุดที่พบในแต่ละวิธี (ที่นี่เพื่อความสะดวกผมวางแผนในพื้นที่แปลงล็อก แต่คุณจะได้ข้อสรุปเดียวกันในพื้นที่เดิม)

แบบ

เห็นได้ชัดว่า ROBPCA ทำงานได้ดีกว่าในการจัดการส่วนที่ไม่มีการปนเปื้อนของข้อมูล (จุดสีเขียว):

แต่ตอนนี้ฉันไปถึงจุดที่สองแล้ว

$H_u$ $z_i$ $w_i$

คุณมีสิ่งนั้น (นี่คือสิ่งที่เงียบสงบที่มองเห็นได้ในพล็อตด้านบน):

\underset{ผม \in H_{ยู}}{Σ} (Z_{ผม})^{2} < \underset{ผม \in H_{ยู}}{Σ} (W_{ผม})^{2} (1)

$\sum_{i\in H_u}(z_i)^2<\sum_{i\in H_u}(w_i)^2\;\;\;(1)$

แต่ดูเหมือนว่าคุณจะประหลาดใจว่า:

Σ_{ผม = 1}^{n} (Z_{ผม})^{2} > Σ_{ผม = 1}^{n} (W_{ผม})^{2} (2)

$\sum_{i=1}^n(z_i)^2>\sum_{i=1}^n(w_i)^2\;\;\;(2)$

- วิธีที่คุณอธิบายขั้นตอนการทดสอบของคุณคุณคำนวณเกณฑ์การประเมินที่เหมาะสมกับชุดข้อมูลทั้งหมดดังนั้นเกณฑ์การประเมินของคุณจึงเป็นฟังก์ชันที่น่าเบื่อของ (2) ที่คุณควรใช้ฟังก์ชันที่น่าเบื่อของ (1) -

ในคำอื่น ๆ อย่าคาดหวังว่าแบบเต็มที่แข็งแกร่งจะมีจำนวนผลรวมของค่ามุมฉากเหลือน้อยกว่าขั้นตอนที่ไม่เสถียรในชุดข้อมูลแบบเต็มของคุณ: ตัวประมาณค่าที่ไม่แข็งแกร่งนั้นเป็นตัวลดขนาดเฉพาะของ SSOR

— user603
แหล่งที่มา

ขอขอบคุณสำหรับการตอบสนองของคุณ. ฉันใช้เวลาสักครู่ในการทดสอบกับข้อมูลอื่นและคิดถึงการตอบกลับของคุณเพื่อทำความเข้าใจกับมันจริงๆ

— user765195