มีวิธีการที่แข็งแกร่งจริง ๆ ดีกว่า?


17

ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน

นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ<t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่าα[เสื้อ1,เสื้อ2]α>00เสื้อ1<เสื้อ2[เสื้อ1,เสื้อ2][เสื้อ3,เสื้อ4][เสื้อ1,เสื้อ2][เสื้อ3,เสื้อ4]=. เพื่อลดขนาดของข้อมูลฉันจัดกลุ่มตัวทำนายที่เกี่ยวข้องเข้าด้วยกัน (เช่นเวลารวมของความเครียดทั้งหมดด้วยกัน) และใช้การวิเคราะห์องค์ประกอบหลักเพื่อเป็นตัวแทนของแต่ละคลัสเตอร์ เนื่องจากตัวแปรเบ้ฉันลองสองเส้นทางอื่น:

  • ก่อนทำ PCA ฉันใช้การแปลงลอการิทึมเพื่อลดความเบ้ในตัวแปร
  • ฉันใช้อัลกอริทึม ROBPCA ของ Mia Hubert ตามที่นำมาใช้โดยแพ็คเกจ rrcov ใน R, (PcaHubert) เพื่อค้นหาส่วนประกอบหลักที่แข็งแกร่ง

ฉันใช้รูปร่างโดยรวมของเส้นโค้ง ROC รูปร่างของเส้นโค้งความแม่นยำในการเรียกคืนและพื้นที่ใต้เส้นโค้ง ROC (AUC) เป็นตัววัดประสิทธิภาพการทำงานของฉันและฉันต้องการผลลัพธ์ที่คล้ายกันสำหรับชุดข้อมูล A และ B ฉันคาดหวังว่าจะได้รับผลลัพธ์ที่ดีขึ้นมากจากการใช้ส่วนประกอบหลักที่แข็งแกร่ง แต่ด้วยความประหลาดใจของฉันวิธีแรกทำได้ดีกว่า: ค่า AUC ที่ดีกว่าสำหรับชุดข้อมูล A และ B ทั้งคู่ A และ B มีความคล้ายคลึงกันมากขึ้นระหว่างเส้นโค้ง ROC เส้นโค้ง

คำอธิบายสำหรับสิ่งนี้คืออะไร? และฉันจะใช้ส่วนประกอบหลักที่แข็งแกร่งแทนที่จะพยายามทำให้ข้อมูลของฉันดูเหมือนปกติได้อย่างไร มีวิธี PCA ที่มีประสิทธิภาพที่คุณต้องการแนะนำแทนที่จะเป็น ROBPCA หรือไม่?


"ฉันรวมตัวทำนายที่เกี่ยวข้องเข้าด้วยกัน" คุณสามารถอธิบายขั้นตอนที่เกี่ยวข้องได้ดีขึ้นหรือไม่ "ฉันคาดหวังว่าจะได้รับผลลัพธ์ที่ดีขึ้นมากจากการใช้ส่วนประกอบหลักที่แข็งแกร่ง" คุณช่วยอธิบายว่าคุณวัดผลได้อย่างไร
user603

ทำไมคุณคิดว่าจะเป็นการดีกว่าที่จะรวมชุดข้อมูล ฉันไม่เห็นด้วยเลย ปัญหาหนึ่งที่ปัญหาแบบนี้อาศัยอยู่กับข้อมูลที่เฉพาะเจาะจงมากเกินไป การทดสอบแบบจำลองในชุดข้อมูลอื่นเป็นความคิดที่ดี
Peter Flom - Reinstate Monica

PCA ปกติของตัวแปรบันทึก "ดีกว่า" ในแง่ใด มันใช้งานง่ายกว่านี้ไหม? มันให้ผลลัพธ์ที่ดีขึ้นในชุดข้อมูลที่สองหรือไม่?
Peter Flom - Reinstate Monica

ขอบคุณ @PeterFlom สำหรับความคิดเห็นของคุณ! ฉันได้อัปเดตคำถามตามความคิดเห็นของคุณแล้ว
user765195

ขอบคุณ @ user603 สำหรับความคิดเห็นของคุณ! ฉันได้อัปเดตคำถามเพื่อแสดงความคิดเห็นของคุณแล้ว
user765195

คำตอบ:


17

ในระยะสั้นและจากคำอธิบายของคุณคุณกำลังเปรียบเทียบแอปเปิ้ลกับส้ม .... ในสองวิธี

เข้าสู่ระบบ

ลองพิจารณาตัวอย่างนี้:

library("MASS")
library("copula")
library("rrcov")
p<-2;n<-100;

eps<-0.2
l1<-list()
l3<-list(rate=1)
#generate assymetric data
model<-mvdc(claytonCopula(1,dim=p),c("unif","exp"),list(l1,l3));
x1<-rMvdc(ceiling(n*(1-eps)),model);
#adding 20% of outliers at the end:
x1<-rbind(x1,mvrnorm(n-ceiling(n*(1-eps)),c(7,3),1/2*diag(2))) 

ข้อมูล

ตอนนี้พอดีทั้งสองรุ่น (ROBPCA และ pca คลาสสิกทั้งในบันทึกของข้อมูล):

x2<-log(x1)
v0<-PcaClassic(x2)
v1<-PcaHubert(x2,mcd=FALSE,k=2)

ทีนี้ลองพิจารณาถึงแกนของการแปรผันที่เล็กที่สุดที่พบในแต่ละวิธี (ที่นี่เพื่อความสะดวกผมวางแผนในพื้นที่แปลงล็อก แต่คุณจะได้ข้อสรุปเดียวกันในพื้นที่เดิม)

แบบ

เห็นได้ชัดว่า ROBPCA ทำงานได้ดีกว่าในการจัดการส่วนที่ไม่มีการปนเปื้อนของข้อมูล (จุดสีเขียว):

แต่ตอนนี้ฉันไปถึงจุดที่สองแล้ว

HยูZผมWผม

คุณมีสิ่งนั้น (นี่คือสิ่งที่เงียบสงบที่มองเห็นได้ในพล็อตด้านบน):

ΣผมHยู(Zผม)2<ΣผมHยู(Wผม)2(1)

แต่ดูเหมือนว่าคุณจะประหลาดใจว่า:

Σผม=1n(Zผม)2>Σผม=1n(Wผม)2(2)

- วิธีที่คุณอธิบายขั้นตอนการทดสอบของคุณคุณคำนวณเกณฑ์การประเมินที่เหมาะสมกับชุดข้อมูลทั้งหมดดังนั้นเกณฑ์การประเมินของคุณจึงเป็นฟังก์ชันที่น่าเบื่อของ (2) ที่คุณควรใช้ฟังก์ชันที่น่าเบื่อของ (1) -

ในคำอื่น ๆ อย่าคาดหวังว่าแบบเต็มที่แข็งแกร่งจะมีจำนวนผลรวมของค่ามุมฉากเหลือน้อยกว่าขั้นตอนที่ไม่เสถียรในชุดข้อมูลแบบเต็มของคุณ: ตัวประมาณค่าที่ไม่แข็งแกร่งนั้นเป็นตัวลดขนาดเฉพาะของ SSOR


1
ขอขอบคุณสำหรับการตอบสนองของคุณ. ฉันใช้เวลาสักครู่ในการทดสอบกับข้อมูลอื่นและคิดถึงการตอบกลับของคุณเพื่อทำความเข้าใจกับมันจริงๆ
user765195
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.