คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

2
การจำแนกประเภทที่มีข้อมูล“ ไม่ทราบ” บางส่วน
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ใช้เวกเตอร์ของตัวเลขเป็นอินพุตและให้เลเบลของคลาสเป็นเอาต์พุต ข้อมูลการฝึกอบรมของฉันประกอบด้วยคู่ของอินพุตและเอาท์พุตจำนวนมาก อย่างไรก็ตามเมื่อฉันมาทดสอบข้อมูลใหม่บางอย่างข้อมูลนี้จะสมบูรณ์เพียงบางส่วนเท่านั้น ตัวอย่างเช่นถ้าเวกเตอร์การป้อนข้อมูลมีความยาว 100 อาจมีเพียง 30 องค์ประกอบเท่านั้นที่จะได้รับค่า เป็นตัวอย่างของสิ่งนี้พิจารณาการรู้จำภาพเมื่อเป็นที่ทราบกันว่าส่วนหนึ่งของภาพนั้นถูกบดบัง หรือพิจารณาการจัดประเภทในแง่ทั่วไปที่ทราบว่าส่วนหนึ่งของข้อมูลเสียหาย ในทุกกรณีฉันรู้ว่าองค์ประกอบใดในเวกเตอร์ข้อมูลคือส่วนที่ไม่รู้จัก ฉันสงสัยว่าฉันจะเรียนรู้ลักษณนามที่จะทำงานกับข้อมูลประเภทนี้ได้อย่างไร ฉันสามารถตั้งค่าองค์ประกอบที่ "ไม่รู้จัก" เป็นตัวเลขสุ่ม แต่เนื่องจากมีองค์ประกอบที่ไม่รู้จักมากกว่าที่รู้จักบ่อยครั้งสิ่งนี้ไม่ได้ดูเหมือนโซลูชันที่ดี หรือฉันสามารถเปลี่ยนองค์ประกอบในข้อมูลการฝึกอบรมเป็น "ไม่ทราบ" และฝึกอบรมกับสิ่งเหล่านี้แทนที่จะเป็นข้อมูลที่สมบูรณ์ แต่อาจต้องมีการสุ่มตัวอย่างแบบละเอียดขององค์ประกอบที่รู้จักและไม่รู้จักทั้งหมด โดยเฉพาะอย่างยิ่งฉันกำลังคิดเกี่ยวกับโครงข่ายประสาท ความคิดใด ๆ ขอบคุณ!

1
เกณฑ์การคำนวณสำหรับตัวแยกประเภทความเสี่ยงขั้นต่ำ
สมมติว่าสองชั้นและมีแอตทริบิวต์และมีการกระจายและ0.5) หากเรามีค่าเท่ากับก่อนหน้าสำหรับเมทริกซ์ต้นทุนต่อไปนี้:C 2 x N ( 0 , 0.5 ) N ( 1 , 0.5 ) P ( C 1 ) = P ( C 2 ) = 0.5ค1C1C_1ค2C2C_2xxxยังไม่มีข้อความ( 0 , 0 . 5 )N(0,0.5) \cal{N} (0, 0.5)ยังไม่มีข้อความ( 1 , 0 . 5 )N(1,0.5) \cal{N} (1, 0.5)P( C1) = P( …

1
เมื่อใดที่ต้องใช้สิ่งเจือปน Gini และเมื่อใดที่จะใช้ข้อมูลได้รับ?
บางคนช่วยอธิบายให้ฉันทราบได้เมื่อใดที่จะใช้สิ่งเจือปนและข้อมูลที่ได้จากการตัดสินใจของ Gini? คุณสามารถให้สถานการณ์ / ตัวอย่างแก่ฉันเมื่อใดดีที่สุดที่จะใช้

3
ช่วงความเชื่อมั่นสำหรับความถูกต้องของการจำแนกประเภทที่ผ่านการตรวจสอบความถูกต้อง
ฉันกำลังทำงานกับปัญหาการจัดหมวดหมู่ที่คำนวณความคล้ายคลึงกันระหว่างภาพเอ็กซเรย์อินพุตสองภาพ หากภาพเป็นของคนคนเดียวกัน (ป้ายกำกับของ 'ขวา') ระบบจะคำนวณตัวชี้วัดที่สูงกว่า ภาพอินพุตของคนสองคนที่แตกต่างกัน (ป้ายกำกับของ 'ผิด') จะส่งผลให้เมตริกต่ำลง ฉันใช้การตรวจสอบความถูกต้องข้าม 10 ชั้นแบบแบ่งชั้นเพื่อคำนวณความน่าจะเป็นการแยกประเภท ขนาดตัวอย่างปัจจุบันของฉันอยู่ที่ประมาณ 40 แมตช์ที่ถูกต้องและ 80 แมตช์ที่ไม่ถูกต้องที่แต่ละดาต้าพอยน์เป็นเมตริกที่คำนวณได้ ฉันได้รับความน่าจะเป็นการแยกประเภทที่ 0.00 แต่ฉันต้องการการวิเคราะห์ช่วงความเชื่อมั่น / ข้อผิดพลาดบางอย่างเกี่ยวกับเรื่องนี้ ฉันมองหาการใช้ช่วงความมั่นใจในสัดส่วนทวินาม (ซึ่งฉันจะใช้ผลลัพธ์ของการตรวจสอบข้ามว่าเป็นการติดฉลากที่ถูกต้องหรือการติดฉลากที่ไม่ถูกต้องสำหรับจำนวนความสำเร็จของฉัน) อย่างไรก็ตามหนึ่งในสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ทวินามคือความน่าจะเป็นที่เหมือนกันของความสำเร็จสำหรับการทดลองแต่ละครั้งและฉันไม่แน่ใจว่าวิธีการจำแนกประเภทของ 'ถูกต้อง' หรือ 'ผิด' ในการตรวจสอบไขว้นั้น ความน่าจะเป็นเหมือนกันของความสำเร็จ การวิเคราะห์อื่น ๆ ที่ฉันคิดได้คือทำซ้ำการตรวจสอบความถูกต้องข้าม X ครั้งและคำนวณค่าเฉลี่ย / ส่วนเบี่ยงเบนมาตรฐานของข้อผิดพลาดการจัดหมวดหมู่ แต่ฉันไม่แน่ใจว่าสิ่งนี้เหมาะสมหรือไม่เพราะฉันจะนำข้อมูลจาก ขนาดตัวอย่างค่อนข้างเล็กหลายครั้ง ความคิดใด ๆ ฉันใช้ MATLAB สำหรับการวิเคราะห์ทั้งหมดของฉันและฉันมีกล่องเครื่องมือสถิติ จะขอบคุณความช่วยเหลือใด ๆ และทั้งหมด!

1
ค่าเฉลี่ยความแม่นยำและการเรียกคืนเมื่อใช้การตรวจสอบความถูกต้องข้าม
ฉันทำการจำแนกประเภทโดยใช้ตัวแยกประเภทหลายตัวสำหรับข้อมูลที่มีป้ายกำกับ 2 ชั้นและฉันใช้การตรวจสอบความถูกต้องไขว้ 5 เท่า สำหรับแต่ละเท่าฉันคำนวณ tp, tn, fp และ fn จากนั้นฉันคำนวณความแม่นยำความแม่นยำการเรียกคืนและคะแนน F สำหรับการทดสอบแต่ละครั้ง คำถามของฉันคือเมื่อฉันต้องการผลลัพธ์โดยเฉลี่ยฉันใช้ค่าความถูกต้องโดยเฉลี่ย แต่ฉันสามารถหาค่าเฉลี่ยความแม่นยำการเรียกคืนและคะแนน F ได้หรือไม่ หรือนี่จะผิดทางคณิตศาสตร์หรือไม่? PS ชุดข้อมูลที่ใช้ในแต่ละครั้งนั้นมีความสมดุลในแง่ของจำนวนอินสแตนซ์ต่อคลาส ขอบคุณ

2
การจำแนกอนุกรมเวลา - ผลลัพธ์ที่แย่มาก
ฉันกำลังทำงานเกี่ยวกับปัญหาการจำแนกอนุกรมเวลาที่อินพุตเป็นข้อมูลการใช้เสียงอนุกรมเวลา (เป็นวินาที) สำหรับ 21 วันแรกของบัญชีโทรศัพท์มือถือ ตัวแปรเป้าหมายที่สอดคล้องกันคือยกเลิกบัญชีนั้นในช่วง 35-45 วันหรือไม่ ดังนั้นมันจึงเป็นปัญหาการจำแนกเลขฐานสอง ฉันได้รับผลลัพธ์ที่แย่มากจากวิธีการทั้งหมดที่ฉันได้ลองมา (จนถึงระดับที่แตกต่างกัน) ก่อนอื่นฉันลองจำแนก k-NN (ด้วยการดัดแปลงต่าง ๆ ) และได้ผลลัพธ์ที่แย่มาก สิ่งนี้นำฉันไปสู่การแยกคุณลักษณะต่างๆจากอนุกรมเวลา - นั่นคือค่าเฉลี่ยความแปรปรวนค่าสูงสุดนาทีค่าศูนย์รวมจำนวนวันที่เป็นศูนย์ทั้งหมดความแตกต่างระหว่างค่าเฉลี่ยครึ่งปีแรกและค่าเฉลี่ยครึ่งปีหลังเป็นต้น วันเป็นศูนย์และศูนย์วันทั้งหมดต่อท้าย (โดยใช้อัลกอริทึมการจำแนกประเภทต่างๆ) สิ่งนี้ทำได้ดีที่สุด แต่ประสิทธิภาพก็ยังไม่ดีนัก กลยุทธ์ต่อไปของฉันคือการใช้งานอินสแตนซ์เชิงลบในชุดการฝึกอบรมของฉันเนื่องจากมีจำนวนน้อยมาก สิ่งนี้ส่งผลให้การทำนายการยกเลิกถูกต้องมากขึ้น ฉันเริ่มคิดว่าบางทีข้อมูลการใช้อนุกรมเวลาอาจไม่สามารถคาดการณ์ได้มากนัก (แม้ว่าสามัญสำนึกบอกว่าควรจะเป็น) บางทีอาจมีตัวแปรแฝงที่ฉันไม่ได้พิจารณา การดูข้อมูลยังแสดงพฤติกรรมแปลก ๆ นั่นคือตัวอย่างบางส่วนแสดงการใช้งานน้อยมากหรือลดลง (หรือบางครั้งไม่มีเลย) และอย่ายกเลิกและบางคนแสดงการใช้งานที่เพิ่มขึ้นซึ่งยกเลิก บางทีพฤติกรรมที่ขัดแย้งนี้ไม่ได้สร้างขอบเขตการตัดสินใจที่ชัดเจนมากสำหรับตัวจําแนก แหล่งที่มาที่เป็นไปได้สำหรับข้อผิดพลาดคือข้อเท็จจริงที่ว่าตัวอย่างการฝึกอบรมจำนวนมากกระจัดกระจายมาก (เช่นหลายวันที่มีการใช้งาน 0 ครั้ง) แนวคิดหนึ่งที่ฉันยังไม่ได้ลองคือการแบ่งซีรีย์เวลาออกเป็นเซ็กเมนต์และสร้างคุณลักษณะบางอย่างในแบบนั้น แต่ฉันไม่มีความหวังสูง

2
เปรียบเทียบตัวแยกประเภทตาม AUROC หรือความแม่นยำ
ฉันมีปัญหาการจำแนกเลขฐานสองและฉันได้ทดสอบตัวแยกประเภทที่แตกต่างกัน: ฉันต้องการเปรียบเทียบตัวแยกประเภท ข้อใดเป็นค่าวัด AUC หรือความแม่นยำที่ดีกว่า และทำไม? Raondom Forest: AUC: 0.828 Accuracy: 79.6667 % SVM: AUC: 0.542 Accuracy: 85.6667 %

2
การวัดความไม่สามารถแยกชั้นได้ในปัญหาการจำแนกประเภท
ตัวอย่างของการวัดความสามารถในการแบ่งแยกชั้นเรียนที่ดีในผู้เรียนที่เลือกปฏิบัติแบบเส้นตรงคืออัตราส่วนการจำแนกเชิงเส้นของฟิชเชอร์ มีตัวชี้วัดที่มีประโยชน์อื่น ๆ หรือไม่ในการพิจารณาว่าชุดคุณลักษณะให้การแยกคลาสที่ดีระหว่างตัวแปรเป้าหมายหรือไม่ โดยเฉพาะอย่างยิ่งฉันสนใจในการค้นหาแอตทริบิวต์อินพุตหลายตัวแปรที่ดีสำหรับการเพิ่มการแยกชั้นเป้าหมายและมันจะดีถ้ามีการวัดแบบไม่เชิงเส้น / ไม่อิงพารามิเตอร์เพื่อกำหนดว่าการแยกนั้นดีหรือไม่

3
ความสำคัญของตัวแปรในการถดถอยโลจิสติกส์
ฉันอาจจะจัดการกับปัญหาที่อาจแก้ไขได้หลายร้อยครั้งก่อนหน้านี้ แต่ฉันไม่แน่ใจว่าจะหาคำตอบได้ที่ไหน เมื่อใช้การถดถอยโลจิสติกให้คุณสมบัติมากมายและพยายามทำนายค่าหมวดหมู่ไบนารีฉันสนใจในการเลือกชุดย่อยของคุณสมบัติที่ทำนายดี y yx1, . . . , xnx1,...,xnx_1,...,x_nYyyYyy มีขั้นตอนคล้ายกับบ่วงบาศที่สามารถใช้ได้หรือไม่? (ฉันเคยเห็นบ่วงบาศที่ใช้สำหรับการถดถอยเชิงเส้นเท่านั้น) ดูที่ค่าสัมประสิทธิ์ของรุ่นที่ติดตั้งแล้วซึ่งบ่งบอกถึงความสำคัญของคุณสมบัติที่แตกต่างกันหรือไม่? แก้ไข - การชี้แจงหลังจากเห็นคำตอบบางส่วน: เมื่อฉันอ้างถึงขนาดของสัมประสิทธิ์การติดตั้งฉันหมายถึงคุณลักษณะที่ได้รับการปรับให้เป็นมาตรฐาน (หมายถึง 0 และความแปรปรวน 1) มิฉะนั้นตามที่ @probabilityislogic ชี้ให้เห็น 1000x จะมีความสำคัญน้อยกว่า x ฉันไม่สนใจเพียงแค่ค้นหา k-subset ที่ดีที่สุด (ตามที่ @Davide กำลังนำเสนอ) แต่ให้น้ำหนักความสำคัญของคุณลักษณะที่แตกต่างกันเมื่อเทียบกัน ตัวอย่างเช่นคุณลักษณะหนึ่งอาจเป็น "อายุ" และอีกคุณสมบัติหนึ่งคืออายุ> 30 " ความสำคัญที่เพิ่มขึ้นของพวกเขาอาจมีเพียงเล็กน้อย แต่ทั้งคู่อาจมีความสำคัญ

2
ใช้ Adaboost กับ SVM สำหรับการจำแนกประเภท
ฉันรู้ว่าAdaboostพยายามที่จะสร้างลักษณนามที่แข็งแกร่งโดยใช้การรวมกันเชิงเส้นของชุดตัวจําแนกอ่อนแอ แต่ผมได้อ่านเอกสารบางคนบอก AdaBoost และจำแนกการทำงานในความสามัคคี (แม้ว่า SVM เป็นลักษณนามแรง) ในเงื่อนไขบางอย่างและกรณี ฉันไม่สามารถเข้าใจจากมุมมองสถาปัตยกรรมและการเขียนโปรแกรมว่าทำงานร่วมกันได้อย่างไร ฉันได้อ่านรายงานจำนวนมาก (อาจผิดพลาด) ซึ่งไม่ได้อธิบายอย่างชัดเจนว่าพวกเขาทำงานร่วมกันอย่างไร บางคนสามารถแสดงให้เห็นว่าพวกเขาทำงานร่วมกันอย่างไรเพื่อการจำแนกที่มีประสิทธิภาพ? ตัวชี้ไปยังเอกสาร / บทความ / วารสารก็จะได้รับการชื่นชม

4
เป็นไปได้ที่จะได้รับ ANN ที่ดีขึ้นโดยการลบการเชื่อมต่อบางอย่าง?
ฉันสงสัยว่าในบางสถานการณ์มีความเป็นไปได้ที่ ANN จะทำงานได้ดีขึ้นหรือไม่ถ้าคุณตัดการเชื่อมต่อบางอย่างกับพวกเขาเป็นตัวอย่าง: สร้าง ANN หนึ่งอันโดยใช้ A และ B หลายชั้นของ ANN แบบสองชั้นในแบบคู่ขนาน (โหนดอินพุตและเอาต์พุตเดียวกัน) เพิ่มการเชื่อมต่อ "การสื่อสาร" สองสามอย่างระหว่างเลเยอร์ A และ B ที่ซ่อนอยู่? เราจะได้ผลลัพธ์ที่ดีกว่า นี่ใช้ในทางปฏิบัติหรือไม่ใช้แค่เครือข่ายที่เชื่อมต่อแบบหลายชั้นเสมอ

1
ขยายโมเดล 2 ระดับไปสู่ปัญหาหลายระดับ
บทความเกี่ยวกับ Adaboostนี้จะให้คำแนะนำและรหัส (หน้า 17) สำหรับการขยายโมเดล 2-class ไปสู่ปัญหา K-class ฉันต้องการที่จะพูดคุยรหัสนี้เพื่อที่ฉันสามารถเสียบรุ่น 2 ระดับที่แตกต่างกันได้อย่างง่ายดายและเปรียบเทียบผลลัพธ์ เนื่องจากโมเดลการจำแนกประเภทส่วนใหญ่มีอินเตอร์เฟสสูตรและpredictวิธีการบางอย่างนี้จึงค่อนข้างง่าย น่าเสียดายที่ฉันไม่พบวิธีการแยกความน่าจะเป็นแบบคลาสจากแบบจำลอง 2 ระดับดังนั้นแต่ละรุ่นจะต้องใช้รหัสที่กำหนดเอง นี่คือฟังก์ชั่นที่ฉันเขียนเพื่อแบ่งปัญหา K-class ออกเป็นปัญหา 2 ระดับและคืน K โมเดล: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) …

3
รูปแบบการจัดประเภทสำหรับการทำนายเรตภาพยนตร์
ฉันค่อนข้างใหม่ในการขุดข้อมูลและฉันกำลังทำงานกับรูปแบบการจัดหมวดหมู่สำหรับการทำนายการจัดอันดับภาพยนตร์ ฉันได้รวบรวมชุดข้อมูลจาก IMDB และฉันวางแผนที่จะใช้ต้นไม้ตัดสินใจและแนวทางเพื่อนบ้านที่ใกล้ที่สุดสำหรับแบบจำลองของฉัน ฉันต้องการที่จะรู้ว่าเครื่องมือการขุดข้อมูลที่สามารถใช้งานได้อย่างอิสระสามารถให้การทำงานที่ฉันต้องการ

2
จัดระเบียบแผนภูมิการจัดหมวดหมู่ (ใน rpart) เป็นชุดของกฎหรือไม่
มีวิธีที่เมื่อต้นไม้การจำแนกที่ซับซ้อนถูกสร้างขึ้นโดยใช้ rpart (ใน R) เพื่อจัดระเบียบกฎการตัดสินใจสำหรับแต่ละชั้นหรือไม่? ดังนั้นแทนที่จะได้รับต้นไม้ใหญ่หนึ่งต้นเราจะได้ชุดของกฎสำหรับแต่ละชั้นเรียน (ถ้าเป็นเช่นนั้นได้อย่างไร) นี่คือตัวอย่างรหัสง่ายๆที่จะแสดงตัวอย่างใน: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ขอบคุณ
11 r  classification  cart  rpart 

3
มีห้องสมุดใดบ้างสำหรับวิธีการแบบ CART ที่ใช้ตัวทำนายและการตอบสนองแบบกระจัดกระจาย?
ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน) เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrixสามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้ ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น: นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้ การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง ขอบคุณล่วงหน้า!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.