คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

1
ชื่อของอะนาล็อกข้อผิดพลาดแบบสัมบูรณ์ถึงคะแนน Brier หรือไม่?
คำถามเมื่อวานนี้กำหนดความแม่นยำของแบบจำลองซึ่งประมาณความน่าจะเป็นของเหตุการณ์ทำให้ฉันสงสัยเกี่ยวกับการให้คะแนนความน่าจะเป็น หนามคะแนน เป็นตัวชี้วัดข้อผิดพลาดเฉลี่ยกำลังสอง การวัดประสิทธิภาพข้อผิดพลาดแบบอะนาล็อกหมายความว่าแบบอะนา มีชื่อด้วยใช่ไหม11ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ( p r e dฉันคทีฉันo nผม- r e fe r e n c eผม)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ| predฉันคทีฉันo nผม- r e fe r e n c eผม|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

1
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

1
อัลกอริทึมการจำแนกประเภทใดที่เราควรใช้หลังจากเห็นว่า t-SNE แยกคลาสได้ดี?
สมมติว่าเรามีปัญหาการจัดหมวดหมู่และในตอนแรกเราต้องการรับข้อมูลเชิงลึกจากนั้นจึงทำการ t-SNE ผลลัพธ์ของ t-SNE แยกคลาสได้เป็นอย่างดี นี่ก็หมายความว่ามันเป็นไปได้ที่จะสร้างรูปแบบการจำแนกประเภทที่จะแยกชั้นเรียนได้เป็นอย่างดี (ถ้า t-SNE ไม่แยกจากกันก็ไม่ได้แปลว่ามาก) การรู้ว่า t-SNE มุ่งเน้นไปที่โครงสร้างภายในและสามารถแยกชั้นเรียนได้เป็นอย่างดี: อัลกอริธึมการจำแนกประเภทใดที่ทำงานได้ดีกับปัญหานี้ Scikit แนะนำ SVM ด้วยเคอร์เนล Gaussian RBF แต่คนอื่น ๆ คืออะไร?

2
เพิ่มประสิทธิภาพ auc vs logloss ในปัญหาการจำแนกประเภทไบนารี
ฉันกำลังทำงานการจำแนกประเภทแบบไบนารีที่ความน่าจะเป็นผลลัพธ์อยู่ในระดับต่ำ (ไม่เกิน 3%) ฉันกำลังพยายามตัดสินใจว่าจะเพิ่มประสิทธิภาพโดย AUC หรือบันทึกการสูญเสีย เท่าที่ฉันเข้าใจ AUC จะเพิ่มความสามารถของโมเดลในการแยกแยะระหว่างคลาสขณะที่ logloss จะลงโทษความแตกต่างระหว่างความน่าจะเป็นจริงและประมาณ ในงานของฉันเป็นสิ่งสำคัญอย่างยิ่งในการสอบเทียบความถูกต้องแม่นยำ ดังนั้นฉันจะเลือก logloss แต่ฉันสงสัยว่ารูปแบบการบันทึกที่ดีที่สุดควรเป็น AUC / GINI ที่ดีที่สุดหรือไม่

1
จะลดจำนวนผลบวกปลอมได้อย่างไร
ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

1
การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)
ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ ก่อนชื่อของฉันเป็นอย่างไร ตอนนี้คำถามจริง: ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น

3
การตรวจจับค่าผิดปกติในชุดเล็กมาก
ฉันต้องได้ค่าที่ถูกต้องที่สุดเท่าที่จะเป็นไปได้สำหรับความสว่างของแหล่งกำเนิดแสงที่เสถียรเป็นหลักซึ่งให้ค่าความส่องสว่างตัวอย่างสิบสองค่า เซ็นเซอร์ไม่สมบูรณ์และแสงบางครั้งอาจ "กะพริบ" สว่างขึ้นหรือมืดลงซึ่งสามารถเพิกเฉยได้ดังนั้นฉันจึงจำเป็นต้องมีการตรวจจับในระยะไกล (ฉันคิดว่า?) ฉันได้อ่านวิธีการต่าง ๆ ที่นี่และไม่สามารถตัดสินใจได้ว่าจะใช้วิธีใด จำนวนของค่าผิดปกติไม่เคยทราบล่วงหน้าและมักจะเป็นศูนย์ โดยทั่วไปการสั่นไหวนั้นเป็นค่าเบี่ยงเบนขนาดใหญ่มากจากความสว่างที่คงที่ (เพียงพอที่จะยุ่งกับค่าเฉลี่ยที่ถ่ายด้วยของที่มีขนาดใหญ่) แต่ไม่จำเป็นต้องเป็นเช่นนั้น ต่อไปนี้เป็นตัวอย่างชุดการวัด 12 รายการสำหรับความสมบูรณ์ของคำถาม: 295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837 ความรู้สึกของฉันไม่น่าจะมีค่าผิดปกติในชุดนั้นแม้ว่า 292 และ 295 ดูสูงเล็กน้อย ดังนั้นคำถามของฉันคืออะไรวิธีที่ดีที่สุดที่นี่? ฉันควรพูดถึงว่าค่ามาจากการใช้ระยะทางแบบยุคลิดของส่วนประกอบ RG และ B ของแสงจากจุดศูนย์ (สีดำ) มันจะเจ็บปวดโดยทางโปรแกรม แต่เป็นไปได้ที่จะกลับไปใช้ค่าเหล่านี้หากจำเป็น ระยะทางแบบยุคลิดนั้นใช้เป็นตัวชี้วัดของ "ความแข็งแรงโดยรวม" เนื่องจากฉันไม่ได้สนใจสีแค่ความแรงของเอาท์พุท อย่างไรก็ตามมีโอกาสที่เหมาะสมที่กะพริบที่ฉันกล่าวถึงมีองค์ประกอบ RGB ที่แตกต่างกันไปยังเอาต์พุตปกติ ในขณะนี้ฉันกำลังเล่นกับฟังก์ชั่นบางอย่างที่จะทำซ้ำจนกว่าจะถึงการเป็นสมาชิกที่มั่นคงของมาตรการที่ได้รับอนุญาต: การหาค่าเบี่ยงเบนมาตรฐาน วางทุกอย่างไว้นอกพูด …


3
เหตุใดมิติข้อมูล VC จึงมีความสำคัญ
Wikipediaบอกว่า: มิติ VC คือความสำคัญของชุดแต้มที่ใหญ่ที่สุดที่อัลกอริทึมสามารถสลาย ตัวอย่างเช่นลักษณนามเชิงเส้นมี cardinality n + 1 คำถามของฉันคือทำไมเราสนใจ ชุดข้อมูลส่วนใหญ่ที่คุณทำการจัดหมวดหมู่เชิงเส้นมีแนวโน้มที่จะมีขนาดใหญ่มากและมีจำนวนมากของคะแนน

3
จะสร้างเมทริกซ์ความสับสนสำหรับตัวแยกประเภทมัลติคลาสได้อย่างไร?
ฉันมีปัญหากับ 6 คลาส ดังนั้นฉันจึงสร้างตัวแยกประเภทมัลติคลาสดังนี้สำหรับแต่ละคลาสฉันมีลักษณนามลอจิสติกการถดถอยหนึ่งตัวโดยใช้ One vs. All ซึ่งหมายความว่าฉันมี 6 ลักษณนามที่แตกต่างกัน ฉันสามารถรายงานเมทริกซ์ความสับสนสำหรับตัวแยกประเภทแต่ละคนของฉัน แต่ฉันต้องการรายงานความสับสนของตัวแยกประเภททั้งหมดดังที่ฉันเห็นในตัวอย่างมากมายที่นี่ ฉันจะทำมันได้อย่างไร ฉันต้องเปลี่ยนกลยุทธ์การจัดหมวดหมู่ของฉันโดยใช้อัลกอริทึม One vs. One แทน One vs. All หรือไม่ เพราะในการฝึกอบรมความสับสนเหล่านี้รายงานกล่าวว่าผลบวกปลอมสำหรับแต่ละชั้นเรียน ตัวอย่างของเมทริกซ์ความสับสนหลายระดับ ฉันต้องการค้นหาจำนวนรายการที่ไม่ถูกจำแนก ในแถวแรกมี 137 ตัวอย่างของชั้นที่ 1 ที่ได้รับการจัดเป็นชั้นที่ 1 และ 13 ตัวอย่างของชั้นที่ 1 ที่ได้รับการจัดเป็นระดับ 2 วิธีรับหมายเลขนี้

1
วิธีใช้ตอการตัดสินใจในฐานะผู้เรียนที่อ่อนแอใน Adaboost
ฉันต้องการใช้ Adaboost โดยใช้ Decision Stump ถูกต้องหรือไม่ที่จะทำการตัดสินใจตอให้มากที่สุดเท่าที่คุณสมบัติของชุดข้อมูลของเราในแต่ละการซ้ำของ Adaboost ตัวอย่างเช่นถ้าฉันมีชุดข้อมูลที่มี 24 คุณลักษณะฉันควรมีตัวแยกประเภทตอการตัดสินใจ 24 ครั้งในการวนซ้ำแต่ละครั้งหรือไม่ หรือฉันควรเลือกคุณสมบัติบางอย่างแบบสุ่มและสร้างตัวจําแนกพวกมันแทนคุณสมบัติทั้งหมดหรือไม่

5
เหตุใดเราจึงปฏิเสธสมมติฐานว่างที่ระดับ 0.05 และไม่ใช่ระดับ 0.5 (อย่างที่เราทำในการจำแนกประเภท)
การทดสอบสมมติฐานจะคล้ายกับปัญหาการจำแนกประเภท ดังนั้นเราจึงมี 2 ป้ายกำกับที่เป็นไปได้สำหรับการสังเกต (เรื่อง) - ความผิดเทียบกับการไม่ผิด ปล่อยให้ผู้ที่ไม่มีความผิดเป็นสมมุติฐานว่าง หากเราดูปัญหาจากมุมมองการจัดหมวดหมู่เราจะฝึกอบรมลักษณนามซึ่งจะทำนายความน่าจะเป็นของเรื่องที่อยู่ในแต่ละชั้นเรียนทั้งสองได้รับข้อมูล จากนั้นเราจะเลือกคลาสที่มีความน่าจะเป็นสูงสุด ในกรณีนั้นความน่าจะเป็น 0.5 จะเป็นเกณฑ์ปกติ เราอาจแตกต่างกันไปตามเกณฑ์ในกรณีที่เรากำหนดค่าใช้จ่ายที่แตกต่างให้กับข้อผิดพลาดที่เป็นเท็จบวกกับลบ แต่ไม่ค่อยเราจะไปสุดโต่งเช่นการตั้งค่าเกณฑ์ที่ 0.05 คือกำหนดเรื่องให้กับ Class "ผิด" เฉพาะในกรณีที่น่าจะเป็น 0.95 หรือสูงกว่า แต่ถ้าฉันเข้าใจดี นี่คือสิ่งที่เรากำลังทำอยู่เป็นแบบฝึกหัดมาตรฐานเมื่อเรามองปัญหาเดียวกันกับปัญหาของการทดสอบสมมติฐาน ในกรณีหลังนี้เราจะไม่กำหนดป้ายกำกับ "ไม่ใช่ผู้กระทำผิด" - เทียบเท่ากับกำหนดป้ายกำกับ "ผู้กระทำผิด" - เฉพาะในกรณีที่ความเป็นไปได้ที่จะเป็น "ผู้กระทำผิด" น้อยกว่า 5% และบางทีนี่อาจสมเหตุสมผลถ้าเราต้องการหลีกเลี่ยงการลงโทษผู้บริสุทธิ์ แต่ทำไมกฎนี้ควรเหนือกว่าในโดเมนทั้งหมดและทุกกรณี การตัดสินใจว่าสมมติฐานใดที่จะนำมาใช้นั้นเทียบเท่ากับการกำหนดตัวประมาณความจริงที่ให้ไว้กับข้อมูล ในการประมาณค่าความน่าจะเป็นสูงสุดเรายอมรับสมมติฐานที่มีแนวโน้มที่จะได้รับข้อมูลมากขึ้น - ไม่จำเป็นว่าจะมีโอกาสมากกว่า ดูกราฟด้านล่าง: การใช้วิธีความเป็นไปได้สูงสุดเราจะสนับสนุนสมมติฐานทางเลือกในตัวอย่างนี้หากค่าของ Predictor สูงกว่า 3 เช่น 4 แม้ว่าความน่าจะเป็นที่ค่านี้จะได้รับมาจากสมมติฐานของ Null จะมีขนาดใหญ่กว่า …

2
การเรียนรู้ที่เพิ่มขึ้นสำหรับแบบจำลองการจำแนกใน R
สมมติว่าฉันมีตัวจําแนก(อาจเป็นตัวจําแนกมาตรฐานใด ๆ เช่นต้นไม้ตัดสินใจ, ฟอเรสต์แบบสุ่ม, การถดถอยโลจิสติกและอื่น ๆ )สำหรับการตรวจจับการฉ้อโกงโดยใช้รหัสด้านล่าง library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome - Fraud/Not-Fraud ตอนนี้ฉันได้คาดการณ์ชุดข้อมูลที่มองไม่เห็น pred = predict(rfFit, newData) แล้วฉันจะได้รับการตอบรับจากทีมสืบสวนเกี่ยวกับการจำแนกของฉันและพบว่าฉันได้ทำผิดพลาดของการจำแนกประเภทที่หลอกลวงไม่ทุจริต (เช่นหนึ่งลบเท็จ ) มีอยู่หรือไม่ที่ฉันสามารถให้อัลกอริทึมของฉันเข้าใจว่ามันทำผิดพลาดหรือไม่? เช่นวิธีใดในการเพิ่มลูปข้อเสนอแนะไปยังอัลกอริทึมเพื่อให้สามารถแก้ไขข้อผิดพลาดได้ ทางเลือกหนึ่งที่ฉันสามารถนึกได้จากส่วนบนของหัวคือการสร้างตัวadaboost classifierแยกประเภทใหม่เพื่อแก้ไขข้อผิดพลาดของตัวเก่า หรือผมเคยได้ยินอะไรบางอย่างหรือIncremental Learning Online learningมีการใช้งาน (แพ็คเกจ) ที่มีอยู่Rหรือไม่? …

2
เหตุใดตัวจําแนกแบบเบย์จึงเป็นลักษณนามในอุดมคติ
จะถือว่าเป็นกรณีที่เหมาะที่โครงสร้างความน่าจะเป็นพื้นฐานที่เป็นที่รู้จักกันอย่างสมบูรณ์แบบหมวดหมู่ เหตุใดจึงใช้ตัวจําแนกเบส์เพื่อให้ได้ประสิทธิภาพที่ดีที่สุดที่สามารถทำได้ หลักฐาน / คำอธิบายอย่างเป็นทางการสำหรับสิ่งนี้คืออะไร? เนื่องจากเราใช้ตัวจําแนกเบส์เป็นเกณฑ์มาตรฐานเพื่อเปรียบเทียบประสิทธิภาพของตัวจําแนกอื่น ๆ ทั้งหมด

3
ฟังก์ชั่นการสูญเสียใดควรใช้เพื่อให้ได้ลักษณนามไบนารีที่มีความแม่นยำสูงหรือสูง
ฉันกำลังพยายามสร้างตัวตรวจจับวัตถุที่เกิดขึ้นน้อยมาก (ในภาพ) วางแผนที่จะใช้ตัวแยกประเภทไบนารี CNN ที่ใช้ในหน้าต่างแบบเลื่อน / ปรับขนาด ฉันได้สร้างชุดการฝึกอบรมและการทดสอบเชิงลบ 1: 1 ที่สมดุล (เป็นสิ่งที่ถูกต้องหรือไม่ที่จะทำในกรณีเช่นนี้ btw?) และตัวจําแนกทำดีในชุดทดสอบในแง่ของความถูกต้อง ตอนนี้ฉันต้องการควบคุมการจำ / ความแม่นยำของตัวจําแนกของฉันดังนั้นตัวอย่างเช่นมันจะไม่ติดฉลากผิดที่เกิดขึ้นในชั้นเรียนส่วนใหญ่มากเกินไป วิธีแก้ปัญหาที่ชัดเจน (สำหรับฉัน) คือการใช้การสูญเสียแบบโลจิสติกส์เดียวกันซึ่งตอนนี้ใช้ แต่ข้อผิดพลาดน้ำหนักประเภท I และ Type II แตกต่างกันโดยการคูณการสูญเสียในหนึ่งในสองกรณีในค่าคงที่บางอย่างซึ่งสามารถปรับได้ ถูกต้องหรือไม่ ป.ล. ในความคิดที่สองนี่เทียบเท่ากับการยกน้ำหนักตัวอย่างการฝึกอบรมมากกว่าตัวอย่างอื่น เพียงแค่เพิ่มคลาสที่มากกว่าหนึ่งชั้นจะทำให้ฉันคิดว่าเหมือนกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.