คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

3
ImageNet: ข้อผิดพลาดห้าอันดับแรกหมายถึงอะไร
หนึ่งในวิธีการประเมินผลสำหรับการแข่งขัน ImageNet (จำแนกภาพ 1,000 หมวดหมู่) เป็นข้อผิดพลาด 5 อันดับแรกนั่นหมายความว่าอย่างไร ดู: http://www.image-net.org/challenges/LSVRC/

1
คุณสมบัติการทำให้เป็นมาตรฐานเมื่อใช้ LDA เป็นขั้นตอนการประมวลผลล่วงหน้า
หากมีการใช้การวิเคราะห์เชิงเส้นหลายชั้น (หรือฉันยังอ่านการวิเคราะห์การจำแนกหลาย ๆ ครั้ง) ใช้สำหรับการลดขนาด (หรือการเปลี่ยนแปลงหลังจากการลดมิติผ่าน PCA) ฉันเข้าใจว่าโดยทั่วไปคือ "การทำให้เป็นมาตรฐานของคะแนน Z" (หรือมาตรฐาน) ไม่จำเป็นต้องใช้ฟีเจอร์แม้ว่าจะทำการวัดด้วยเครื่องชั่งที่แตกต่างกันอย่างสมบูรณ์ถูกต้องหรือไม่ เนื่องจาก LDA มีคำที่คล้ายกับระยะทาง Mahalanobis ซึ่งหมายถึงระยะทางแบบยุคลิดแบบดั้งเดิมหรือไม่? ดังนั้นจึงไม่เพียง แต่ไม่จำเป็นเท่านั้น แต่ผลลัพธ์ที่ได้หลังจาก LDA สำหรับคุณสมบัติที่เป็นมาตรฐานและไม่ได้มาตรฐานควรจะเหมือนกันทุกประการ!

1
เกณฑ์การจำแนกประเภทใน RandomForest-sklearn
1) ฉันจะเปลี่ยนเกณฑ์การจำแนกได้อย่างไร (ฉันคิดว่าเป็น 0.5 โดยค่าเริ่มต้น) ใน RandomForest ใน sklearn 2) ฉันจะตัวอย่างน้อยใน sklearn ได้อย่างไร 3) ฉันมีผลลัพธ์ต่อไปนี้จากลักษณนาม RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 เฉลี่ย / รวม 0.75 0.74 0.73 7076 ก่อนข้อมูลไม่สมดุล (30% จากคลาส 0 และ 70% จากคลาส …

3
การถดถอยโลจิสติก: การเพิ่มผลบวกจริง - การบวกเท็จ
ฉันมีโมเดลการถดถอยโลจิสติก (พอดีผ่าน glmnet ใน R พร้อมกับการทำให้เป็นมาตรฐานสุทธิ) และฉันต้องการเพิ่มความแตกต่างระหว่างผลบวกจริงและผลบวกปลอม ในการดำเนินการดังกล่าวขั้นตอนต่อไปนี้อยู่ในใจ: พอดีกับโมเดลการถดถอยโลจิสติกมาตรฐาน ใช้เกณฑ์การทำนายเป็น 0.5 ระบุการคาดการณ์ในเชิงบวกทั้งหมด กำหนดน้ำหนัก 1 สำหรับการสังเกตที่คาดการณ์ไว้ในเชิงบวก 0 สำหรับคนอื่น ๆ ทั้งหมด พอดีกับรูปแบบการถดถอยโลจิสติกถ่วงน้ำหนัก อะไรคือข้อบกพร่องของวิธีนี้? อะไรจะเป็นวิธีที่ถูกต้องในการแก้ไขปัญหานี้ เหตุผลที่ต้องการเพิ่มความแตกต่างระหว่างจำนวนของผลบวกที่แท้จริงและเชิงลบที่ผิดเนื่องจากการออกแบบใบสมัครของฉัน ในฐานะส่วนหนึ่งของโครงงานในชั้นเรียนฉันกำลังสร้างผู้เข้าร่วมอิสระในตลาดออนไลน์ - ถ้าแบบจำลองของฉันทำนายว่าสามารถซื้อบางอย่างและขายในภายหลังด้วยราคาที่สูงกว่า ฉันต้องการยึดติดกับการถดถอยโลจิสติกและผลลัพธ์ไบนารีผลลัพธ์ (ชนะ, แพ้) ตามต้นทุนคงที่และการเพิ่มขึ้นของราคาต่อหน่วย (ฉันได้รับหรือสูญเสียจำนวนเดียวกันในทุกธุรกรรม) คิดบวกทำให้ฉันเจ็บเพราะหมายความว่าฉันซื้ออะไรและไม่สามารถขายได้ในราคาที่สูงขึ้น อย่างไรก็ตามการลบที่ผิดพลาดไม่ได้ทำร้ายฉัน (เฉพาะในแง่ของโอกาสเสียค่าใช้จ่าย) เพราะมันหมายถึงว่าฉันไม่ได้ซื้อ แต่ถ้าฉันมีฉันจะทำเงิน ในทำนองเดียวกัน ฉันยอมรับว่าการตัด 0.5 นั้นเป็นการสุ่มโดยพลการและเมื่อฉันปรับรูปแบบจากขั้นตอนที่ 1 บนขีด จำกัด การทำนายซึ่งให้ผลต่างสูงสุดระหว่างความจริง / เท็จบวกจะกลายเป็นใกล้กว่า 0.4 ฉันคิดว่านี่เป็นเพราะลักษณะที่บิดเบือนของข้อมูลของฉัน - อัตราส่วนระหว่างเชิงลบและบวกเป็นเรื่องเกี่ยวกับ …

2
การวัดประสิทธิภาพลักษณนามที่รวมความไวและความจำเพาะ?
ฉันมีข้อมูลป้ายกำกับ 2 ชั้นซึ่งฉันจัดหมวดหมู่โดยใช้ตัวแยกประเภทหลายตัว และชุดข้อมูลมีความสมดุลดี เมื่อประเมินประสิทธิภาพของตัวจําแนกฉันต้องพิจารณาความถูกต้องของตัวจําแนกในการพิจารณาไม่เพียง แต่บวกที่แท้จริง แต่เชิงลบที่แท้จริงยัง ดังนั้นถ้าฉันใช้ความถูกต้องและถ้าลักษณนามมีความเอนเอียงไปทางบวกและจำแนกทุกอย่างเป็นบวกฉันจะได้ความแม่นยำประมาณ 50% แม้ว่ามันจะล้มเหลวในการจำแนกเชิงลบจริงก็ตาม คุณสมบัตินี้ถูกขยายให้มีความแม่นยำและเรียกคืนตามที่พวกเขามุ่งเน้นไปที่หนึ่งคลาสเท่านั้นและกลับไปที่คะแนน F1 (นี่คือสิ่งที่ฉันเข้าใจแม้จากบทความนี้เช่น " เกินความแม่นยำคะแนน F และ ROC: ครอบครัวของมาตรการแบ่งแยกสำหรับการประเมินผลงาน ") ดังนั้นฉันสามารถใช้ความไวและความเฉพาะเจาะจง (TPR และ TNR) เพื่อดูว่าตัวแยกประเภทดำเนินการสำหรับแต่ละคลาสได้อย่างไรโดยที่ฉันตั้งใจจะเพิ่มค่าเหล่านี้ให้มากที่สุด คำถามของฉันคือฉันกำลังมองหาการวัดที่รวมค่าทั้งสองนี้เข้าด้วยกันในการวัดที่มีความหมายเดียว ฉันตรวจดูมาตรการที่ให้ไว้ในบทความนั้น แต่ฉันคิดว่ามันไม่สำคัญ และจากความเข้าใจของฉันฉันสงสัยว่าทำไมเราไม่สามารถใช้บางอย่างเช่นคะแนน F แต่แทนที่จะใช้ความแม่นยำและการเรียกคืนฉันจะใช้ความไวและความเฉพาะเจาะจง ดังนั้นสูตรจะเป็น และเป้าหมายของฉันจะเพิ่มสูงสุด วัดนี้ ฉันคิดว่ามันจะเป็นตัวแทนมาก มีสูตรที่คล้ายกันอยู่แล้ว? และนี่จะสมเหตุสมผลหรือเป็นเสียงทางคณิตศาสตร์หรือไม่การวัดประสิทธิภาพของฉัน=2 * ความไว* เฉพาะเจาะจงความไว+ จำเพาะการวัดประสิทธิภาพของฉัน=2* * * *ความไว* * * *ความจำเพาะความไว+ความจำเพาะ \text{my Performance Measure} …

5
วิธีการวัดประสิทธิภาพของลักษณนามเมื่อใกล้ถึง 100% ของเลเบลคลาสเป็นของคลาสเดียว?
ในข้อมูลของฉันฉันมีตัวแปรคลาสแสดงเป็นCค่าตัวแปรคลาสนี้คือ (ไบนารี) การสำรวจเกือบทั้งหมดเป็น 0 (ใกล้ 100% แม่นยำยิ่งขึ้น 97%) ฉันต้องการทดสอบ "ประสิทธิภาพ" สำหรับแบบจำลองการจำแนกประเภทที่แตกต่างกัน (อาจเป็นความแม่นยำ) สิ่งที่ฉันกลัวว่าจะเกิดขึ้นคือถ้าฉันมีรูปแบบการจำแนกที่จำแนกประเภทการสังเกตใด ๆ ในคลาส 0 เสมอโมเดลนั้นจะมีความแม่นยำ 97% (แม้ว่ามันจะไม่เคยพิจารณาตัวแปรอื่น ๆ ก็ตาม)คCC0 , 10,1{0, 1}คCC มีการทดสอบประสิทธิภาพที่รู้จักกันดีสำหรับแบบจำลองการจำแนกประเภทในการจัดการข้อมูลกับเหตุการณ์ที่เกิดขึ้นน้อยมากหรือไม่?

3
LDA เทียบกับ perceptron
ฉันพยายามเข้าใจว่า LDA เหมาะสมกับเทคนิคการเรียนรู้แบบมีผู้สอนอื่น ๆ อย่างไร ฉันได้อ่านโพสต์ LDA-esque บางส่วนเกี่ยวกับ LDA ที่นี่แล้ว ฉันคุ้นเคยกับ perceptron แล้ว แต่เพิ่งเรียนรู้ LDA ในตอนนี้ LDA 'เหมาะสม' ในครอบครัวของอัลกอริทึมการเรียนรู้ภายใต้การดูแลอย่างไร สิ่งที่อาจเป็นข้อเสียของมันเทียบกับวิธีการอื่น ๆ เหล่านั้นและสิ่งที่มันอาจจะใช้ที่ดีกว่าสำหรับ? ทำไมต้องใช้ LDA เมื่อมีใครสามารถใช้พูด perceptron เป็นต้น

2
เคอร์เนล SVM ใดที่จะใช้สำหรับปัญหาการจำแนกประเภทไบนารี
ฉันเป็นผู้เริ่มต้นเมื่อพูดถึงการสนับสนุนเครื่องเวกเตอร์ มีแนวทางบางอย่างที่บอกว่าเคอร์เนลใด (เช่นเส้นตรงพหุนาม) เหมาะที่สุดสำหรับปัญหาเฉพาะหรือไม่? ในกรณีของฉันฉันต้องจำแนกหน้าเว็บตามว่ามีข้อมูลเฉพาะหรือไม่เช่นฉันมีปัญหาการจำแนกเลขฐานสอง คุณสามารถพูดโดยทั่วไปว่าเคอร์เนลใดเหมาะที่สุดสำหรับงานนี้? หรือฉันต้องลองหลายชุดในชุดข้อมูลเฉพาะของฉันเพื่อค้นหาชุดที่ดีที่สุด โดยวิธีการที่ฉันใช้ห้องสมุดหลามscikit เรียนรู้ที่ใช้ประโยชน์จากห้องสมุด libSVM

1
การวิเคราะห์การอยู่รอดสำหรับการทำนายเหตุการณ์
สำหรับแต่ละระเบียนในชุดข้อมูลของฉันฉันมีข้อมูลต่อไปนี้ (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) ที่ไหน XiXiX_i เป็นคุณสมบัติ δδ\delta คือ 1 ถ้าเหตุการณ์เป้าหมายเกิดขึ้นและ 0 เป็นอย่างอื่นและ TTTเป็นเวลาประทับของเหตุการณ์ที่เกิดขึ้น โดยเฉพาะอย่างยิ่ง,TTT อาจหายไปหากไม่มีเหตุการณ์หรือตั้งเวลาให้ติดตามผลสิ้นสุด ฉันต้องการคำนวณดัชนีความเสี่ยงสำหรับแต่ละระเบียนในชุดข้อมูลของฉัน ฉันคิดว่าจะใช้รูปแบบการจำแนกประเภทที่ใช้คุณสมบัติต่างๆ XiXiX_i เพื่อทำนายชั้นเรียน δδ\delta. อย่างไรก็ตามTTT เป็นสิ่งสำคัญ: ถ้าเหตุการณ์ δδ\delta มีแนวโน้มที่จะเกิดขึ้นในไม่ช้าความเสี่ยงควรสูงขึ้น นั่นคือเหตุผลที่การวิเคราะห์ความอยู่รอดควรเหมาะสำหรับปัญหานี้ …

2
เรียนรู้จากข้อมูลเชิงสัมพันธ์
การตั้งค่า อัลกอริทึมจำนวนมากทำงานบนความสัมพันธ์หรือตารางเดียวในขณะที่ฐานข้อมูลในโลกแห่งความจริงจำนวนมากเก็บข้อมูลในหลายตาราง (Domingos, 2003) คำถาม อัลกอริทึมชนิดใดที่เรียนรู้ได้ดีจากหลาย ๆ ตาราง (เชิงสัมพันธ์) โดยเฉพาะอย่างยิ่งฉันสนใจในอัลกอริทึมที่ใช้กับงานการถดถอยและการจัดหมวดหมู่ (ไม่ใช่งานที่เน้นการวิเคราะห์เครือข่ายเช่นการคาดการณ์ลิงก์) ฉันตระหนักถึงวิธีการหลายอย่างที่ระบุไว้ด้านล่าง (แต่ฉันแน่ใจว่าฉันขาดบางอย่าง): การทำเหมืองข้อมูลแบบหลายสัมพันธ์ (MRDM) (Dzeroski, 2002) การเขียนโปรแกรมตรรกะอุปนัย (ILP) (Muggleton, 1992) การเรียนรู้เชิงสถิติ (SRL) (Getoor, 2007) Džeroski, S. (2003) การทำเหมืองข้อมูลหลายสัมพันธ์: การแนะนำ จดหมายข่าว ACM SIGKDD Explorations Getoor, Lise และ Ben Taskar, eds ความรู้เบื้องต้นเชิงสถิติเชิงสัมพันธ์ กด MIT, 2007 S. Muggleton และ C. Feng การเหนี่ยวนำที่มีประสิทธิภาพของโปรแกรมตรรกะ …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
การจำแนกประเภทด้วยตัวทำนายที่โดดเด่นหนึ่งตัว
ฉันมีปัญหาการจำแนกประเภท( -class) โดยมีคำสั่งจาก 100 ตัวทำนายมูลค่าจริงซึ่งหนึ่งในนั้นดูเหมือนว่าจะมีพลังในการอธิบายมากกว่าคนอื่น ๆ ฉันอยากจะให้ลึกซึ้งยิ่งขึ้นถึงผลกระทบของตัวแปรอื่น ๆ อย่างไรก็ตามเทคนิคการเรียนรู้ของเครื่องมาตรฐาน (ป่าสุ่ม, SVM, ฯลฯ ) ดูเหมือนจะล้นมือโดยผู้ทำนายที่แข็งแกร่งคนหนึ่งและไม่ให้ข้อมูลที่น่าสนใจเกี่ยวกับคนอื่นkkk หากนี่เป็นปัญหาการถดถอยฉันก็แค่ถอยหลังตัวพยากรณ์ที่แข็งแกร่งแล้วใช้ส่วนที่เหลือเป็นอินพุตสำหรับอัลกอริทึมอื่น ๆ ฉันไม่เห็นว่าวิธีนี้สามารถแปลเป็นบริบทการจำแนกได้อย่างไร สัญชาตญาณของฉันคือปัญหานี้จะต้องเป็นเรื่องธรรมดาพอสมควร: มีเทคนิคมาตรฐานสำหรับจัดการกับมันหรือไม่?

2
ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่
ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก: X1, . . .Xยังไม่มีข้อความ, วายX1,...Xยังไม่มีข้อความ,YX_1, ... X_N, Y ที่ไหน X1, . . . ,Xยังไม่มีข้อความX1,...,Xยังไม่มีข้อความX_1, ..., X_N คือคุณสมบัติ / ตัวพยากรณ์และ YYY เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ PS: นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้

2
วิธีการที่ทันสมัยเพื่อค้นหาศูนย์ค่าเฉลี่ยส่วนของอนุกรมเวลา
ฉันมีอนุกรมเวลาที่มีเสียงดังซึ่งฉันต้องแบ่งส่วนออกเป็นส่วน ๆ ด้วยค่าเฉลี่ยเป็นศูนย์และส่วนที่ไม่มีค่าเฉลี่ยเป็นศูนย์ การค้นหาขอบเขตอย่างแม่นยำที่สุดเท่าที่จะเป็นไปได้มีความสำคัญ (ชัดเจนว่าขอบเขตอยู่ตรงไหนเป็นเรื่องส่วนตัว) ฉันคิดว่าตัวแปร cusum สามารถปรับให้ทำเช่นนี้ได้ แต่เนื่องจาก cusum เป็นหลักเกี่ยวกับการค้นหาการเปลี่ยนแปลงเดียวที่ทำให้กลยุทธ์การแบ่งกลุ่มทั้งหมดไม่ได้รับการแก้ไขอย่างสมบูรณ์ ฉันแน่ใจว่ามีการทำวิจัยเป็นจำนวนมากเกี่ยวกับปัญหานี้ แต่ไม่สามารถหาได้ ป.ล. จำนวนข้อมูลในอนุกรมเวลาเหล่านี้ค่อนข้างมากตัวอย่างมากถึงหลายร้อยล้านตัวอย่างและแต่ละตัวอย่างสามารถเป็นเวกเตอร์ที่มีองค์ประกอบสองร้อยชิ้นดังนั้นวิธีที่สามารถคำนวณได้อย่างรวดเร็วเป็นปัจจัยสำคัญ . PPS ไม่มีแท็กการแบ่งกลุ่มดังนั้นแท็กการจัดหมวดหมู่

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.