คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

2
Is ความแม่นยำ = 1- อัตราการทดสอบข้อผิดพลาด
ขอโทษถ้านี่เป็นคำถามที่ชัดเจนมาก แต่ฉันอ่านข้อความต่าง ๆ และดูเหมือนจะไม่พบคำยืนยันที่ดี ในกรณีของการจำแนกประเภทความถูกต้องของลักษณนาม= 1- ข้อผิดพลาดคืออะไร? ฉันได้รับความแม่นยำนั่นคือแต่คำถามของฉันคือความแม่นยำและอัตราความผิดพลาดในการทดสอบที่เกี่ยวข้อง TP+ Tยังไม่มีข้อความP+ NTP+Tยังไม่มีข้อความP+ยังไม่มีข้อความ\frac{TP+TN}{P+N}

3
PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?
มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

2
คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย
ใครช่วยอธิบายคณิตศาสตร์บางส่วนที่อยู่ในการจัดประเภทในรถเข็นได้บ้าง ฉันกำลังมองหาที่จะเข้าใจว่าสองขั้นตอนหลักเกิดขึ้นได้อย่างไร เช่นฉันฝึกตัวแยกประเภท CART บนชุดข้อมูลและใช้ชุดข้อมูลการทดสอบเพื่อทำเครื่องหมายประสิทธิภาพการทำนาย แต่: รากแรกของต้นไม้ถูกเลือกอย่างไร ทำไมแต่ละสาขาจึงเกิดขึ้น? ชุดข้อมูลของฉันเป็นระเบียน 400,000 รายการที่มี 15 คอลัมน์และ 23 คลาสที่ได้รับความถูกต้อง 100% จากเมทริกซ์ความสับสนฉันใช้การข้ามค่าช่วงเวลา 10 เท่าของชุดข้อมูล ฉันจะยิ่งใหญ่จริง ๆ ถ้าใครสามารถช่วยอธิบายขั้นตอนของการจัดประเภทรถเข็นได้

4
ตรวจสอบว่าการปรับปรุงความแม่นยำมีความสำคัญหรือไม่
สมมติว่าฉันมีอัลกอริทึมที่แบ่งสิ่งออกเป็นสองประเภท ฉันสามารถวัดความแม่นยำของอัลกอริทึมในการทดสอบ 1,000 รายการ - สมมติว่า 80% ของสิ่งต่าง ๆ ได้รับการจัดประเภทอย่างถูกต้อง สมมติว่าฉันปรับเปลี่ยนอัลกอริทึมอย่างใดเพื่อให้ 81% ของสิ่งต่าง ๆ ถูกจัดประเภทอย่างถูกต้อง สถิติสามารถบอกอะไรฉันได้หรือไม่ว่าการปรับปรุงอัลกอริทึมของฉันมีนัยสำคัญทางสถิติหรือไม่ แนวคิดเรื่องนัยสำคัญทางสถิติเกี่ยวข้องกันในสถานการณ์นี้หรือไม่? กรุณาชี้ให้ฉันไปในทิศทางของทรัพยากรบางอย่างที่อาจเกี่ยวข้อง ขอบคุณมาก.

4
วิธีการตีความโค้ง ROC?
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

3
สิ่งที่ควรเป็นพารามิเตอร์ที่ดีที่สุดสำหรับลักษณนามป่าสุ่ม?
ขณะนี้ฉันกำลังใช้กล่องเครื่องมือ RF บน MATLAB สำหรับปัญหาการจำแนกเลขฐานสอง ชุดข้อมูล: ตัวอย่าง 50,000 ตัวอย่างและคุณสมบัติมากกว่า 250 รายการ ดังนั้นควรมีจำนวนต้นไม้และคุณลักษณะที่เลือกแบบสุ่มในแต่ละแยกเพื่อปลูกต้นไม้อย่างไร พารามิเตอร์อื่นใดสามารถส่งผลอย่างมากต่อผลลัพธ์หรือไม่

2
Naive Bayes ทำงานอย่างไรกับตัวแปรต่อเนื่อง
เพื่อความเข้าใจ (พื้นฐานมาก) ของฉัน Naive Bayes ประมาณการความน่าจะเป็นไปตามความถี่ของคลาสของแต่ละคุณสมบัติในข้อมูลการฝึก แต่มันคำนวณความถี่ของตัวแปรต่อเนื่องได้อย่างไร และเมื่อทำการคาดการณ์มันจะจำแนกการสังเกตใหม่ที่อาจไม่มีค่าเดียวกันของการสังเกตใด ๆ ในชุดฝึกอบรมอย่างไร มันใช้การวัดระยะทางบางอย่างหรือหา 1NN หรือไม่?

4
ข้อผิดพลาดกำลังสองเฉลี่ยสามารถใช้สำหรับการจำแนกประเภทได้หรือไม่
ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร

1
Comparisson ของทั้งสองรุ่นเมื่อ ROC curves ข้ามซึ่งกันและกัน
มาตรการทั่วไปหนึ่งที่ใช้ในการเปรียบเทียบแบบจำลองการจำแนกสองแบบขึ้นไปคือการใช้พื้นที่ใต้กราฟ ROC (AUC) เป็นวิธีการประเมินประสิทธิภาพทางอ้อม ในกรณีนี้โมเดลที่มี AUC ขนาดใหญ่มักตีความว่าทำงานได้ดีกว่าโมเดลที่มี AUC ขนาดเล็กกว่า แต่ตาม Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ) เมื่อเส้นโค้งทั้งคู่ข้ามกันการเปรียบเทียบดังกล่าวไม่สามารถใช้งานได้อีกต่อไป ทำไมถึงเป็นเช่นนั้น? ตัวอย่างเช่นมีสิ่งใดที่สามารถตรวจสอบเกี่ยวกับแบบจำลอง A, B และ C ตาม ROC curves และ AUCs bellow?

4
เราควรกังวลเกี่ยวกับความหลากหลายเชิงเส้นเมื่อใช้โมเดลที่ไม่ใช่เชิงเส้นหรือไม่?
สมมติว่าเรามีปัญหาการจำแนกเลขฐานสองที่มีคุณสมบัติการจัดหมวดหมู่เป็นส่วนใหญ่ เราใช้โมเดลที่ไม่ใช่เชิงเส้น (เช่น XGBoost หรือ Random Forests) เพื่อเรียนรู้ หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม? หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

3
เครื่องสามารถใช้โมเดลการเรียนรู้ของเครื่อง (GBM, NN และอื่น ๆ ) สำหรับการวิเคราะห์การอยู่รอดได้อย่างไร
ฉันรู้ว่าแบบจำลองทางสถิติแบบดั้งเดิมเช่น Cox Proportional Hazards Regression & แบบจำลอง Kaplan-Meier บางอย่างสามารถใช้ในการทำนายวันจนกว่าเหตุการณ์ที่จะเกิดขึ้นต่อไปจะบอกว่าล้มเหลว ฯลฯ เช่นการวิเคราะห์การอยู่รอด คำถาม การถดถอยของโมเดลการเรียนรู้ของเครื่องเช่น GBM, โครงข่ายใยประสาทเทียม ฯลฯ สามารถใช้ในการทำนายวันจนถึงเหตุการณ์ได้อย่างไร? ฉันเชื่อว่าการใช้วันจนกว่าจะเกิดขึ้นเป็นตัวแปรเป้าหมายและการใช้โมเดลการถดถอยจะไม่ทำงาน ทำไมมันไม่ทำงานและจะแก้ไขอย่างไร เราสามารถแปลงปัญหาการวิเคราะห์การเอาชีวิตรอดเป็นการจัดประเภทแล้วได้รับความน่าจะเป็นของการอยู่รอดได้หรือไม่? ถ้าเช่นนั้นจะสร้างตัวแปรเป้าหมายไบนารีได้อย่างไร? ข้อดีและข้อเสียของวิธีการเรียนรู้ของเครื่องเทียบกับการถดถอยอันตรายของ Cox Proportional & รุ่น Kaplan-Meier ฯลฯ คืออะไร? ลองนึกภาพข้อมูลตัวอย่างอินพุตเป็นรูปแบบด้านล่าง บันทึก: เซ็นเซอร์ส่ง Ping ข้อมูลในช่วงเวลา 10 นาที แต่ในบางครั้งข้อมูลอาจหายไปเนื่องจากปัญหาเครือข่าย ฯลฯ ตามที่แสดงโดยแถวที่มี NA var1, var2, var3 เป็นตัวทำนายตัวแปรอธิบาย failure_flag บอกว่าเครื่องล้มเหลวหรือไม่ เรามีข้อมูล 6 เดือนล่าสุดทุก ๆ …

1
วิธีฝึกเลเยอร์ LSTM ของเครือข่ายลึก
ฉันใช้เครือข่าย lstm และ feed-forward เพื่อจำแนกข้อความ ฉันแปลงข้อความเป็นเวกเตอร์ที่ร้อนแรงหนึ่งรายการและป้อนให้แต่ละรายการเป็น lstm เพื่อที่ฉันจะสามารถสรุปได้ว่าเป็นการแทนเพียงครั้งเดียว จากนั้นฉันก็ป้อนไปยังเครือข่ายอื่น แต่ฉันจะฝึก lstm ได้อย่างไร ฉันต้องการจัดลำดับข้อความ - ฉันควรป้อนโดยไม่ต้องฝึกอบรมหรือไม่? ฉันแค่ต้องการแสดงข้อความเป็นรายการเดียวที่ฉันสามารถป้อนลงในเลเยอร์อินพุตของตัวแยกประเภท ฉันขอขอบคุณคำแนะนำใด ๆ อย่างมาก! ปรับปรุง: ดังนั้นฉันมี lstm และลักษณนาม ฉันเอาเอาท์พุตทั้งหมดของ lstm และ mean-pool พวกมันจากนั้นฉันป้อนค่าเฉลี่ยนั้นลงในลักษณ ปัญหาของฉันคือฉันไม่รู้วิธีฝึก lstm หรือตัวจําแนก ฉันรู้ว่าอินพุตควรเป็นอะไรสำหรับ lstm และเอาต์พุตของตัวแยกประเภทที่ควรใช้สำหรับอินพุตนั้น เนื่องจากเป็นเครือข่ายสองเครือข่ายที่เพิ่งเปิดใช้งานตามลำดับฉันจำเป็นต้องทราบและไม่ทราบว่าอุดมคติของเอาต์พุตควรเป็น lstm ซึ่งจะเป็นอินพุตสำหรับตัวแยกประเภท มีวิธีทำเช่นนี้หรือไม่?

2
การใช้แพ็กเกจคาเร็ตนั้นเป็นไปได้หรือไม่ที่จะได้รับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะ
ผมเคยได้รับรูปแบบการถดถอยโลจิสติก (ผ่านtrain) สำหรับการตอบสนองไบนารีและฉันได้รับเมทริกซ์ความสับสนโลจิสติกผ่านทางในconfusionMatrix caretมันให้เมทริกซ์ความสับสนของโมเดลโลจิสติกถึงฉัน แต่ฉันไม่แน่ใจว่าจะใช้เกณฑ์ใดในการรับ ฉันจะรับเมทริกซ์ความสับสนสำหรับค่าเกณฑ์เฉพาะที่ใช้confusionMatrixในได้caretอย่างไร

2
multiclass perceptron ทำงานอย่างไร
ฉันไม่มีพื้นหลังในวิชาคณิตศาสตร์ แต่ฉันเข้าใจว่า Perceptron ง่าย ๆ ทำงานอย่างไรและฉันคิดว่าฉันเข้าใจแนวคิดของไฮเปอร์เพลน (ฉันจินตนาการว่ามันเป็นเรขาคณิตในระนาบในอวกาศ 3 มิติซึ่งแยกเมฆสองจุดออกเป็นเส้นแยกกัน เมฆสองจุดในพื้นที่ 2 มิติ) แต่ฉันไม่เข้าใจว่าระนาบหนึ่งเส้นหรือหนึ่งเส้นสามารถแยกเมฆจุดแตกต่างกันสามจุดในพื้นที่ 3 มิติหรือในพื้นที่ 2 มิติตามลำดับ - นี่เป็นไปไม่ได้ทางเรขาคณิตใช่ไหม? ฉันพยายามเข้าใจส่วนที่เกี่ยวข้องในบทความ Wikipediaแต่ล้มเหลวอย่างน่าสมเพชในประโยค“ ที่นี่อินพุต x และผลลัพธ์ y ถูกดึงออกมาจากชุดที่กำหนดเอง” ใครบางคนสามารถอธิบาย perceptron แบบหลายคลาสให้ฉันและมันเป็นไปตามแนวคิดของไฮเปอร์เพลนหรืออาจชี้ให้ฉันไปที่คำอธิบายที่ไม่เกี่ยวกับคณิตศาสตร์?

1
ทำซ้ำตารางที่ 18.1 จาก“ องค์ประกอบของการเรียนรู้เชิงสถิติ”
ตารางที่ 18.1 ในองค์ประกอบของการเรียนรู้ทางสถิติสรุปประสิทธิภาพของตัวแยกประเภทหลายตัวในชุดข้อมูลระดับ 14 ฉันกำลังเปรียบเทียบอัลกอริธึมใหม่กับ lasso และ elastic net สำหรับปัญหาการจำแนกประเภทมัลติคลาส การใช้glmnetเวอร์ชั่น 1.5.3 (R 2.13.0) ฉันไม่สามารถทำซ้ำจุดที่ 7 ( -multalomial multinomial) ในตารางซึ่งรายงานจำนวนยีนที่ใช้เป็น 269 และข้อผิดพลาดในการทดสอบคือ 13 out 54 ข้อมูลที่ใช้เป็นแบบนี้14 มะเร็งชุดข้อมูล ไม่ว่าฉันจะพยายามทำอะไรฉันจะได้แบบจำลองที่มีประสิทธิภาพสูงสุดโดยใช้ยีนใกล้เคียงกับ 170-180 ยีนที่มีข้อผิดพลาดในการทดสอบ 16 จาก 54 ข้อL1L1L_1 โปรดทราบว่าในตอนต้นของส่วน 18.3 ในหน้า 654 มีการอธิบายการประมวลผลข้อมูลล่วงหน้าบางส่วน ฉันได้ติดต่อผู้เขียนแล้วโดยไม่ตอบสนองและฉันถามว่าใครสามารถยืนยันว่ามีปัญหาในการทำซ้ำตารางหรือให้วิธีแก้ปัญหาในการสร้างตาราง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.