คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ


4
ทางเลือกของ K ในการตรวจสอบข้าม K-fold
ฉันเคยใช้การตรวจสอบความถูกต้องไขว้ของ -fold สองสามครั้งในขณะนี้เพื่อประเมินประสิทธิภาพของอัลกอริทึมการเรียนรู้บางอย่าง แต่ฉันก็ยังงงอยู่เสมอว่าฉันควรเลือกค่าอย่างไรเคKKKKKK ฉันมักจะเห็นและใช้ค่าแต่ดูเหมือนว่าจะเป็นเรื่องที่ไม่ชอบใจสำหรับฉันและตอนนี้ฉันเพิ่งใช้โดยนิสัยแทนที่จะคิดมากกว่า สำหรับฉันดูเหมือนว่าคุณจะได้รับเมล็ดพันธุ์ที่ดีขึ้นในขณะที่คุณปรับปรุงคุณค่าของดังนั้นคุณควรทำให้ของคุณใหญ่มาก แต่ก็มีความเสี่ยงที่จะลำเอียง10 K KK=10K=10K = 10101010KKKKKK ฉันต้องการทราบว่ามูลค่าของควรขึ้นอยู่กับอะไรและฉันควรคิดอย่างไรเมื่อฉันประเมินอัลกอริทึมของฉัน มันเปลี่ยนบางอย่างหรือไม่ถ้าฉันใช้การตรวจสอบข้ามรุ่นที่มีการแบ่งชั้นหรือไม่KKK

4
คัปปาของโคเฮนในภาษาอังกฤษธรรมดา
ฉันกำลังอ่านหนังสือ data mining และมันบอกว่าสถิติ Kappa เป็นวิธีการประเมินประสิทธิภาพการทำนายของตัวจําแนก อย่างไรก็ตามฉันไม่เข้าใจสิ่งนี้ ฉันยังตรวจสอบวิกิพีเดีย แต่มันก็ไม่ได้ช่วยอะไรมากเกินไป: https://en.wikipedia.org/wiki/Cohen's_kappa คัปปาของโคเฮนช่วยในการประเมินประสิทธิภาพการทำนายของตัวแยกประเภทอย่างไร มันบอกอะไร ฉันเข้าใจว่า 100% คัปปาหมายความว่าลักษณนามอยู่ในข้อตกลงทั้งหมดกับลักษณนามแบบสุ่ม แต่ฉันไม่เข้าใจว่าสิ่งนี้ช่วยในการประเมินประสิทธิภาพของลักษณนามอย่างไร 40% คัปปาหมายถึงอะไร? หมายความว่า 40% ของเวลาตัวจําแนกเป็นการตกลงกับตัวจําแนกแบบสุ่มหรือไม่ ถ้าเป็นเช่นนั้นสิ่งที่บอกฉันหรือช่วยฉันในการประเมินลักษณนาม

5
Support Vector Machine (SVM) ทำงานอย่างไร
อย่างไรเครื่องสนับสนุนเวกเตอร์ (SVM)การทำงานและสิ่งที่แตกต่างจากตัวจําแนกเชิงเส้นอื่น ๆ เช่นเป็น Linear Perceptron , เชิงเส้นวิเคราะห์จำแนกหรือถดถอยโลจิสติ ? * * * * (* ฉันกำลังคิดในแง่ของแรงจูงใจพื้นฐานสำหรับอัลกอริทึมกลยุทธ์การปรับให้เหมาะสมความสามารถในการวางนัยทั่วไปและความซับซ้อนของเวลาทำงาน )

7
ทำไมความแม่นยำจึงไม่ใช่มาตรการที่ดีที่สุดสำหรับการประเมินแบบจำลองการจำแนก?
นี่เป็นคำถามทั่วไปที่ถูกถามทางอ้อมหลายครั้ง แต่ไม่มีคำตอบที่เชื่อถือได้ มันจะเป็นการดีถ้ามีคำตอบโดยละเอียดสำหรับการอ้างอิง ความถูกต้องของสัดส่วนของการจำแนกประเภทที่ถูกต้องในหมู่ทุกประเภทที่สามารถทำได้ง่ายและมากวัด "ที่ใช้งานง่าย" แต่มันอาจจะเป็นตัวชี้วัดที่ดีสำหรับข้อมูลที่ไม่สมดุล ทำไมสัญชาตญาณของเราทำให้เราเข้าใจผิดที่นี่และมีปัญหาอื่นใดกับมาตรการนี้

3
คุณคำนวณความแม่นยำและเรียกคืนการจำแนกประเภทหลายคลาสโดยใช้เมตริกซ์ความสับสนได้อย่างไร
ฉันสงสัยว่าจะคำนวณความแม่นยำและเรียกคืนได้อย่างไรโดยใช้เมตริกซ์ความสับสนสำหรับปัญหาการจำแนกประเภทหลายชั้น โดยเฉพาะการสังเกตสามารถกำหนดให้กับคลาส / ฉลากที่เป็นไปได้มากที่สุดเท่านั้น ฉันต้องการคำนวณ: ความแม่นยำ = TP / (TP + FP) เรียกคืน = TP / (TP + FN) สำหรับแต่ละชั้นเรียนจากนั้นคำนวณค่า F-micro เฉลี่ย

5
วิธีคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือสถิติ c ด้วยมือ
ฉันสนใจในการคำนวณพื้นที่ภายใต้เส้นโค้ง (AUC) หรือ c-statistic ด้วยมือสำหรับแบบจำลองการถดถอยแบบโลจิสติกไบนารี ตัวอย่างเช่นในชุดข้อมูลการตรวจสอบความถูกต้องฉันมีค่าจริงสำหรับตัวแปรตาม, การเก็บรักษา (1 = เก็บไว้; 0 = ไม่เก็บไว้), เช่นเดียวกับสถานะการเก็บรักษาที่คาดการณ์ไว้สำหรับการสังเกตแต่ละครั้งที่สร้างขึ้นโดยการวิเคราะห์การถดถอย สร้างโดยใช้ชุดการฝึกอบรม (ซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1) ความคิดเริ่มต้นของฉันคือการระบุจำนวนของการจำแนกประเภทของโมเดลที่ถูกต้องและหารจำนวนการสังเกตที่ถูกต้องด้วยจำนวนการสังเกตทั้งหมดเพื่อคำนวณ c-statistic โดย "ถูกต้อง" หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์คือ> 0.5 แสดงว่าเป็นการจำแนกประเภท "ถูกต้อง" นอกจากนี้หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 0 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ <0.5 แสดงว่าเป็นหมวดหมู่ "ถูกต้อง" ด้วย ฉันถือว่า "เน็คไท" จะเกิดขึ้นเมื่อค่าที่คาดการณ์ = 0.5 แต่ปรากฏการณ์นั้นไม่เกิดขึ้นในชุดข้อมูลการตรวจสอบความถูกต้องของฉัน ในทางตรงกันข้ามการจำแนกประเภท "ไม่ถูกต้อง" จะเป็นถ้าสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ …

3
วิธีการสร้างพล็อตสวยของผลลัพธ์ของการวิเคราะห์กลุ่ม k-mean?
ฉันใช้ R เพื่อทำคลัสเตอร์ K-mean ฉันใช้ตัวแปร 14 ตัวในการรันค่า K เป็นวิธีที่ดีในการพล็อตผลลัพธ์ของ K-mean คืออะไร? มีการใช้งานที่มีอยู่หรือไม่ การมี 14 ตัวแปรทำให้การวางแผนผลลัพธ์ซับซ้อนหรือไม่? ฉันพบสิ่งที่เรียกว่า GGcluster ซึ่งดูดี แต่ก็ยังอยู่ในระหว่างการพัฒนา ฉันยังอ่านอะไรบางอย่างเกี่ยวกับการทำแผนที่แบบแซมมอน แต่ไม่เข้าใจดีนัก นี่จะเป็นตัวเลือกที่ดีหรือไม่?

1
ช่วยฉันเข้าใจ Support Vector Machines
ฉันเข้าใจพื้นฐานของจุดมุ่งหมายของเครื่องเวกเตอร์สนับสนุนในแง่ของการจำแนกอินพุตที่กำหนดเป็นคลาสที่แตกต่างกันหลายอย่าง แต่สิ่งที่ฉันไม่เข้าใจคือรายละเอียดบางอย่างที่น่าสนใจ สำหรับผู้เริ่มฉันสับสนเล็กน้อยจากการใช้ตัวแปรสแลค วัตถุประสงค์ของพวกเขาคืออะไร? ฉันกำลังทำปัญหาการจำแนกประเภทที่ฉันได้อ่านค่าความดันจากเซ็นเซอร์ที่ฉันวางไว้บนพื้นรองเท้าของรองเท้า ตัวแบบจะนั่งยืนและเดินเป็นเวลาสองสามนาทีในขณะที่ข้อมูลความดันถูกบันทึก ฉันต้องการฝึกฝนตัวจําแนกเพื่อให้สามารถระบุได้ว่าบุคคลนั้นกำลังนั่งยืนหรือเดินและสามารถทำสิ่งนั้นสำหรับข้อมูลการทดสอบในอนาคต ฉันต้องลองตัวจําแนกประเภทใด วิธีที่ดีที่สุดสำหรับฉันในการฝึกอบรมตัวจําแนกจากข้อมูลที่ฉันจับคืออะไร? ฉันมี 1,000 รายการสำหรับการนั่งยืนและเดิน (รวม 3x1000 = 3000) และพวกเขาทั้งหมดมีรูปแบบเวกเตอร์คุณลักษณะต่อไปนี้ (pressurefromsensor1, pressurefromsensor2, pressurefromsensor3, pressurefromsensor4)

6
การเลือกคุณสมบัติสำหรับรุ่น“ ขั้นสุดท้าย” เมื่อทำการตรวจสอบข้ามในการเรียนรู้ของเครื่อง
ฉันสับสนเล็กน้อยเกี่ยวกับการเลือกคุณสมบัติและการเรียนรู้ของเครื่องและฉันสงสัยว่าคุณจะช่วยฉันออกไปได้ไหม ฉันมีชุดข้อมูลขนาดเล็กที่แบ่งออกเป็นสองกลุ่มและมีคุณสมบัติ 1,000 รายการ เป้าหมายของฉันคือการได้รับยีนจำนวนเล็กน้อย (คุณสมบัติของฉัน) (10-20) ในลายเซ็นที่ฉันจะใช้กับชุดข้อมูลอื่น ๆ ในทางทฤษฎีเพื่อจำแนกตัวอย่างเหล่านั้นอย่างเหมาะสมที่สุด เนื่องจากฉันไม่มีตัวอย่างจำนวนมาก (<100) ฉันไม่ได้ใช้ชุดการทดสอบและการฝึกอบรม แต่ใช้การตรวจสอบความถูกต้องแบบลาออกหนึ่งครั้งเพื่อช่วยในการกำหนดความทนทาน ฉันได้อ่านแล้วว่าควรดำเนินการเลือกคุณสมบัติสำหรับตัวอย่างแต่ละตัวอย่าง เลือกหนึ่งตัวอย่างเป็นชุดทดสอบ ในตัวอย่างที่เหลือดำเนินการเลือกคุณสมบัติ ใช้อัลกอริทึมการเรียนรู้ของเครื่องกับตัวอย่างที่เหลือโดยใช้คุณสมบัติที่เลือก ทดสอบว่าชุดการทดสอบนั้นได้รับการจัดประเภทอย่างถูกต้องหรือไม่ ไปที่ 1 หากคุณทำสิ่งนี้คุณอาจได้รับยีนที่แตกต่างกันในแต่ละครั้งดังนั้นคุณจะได้รับตัวจําแนกยีนที่เหมาะสมที่สุดได้อย่างไร? นั่นคือขั้นตอนที่ 6 สิ่งที่ฉันหมายถึงอย่างดีที่สุดคือการรวบรวมยีนที่ควรมีการศึกษาเพิ่มเติม ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลมะเร็ง / ปกติและฉันต้องการค้นหา 10 อันดับแรกของยีนที่จะจัดประเภทเนื้องอกตาม SVM ฉันต้องการทราบชุดของยีนรวมถึงพารามิเตอร์ SVM ที่สามารถใช้ในการทดลองเพิ่มเติมเพื่อดูว่าสามารถใช้เป็นการทดสอบวินิจฉัยได้หรือไม่

3
เหตุใดการถดถอยแบบลอจิสติกจึงไม่เรียกว่าการจำแนกแบบลอจิสติก
ตั้งแต่ถดถอยโลจิสติเป็นสถิติรูปแบบการจัดหมวดหมู่การจัดการกับตัวแปรตามเด็ดขาดทำไมไม่ได้เรียกว่าโลจิสติกการจัดประเภท ? ไม่ควรจองชื่อ "การถดถอย" กับตัวแบบที่เกี่ยวข้องกับตัวแปรตามแบบต่อเนื่อง

3
วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มในสิ่งพิมพ์?
ฉันกำลังใช้อัลกอริธึมป่าแบบสุ่มเป็นตัวจําแนกที่มีประสิทธิภาพของสองกลุ่มในการศึกษาขนาดเล็กที่มีคุณสมบัติ 1,000 รายการ วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มเพื่อให้มีข้อมูลเพียงพอที่จะทำให้มันทำซ้ำได้ในกระดาษคืออะไร? มีวิธีการลงจุดใน R เพื่อทำแผนผังต้นไม้จริงหรือไม่หากมีคุณสมบัติจำนวนน้อย? OOB ประมาณการอัตราข้อผิดพลาดเป็นสถิติที่ดีที่สุดในการอ้าง?

4
ทำไมเครือข่ายประสาทเทียมถึงลึกขึ้น แต่ไม่กว้างขึ้น
ในช่วงไม่กี่ปีที่ผ่านมาเครือข่ายประสาทเทียม (หรือเครือข่ายประสาทลึกทั่วไป) ได้กลายเป็นเครือข่ายที่ล้ำลึกและล้ำลึกโดยเครือข่ายที่ล้ำสมัยเริ่มจาก 7 ชั้น ( AlexNet ) ถึง 1,000 ชั้น ( มุ้งที่เหลือ)ในพื้นที่ 4 ปี. เหตุผลที่อยู่เบื้องหลังการเพิ่มประสิทธิภาพจากเครือข่ายที่ลึกกว่าคือสามารถเรียนรู้การทำงานที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้น เมื่อได้รับข้อมูลการฝึกอบรมที่เพียงพอสิ่งนี้จะช่วยให้เครือข่ายสามารถแยกแยะความแตกต่างระหว่างคลาสต่างๆ อย่างไรก็ตามแนวโน้มดูเหมือนจะไม่ได้ตามด้วยจำนวนพารามิเตอร์ในแต่ละชั้น ตัวอย่างเช่นจำนวนของคุณลักษณะแผนที่ในเลเยอร์ convolutional หรือจำนวนโหนดในเลเยอร์ที่เชื่อมต่ออย่างเต็มที่ยังคงอยู่ในระดับเดียวกันและยังคงมีขนาดค่อนข้างเล็กแม้จะมีจำนวนเลเยอร์เพิ่มขึ้นอย่างมาก จากสัญชาตญาณของฉันดูเหมือนว่าการเพิ่มจำนวนพารามิเตอร์ต่อชั้นจะทำให้แหล่งข้อมูลที่สมบูรณ์ยิ่งขึ้นสำหรับการเรียนรู้ฟังก์ชั่นที่ไม่ใช่เชิงเส้น แต่ความคิดนี้ดูเหมือนจะถูกมองข้ามโดยเพิ่มเพียงเลเยอร์เพิ่มขึ้นแต่ละอันมีพารามิเตอร์จำนวนน้อย ดังนั้นในขณะที่เครือข่ายได้กลายเป็น "ลึก" พวกเขาไม่ได้กลายเป็น "กว้าง" ทำไมนี้

8
วิธีคำนวณความแม่นยำ / การเรียกคืนสำหรับการจำแนกประเภทมัลติคลาส / มัลติลาเบล
ฉันสงสัยว่าจะคำนวณความแม่นยำและมาตรการการเรียกคืนสำหรับการจำแนกประเภทหลายคลาสแบบหลายป้ายกำกับได้อย่างไรเช่นการจำแนกที่มีป้ายกำกับมากกว่าสองป้ายและแต่ละกรณีสามารถมีป้ายกำกับได้หลายป้าย


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.