คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

4
ฟังก์ชั่น Softmax vs Sigmoid ในลอจิสติกลอจิก
อะไรคือตัวเลือกของฟังก์ชั่น (Softmax vs Sigmoid) ในลอจิสติกลักษณนาม? สมมติว่ามี 4 ชั้นเรียนเอาท์พุท แต่ละฟังก์ชั่นด้านบนให้ความน่าจะเป็นของแต่ละคลาสเป็นเอาต์พุตที่ถูกต้อง ดังนั้นอันไหนที่จะใช้สำหรับลักษณนาม

8
ฉันจะช่วยให้มั่นใจได้อย่างไรว่าข้อมูลการทดสอบไม่รั่วไหลไปสู่ข้อมูลการฝึกอบรม?
สมมติว่าเรามีใครบางคนกำลังสร้างแบบจำลองการทำนาย แต่บางคนไม่จำเป็นต้องมีความรอบรู้ในหลักการทางสถิติหรือการเรียนรู้ของเครื่องที่เหมาะสม บางทีเราอาจช่วยคน ๆ นั้นขณะที่พวกเขากำลังเรียนรู้หรือบางทีคนนั้นก็กำลังใช้แพคเกจซอฟต์แวร์บางประเภทที่ต้องการความรู้น้อยที่สุดในการใช้งาน ตอนนี้บุคคลนี้อาจจำได้ดีว่าการทดสอบจริงมาจากความถูกต้อง (หรืออะไรก็ตามที่วัดอื่น ๆ ) จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง อย่างไรก็ตามความกังวลของฉันคือมีจำนวนมากรายละเอียดย่อยที่ต้องกังวลเกี่ยวกับ ในกรณีที่ง่ายพวกเขาสร้างแบบจำลองของพวกเขาและประเมินบนข้อมูลการฝึกอบรมและประเมินบนข้อมูลการทดสอบที่จัดขึ้น น่าเสียดายที่บางครั้งมันง่ายเกินไปที่จะย้อนกลับไปและปรับแต่งพารามิเตอร์การสร้างแบบจำลองและตรวจสอบผลลัพธ์ในข้อมูล "การทดสอบ" เดียวกันนั้น ณ จุดนี้ข้อมูลไม่ได้เป็นข้อมูลนอกตัวอย่างที่แท้จริงอีกต่อไปและการมีน้ำหนักเกินอาจกลายเป็นปัญหาได้ วิธีหนึ่งที่เป็นไปได้ในการแก้ไขปัญหานี้คือการแนะนำให้สร้างชุดข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำนวนมากซึ่งชุดทดสอบแต่ละชุดสามารถถูกทิ้งหลังการใช้งานและไม่ได้นำมาใช้ซ้ำเลย วิธีนี้ต้องใช้การจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งการแยกที่ต้องทำก่อนการวิเคราะห์ (ดังนั้นคุณจะต้องรู้จำนวนการแยกก่อนล่วงหน้า) บางทีวิธีการทั่วไปที่มากขึ้นก็คือการตรวจสอบความถูกต้องด้วย k-fold อย่างไรก็ตามในบางแง่ที่สูญเสียความแตกต่างระหว่างชุดข้อมูล "การฝึกอบรม" และ "การทดสอบ" ที่ฉันคิดว่าจะมีประโยชน์โดยเฉพาะอย่างยิ่งกับผู้ที่ยังคงเรียนรู้ นอกจากนี้ฉันไม่มั่นใจว่าสิ่งนี้เหมาะสมสำหรับแบบจำลองการทำนายทุกประเภท มีวิธีที่ฉันมองข้ามเพื่อช่วยเอาชนะปัญหาการ overfitting และการทดสอบการรั่วไหลในขณะที่ยังคงค่อนข้างชัดเจนกับผู้ใช้ที่ไม่มีประสบการณ์?

6
ทางเลือกในการถดถอยโลจิสติกใน R
ฉันต้องการอัลกอริทึมเป็นจำนวนมากที่ทำงานเช่นเดียวกับการถดถอยโลจิสติก นั่นคืออัลกอริธึม / แบบจำลองที่สามารถทำนายการตอบสนองแบบไบนารี (Y) ด้วยตัวแปรอธิบาย (X) ฉันจะดีใจถ้าคุณตั้งชื่ออัลกอริทึมถ้าคุณจะแสดงวิธีการใช้ในอาร์นี่คือรหัสที่สามารถอัปเดตกับรุ่นอื่น ๆ ได้: set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" …

6
การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง
ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

5
ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด
เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล (... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้ แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา


4
ทำไมไม่จัดหมวดหมู่ผ่านการถดถอย?
เนื้อหาบางอย่างที่ฉันเห็นในการเรียนรู้ของเครื่องบอกว่าเป็นความคิดที่ไม่ดีที่จะเข้าถึงปัญหาการจัดหมวดหมู่ผ่านการถดถอย แต่ฉันคิดว่าเป็นไปได้เสมอที่จะทำการถดถอยอย่างต่อเนื่องเพื่อให้พอดีกับข้อมูลและตัดทอนการทำนายอย่างต่อเนื่องเพื่อให้ได้การจำแนกประเภทที่ไม่ต่อเนื่อง เหตุใดจึงเป็นความคิดที่ไม่ดี

4
เกณฑ์ความน่าจะเป็นการจำแนกประเภท
ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

3
เหตุใดการถดถอยแบบลอจิสติกจึงเป็นลักษณนามเชิงเส้น
เนื่องจากเราใช้ฟังก์ชันลอจิสติกส์ในการแปลงชุดค่าผสมเชิงเส้นของอินพุตให้เป็นเอาต์พุตแบบไม่เชิงเส้นการถดถอยลอจิสติกจะถือว่าเป็นลักษณนามเชิงเส้นได้อย่างไร การถดถอยเชิงเส้นเป็นเหมือนเครือข่ายประสาทที่ไม่มีเลเยอร์ที่ซ่อนอยู่ดังนั้นทำไมเครือข่ายประสาทจึงพิจารณาว่าตัวแยกประเภทที่ไม่เป็นเชิงเส้นและการถดถอยแบบลอจิสติกเป็นแบบเชิงเส้น

2
เคอร์เนลเชิงเส้นและเคอร์เนลที่ไม่ใช่เชิงเส้นสำหรับเครื่องเวกเตอร์สนับสนุน?
เมื่อใช้เครื่องสนับสนุนเวกเตอร์มีแนวทางในการเลือกเคอร์เนลเชิงเส้นกับเคอร์เนลแบบไม่เชิงเส้นเช่น RBF หรือไม่? ฉันเคยได้ยินว่าเคอร์เนลที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะไม่ทำงานได้ดีเมื่อจำนวนของคุณลักษณะมีขนาดใหญ่ มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

2
สมมติฐานป่าสุ่ม
ฉันเป็นคนใหม่ในป่าสุ่มดังนั้นฉันยังคงดิ้นรนกับแนวคิดพื้นฐานบางอย่าง ในการถดถอยเชิงเส้นเราถือว่าการสังเกตอย่างอิสระความแปรปรวนคงที่ ... อะไรคือสมมติฐาน / สมมติฐานพื้นฐานที่เราทำเมื่อเราใช้ฟอเรสต์แบบสุ่ม? อะไรคือความแตกต่างที่สำคัญระหว่างป่าสุ่มและอ่าวไร้เดียงสาในแง่ของสมมติฐานแบบจำลอง?

6
คุณสมบัติสำหรับการจำแนกอนุกรมเวลา
ฉันพิจารณาปัญหาของการจัดประเภทตามอนุกรมเวลาของความยาวผันแปรนั่นคือเพื่อค้นหาฟังก์ชัน ผ่านการแสดงทั่วโลกของชุดเวลาโดยชุดของคุณสมบัติที่เลือกขนาดคงที่เป็นอิสระจาก , จากนั้นใช้วิธีการจำแนกมาตรฐานในชุดคุณสมบัตินี้ ฉันไม่สนใจการคาดการณ์เช่นการทำนายf ( X T ) = y ∈ [ 1 .. K ]TTTv ฉัน D T ϕ ( X T ) = v 1 , … , v D ∈ R , x T + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ …

4
ฝึกอบรมโครงสร้างการตัดสินใจเทียบกับข้อมูลที่ไม่สมดุล
ฉันยังใหม่กับการขุดข้อมูลและฉันพยายามฝึกอบรมต้นไม้ตัดสินใจกับชุดข้อมูลที่ไม่สมดุลกันมาก อย่างไรก็ตามฉันมีปัญหากับความแม่นยำในการทำนายที่ไม่ดี ข้อมูลประกอบด้วยนักเรียนที่เรียนหลักสูตรและตัวแปรระดับคือสถานะของหลักสูตรที่มีสองค่า - ถอนตัวหรือปัจจุบัน อายุ เชื้อชาติ เพศ หลักสูตร ... สถานะของหลักสูตร ในชุดข้อมูลมีอินสแตนซ์อีกมากมายซึ่งเป็นปัจจุบันกว่าถอนออก การถอนอินสแตนซ์นั้นคิดเป็นเพียง 2% ของอินสแตนซ์ทั้งหมด ฉันต้องการสร้างแบบจำลองที่สามารถทำนายความน่าจะเป็นที่คน ๆ หนึ่งจะถอนตัวในอนาคต อย่างไรก็ตามเมื่อทำการทดสอบแบบจำลองกับข้อมูลการฝึกอบรมความแม่นยำของแบบจำลองนั้นแย่มาก ฉันมีปัญหาที่คล้ายกันกับต้นไม้การตัดสินใจที่ข้อมูลถูกครอบงำโดยหนึ่งหรือสองชั้น ฉันจะใช้วิธีใดในการแก้ปัญหานี้และสร้างลักษณนามที่แม่นยำยิ่งขึ้น

6
ทำไมต้องลดตัวอย่าง
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ทำนายว่าอีเมลเป็นสแปมหรือไม่ และสมมติว่าอีเมลเพียง 1% เท่านั้นที่เป็นสแปม สิ่งที่ง่ายที่สุดที่จะทำคือการเรียนรู้ลักษณนามลวงที่ระบุว่าไม่มีอีเมลใดเป็นสแปม ตัวจําแนกนี้จะให้ความแม่นยำกับเราถึง 99% แต่จะไม่ได้เรียนรู้อะไรที่น่าสนใจ เพื่อแก้ปัญหานี้ผู้คนบอกให้ฉัน "ตัวอย่าง" หรือเรียนรู้ในส่วนย่อยของข้อมูลที่ตัวอย่าง 50% เป็นสแปมและ 50% ไม่ใช่สแปม แต่ฉันกังวลเกี่ยวกับวิธีการนี้ตั้งแต่เมื่อเราสร้างตัวจําแนกนี้และเริ่มใช้มันในคลังข้อความจริง ไม่จริงๆ เพียงเพราะมันเคยเห็นสแปมมากกว่าที่มีอยู่ในชุดข้อมูล แล้วเราจะแก้ไขปัญหานี้อย่างไร ("Upsampling" หรือทำซ้ำตัวอย่างการฝึกอบรมเชิงบวกหลาย ๆ ครั้งดังนั้นข้อมูล 50% เป็นตัวอย่างการฝึกอบรมเชิงบวกดูเหมือนว่าจะประสบปัญหาที่คล้ายกัน)

9
จะตีความค่า F-measure ได้อย่างไร?
ฉันต้องการทราบวิธีตีความความแตกต่างของค่าการวัดค่า ฉันรู้ว่าการวัดค่า f เป็นค่าเฉลี่ยที่สมดุลระหว่างความแม่นยำและการเรียกคืน แต่ฉันถามถึงความหมายที่ใช้งานได้จริงของความแตกต่างในการวัดค่า F ตัวอย่างเช่นถ้าลักษณนาม C1 มีความแม่นยำ 0.4 และลักษณนาม C2 อีกตัวหนึ่งมีความแม่นยำ 0.8 เราสามารถพูดได้ว่า C2 ได้จำแนกตัวอย่างทดสอบสองเท่าอย่างถูกต้องเมื่อเปรียบเทียบกับ C1 อย่างไรก็ตามถ้าลักษณนาม C1 มีค่า F- วัด 0.4 สำหรับบางคลาสและลักษณนามอีก C2 ค่า F เป็น 0.8 เราจะระบุอะไรเกี่ยวกับความแตกต่างของประสิทธิภาพของตัวแยกประเภท 2? เราสามารถพูดได้ว่า C2 ได้จำแนกอินสแตนซ์ X ที่ถูกต้องมากขึ้นแล้วหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.