คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
เปรียบเทียบตัวแยกประเภทตาม AUROC หรือความแม่นยำ
ฉันมีปัญหาการจำแนกเลขฐานสองและฉันได้ทดสอบตัวแยกประเภทที่แตกต่างกัน: ฉันต้องการเปรียบเทียบตัวแยกประเภท ข้อใดเป็นค่าวัด AUC หรือความแม่นยำที่ดีกว่า และทำไม? Raondom Forest: AUC: 0.828 Accuracy: 79.6667 % SVM: AUC: 0.542 Accuracy: 85.6667 %

2
มี overfitting ในวิธีการ modellng นี้หรือไม่
เมื่อไม่นานมานี้ฉันได้รับแจ้งว่ากระบวนการที่ฉันติดตาม (องค์ประกอบของวิทยานิพนธ์ MS) อาจถูกมองว่าเหมาะสมเกินไป ฉันกำลังมองหาที่จะได้รับความเข้าใจที่ดีขึ้นนี้และดูว่าคนอื่นเห็นด้วย วัตถุประสงค์ของบทความนี้คือ เปรียบเทียบประสิทธิภาพของต้นไม้การถดถอยแบบไล่ระดับสีไล่ระดับกับการสุ่มป่าบนชุดข้อมูล ดูประสิทธิภาพของรุ่นสุดท้ายที่เลือก (ทั้ง GBM หรือ RF) gbmและแพคเกจในการวิจัยที่มีการใช้พร้อมกับrandomForest caret กระบวนการตามเป็นดังนี้: การประมวลผลข้อมูลเบื้องต้นล่วงหน้า (เช่นการเสียบค่าที่ขาดหายไปของตัวทำนายที่ระบุด้วยหมวดหมู่ที่แตกต่างที่เรียกว่า "หายไป") ตัวแปรเป้าหมายไม่ได้พิจารณาถึงการประมวลผลล่วงหน้าใด ๆ (ซึ่งน้อยมาก) สร้างตารางค่าสำหรับเมตา - พารามิเตอร์ของแต่ละอัลกอริทึม (เช่นจำนวนการวนซ้ำสำหรับ GBM) สร้างชุดข้อมูลแยก 25 ชุด (การฝึกอบรม 65% และการทดสอบ 35%) ทำซ้ำ 25 ครั้งต่อไปนี้สำหรับ GBM (แต่ละครั้งใช้หนึ่งในการสุ่มแยกรถไฟ / ทดสอบแต่ละครั้งที่การฝึกอบรมและชุดทดสอบเป็น "การเปลี่ยนแปลงในปัจจุบัน" ของการเปลี่ยนแปลงหลักสูตร ใช้การตรวจสอบความถูกต้องไขว้ 5 เท่าเพื่อค้นหาการตั้งค่าพารามิเตอร์ "ดีที่สุด" ของอัลกอริทึมเหนือการค้นหากริด ไม่มีอะไรจากการวิ่งก่อนหน้านี้เลยในการวิ่งปัจจุบัน เมื่อพิจารณาแล้วให้พอดีกับรูปแบบของชุดการฝึกอบรม "ปัจจุบัน" …

1
เมทริกซ์ความแปรปรวนร่วมสำหรับการแจกแจงแบบเกาส์และ Wishart
ฉันกำลังอ่านบทความนี้เกี่ยวกับกระบวนการ Wishart ทั่วไป (GWP) กระดาษคำนวณความแปรปรวนร่วมระหว่างตัวแปรสุ่มที่แตกต่างกัน (ตามกระบวนการ Gaussian ) โดยใช้ฟังก์ชันความแปรปรวนแบบยกกำลังสองกำลังสองคือขวา) มันบอกว่าเมทริกซ์ความแปรปรวนร่วมนี้ติดตาม GWPK(x,x′)=exp(−|(x−x′)|22l2)K(x,x′)=exp⁡(−|(x−x′)|22l2)K(x,x') = \exp\left(-\frac{|(x-x')|^2}{2l^2}\right) ฉันเคยคิดว่าเมทริกซ์ความแปรปรวนร่วมที่คำนวณจากฟังก์ชันความแปรปรวนเชิงเส้นตรง ( )K(x,x′)=xTx′K(x,x′)=xTx′K(x,x') = x^Tx'ตามการแจกแจง Wishart ด้วยพารามิเตอร์ที่เหมาะสม คำถามของฉันคือเราจะยังคงสมมติว่าความแปรปรวนร่วมเป็นไปตามการกระจายของ Wishart ด้วยฟังก์ชันความแปรปรวนแบบยกกำลังสองได้อย่างไร โดยทั่วไปแล้วเงื่อนไขที่จำเป็นสำหรับฟังก์ชันความแปรปรวนร่วมในการผลิตเมทริกซ์ความแปรปรวนร่วม Wishart คืออะไร?

2
การวัดความไม่สามารถแยกชั้นได้ในปัญหาการจำแนกประเภท
ตัวอย่างของการวัดความสามารถในการแบ่งแยกชั้นเรียนที่ดีในผู้เรียนที่เลือกปฏิบัติแบบเส้นตรงคืออัตราส่วนการจำแนกเชิงเส้นของฟิชเชอร์ มีตัวชี้วัดที่มีประโยชน์อื่น ๆ หรือไม่ในการพิจารณาว่าชุดคุณลักษณะให้การแยกคลาสที่ดีระหว่างตัวแปรเป้าหมายหรือไม่ โดยเฉพาะอย่างยิ่งฉันสนใจในการค้นหาแอตทริบิวต์อินพุตหลายตัวแปรที่ดีสำหรับการเพิ่มการแยกชั้นเป้าหมายและมันจะดีถ้ามีการวัดแบบไม่เชิงเส้น / ไม่อิงพารามิเตอร์เพื่อกำหนดว่าการแยกนั้นดีหรือไม่

3
ความสำคัญของตัวแปรในการถดถอยโลจิสติกส์
ฉันอาจจะจัดการกับปัญหาที่อาจแก้ไขได้หลายร้อยครั้งก่อนหน้านี้ แต่ฉันไม่แน่ใจว่าจะหาคำตอบได้ที่ไหน เมื่อใช้การถดถอยโลจิสติกให้คุณสมบัติมากมายและพยายามทำนายค่าหมวดหมู่ไบนารีฉันสนใจในการเลือกชุดย่อยของคุณสมบัติที่ทำนายดี y yx1, . . . , xnx1,...,xnx_1,...,x_nYyyYyy มีขั้นตอนคล้ายกับบ่วงบาศที่สามารถใช้ได้หรือไม่? (ฉันเคยเห็นบ่วงบาศที่ใช้สำหรับการถดถอยเชิงเส้นเท่านั้น) ดูที่ค่าสัมประสิทธิ์ของรุ่นที่ติดตั้งแล้วซึ่งบ่งบอกถึงความสำคัญของคุณสมบัติที่แตกต่างกันหรือไม่? แก้ไข - การชี้แจงหลังจากเห็นคำตอบบางส่วน: เมื่อฉันอ้างถึงขนาดของสัมประสิทธิ์การติดตั้งฉันหมายถึงคุณลักษณะที่ได้รับการปรับให้เป็นมาตรฐาน (หมายถึง 0 และความแปรปรวน 1) มิฉะนั้นตามที่ @probabilityislogic ชี้ให้เห็น 1000x จะมีความสำคัญน้อยกว่า x ฉันไม่สนใจเพียงแค่ค้นหา k-subset ที่ดีที่สุด (ตามที่ @Davide กำลังนำเสนอ) แต่ให้น้ำหนักความสำคัญของคุณลักษณะที่แตกต่างกันเมื่อเทียบกัน ตัวอย่างเช่นคุณลักษณะหนึ่งอาจเป็น "อายุ" และอีกคุณสมบัติหนึ่งคืออายุ> 30 " ความสำคัญที่เพิ่มขึ้นของพวกเขาอาจมีเพียงเล็กน้อย แต่ทั้งคู่อาจมีความสำคัญ

2
ระยะ Mahalanobis คืออะไรและใช้ในการจดจำรูปแบบอย่างไร
บางคนสามารถอธิบายแนวคิดเรื่องระยะทางของมาฮาลาโนบิสได้หรือไม่? ตัวอย่างเช่นอะไรคือระยะทาง Mahalanobis ระหว่างสองจุด x และ y และโดยเฉพาะอย่างยิ่งมันตีความอย่างไรสำหรับการจดจำรูปแบบ?

2
อะไรคือข้อดีของการลดขนาดของตัวทำนายสำหรับวัตถุประสงค์ของการถดถอย
แอปพลิเคชันหรือข้อดีของการลดขนาดแบบถดถอย (DRR) หรือเทคนิคการลดขนาดแบบมิติ (SDR) ภายใต้เทคนิคแบบการถดถอยแบบดั้งเดิม (ไม่มีการลดขนาดแบบมิติ) คืออะไร? ระดับเทคนิคเหล่านี้ค้นหาการแทนค่ามิติต่ำของชุดคุณลักษณะสำหรับปัญหาการถดถอย ตัวอย่างของเทคนิคดังกล่าว ได้แก่ การถดถอยแบบผกผันแบบแบ่งส่วน, วิธีการหลักของ Hessian, การประมาณค่าความแปรปรวนเฉลี่ยแบบแบ่งส่วน, การถดถอยแบบผกผันเคอร์เนลแบบเคอร์เนล, การถดถอยส่วนประกอบหลักเป็นต้น ในแง่ของ RMSE ที่ผ่านการตรวจสอบความถูกต้องแล้วหากอัลกอริทึมทำงานได้ดีขึ้นในงานการถดถอยโดยไม่ลดมิติใด ๆ แล้วการใช้มิติลดจริงสำหรับการถดถอยคืออะไร? ฉันไม่เข้าใจเทคนิคเหล่านี้ เทคนิคเหล่านี้มีโอกาสใช้เพื่อลดความซับซ้อนของพื้นที่และเวลาสำหรับการถดถอยหรือไม่? หากเป็นข้อได้เปรียบหลักทรัพยากรบางอย่างเกี่ยวกับการลดความซับซ้อนสำหรับชุดข้อมูลมิติสูงเมื่อใช้เทคนิคนี้จะมีประโยชน์ ฉันถกเถียงเรื่องนี้กับข้อเท็จจริงที่ว่าการใช้เทคนิค DRR หรือ SDR นั้นต้องใช้เวลาและพื้นที่ SDR / DRR + Regression นี้บนชุดข้อมูลที่มีความสลัวต่ำกว่าเร็วกว่าเฉพาะชุดข้อมูลที่มีความสลัวสูงหรือไม่ การตั้งค่านี้ได้รับการพิจารณาจากความสนใจเชิงนามธรรมเท่านั้นและไม่มีแอปพลิเคชันที่ใช้งานได้จริงหรือไม่? ตามความคิดด้านข้าง: บางครั้งมีข้อสันนิษฐานว่าการกระจายตัวของคุณสมบัติและการตอบสนองอยู่บนความหลากหลาย มันทำให้รู้สึกถึงการเรียนรู้หลากหลายจากตัวอย่างที่สังเกตในบริบทนี้สำหรับการแก้ปัญหาการถดถอยYXXXYYY

2
Drosophila ของ AI คืออะไรตอนนี้
ในช่วงกลางทศวรรษที่ 1960 นักวิจัยได้อ้างถึงหมากรุกว่า " Drosophila of AI" ที่มีชื่อเสียง: เหมือนแมลงวันผลไม้เกมหมากรุกสามารถเข้าถึงได้และเป็นปัญหาที่ค่อนข้างง่ายที่จะทำการทดลอง ตอนนี้ผู้คนดูเหมือนจะพูดว่า "หมากรุกเป็นเพียงปัญหาการค้นหา" และ "วิธีหมากรุกจะให้ความสนใจต่อชุมชน AI เพียงเล็กน้อย" ดังนั้นสิ่งที่เป็นแมลงหวี่ของ AI ตอนนี้หรือไม่

1
ขยายโมเดล 2 ระดับไปสู่ปัญหาหลายระดับ
บทความเกี่ยวกับ Adaboostนี้จะให้คำแนะนำและรหัส (หน้า 17) สำหรับการขยายโมเดล 2-class ไปสู่ปัญหา K-class ฉันต้องการที่จะพูดคุยรหัสนี้เพื่อที่ฉันสามารถเสียบรุ่น 2 ระดับที่แตกต่างกันได้อย่างง่ายดายและเปรียบเทียบผลลัพธ์ เนื่องจากโมเดลการจำแนกประเภทส่วนใหญ่มีอินเตอร์เฟสสูตรและpredictวิธีการบางอย่างนี้จึงค่อนข้างง่าย น่าเสียดายที่ฉันไม่พบวิธีการแยกความน่าจะเป็นแบบคลาสจากแบบจำลอง 2 ระดับดังนั้นแต่ละรุ่นจะต้องใช้รหัสที่กำหนดเอง นี่คือฟังก์ชั่นที่ฉันเขียนเพื่อแบ่งปัญหา K-class ออกเป็นปัญหา 2 ระดับและคืน K โมเดล: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) …

4
มีกรณีที่ไม่มี k ที่ดีที่สุดใน k-mean
สิ่งนี้อยู่ในใจฉันอย่างน้อยสองสามชั่วโมง ฉันพยายามหา k ที่เหมาะสมที่สุดสำหรับผลลัพธ์จากอัลกอริธึม k (หมายถึงความคล้ายคลึงกันโคไซน์ ) ดังนั้นฉันจึงวางแผนการบิดเบือนเป็นฟังก์ชันของจำนวนกลุ่ม ชุดข้อมูลของฉันคือชุดเอกสาร 800 ชุดในพื้นที่ 600 มิติ จากสิ่งที่ฉันเข้าใจการหาจุดหัวเข่าหรือจุดศอกบนเส้นโค้งนี้ควรบอกฉันอย่างน้อยประมาณจำนวนของกลุ่มที่ฉันต้องใส่ข้อมูลของฉัน ฉันใส่กราฟด้านล่าง จุดที่ได้รับเส้นแนวตั้งสีแดงนั้นได้มาจากการทดสอบอนุพันธ์อันดับสองสูงสุด หลังจากทำทั้งหมดนี้ฉันติดอยู่กับสิ่งที่ง่ายกว่ามาก: กราฟนี้บอกอะไรฉันเกี่ยวกับชุดข้อมูล มันบอกฉันไหมว่ามันไม่คุ้มกับการรวมกลุ่มและเอกสารของฉันขาดโครงสร้างหรือว่าฉันต้องตั้งค่า k ที่สูงมาก? สิ่งหนึ่งที่แปลกคือแม้ว่าจะมีค่า k ต่ำฉันก็เห็นเอกสารที่คล้ายกันรวมกันเป็นกลุ่มดังนั้นฉันจึงไม่แน่ใจว่าทำไมฉันถึงได้รับเส้นโค้งนี้ ความคิดใด ๆ

3
มีห้องสมุดใดบ้างสำหรับวิธีการแบบ CART ที่ใช้ตัวทำนายและการตอบสนองแบบกระจัดกระจาย?
ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน) เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrixสามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้ ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น: นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้ การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง ขอบคุณล่วงหน้า!

2
ความสำคัญของความน่าจะเป็นเริ่มต้นการเปลี่ยนแปลงในโมเดลมาร์คอฟที่ซ่อนอยู่
ประโยชน์ของการให้ค่าเริ่มต้นกับการเปลี่ยนแปลงความน่าจะเป็นใน Hidden Markov Model มีอะไรบ้าง ในที่สุดระบบจะเรียนรู้พวกเขาดังนั้นอะไรคือจุดที่ให้คุณค่าอื่น ๆ นอกเหนือจากการสุ่ม? อัลกอริทึมพื้นฐานสร้างความแตกต่างเช่น Baum – Welch หรือไม่? ถ้าฉันรู้ว่าความน่าจะเป็นในการเปลี่ยนแปลงในตอนเริ่มต้นนั้นถูกต้องมากและจุดประสงค์หลักของฉันคือการทำนายความน่าจะเป็นของผลลัพธ์จากสถานะที่ซ่อนอยู่ไปจนถึงการสังเกตคุณจะแนะนำฉันอย่างไร

2
มีวิธีใดที่จะอธิบายการทำนายจากแบบจำลองฟอเรสต์แบบสุ่มหรือไม่?
สมมติว่าฉันมีรูปแบบการจำแนกการคาดการณ์ตามป่าสุ่ม (ใช้แพ็คเกจสุ่มป่าไม้ใน R) ฉันต้องการตั้งค่าเพื่อให้ผู้ใช้ปลายทางสามารถระบุรายการที่จะสร้างการทำนายสำหรับและมันจะส่งออกโอกาสในการจัดหมวดหมู่ จนถึงตอนนี้ก็ไม่มีปัญหา แต่มันจะมีประโยชน์ / เจ๋งมากที่จะสามารถแสดงผลออกมาเช่นกราฟความสำคัญของตัวแปร แต่สำหรับรายการเฉพาะที่ถูกทำนายไม่ใช่สำหรับชุดฝึก สิ่งที่ต้องการ: รายการ X ถูกคาดการณ์ว่าจะเป็นสุนัข (มีโอกาส 73%) เนื่องจาก: ขา = 4 ลมหายใจ = ขนที่ไม่ดี= อาหารสั้น= น่ารังเกียจ คุณได้รับจุด มีวิธีมาตรฐานหรืออย่างน้อยก็สมควรในการดึงข้อมูลนี้จากป่าสุ่มที่ได้รับการฝึกอบรมแล้ว? ถ้ามีใครมีรหัสที่จะใช้สำหรับแพ็คเกจสุ่มป่าไม้หรือไม่?

3
วิธีการเลือกจุดการทำงานที่ดีจากเส้นโค้งการเรียกคืนที่แม่นยำ?
มีวิธีมาตรฐานใด ๆ ในการพิจารณาจุดการทำงาน "ที่เหมาะสมที่สุด" บนกราฟการเรียกคืนที่แม่นยำหรือไม่? (เช่นการกำหนดจุดบนเส้นโค้งที่ให้การแลกเปลี่ยนที่ดีระหว่างความแม่นยำและการเรียกคืน) ขอบคุณ

1
กรอบงานที่ดีสำหรับการเลือกวิธีคืออะไร
ฉันได้มองหากรอบการทำงานเชิงทฤษฎีสำหรับการเลือกวิธีการ (หมายเหตุ: ไม่ใช่การเลือกแบบจำลอง) และได้พบงานที่เป็นระบบและมีแรงบันดาลใจทางคณิตศาสตร์น้อยมาก โดย 'การเลือกวิธี' ฉันหมายถึงกรอบการทำงานสำหรับแยกแยะวิธีที่เหมาะสม (หรือดีกว่าดีที่สุด) วิธีการที่เกี่ยวข้องกับปัญหาหรือประเภทของปัญหา สิ่งที่ฉันได้พบเป็นรูปธรรมหากชิ้นงานโดยเฉพาะอย่างยิ่งเกี่ยวกับวิธีการและการปรับแต่งของพวกเขา (คือตัวเลือกก่อนในวิธีการแบบเบย์) และเลือกวิธีการทางเลือกอคติ (เช่นนโยบายการเหนี่ยวนำการเน้นการเลือกอคติ ) ฉันอาจไม่สมจริงในช่วงแรกของการพัฒนาของการเรียนรู้ของเครื่อง แต่ฉันหวังว่าจะพบบางอย่างที่ทฤษฎีการวัดทำในการกำหนดการแปลงและการทดสอบที่ยอมรับได้ตามประเภทของสเกลเพียงเขียนขนาดใหญ่ในเวทีของปัญหาการเรียนรู้ ข้อเสนอแนะใด ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.