คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
thresholding รุ่น Markov ที่ซ่อนอยู่
ฉันได้พัฒนาระบบแนวคิดสำหรับการรู้จำเสียงโดยใช้ mfcc และรุ่นมาร์คอฟที่ซ่อนอยู่ มันให้ผลลัพธ์ที่มีแนวโน้มเมื่อฉันทดสอบระบบด้วยเสียงที่รู้จัก แม้ว่าระบบเมื่อมีการป้อนข้อมูลเสียงที่ไม่รู้จักส่งคืนผลลัพธ์ด้วยการจับคู่ที่ใกล้เคียงที่สุดและคะแนนไม่ได้แตกต่างกันในการคิดค้นมันเป็นเสียงที่ไม่รู้จักเช่น: ฉันได้ฝึกอบรมมาร์คอฟที่ซ่อนอยู่ 3 ตัวสำหรับการพูดหนึ่งสำหรับน้ำที่ออกมาจากก๊อกน้ำและอีกอันสำหรับเคาะบนโต๊ะ จากนั้นฉันจะทดสอบพวกเขาเกี่ยวกับข้อมูลที่มองไม่เห็นและรับผลลัพธ์ต่อไปนี้: input: speech HMM\knocking: -1213.8911146444477 HMM\speech: -617.8735676792728 HMM\watertap: -1504.4735097322673 So highest score speech which is correct input: watertap HMM\knocking: -3715.7246152783955 HMM\speech: -4302.67960438553 HMM\watertap: -1965.6149147201534 So highest score watertap which is correct input: knocking HMM\filler -806.7248912250212 HMM\knocking: -756.4428782636676 HMM\speech: -1201.686687761133 HMM\watertap: -3025.181144273698 So …

2
การจัดการกับชุดข้อมูลที่มีคุณสมบัติจำนวนตัวแปร
มีวิธีการอะไรบ้างในการจำแนกข้อมูลด้วยจำนวนตัวแปรที่มีคุณสมบัติ? ยกตัวอย่างเช่นพิจารณาปัญหาที่แต่ละจุดข้อมูลเป็นเวกเตอร์ของจุด x และ y และเราไม่มีจุดเท่ากันสำหรับแต่ละอินสแตนซ์ เราสามารถใช้คะแนน x และ y แต่ละคู่เป็นคุณสมบัติได้หรือไม่? หรือเราควรสรุปประเด็นเพื่อให้จุดข้อมูลแต่ละจุดมีคุณสมบัติคงที่?

3
เราสามารถบอกเด็กเกี่ยวกับสถิติและการเรียนรู้ของเครื่องได้อย่างไร
สัปดาห์หน้าเรามีการฝึกงานจากโรงเรียนท้องถิ่นในบ้าน แนวคิดที่อยู่เบื้องหลังการฝึกงานระยะสั้นของเขาคือการได้รับแนวคิดว่าโลกแห่งความจริงทำงานอย่างไรและงานบางอย่างเกี่ยวข้องกับงานลักษณะอย่างไรในชีวิตประจำวันเป็นต้น ตอนนี้ฉันสงสัยว่าสิ่งใดที่สามารถบอก / แสดง / สาธิตเด็กเล็กเกี่ยวกับสถิติและการเรียนรู้ของเครื่องจักรเพื่อให้เขา / เธอ ได้รับแนวคิดพื้นฐานของเรื่องนี้ ได้รับความกระตือรือร้น (สมมติว่าก่อนหน้านี้เด็กไม่หนักเกินไปในความโปรดปรานของผลประโยชน์อื่น ๆ ) จะไม่ลืมมันในวันถัดไป ฉันกำลังมองหาภาพติดตัวอย่างสำหรับการสาธิตและอื่น ๆ เป็นหลัก พื้นหลังของเด็ก: อายุ 15-16 ปี แนวคิดพื้นฐานเกี่ยวกับคณิตศาสตร์เป็นที่รู้จัก (สิ่งที่เป็นกราฟกฎสามข้อตัวแปรคืออะไร (ทางคณิตศาสตร์ไม่ใช่การพูดเชิงสถิติ)) เนื่องจากส่วนที่ยากของคำถามนี้คือการอธิบายพื้นที่ของคุณให้เป็นหนึ่งเดียวโดยไม่มีความรู้พื้นฐานคำถามนี้อาจใช้เป็นข้อมูลอ้างอิงสำหรับการสนทนากับญาติและเพื่อน Sidenote:ฉันข้ามคำอธิบายของงานของฉันโดยเจตนาเพื่อให้คำถามนี้ไม่เจาะจงเกินไปคำถามนี้เกี่ยวกับหัวข้อของเว็บไซต์นี้โดยทั่วไป

2
การเข้ารหัสคุณสมบัติเด็ดขาดเป็นตัวเลขสำหรับการเรียนรู้ของเครื่อง
อัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากเช่นเครือข่ายประสาทคาดหวังว่าจะจัดการกับตัวเลข ดังนั้นเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่คุณจะต้องแปลงเป็น ตามหมวดหมู่ฉันหมายถึงตัวอย่างเช่น: แบรนด์รถยนต์: Audi, BMW, Chevrolet ... รหัสผู้ใช้: 1, 25, 26, 28 ... แม้ว่ารหัสผู้ใช้จะเป็นตัวเลข แต่เป็นเพียงป้ายกำกับและไม่ได้หมายถึงความต่อเนื่องเช่นอายุหรือจำนวนเงิน ดังนั้นวิธีการพื้นฐานดูเหมือนว่าจะใช้เวกเตอร์ไบนารีเพื่อเข้ารหัสหมวดหมู่: ออดี้: 1, 0, 0 ... BMW: 0, 1, 0 ... เชฟโรเลต: 0, 0, 1 ... ไม่เป็นไรเมื่อมีหมวดหมู่น้อย แต่นอกเหนือจากนั้นก็ดูไม่มีประสิทธิภาพ ตัวอย่างเช่นเมื่อคุณมีรหัสผู้ใช้ 10,000 รหัสการเข้ารหัสมันคือ 10,000 คุณสมบัติ คำถามคือจะมีวิธีที่ดีกว่า บางทีอาจเกี่ยวข้องกับความน่าจะเป็นหรือไม่

1
เมื่อเกิน / ต่ำกว่าการสุ่มตัวอย่างคลาสที่ไม่สมดุลการเพิ่มความแม่นยำจะแตกต่างจากการลดค่าใช้จ่ายในการจำแนกประเภทหรือไม่?
ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ: ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น คุณจะตอบอย่างไร

8
อะไรคือ“ อัลกอริธึมร้อนแรง” สำหรับการเรียนรู้ของเครื่อง?
นี่เป็นคำถามที่ไร้เดียงสาจากคนที่เริ่มเรียนรู้การเรียนรู้ของเครื่อง ฉันกำลังอ่านหนังสือ "การเรียนรู้ของเครื่อง: มุมมองอัลกอริทึม" จากหนังสือเมื่อวานนี้ ฉันพบว่ามันมีประโยชน์ในฐานะหนังสือเกริ่นนำ แต่ตอนนี้ฉันอยากจะไปสู่อัลกอริธึมขั้นสูงผู้ที่ให้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ฉันส่วนใหญ่สนใจในชีวสารสนเทศศาสตร์: การรวมกลุ่มของเครือข่ายทางชีวภาพและการค้นหารูปแบบในลำดับทางชีวภาพโดยเฉพาะอย่างยิ่งนำไปใช้กับการวิเคราะห์นิวคลีโอไทด์ polymorphism (SNP) เดียว คุณช่วยแนะนำให้ฉันอ่านรีวิวหรือหนังสือได้ไหม?

1
การตีความระยะทางจากไฮเปอร์เพลนใน SVM
ฉันมีข้อสงสัยเล็กน้อยในการทำความเข้าใจ SVMs อย่างสังหรณ์ใจ สมมติว่าเราได้ฝึกอบรมรูปแบบ SVM สำหรับการจำแนกประเภทโดยใช้เครื่องมือมาตรฐานบางอย่างเช่น SVMLight หรือ LibSVM เมื่อเราใช้แบบจำลองนี้เพื่อทำนายข้อมูลทดสอบแบบจำลองจะสร้างไฟล์ที่มีค่า "อัลฟา" สำหรับการทดสอบแต่ละจุด หากค่าอัลฟาเป็นค่าบวกจุดทดสอบเป็นของคลาส 1 มิฉะนั้นจะเป็นของคลาส 2 ทีนี้เราสามารถพูดได้หรือไม่ว่าจุดทดสอบที่มีค่า "อัลฟ่า" มากกว่านั้นเป็นของคลาสที่สอดคล้องกัน คล้ายกับคำถามแรกเมื่อเราได้รับการฝึกอบรม SVM SV อยู่ใกล้กับเครื่องบินมากเกินไป นั่นหมายความว่า SV อยู่ในชั้นเรียนนั้นด้วยความน่าจะเป็นสูงหรือไม่? เราสามารถเชื่อมโยงความน่าจะเป็นของจุดที่อยู่ในชั้นเรียนด้วยระยะทางจาก "ไฮเปอร์เพลน" ได้หรือไม่? ค่า "อัลฟา" แทนระยะห่างจาก "ไฮเปอร์เพล" หรือไม่? ขอบคุณสำหรับข้อมูลของคุณ

1
เมื่อใดที่จะต้องการใช้ AdaBoost
ดังที่ฉันเคยได้ยินเกี่ยวกับตัวจําแนก AdaBoost ที่กล่าวถึงในที่ทำงานหลายครั้งฉันต้องการให้ความรู้สึกที่ดีขึ้นเกี่ยวกับวิธีการใช้งานและเมื่อใครต้องการใช้งาน ฉันได้ไปข้างหน้าและอ่านเอกสารและแบบฝึกหัดเกี่ยวกับสิ่งที่ฉันพบใน Google แต่มีลักษณะของตัวจําแนกซึ่งฉันยังคงมีปัญหาในการทำความเข้าใจ: บทเรียนส่วนใหญ่ที่ฉันเคยเห็นพูดถึง AdaBoost เป็นการหาชุดค่าผสมถ่วงน้ำหนักที่ดีที่สุดของตัวแยกประเภทจำนวนมาก เรื่องนี้ทำให้รู้สึกถึงฉัน สิ่งที่ไม่สมเหตุสมผลคือการนำไปใช้งาน (เช่น MALLET) ซึ่ง AdaBoost ดูเหมือนจะยอมรับผู้เรียนที่อ่อนแอเพียงคนเดียว สิ่งนี้มีเหตุผลอะไรบ้าง? หากมีตัวจําแนกเดียวที่มอบให้กับ AdaBoost มันจะไม่ส่งคืนลักษณนามเดียวกันนั้นด้วยน้ำหนัก 1 หรือไม่ มันสร้างลักษณนามใหม่จากลักษณนามแรกได้อย่างไร เมื่อไหร่ที่จะต้องการใช้ AdaBoost ฉันได้อ่านว่ามันควรจะเป็นหนึ่งในตัวแยกประเภทที่ดีที่สุดนอกกรอบ แต่เมื่อฉันพยายามเพิ่มตัวแยกประเภท MaxEnt ฉันได้รับคะแนน f- 70% ด้วย AdaBoost ทำการฆาตกรรมและทำให้ฉัน f- คะแนนของบางอย่างเช่น 15% พร้อมการเรียกคืนสูงมากและความแม่นยำต่ำมากแทน ดังนั้นตอนนี้ฉันสับสน เมื่อใดที่ฉันจะต้องการใช้ AdaBoost ฉันกำลังมองหาคำตอบที่เข้าใจง่ายมากกว่าที่จะเป็นคำตอบทางสถิติอย่างเคร่งครัดถ้าเป็นไปได้

2
การสั่งซื้อชุดเวลาสำหรับการเรียนรู้ของเครื่อง
หลังจากอ่านหนึ่งใน "เคล็ดลับการวิจัย"ของ RJ Hyndman เกี่ยวกับการตรวจสอบความถูกต้องและช่วงเวลาฉันกลับมาที่คำถามเก่า ๆ ของฉันที่ฉันจะพยายามกำหนดที่นี่ แนวคิดก็คือในการจำแนกปัญหาหรือการถดถอยการเรียงลำดับข้อมูลไม่สำคัญและด้วยเหตุนี้kสามารถใช้การตรวจสอบความถูกต้องข้าม -fold ได้ ในทางกลับกันในอนุกรมเวลาการเรียงลำดับข้อมูลมีความสำคัญอย่างยิ่ง แต่เมื่อใช้เครื่องการเรียนรู้รูปแบบให้กับชุดเวลาคาดการณ์กลยุทธ์ร่วมกันคือการก่อร่างใหม่ชุดเป็นชุดของ "พาหะนำเข้าส่งออก" ซึ่งเป็นเวลาทีมีรูปแบบ( Y T - n + 1 , . . . , Y T - 1 , Y เสื้อ ; Y T + 1 ){ y1, . . . , yT}{Y1,...,YT}\{y_1, ..., y_T\}เสื้อเสื้อt( yt - n + …

2
เหตุใดการประมาณข้อผิดพลาด OOB ฟอเรสต์แบบสุ่มจึงดีขึ้นเมื่อจำนวนของคุณสมบัติที่เลือกลดลง
ฉันใช้อัลกอริธึมฟอเรสต์แบบสุ่มเป็นตัวจําแนกในชุดข้อมูลขนาดเล็กซึ่งแบ่งออกเป็นสองกลุ่มที่รู้จักพร้อมกับคุณลักษณะ 1000s หลังจากรันครั้งแรกฉันดูความสำคัญของฟีเจอร์และเรียกใช้อัลกอริทึมแบบทรีอีกครั้งด้วยฟีเจอร์ที่สำคัญที่สุด 5, 10 และ 20 ฉันพบว่าสำหรับฟีเจอร์ทั้งหมดอันดับ 10 และ 20 ที่การประเมิน OOB ของอัตราข้อผิดพลาดคือ 1.19% ซึ่งสำหรับฟีเจอร์ 5 อันดับแรกนั้นคือ 0% นี่ดูเหมือนจะขัดกับฉันดังนั้นฉันจึงสงสัยว่าคุณจะอธิบายได้หรือไม่ว่าฉันขาดอะไรไปหรือฉันใช้เมตริกที่ไม่ถูกต้อง ฉันใช้แพ็คเกจ randomForest ใน R กับ ntree = 1,000, nodesize = 1 และ mtry = sqrt (n)


1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

4
ทำนายช่วงเวลาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง
ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้ หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว) มันสมเหตุสมผลหรือไม่ เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM

3
วิธีการสร้างแบบจำลองข้อมูลขนาดใหญ่ยาว?
ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่ ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่ เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ …

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.