คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
SVM แบบชั้นเดียวกับแบบ SVM
ฉันเข้าใจว่ามีการเสนอ SVM ชั้นหนึ่ง (OSVMs) โดยไม่มีข้อมูลเชิงลบในใจและพวกเขาพยายามค้นหาขอบเขตการตัดสินใจที่แยกชุดบวกและจุดยึดเชิงลบออก งานในปี 2011 เสนอExemplar SVMs (ESVMs) ซึ่งฝึกอบรม "ลักษณนามเดี่ยวต่อหมวดหมู่" ซึ่งอ้างว่าแตกต่างจาก OSVM ใน ESVM นั้นไม่จำเป็นต้องทำการแมป exemplars ในพื้นที่คุณลักษณะทั่วไปซึ่งเคอร์เนลที่คล้ายคลึงกันสามารถ คำนวณ" ฉันไม่เข้าใจความหมายของสิ่งนี้และความแตกต่างของ ESVM จาก OSVM แล้วพวกมันต่างกันอย่างไร และการคำนวณเคอร์เนลความคล้ายคลึงกันนี้จะหลีกเลี่ยงใน ESVM อย่างไร

2
แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก: 1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000) 2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

3
ค้นหากริดบนการตรวจสอบความถูกต้องข้ามของ k-fold
ฉันมีชุดข้อมูล 120 ตัวอย่างในการตั้งค่าการตรวจสอบความถูกต้องไขว้ 10 เท่า ขณะนี้ฉันเลือกข้อมูลการฝึกอบรมของการค้างชำระครั้งแรกและทำการตรวจสอบความถูกต้องข้าม 5 เท่าเพื่อเลือกค่าของแกมม่าและ C โดยการค้นหากริด ฉันใช้ SVM กับเคอร์เนล RBF เนื่องจากฉันใช้การตรวจสอบข้าม 10 ครั้งเพื่อรายงานความแม่นยำการเรียกคืนฉันจะทำการค้นหากริดนี้ในข้อมูลการฝึกอบรมของแต่ละรายการที่ค้างอยู่ (มี 10 โฮลด์แต่ละคนมีการทดสอบ 10% และ 90% ข้อมูลการฝึกอบรม) นั่นจะไม่ใช้เวลานานเกินไปหรือ ถ้าฉันใช้แกมม่าและ C ของสิ่งที่ค้างอยู่ครั้งแรกและใช้มันสำหรับส่วนที่เหลือจาก 9 การตรวจสอบความถูกต้องแบบข้าม k-fold นั่นคือการละเมิดเพราะฉันจะใช้ข้อมูลรถไฟเพื่อรับแกมม่าและ C และใช้อีกครั้ง ส่วนของข้อมูลรถไฟเป็นการทดสอบในช่วงที่สอง

2
การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?
ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

3
ตัวแปร Collinear ในการฝึกอบรม LDA หลายระดับ
ฉันฝึกอบรมลักษณนามหลายระดับ LDA กับ8 ชั้นเรียนของข้อมูล ขณะทำการฝึกซ้อมฉันได้รับคำเตือนว่า: " Variables are collinear " ฉันได้รับการฝึกอบรมมีความถูกต้องมากกว่า90% ฉันใช้ห้องสมุดscikits-LearnในPythonทำการฝึกอบรมและทดสอบข้อมูลหลายคลาส ฉันได้รับความแม่นยำในการทดสอบที่ดีเช่นกัน (ประมาณ85% -95% ) ฉันไม่เข้าใจว่าข้อผิดพลาด / คำเตือนหมายถึงอะไร กรุณาช่วยฉันออกไป.

6
การใช้ SVM ที่เร็วที่สุด
คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม

1
การได้มาของการเปลี่ยนแปลงตัวแปรของฟังก์ชันความหนาแน่นของความน่าจะเป็น
ในการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่อง (สูตร 1.27) มันให้ พีY( y) = px( x ) ∣||dxdY|||= px( กรัม( y) ) | ก.'( y) |พีY(Y)=พีx(x)|dxdY|=พีx(ก.(Y))|ก.'(Y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | โดยที่ ,เป็น PDF ที่สอดคล้องกับตามการเปลี่ยนแปลงของตัวแปรp x ( x ) p y ( y )x = g( y)x=ก.(Y)x=g(y)พีx( x )พีx(x)p_x(x)พีY( y)พีY(Y)p_y(y) หนังสือบอกว่ามันเป็นเพราะสังเกตว่าตกอยู่ในช่วงจะค่าเล็ก ๆ …

1
ในทฤษฎีการเรียนรู้ทางสถิติไม่มีปัญหาเรื่องการกำหนดค่าส่วนเกินในชุดทดสอบหรือไม่?
ลองพิจารณาปัญหาเกี่ยวกับการจำแนกชุดข้อมูล MNIST ตามหน้าเว็บ MNIST ของ Yann LeCun , 'Ciresan et al.' ได้รับอัตราความผิดพลาด 0.23% สำหรับชุดทดสอบ MNIST โดยใช้ Convolutional Neural Network การฝึกอบรมชุดแสดงว่า MNIST Let 's เป็น , MNIST ชุดทดสอบเป็นD ทีอีs Tสมมติฐานสุดท้ายที่พวกเขาได้ใช้D T r ฉันnเป็นเอช1และอัตราความผิดพลาดของพวกเขาใน MNIST ทดสอบตั้งค่าการใช้เอช1เป็นอีทีอีs T ( เอช1 ) = 0.0023DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 ในมุมมองของพวกเขาเนื่องจากถูกสุ่มตัวอย่างชุดทดสอบจากพื้นที่อินพุตโดยไม่คำนึงถึงh 1พวกเขาสามารถยืนยันได้ว่าประสิทธิภาพข้อผิดพลาดนอกตัวอย่างของสมมติฐานสุดท้ายของพวกเขาE o u t ( h 1 …

3
การเรียนรู้แบบออนไลน์และแบบกลุ่มแตกต่างกันอย่างไร
ฉันกำลังอ่านกระดาษอย่างมีประสิทธิภาพออนไลน์และการเรียนรู้แบบแบตช์โดยใช้การแยกไปข้างหน้า - ถอยหลังโดย John Duchi และ Yoram Singer ฉันสับสนมากเกี่ยวกับการใช้คำว่า 'ออนไลน์' และ 'แบทช์' ฉันคิดว่า 'ออนไลน์' หมายถึงเราอัปเดตพารามิเตอร์น้ำหนักหลังจากประมวลผลข้อมูลการฝึกอบรมหนึ่งหน่วย จากนั้นเราใช้พารามิเตอร์น้ำหนักใหม่เพื่อประมวลผลหน่วยถัดไปของข้อมูลการฝึกอบรม อย่างไรก็ตามในกระดาษข้างต้นการใช้งานไม่ชัดเจน

5
การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร
บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

1
ลักษณนามเทียบกับตัวแบบเทียบกับตัวประมาณ
ความแตกต่างระหว่างลักษณนามตัวแบบและตัวประมาณคืออะไร? จากสิ่งที่ฉันสามารถบอกได้: ตัวประมาณเป็นตัวทำนายที่พบจากอัลกอริทึมการถดถอย ลักษณนามเป็นตัวทำนายที่พบจากอัลกอริทึมการจำแนก แบบจำลองสามารถเป็นได้ทั้งตัวประมาณค่าหรือตัวจําแนก แต่จากการดูทางออนไลน์ดูเหมือนว่าฉันอาจมีคำจำกัดความเหล่านี้ปะปนกัน ดังนั้นอะไรคือข้อ จำกัด ที่แท้จริงในบริบทของการเรียนรู้ของเครื่อง?

1
ผลรวมของต้นไม้ตัดสินใจสองอันนั้นเท่ากับต้นไม้ตัดสินใจเดี่ยวหรือไม่?
สมมติว่าเรามีต้นไม้สองถดถอย (ต้นไม้และต้นไม้ B) ที่ป้อนข้อมูลแผนที่การส่งออกปี ∈ R Let Y = F ( x )สำหรับต้นไม้และฉB ( x )ต้นไม้บีต้นไม้แต่ละต้นใช้ไบนารีแยกกับ hyperplanes เป็นฟังก์ชั่นแยกx ∈ Rdx∈Rdx \in \mathbb{R}^dY^∈ RY^∈R\hat{y} \in \mathbb{R}Y^= fA( x )Y^=ฉA(x)\hat{y} = f_A(x)ฉB( x )ฉB(x)f_B(x) ทีนี้สมมติว่าเรารับผลรวมถ่วงน้ำหนักของต้นไม้ออกมา: ฉค( x ) = wA ฉA( x ) + wB ฉB( x )ฉค(x)=WA ฉA(x)+WB ฉB(x)f_C(x) = w_A …

3
ฉันสามารถใช้ชุดการตรวจสอบความถูกต้องจิ๋วได้ไหม?
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการแยกข้อมูลออกเป็นชุดการทดสอบและชุดการตรวจสอบความถูกต้อง ฉันเข้าใจด้วยว่าขนาดของการแยกจะขึ้นอยู่กับสถานการณ์ แต่โดยทั่วไปจะแตกต่างกันจาก 50/50 ถึง 90/10 ฉันสร้าง RNN เพื่อแก้ไขการสะกดและเริ่มต้นด้วยชุดข้อมูลของประโยค ~ 5m ฉันโกนประโยคที่มีขนาด 500k แล้วฝึกด้วยประโยคที่เหลืออีกประมาณ 4.5m เมื่อการฝึกอบรมเสร็จสิ้นฉันจะใช้ชุดการตรวจสอบความถูกต้องและคำนวณความถูกต้อง สิ่งที่น่าสนใจคือหลังจากเพียง 4% ของชุดการตรวจสอบความถูกต้องของฉันฉันมีความแม่นยำ 69.4% และเปอร์เซ็นต์นี้ไม่เปลี่ยนแปลงมากกว่า 0.1% ในทิศทางใดทิศทางหนึ่ง ในที่สุดฉันเพิ่งตัดการตรวจสอบสั้นเพราะจำนวนติดอยู่ที่ 69.5% เหตุใดจึงต้องลดราคา 10% สำหรับการตรวจสอบความถูกต้องเมื่อฉันสามารถหนีไปได้ด้วย 1% มันสำคัญไหม

2
เหตุใดการเพิ่มความคาดหวังจึงมีความสำคัญสำหรับโมเดลผสม
มีวรรณกรรมมากมายที่เน้นวิธีการเพิ่มความคาดหวังในโมเดลผสม (Mixture of Gaussian, Hidden Markov Model เป็นต้น) ทำไม EM ถึงมีความสำคัญ EM เป็นเพียงวิธีการทำเพิ่มประสิทธิภาพและไม่ได้ใช้กันอย่างแพร่หลายเป็นวิธีการไล่ระดับสีตาม (ลาดดีหรือวิธีการของนิวตัน / กึ่งนิวตัน) หรือการไล่ระดับสีอื่น ๆ ฟรีวิธีการพูดคุยกันที่นี่ นอกจากนี้ EM ยังมีปัญหาขั้นต่ำในท้องถิ่น เป็นเพราะกระบวนการนี้ใช้งานง่ายและสามารถเปลี่ยนเป็นรหัสได้อย่างง่ายดาย? หรือเหตุผลอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.