คำถามติดแท็ก supervised-learning

การเรียนรู้ภายใต้การดูแลเป็นงานการเรียนรู้ของเครื่องในการอนุมานฟังก์ชันจากข้อมูลการฝึกอบรมที่มีป้ายกำกับ ข้อมูลการฝึกประกอบด้วยชุดตัวอย่างการฝึกอบรม ในการเรียนรู้ภายใต้การดูแลแต่ละตัวอย่างคือคู่ที่ประกอบด้วยวัตถุอินพุต (โดยทั่วไปคือเวกเตอร์) และค่าเอาต์พุตที่ต้องการ (เรียกอีกอย่างว่าสัญญาณควบคุม) อัลกอริธึมการเรียนรู้ภายใต้การดูแลจะวิเคราะห์ข้อมูลการฝึกอบรมและสร้างฟังก์ชันที่สรุปได้ซึ่งสามารถใช้สำหรับการทำแผนที่ตัวอย่างใหม่

2
การไล่ระดับสีไม่พบวิธีแก้ปัญหาสำหรับกำลังสองน้อยที่สุดธรรมดาบนชุดข้อมูลนี้?
ฉันได้ศึกษาการถดถอยเชิงเส้นและลองใช้ชุดด้านล่าง {(x, y)} ซึ่ง x ระบุพื้นที่ของบ้านเป็นตารางฟุตและ y ระบุราคาเป็นดอลลาร์ นี่คือตัวอย่างแรกในแอนดรูอึ้งหมายเหตุ 2104.400 1600.330 2400.369 1416.232 3000.540 ฉันพัฒนารหัสตัวอย่าง แต่เมื่อฉันเรียกใช้ราคาจะเพิ่มขึ้นในแต่ละขั้นตอนในขณะที่ควรลดลงในแต่ละขั้นตอน รหัสและผลลัพธ์ที่ได้รับด้านล่าง biasคือ W 0 X 0โดยที่ X 0 = 1 featureWeightsคืออาร์เรย์ของ [X 1 , X 2 , ... , X N ] ฉันยังพยายามวิธีการแก้ปัญหาหลามออนไลน์อยู่ที่นี่และอธิบายที่นี่ แต่ตัวอย่างนี้ยังให้ผลลัพธ์เดียวกัน ช่องว่างในการทำความเข้าใจแนวคิดอยู่ที่ไหน รหัส: package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { …

1
การแยกคำหลักอัตโนมัติ: ใช้ความคล้ายคลึงโคไซน์เป็นคุณสมบัติ
ฉันมีเมทริกซ์เอกสารและตอนนี้ฉันต้องการแยกคำหลักสำหรับแต่ละเอกสารด้วยวิธีการเรียนรู้ภายใต้การดูแล (SVM, Naive Bayes, ... ) ในรุ่นนี้ฉันใช้แท็ก Tf-idf, Pos tag, ...MMM แต่ตอนนี้ฉันสงสัยเกี่ยวกับเน็กซ์ ฉันมีเมทริกซ์มีความเหมือนโคไซน์ระหว่างคำCCC มีความเป็นไปได้ไหมที่จะใช้ความคล้ายคลึงกันนี้เป็นคุณสมบัติสำหรับโมเดลของฉัน? ผมคิดว่าสำหรับระยะในเอกสาร , การใช้ค่าเฉลี่ยของความคล้ายคลึงกันโคไซน์ของข้อความทั้งหมดในเอกสารที่มีระยะเวลาฉันสิ่งนี้มีประโยชน์หรือไม่?iiiddddddiii

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

2
การเรียนรู้แบบมีผู้สอนพร้อมข้อมูลที่ไม่แน่นอน?
มีวิธีการที่มีอยู่สำหรับการใช้โมเดลการเรียนรู้แบบมีผู้สอนเข้ากับชุดข้อมูลที่ไม่แน่นอนหรือไม่? ตัวอย่างเช่นสมมติว่าเรามีชุดข้อมูลที่มีคลาส A และ B: +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ เราจะฝึกโมเดลการเรียนรู้ของเครื่องได้อย่างไร? ขอบคุณ

2
การเรียนรู้ที่เพิ่มขึ้นสำหรับแบบจำลองการจำแนกใน R
สมมติว่าฉันมีตัวจําแนก(อาจเป็นตัวจําแนกมาตรฐานใด ๆ เช่นต้นไม้ตัดสินใจ, ฟอเรสต์แบบสุ่ม, การถดถอยโลจิสติกและอื่น ๆ )สำหรับการตรวจจับการฉ้อโกงโดยใช้รหัสด้านล่าง library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome - Fraud/Not-Fraud ตอนนี้ฉันได้คาดการณ์ชุดข้อมูลที่มองไม่เห็น pred = predict(rfFit, newData) แล้วฉันจะได้รับการตอบรับจากทีมสืบสวนเกี่ยวกับการจำแนกของฉันและพบว่าฉันได้ทำผิดพลาดของการจำแนกประเภทที่หลอกลวงไม่ทุจริต (เช่นหนึ่งลบเท็จ ) มีอยู่หรือไม่ที่ฉันสามารถให้อัลกอริทึมของฉันเข้าใจว่ามันทำผิดพลาดหรือไม่? เช่นวิธีใดในการเพิ่มลูปข้อเสนอแนะไปยังอัลกอริทึมเพื่อให้สามารถแก้ไขข้อผิดพลาดได้ ทางเลือกหนึ่งที่ฉันสามารถนึกได้จากส่วนบนของหัวคือการสร้างตัวadaboost classifierแยกประเภทใหม่เพื่อแก้ไขข้อผิดพลาดของตัวเก่า หรือผมเคยได้ยินอะไรบางอย่างหรือIncremental Learning Online learningมีการใช้งาน (แพ็คเกจ) ที่มีอยู่Rหรือไม่? …

2
เทคนิคการเรียนรู้ของเครื่องสำหรับการเรียนรู้รูปแบบสตริง
ฉันมีรายการคำที่เป็นของหมวดหมู่ที่กำหนดเองที่แตกต่างกัน แต่ละหมวดหมู่มีรูปแบบของตัวเอง (ตัวอย่างเช่นหมวดหนึ่งมีความยาวคงที่พร้อมด้วยอักขระพิเศษอีกประเภทหนึ่งมีตัวอักษรอยู่ซึ่งเกิดขึ้นเฉพาะในหมวดหมู่ "คำ", ... ) ตัวอย่างเช่น: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... ฉันกำลังค้นหาเทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้รูปแบบเหล่านี้ด้วยตนเองตามข้อมูลการฝึกอบรม ฉันได้พยายามกำหนดตัวแปรตัวทำนายบางตัว (เช่นความยาวจำนวนตัวอักษรพิเศษ ... ) ด้วยตัวเองแล้วใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้และทำนายหมวดหมู่ แต่นั่นไม่ใช่สิ่งที่ฉันต้องการ ฉันต้องการเทคนิคเพื่อเรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่ด้วยตัวเอง - แม้กระทั่งเรียนรู้รูปแบบที่ฉันไม่เคยคิด ดังนั้นฉันจึงให้ข้อมูลการเรียนรู้อัลกอริทึม (ประกอบด้วยตัวอย่างหมวดคำ) และต้องการให้เรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่เพื่อทำนายหมวดหมู่ในภายหลังจากคำที่คล้ายกันหรือเท่ากัน มีวิธีการที่ทันสมัยในการทำมันได้หรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

5
โมเดลการจำแนกประเภทที่ตีความได้มากที่สุด
ยกเว้นต้นไม้ตัดสินใจและการถดถอยโลจิสติกโมเดลการจำแนกประเภทอื่นใดที่ให้การตีความที่ดี ฉันไม่สนใจความถูกต้องหรือพารามิเตอร์อื่น ๆ การตีความผลลัพธ์เป็นสิ่งสำคัญเท่านั้น

1
จะค้นหาและประเมิน discretization ที่เหมาะสมที่สุดสำหรับตัวแปรต่อเนื่องที่มีเกณฑ์อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรต่อเนื่องและตัวแปรเป้าหมายไบนารี (0 และ 1) ฉันต้องจำแนกตัวแปรต่อเนื่อง (สำหรับการถดถอยโลจิสติก) ด้วยความเคารพต่อตัวแปรเป้าหมายและด้วยข้อ จำกัด ที่ความถี่ของการสังเกตในแต่ละช่วงเวลาควรมีความสมดุล ฉันลองใช้กลไกการเรียนรู้ของเครื่องอย่าง Chi Merge ต้นไม้ตัดสินใจ การรวมกันของชี่ทำให้ฉันมีช่วงเวลาที่มีจำนวนไม่สมดุลมากในแต่ละช่วงเวลา (ช่วงเวลาที่มีการสังเกต 3 ครั้งและอีกช่วงหนึ่งมี 1,000 ครั้ง) ต้นไม้ตัดสินใจยากที่จะตีความ ฉันได้ข้อสรุปว่าการแยกส่วนที่ดีที่สุดควรเพิ่มค่าสถิติระหว่างตัวแปรที่แยกส่วนกับตัวแปรเป้าหมายและควรมีช่วงเวลาที่มีจำนวนการสังเกตประมาณเท่ากันχ2χ2\chi^2 มีอัลกอริทึมสำหรับการแก้ปัญหานี้หรือไม่? นี่มันมีลักษณะอย่างไรใน R (def คือตัวแปรเป้าหมายและ x เป็นตัวแปรที่จะแยกส่วน) ฉันคำนวณของ Tschuprow เพื่อประเมิน "สหสัมพันธ์" ระหว่างการแปลงและตัวแปรเป้าหมายเนื่องจากสถิติมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนช่วงเวลา ฉันไม่แน่ใจว่านี่เป็นวิธีที่ถูกต้องหรือไม่TTTχ2χ2\chi^2 มีวิธีอื่นในการประเมินหรือไม่หาก discretization ของฉันนั้นดีที่สุดนอกเหนือจาก Tschuprow (เพิ่มขึ้นเมื่อจำนวนคลาสลดลง)?TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), …

2
วิธีหาน้ำหนักสำหรับมาตรการที่ไม่คุ้นเคย
ฉันต้องการเรียนรู้คุณลักษณะน้ำหนัก (อนุมาน) สำหรับการวัดความแตกต่างของฉันที่ฉันสามารถใช้สำหรับการจัดกลุ่ม ฉันมีตัวอย่างของคู่ของวัตถุที่ "คล้ายกัน" (ควรอยู่ในกลุ่มเดียวกัน) รวมถึงตัวอย่างบางส่วนของคู่ของวัตถุที่ "ไม่เหมือนกัน" (ไม่ควรเหมือนกัน อยู่ในกลุ่มเดียวกัน) แต่ละวัตถุมีจำนวนคุณลักษณะ: ถ้าคุณต้องการเราสามารถคิดว่าแต่ละวัตถุเป็นเวกเตอร์ -dimensional ของคุณลักษณะโดยที่แต่ละคุณลักษณะนั้นเป็นจำนวนเต็มไม่เป็นลบ มีเทคนิคในการใช้ตัวอย่างของวัตถุที่คล้ายกัน / แตกต่างกันเพื่อประเมินจากน้ำหนักคุณลักษณะที่เหมาะสมที่สุดสำหรับการวัดที่แตกต่างกันหรือไม่?(aผม,ขผม)(ai,bi)(a_i,b_i)(คผม,dผม)(ci,di)(c_i,d_i)ddd ถ้ามันช่วยได้ในแอปพลิเคชันของฉันมันอาจจะสมเหตุสมผลที่จะมุ่งเน้นไปที่การเรียนรู้การวัดที่แตกต่างซึ่งเป็นมาตรฐาน L2 แบบถ่วงน้ำหนัก d( x , y) =ΣJαJ( x [ j ] - y[ j ])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. ที่ไม่รู้จักน้ำหนักและควรเรียนรู้ (หรือการวัดความคล้ายคลึงโคไซน์แบบถ่วงน้ำหนักบางชนิดก็มีเหตุผลเช่นกัน) มีอัลกอริทึมที่ดีในการเรียนรู้น้ำหนักสำหรับการวัดเช่นนี้หรือไม่ หรือมีวิธีอื่นในการเรียนรู้วิธีวัดความเหมือน / ความแตกต่างที่ฉันควรพิจารณาαJαj\alpha_jαJαj\alpha_j จำนวนมิติมีขนาดใหญ่มาก (เป็นพันหรือสูงกว่านั้นมาจากคุณสมบัติถุงคำ) อย่างไรก็ตามฉันมีตัวอย่างเป็นหมื่น ๆ ตัวอย่าง …

3
LDA เทียบกับ perceptron
ฉันพยายามเข้าใจว่า LDA เหมาะสมกับเทคนิคการเรียนรู้แบบมีผู้สอนอื่น ๆ อย่างไร ฉันได้อ่านโพสต์ LDA-esque บางส่วนเกี่ยวกับ LDA ที่นี่แล้ว ฉันคุ้นเคยกับ perceptron แล้ว แต่เพิ่งเรียนรู้ LDA ในตอนนี้ LDA 'เหมาะสม' ในครอบครัวของอัลกอริทึมการเรียนรู้ภายใต้การดูแลอย่างไร สิ่งที่อาจเป็นข้อเสียของมันเทียบกับวิธีการอื่น ๆ เหล่านั้นและสิ่งที่มันอาจจะใช้ที่ดีกว่าสำหรับ? ทำไมต้องใช้ LDA เมื่อมีใครสามารถใช้พูด perceptron เป็นต้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.