สถิติและข้อมูลขนาดใหญ่ machine-learning

8

วิธีคำนวณความแม่นยำ / การเรียกคืนสำหรับการจำแนกประเภทมัลติคลาส / มัลติลาเบล

ฉันสงสัยว่าจะคำนวณความแม่นยำและมาตรการการเรียกคืนสำหรับการจำแนกประเภทหลายคลาสแบบหลายป้ายกำกับได้อย่างไรเช่นการจำแนกที่มีป้ายกำกับมากกว่าสองป้ายและแต่ละกรณีสามารถมีป้ายกำกับได้หลายป้าย

72 machine-learning classification precision-recall multi-class

7

ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?

ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

72 machine-learning clustering data-mining sparse euclidean

2

การแก้หาพารามิเตอร์การถดถอยในรูปแบบปิดเทียบกับการไล่ระดับสี

ในหลักสูตรการเรียนรู้ของเครื่องแอนดรูว์เขาแนะนำการถดถอยเชิงเส้นและการถดถอยโลจิสติกส์และแสดงวิธีการปรับพารามิเตอร์โมเดลโดยใช้การไล่ระดับสีแบบลาดและวิธีของนิวตัน ฉันรู้ว่าการไล่ระดับสีจะมีประโยชน์ในบางแอปพลิเคชันของการเรียนรู้ของเครื่อง (เช่น backpropogation) แต่ในกรณีทั่วไปมากขึ้นมีเหตุผลใด ๆ ที่คุณจะไม่แก้สำหรับพารามิเตอร์ในรูปแบบปิด - เช่นโดยการหาอนุพันธ์ของ ฟังก์ชั่นค่าใช้จ่ายและการแก้ไขผ่านทางแคลคูลัส? อะไรคือข้อดีของการใช้อัลกอริทึมแบบวนซ้ำเช่นการไล่ระดับสีแบบลาดชันเหนือโซลูชันแบบปิดโดยทั่วไปเมื่อมีให้ใช้งาน?

71 regression machine-learning logistic gradient-descent

8

ทักษะยากที่จะหาในผู้เรียนรู้เครื่องจักร?

ดูเหมือนว่าการขุดข้อมูลและการเรียนรู้ของเครื่องจักรกลายเป็นที่นิยมจนตอนนี้นักเรียน CS เกือบทุกคนรู้เรื่องตัวแยกประเภทการจัดกลุ่มการ NLP เชิงสถิติ ฯลฯ ดังนั้นดูเหมือนว่าการค้นหาตัวขุดข้อมูลไม่ใช่เรื่องยากในปัจจุบัน คำถามของฉันคืออะไรทักษะที่นักขุดข้อมูลสามารถเรียนรู้ที่จะทำให้เขาแตกต่างจากคนอื่น ๆ คืออะไร? ที่จะทำให้เขาเป็นคนที่ไม่เหมือนใครง่ายๆ

71 machine-learning data-mining

9

ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา

พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

69 machine-learning time-series python computational-statistics anomaly-detection

1

วิธีการแยกชุดข้อมูลสำหรับการตรวจสอบข้ามการเรียนรู้และการประเมินขั้นสุดท้าย?

กลยุทธ์ที่เหมาะสมสำหรับการแยกชุดข้อมูลคืออะไร? ผมขอให้ความคิดเห็นเกี่ยวกับวิธีการดังต่อไปนี้ (ไม่ได้อยู่ในแต่ละพารามิเตอร์เหมือนtest_sizeหรือn_iterแต่ถ้าผมใช้X, y, X_train, y_train, X_testและy_testเหมาะสมและถ้าลำดับทำให้รู้สึก): (ขยายตัวอย่างนี้จากเอกสาร scikit-Learn) 1. โหลดชุดข้อมูล from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2. แบ่งออกเป็นชุดฝึกอบรมและทดสอบ (เช่น 80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3. เลือกเครื่องมือประมาณ from sklearn.svm import SVC estimator = SVC(kernel='linear') 4. …

69 machine-learning cross-validation python scikit-learn

4

วิธีการปรับค่าพารามิเตอร์ไฮเปอร์ของต้น xgboost

ฉันมีข้อมูลที่ไม่สมดุลในชั้นเรียน & ฉันต้องการปรับแต่งพารามิเตอร์หลายมิติของปอยผมที่เพิ่มขึ้นโดยใช้ xgboost คำถาม มีเทียบเท่าของ gridsearchcv หรือ randomsearchcv สำหรับ xgboost? หากไม่ใช่วิธีการที่แนะนำให้ปรับพารามิเตอร์ของ xgboost คืออะไร?

68 machine-learning cross-validation xgboost boosting

6

การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?

คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3] ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1] ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2] ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด …

67 machine-learning modeling feature-selection model-selection prediction

3

วิธีที่เหมาะสมในการใช้เครือข่ายประสาทกำเริบสำหรับการวิเคราะห์อนุกรมเวลา

เครือข่ายประสาทที่เกิดขึ้นอีกนั้นแตกต่างจากคน "ปกติ" โดยข้อเท็จจริงที่ว่าพวกเขามี "หน่วยความจำ" เลเยอร์ เนื่องจากเลเยอร์นี้เอ็นเอ็นที่กำเริบจึงควรจะมีประโยชน์ในการสร้างแบบจำลองอนุกรมเวลา อย่างไรก็ตามฉันไม่แน่ใจว่าฉันเข้าใจวิธีการใช้อย่างถูกต้อง สมมติว่าฉันมีอนุกรมเวลาต่อไปนี้ (จากซ้ายไปขวา): [0, 1, 2, 3, 4, 5, 6, 7]เป้าหมายของฉันคือการทำนายiจุดที่ -th โดยใช้จุดi-1และi-2เป็นอินพุต (สำหรับแต่ละรายการi>2) ใน "ปกติ" ANN ที่ไม่เกิดซ้ำฉันจะดำเนินการกับข้อมูลดังต่อไปนี้: target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 ฉันจะสร้างเน็ตที่มีสองอินพุตและหนึ่งเอาต์พุตโหนดและฝึกกับข้อมูลข้างต้น เราจำเป็นต้องเปลี่ยนแปลงกระบวนการนี้อย่างไร (ถ้ามี) ในกรณีของเครือข่ายที่เกิดซ้ำ

67 time-series machine-learning neural-networks

4

อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?

ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้ อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσσ\sigma ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

67 machine-learning pca svm kernel-trick

3

อะไรคือความแตกต่างระหว่างเครือข่ายประสาทและเครือข่ายความเชื่อที่ลึกซึ้ง?

ฉันได้รับความประทับใจว่าเมื่อผู้คนพูดถึงเครือข่าย 'ความเชื่อลึก' ว่านี่เป็นเครือข่ายประสาท แต่มีขนาดใหญ่มาก สิ่งนี้ถูกต้องหรือเครือข่ายที่มีความเชื่ออย่างลึกซึ้งหรือไม่ก็บอกเป็นนัยว่าอัลกอริธึมเองนั้นแตกต่างกัน (เช่นไม่มีตัวส่งต่อโครงข่ายประสาท

62 machine-learning neural-networks deep-learning deep-belief-networks

4

ฟังก์ชั่น Softmax vs Sigmoid ในลอจิสติกลอจิก

อะไรคือตัวเลือกของฟังก์ชั่น (Softmax vs Sigmoid) ในลอจิสติกลักษณนาม? สมมติว่ามี 4 ชั้นเรียนเอาท์พุท แต่ละฟังก์ชั่นด้านบนให้ความน่าจะเป็นของแต่ละคลาสเป็นเอาต์พุตที่ถูกต้อง ดังนั้นอันไหนที่จะใช้สำหรับลักษณนาม

62 machine-learning logistic classification softmax

2

ทำไมต้องมีสามพาร์ติชั่นเท่านั้น? (การฝึกอบรมการตรวจสอบการทดสอบ)

เมื่อคุณพยายามที่จะจัดให้โมเดลเข้ากับชุดข้อมูลขนาดใหญ่คำแนะนำทั่วไปคือการแบ่งพาร์ติชันข้อมูลออกเป็นสามส่วน ได้แก่ การฝึกอบรมการตรวจสอบความถูกต้องและชุดข้อมูลการทดสอบ นี่เป็นเพราะโมเดลมักจะมี "ระดับ" ของพารามิเตอร์สามตัว: "พารามิเตอร์" ตัวแรกคือคลาสโมเดล (เช่น SVM, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม) ชุดพารามิเตอร์ที่สองคือพารามิเตอร์ "การทำให้เป็นมาตรฐาน" หรือ " เช่นค่าสัมประสิทธิ์การลงโทษบ่วงบาศเลือกเคอร์เนลโครงข่ายโครงข่ายประสาทเทียม) และเซตที่สามคือสิ่งที่มักจะพิจารณาว่า "พารามิเตอร์" (เช่นค่าสัมประสิทธิ์สำหรับ covariates) เมื่อกำหนดคลาสของโมเดลและตัวเลือกพารามิเตอร์หลายตัวพารามิเตอร์หนึ่งจะเลือกโดยการเลือกพารามิเตอร์ที่ช่วยลดข้อผิดพลาดในชุดฝึกอบรม เมื่อกำหนดคลาสของโมเดลหนึ่งจะทำไฮเปอร์พารามิเตอร์โดยย่อข้อผิดพลาดให้น้อยที่สุดในชุดการตรวจสอบความถูกต้อง มีการเลือกคลาสรุ่นตามประสิทธิภาพในชุดทดสอบ แต่ทำไมไม่แบ่งพาร์ติชันเพิ่มเติม? บ่อยครั้งที่ใครคนหนึ่งสามารถแบ่งพารามิเตอร์หลายตัวเป็นสองกลุ่มและใช้ "การตรวจสอบ 1" เพื่อให้พอดีกับที่หนึ่งและ "การตรวจสอบที่ 2" เพื่อให้พอดีกับที่สอง หรืออย่างใดอย่างหนึ่งก็สามารถรักษาขนาดของข้อมูลการฝึกอบรม / ข้อมูลการตรวจสอบแยกเป็นพารามิเตอร์ที่จะปรับ นี่เป็นวิธีปฏิบัติทั่วไปในบางแอปพลิเคชันหรือไม่ มีทฤษฎีใดบ้างเกี่ยวกับการแบ่งพาร์ติชั่นข้อมูลที่ดีที่สุด?

61 machine-learning model-selection data-mining

9

การปรับมาตรฐานและการปรับขนาดคุณสมบัติทำงานอย่างไรและทำไม

ฉันเห็นว่าอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากทำงานได้ดีขึ้นด้วยการยกเลิกค่าเฉลี่ยและการทำให้เท่ากันความแปรปรวนร่วม ตัวอย่างเช่นโครงข่ายประสาทมีแนวโน้มที่จะมาบรรจบกันเร็วขึ้นและโดยทั่วไป K-Means จะให้การจัดกลุ่มที่ดีขึ้นด้วยคุณสมบัติที่ประมวลผลล่วงหน้า ฉันไม่เห็นปรีชาที่อยู่เบื้องหลังขั้นตอนการประมวลผลล่วงหน้าเหล่านี้นำไปสู่การปรับปรุงประสิทธิภาพ มีคนอธิบายเรื่องนี้กับฉันได้ไหม

61 machine-learning neural-networks covariance normalization

8

ฉันจะช่วยให้มั่นใจได้อย่างไรว่าข้อมูลการทดสอบไม่รั่วไหลไปสู่ข้อมูลการฝึกอบรม?

สมมติว่าเรามีใครบางคนกำลังสร้างแบบจำลองการทำนาย แต่บางคนไม่จำเป็นต้องมีความรอบรู้ในหลักการทางสถิติหรือการเรียนรู้ของเครื่องที่เหมาะสม บางทีเราอาจช่วยคน ๆ นั้นขณะที่พวกเขากำลังเรียนรู้หรือบางทีคนนั้นก็กำลังใช้แพคเกจซอฟต์แวร์บางประเภทที่ต้องการความรู้น้อยที่สุดในการใช้งาน ตอนนี้บุคคลนี้อาจจำได้ดีว่าการทดสอบจริงมาจากความถูกต้อง (หรืออะไรก็ตามที่วัดอื่น ๆ ) จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง อย่างไรก็ตามความกังวลของฉันคือมีจำนวนมากรายละเอียดย่อยที่ต้องกังวลเกี่ยวกับ ในกรณีที่ง่ายพวกเขาสร้างแบบจำลองของพวกเขาและประเมินบนข้อมูลการฝึกอบรมและประเมินบนข้อมูลการทดสอบที่จัดขึ้น น่าเสียดายที่บางครั้งมันง่ายเกินไปที่จะย้อนกลับไปและปรับแต่งพารามิเตอร์การสร้างแบบจำลองและตรวจสอบผลลัพธ์ในข้อมูล "การทดสอบ" เดียวกันนั้น ณ จุดนี้ข้อมูลไม่ได้เป็นข้อมูลนอกตัวอย่างที่แท้จริงอีกต่อไปและการมีน้ำหนักเกินอาจกลายเป็นปัญหาได้ วิธีหนึ่งที่เป็นไปได้ในการแก้ไขปัญหานี้คือการแนะนำให้สร้างชุดข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำนวนมากซึ่งชุดทดสอบแต่ละชุดสามารถถูกทิ้งหลังการใช้งานและไม่ได้นำมาใช้ซ้ำเลย วิธีนี้ต้องใช้การจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งการแยกที่ต้องทำก่อนการวิเคราะห์ (ดังนั้นคุณจะต้องรู้จำนวนการแยกก่อนล่วงหน้า) บางทีวิธีการทั่วไปที่มากขึ้นก็คือการตรวจสอบความถูกต้องด้วย k-fold อย่างไรก็ตามในบางแง่ที่สูญเสียความแตกต่างระหว่างชุดข้อมูล "การฝึกอบรม" และ "การทดสอบ" ที่ฉันคิดว่าจะมีประโยชน์โดยเฉพาะอย่างยิ่งกับผู้ที่ยังคงเรียนรู้ นอกจากนี้ฉันไม่มั่นใจว่าสิ่งนี้เหมาะสมสำหรับแบบจำลองการทำนายทุกประเภท มีวิธีที่ฉันมองข้ามเพื่อช่วยเอาชนะปัญหาการ overfitting และการทดสอบการรั่วไหลในขณะที่ยังคงค่อนข้างชัดเจนกับผู้ใช้ที่ไม่มีประสบการณ์?

60 machine-learning classification predictive-models cross-validation out-of-sample

คำถามติดแท็ก machine-learning