วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
ความแตกต่างใด ๆ ในการทำให้เป็นมาตรฐานใน MLP ระหว่างการอัพเดตแบบแบตช์และแบบเดี่ยว
ฉันเพิ่งเรียนรู้เกี่ยวกับการทำให้เป็นมาตรฐานเป็นแนวทางในการควบคุมการปรับตัวให้เหมาะสมและฉันต้องการที่จะรวมแนวคิดนี้ไว้ในการติดตั้ง backpropagation และMultilayer perceptron (MLP) ที่เรียบง่าย ขณะนี้เพื่อหลีกเลี่ยงการปรับตัวเกินฉันข้ามการตรวจสอบและรักษาเครือข่ายด้วยคะแนนที่ดีที่สุดจนถึงชุดการตรวจสอบ การทำงานนี้ใช้ได้ แต่การเพิ่มการทำให้เป็นมาตรฐานจะเป็นประโยชน์กับฉันในการเลือกอัลกอริธึมและพารามิเตอร์ในการทำให้เป็นมาตรฐานจะทำให้เครือข่ายของฉันมาบรรจบกันในรูปแบบที่ไม่เหมาะอย่างเป็นระบบมากขึ้น สูตรที่ฉันมีสำหรับคำที่ใช้ในการปรับปรุง (จากหลักสูตร Coursera ML) ระบุไว้เป็นชุดการปรับปรุงเช่นสำหรับแต่ละน้ำหนักหลังจากรวม deltas ที่เกี่ยวข้องทั้งหมดสำหรับชุดการฝึกอบรมทั้งหมดจากการเผยแพร่ข้อผิดพลาดการปรับปรุงlambda * current_weightจะถูกเพิ่มเช่นกัน เดลต้าจะถูกลบออกในตอนท้ายของแบทช์โดยที่lambdaพารามิเตอร์การทำให้เป็นปกติ การติดตั้ง backpropagation ของฉันใช้การอัพเดทน้ำหนักต่อรายการ ฉันกังวลว่าฉันไม่สามารถคัดลอกวิธีการแบทช์ได้แม้ว่าจะดูเป็นเรื่องง่ายสำหรับฉัน คำศัพท์ธรรมดาที่มีขนาดเล็กกว่าใช้กับสินค้าได้หรือไม่ ตัวอย่างเช่นlambda * current_weight / Nที่ N คือขนาดของชุดการฝึกอบรม - ในแวบแรกนี่ดูสมเหตุสมผล ฉันไม่พบสิ่งใดในหัวเรื่องและฉันสงสัยว่านั่นเป็นเพราะการทำให้เป็นมาตรฐานไม่ทำงานเช่นกันกับการอัปเดตต่อรายการหรือแม้แต่ไปอยู่ภายใต้ชื่ออื่นหรือสูตรที่เปลี่ยนแปลง

4
แนะนำชุดข้อมูลการฝึกอบรมตัวจําแนกข้อความ
ชุดข้อมูลใดที่ฉันสามารถใช้เพื่อฝึกตัวแยกประเภทข้อความได้อย่างอิสระ เราพยายามปรับปรุงการมีส่วนร่วมของผู้ใช้โดยแนะนำเนื้อหาที่เกี่ยวข้องมากที่สุดสำหรับเขาดังนั้นเราจึงคิดว่าถ้าเราจัดหมวดหมู่เนื้อหาตามคำที่กำหนดไว้ล่วงหน้าเราสามารถแนะนำให้เขามีส่วนร่วมเนื้อหาโดยรับข้อเสนอแนะของเขา ก่อน. เราสามารถใช้ข้อมูลนี้เพื่อแนะนำให้เขาติดป้ายกำกับที่มีคลาสเหล่านั้น แต่เราพบว่าหากเราใช้ถุงคำที่กำหนดไว้ล่วงหน้าซึ่งไม่เกี่ยวข้องกับเนื้อหาของเราเวกเตอร์คุณลักษณะจะเต็มไปด้วยเลขศูนย์หมวดหมู่อาจไม่เกี่ยวข้องกับเนื้อหาของเรา ดังนั้นด้วยเหตุผลเหล่านั้นเราจึงลองใช้วิธีแก้ไขปัญหาอื่นซึ่งจะทำการจัดกลุ่มเนื้อหาของเราไม่แยกประเภท ขอบคุณ :)

1
การเรียนรู้การเข้ารหัสสัญญาณ
ฉันมีตัวอย่างจำนวนมากซึ่งเป็นตัวแทนของกระแสบิตเข้ารหัสแมนเชสเตอร์เป็นสัญญาณเสียง ความถี่ที่พวกเขาถูกเข้ารหัสเป็นส่วนประกอบความถี่หลักเมื่อมันสูงและมีจำนวนเสียงสีขาวในพื้นหลังที่สอดคล้องกัน ฉันถอดรหัสสตรีมเหล่านี้ด้วยตนเอง แต่ฉันสงสัยว่าฉันสามารถใช้เทคนิคการเรียนรู้ของเครื่องบางอย่างเพื่อเรียนรู้โครงร่างการเข้ารหัส สิ่งนี้จะช่วยประหยัดเวลาได้มากในการจดจำโครงร่างเหล่านี้ด้วยตนเอง ความยากลำบากคือสัญญาณที่แตกต่างกันจะถูกเข้ารหัสแตกต่างกัน เป็นไปได้ไหมที่จะสร้างรูปแบบที่สามารถเรียนรู้การถอดรหัสมากกว่าหนึ่งโครงร่างการเข้ารหัส? แบบจำลองดังกล่าวมีความแข็งแกร่งเพียงใดและฉันต้องการใช้เทคนิคแบบใด การวิเคราะห์องค์ประกอบอิสระ (ICA) ดูเหมือนว่าจะมีประโยชน์สำหรับการแยกความถี่ที่ฉันสนใจ แต่ฉันจะเรียนรู้รูปแบบการเข้ารหัสได้อย่างไร

1
การทำเหมืองข้อมูลเชิงสัมพันธ์แบบไม่มี ILP
ฉันมีชุดข้อมูลขนาดใหญ่จากฐานข้อมูลเชิงสัมพันธ์ซึ่งฉันจำเป็นต้องสร้างรูปแบบการจำแนกสำหรับ ปกติสำหรับสถานการณ์นี้ฉันจะใช้Inductive Logic Programming (ILP) แต่เนื่องจากสถานการณ์พิเศษฉันไม่สามารถทำเช่นนั้นได้ อีกวิธีหนึ่งในการแก้ไขปัญหานี้ก็คือพยายามรวบรวมค่าเมื่อฉันมีความสัมพันธ์ต่างประเทศ อย่างไรก็ตามฉันมีแถวที่สำคัญและแตกต่างกันหลายพันแถวสำหรับคุณลักษณะบางอย่างที่ระบุ (เช่น: ผู้ป่วยที่เกี่ยวข้องกับใบสั่งยาที่แตกต่างกันหลายรายการ) ดังนั้นฉันไม่สามารถทำได้โดยไม่ต้องสร้างแอตทริบิวต์ใหม่สำหรับแต่ละแถวที่แตกต่างกันของแอตทริบิวต์เล็กน้อยและยิ่งไปกว่านั้นคอลัมน์ใหม่ส่วนใหญ่จะมีค่า NULL หากฉันทำเช่นนั้น มีอัลกอริทึมที่ไม่ใช่ ILP หรือไม่ที่อนุญาตให้ฉันสร้างฐานข้อมูลเชิงสัมพันธ์กับทุ่นระเบิดโดยไม่ต้องหันไปใช้เทคนิคต่าง ๆ เช่นการหมุนซึ่งจะสร้างคอลัมน์ใหม่หลายพันคอลัมน์?

2
การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน
ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 …

1
อะไรคือตัวชี้วัดประสิทธิภาพที่ดีที่สุดที่ใช้ในการสร้างสมดุลของชุดข้อมูลโดยใช้เทคนิค SMOTE
ฉันใช้เทคนิค smote เพื่อสุ่มตัวอย่างชุดข้อมูลของฉันและตอนนี้ฉันมีชุดข้อมูลที่สมดุล ปัญหาที่ฉันเผชิญคือการวัดประสิทธิภาพ ความแม่นยำ, การเรียกคืน, การวัด f1, ความแม่นยำในชุดข้อมูลที่ไม่สมดุลนั้นทำได้ดีกว่าชุดข้อมูลที่มีความสมดุล ฉันสามารถใช้การวัดใดเพื่อแสดงว่าชุดข้อมูลที่สมดุลอาจปรับปรุงประสิทธิภาพของโมเดลได้หรือไม่ หมายเหตุ: roc_auc_score จะดีกว่าในชุดข้อมูลที่สมดุลกว่า roc_auc_score พร้อมชุดข้อมูลที่ไม่สมดุลจะถือว่าเป็นการวัดประสิทธิภาพที่ดีได้หรือไม่ หลังจากคำอธิบายฉันใช้รหัสและได้ผลลัพธ์นี้ import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns …

1
keras 'ModelCheckpoint ไม่ทำงาน
ฉันพยายามฝึกโมเดลใน keras และฉันใช้ModelCheckpointเพื่อบันทึกโมเดลที่ดีที่สุดตามการตรวจสอบความถูกต้องที่ตรวจสอบ (ในกรณีของฉันคือดัชนี Jaccard ) ในขณะที่ฉันสามารถเห็นรูปแบบการปรับปรุงในแผงเมตริกซ์เมื่อฉันพยายามที่จะโหลดน้ำหนักและประเมินรูปแบบมันไม่ทำงานเลย ยิ่งไปกว่านั้นด้วยการประทับเวลาของไฟล์ที่ควรเก็บตุ้มน้ำหนักฉันสามารถบอกได้ว่าไม่ได้ถูกบันทึกไว้เลย เวลาประทับสอดคล้องกับเวลาที่ฉันเริ่มการฝึกอบรม มีใครพบปัญหาดังกล่าวมาก่อนหรือไม่
8 keras  convnet 

1
การจัดหมวดหมู่ของวิธีการที่จะจัดการกับคลาสที่ไม่สมดุล
เป็นวิธีที่ดีที่สุดในการจัดหมวดหมู่วิธีการที่ได้รับการพัฒนาเพื่อจัดการกับปัญหาระดับความไม่สมดุลคืออะไร? นี้บทความแบ่งพวกเขาออกเป็น: การประมวลผลล่วงหน้า: รวมถึงการ oversampling, undersampling และ hybrid การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุน: รวมถึงวิธีการโดยตรงและการเรียนรู้แบบ meta-learning เทคนิคของ Ensemble: ประกอบด้วยตระการตาที่ไวต่อราคาและการประมวลผลข้อมูลล่วงหน้าร่วมกับการเรียนรู้ทั้งมวล การจำแนกประเภทที่สอง : การประมวลผลข้อมูลล่วงหน้า: รวมถึงการเปลี่ยนแปลงการกระจายและการถ่วงน้ำหนักพื้นที่ข้อมูล การเรียนรู้แบบชั้นเดียวถือเป็นการเปลี่ยนการกระจาย วิธีการเรียนรู้จุดประสงค์พิเศษ การคาดการณ์หลังการประมวลผล: รวมถึงวิธีการตามเกณฑ์และการประมวลผลภายหลังที่มีความอ่อนไหวด้านต้นทุน วิธีไฮบริด: บทความที่สาม: วิธีการระดับข้อมูล วิธีการระดับอัลกอริทึม วิธีไฮบริด การจำแนกประเภทสุดท้ายยังพิจารณาการปรับปรุงผลลัพธ์เป็นแนวทางอิสระ ขอบคุณล่วงหน้า.

2
เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?
คุณช่วยอธิบายความแม่นยำอัน จำกัด ได้อย่างไร? เหตุใดขอบเขต จำกัด จึงมีปัญหาในการเรียนรู้ของเครื่อง?

3
มีเทคนิคการเรียนรู้ด้วยเครื่องเพื่อระบุคะแนนในแปลง / ภาพหรือไม่?
ฉันมีข้อมูลสำหรับตำแหน่งด้านข้างของรถแต่ละคันเมื่อเวลาผ่านไปและหมายเลขช่องทางตามที่แสดงใน 3 แปลงในภาพและข้อมูลตัวอย่างด้านล่าง > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 ตำแหน่งด้านข้างแตกต่างกันไปตามกาลเวลาเนื่องจากคนขับรถมนุษย์ไม่สามารถควบคุมตำแหน่งของยานพาหนะได้อย่างสมบูรณ์แบบ การเปลี่ยนเลนเริ่มต้นเมื่อตำแหน่งด้านข้างเปลี่ยนไปอย่างมากและสิ้นสุดลงเมื่อความแปรปรวนกลายเป็น 'ปกติ' อีกครั้ง ไม่สามารถระบุได้จากข้อมูลโดยตรง ฉันต้องดูพล็อตของยานพาหนะแต่ละคันด้วยตนเองเพื่อกำหนดจุดเริ่มต้นและจุดสิ้นสุดของการเปลี่ยนเลนเพื่อประเมินระยะเวลาของการเปลี่ยนเลน แต่ฉันมียานพาหนะหลายพันคันในชุดข้อมูล คุณช่วยชี้แนะทางไปยังอัลกอริธึมการวิเคราะห์รูปภาพ / เครื่องเรียนรู้ที่เกี่ยวข้องซึ่งสามารถฝึกฝนเพื่อระบุประเด็นเหล่านี้ได้หรือไม่? ฉันทำงานในอาร์ขอบคุณล่วงหน้า

5
แบบฝึกหัดเกี่ยวกับแบบจำลองหัวข้อและ LDA
ฉันต้องการทราบว่าคนของคุณมีแบบฝึกหัดที่ดี (รวดเร็วและตรงไปตรงมา) เกี่ยวกับแบบจำลองหัวข้อและ LDA สอนวิธีการตั้งค่าพารามิเตอร์บางอย่างโดยสังเขปว่าพวกเขาหมายถึงอะไรและเป็นไปได้ด้วยตัวอย่างจริง ๆ

2
เหตุใดการไล่ระดับสีแบบเพิ่มการถดถอยจึงทำนายค่าลบเมื่อไม่มีค่า y ติดลบในชุดการฝึกอบรมของฉัน
ในขณะที่ฉันเพิ่มจำนวนต้นไม้ในScikit เรียนรู้ของGradientBoostingRegressorฉันได้รับการคาดการณ์เชิงลบมากขึ้นแม้ว่าจะไม่มีค่าลบในชุดการฝึกอบรมหรือการทดสอบของฉัน ฉันมีคุณสมบัติประมาณ 10 ตัวซึ่งส่วนใหญ่เป็นแบบไบนารี่ พารามิเตอร์บางอย่างที่ฉันปรับจูน ได้แก่ : จำนวนต้นไม้ / การวนซ้ำ; การเรียนรู้เชิงลึก และอัตราการเรียนรู้ เปอร์เซ็นต์ของค่าลบดูเหมือนสูงสุดที่ ~ 2% ความลึกของการเรียนรู้ที่ 1 (ตอไม้) ดูเหมือนจะมีค่า% ที่ใหญ่ที่สุด เปอร์เซ็นต์นี้ดูเหมือนจะเพิ่มขึ้นด้วยต้นไม้มากขึ้นและอัตราการเรียนรู้ที่น้อยลง ชุดข้อมูลมาจากหนึ่งในการแข่งขันสนามเด็กเล่น kaggle รหัสของฉันเป็นสิ่งที่ชอบ: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = …

2
ข้อผิดพลาดของหน่วยความจำเมื่อใช้เลเยอร์เพิ่มเติมในรุ่น CNN
ใน dell core i7 ของฉัน - RAM 16GB - แล็ปท็อป GPU ความจุ 4 ล้าน 960m ฉันกำลังทำงานในโครงการเพื่อจัดประเภทภาพปอด CT โดยใช้ 3d CNN ฉันใช้ซีพียูรุ่น tensorflow ภาพถูกจัดทำขึ้นเป็นขนาดอาร์เรย์แบบ numpy (25,50,50) โมเดล CNN ของฉันมี 2 Conv ชั้น, maxpool สองชั้น, หนึ่งชั้น FC และชั้นผลลัพธ์ ด้วยสถาปัตยกรรมนี้ฉันสามารถฝึกฝนโมเดลด้วยตัวอย่างประมาณ (5,000 ถึง 6,000) หลังจากเพิ่มเลเยอร์มากขึ้นแบบจำลองของฉันตอนนี้มีชั้นความเชื่อมั่น 6 ชั้น, เลเยอร์พูลสูงสุด 3 ชั้น, FC และชั้นผลลัพธ์ ปัญหาของฉันคือหลังจากเปลี่ยนสถาปัตยกรรมที่มีตัวอย่างมากกว่า 1,000 …

2
ควรใช้ sklearn หรือ tensorflow สำหรับเครือข่ายประสาท
ฉันเพิ่งเริ่มเรียนรู้ Neural Networks สำหรับการเรียนรู้อย่างลึกซึ้งจาก cs231 ฉันพยายามใช้ Neural Network ใน Python ฉันกำลังดูที่ใช้ Tensorflow หรือ scikit-learn ข้อดีและข้อเสียของห้องสมุดเหล่านี้สำหรับแอปพลิเคชันนี้คืออะไร

1
คำถามเกี่ยวกับการแลกเปลี่ยนความแปรปรวนแบบอคติและวิธีการเพิ่มประสิทธิภาพ
ดังนั้นฉันจึงสงสัยว่าวิธีหนึ่งสามารถเพิ่มประสิทธิภาพโมเดลที่ดีที่สุดที่พวกเขากำลังพยายามสร้างเมื่อเผชิญหน้ากับปัญหาที่นำเสนอโดยอคติสูงหรือความแปรปรวนสูง ตอนนี้แน่นอนคุณสามารถเล่นกับพารามิเตอร์การทำให้เป็นปกติเพื่อไปสู่จุดจบที่น่าพอใจ แต่ฉันสงสัยว่ามันเป็นไปได้ที่จะทำสิ่งนี้โดยไม่ต้องพึ่งพาการทำให้เป็นมาตรฐาน หาก b เป็นตัวประมาณค่าความเอนเอียงของโมเดลและ v ของความแปรปรวนของมันจะไม่มีเหตุผลที่จะพยายามลด b * v หรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.