วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

6
มีเครื่องมือใดสำหรับวิศวกรรมฟีเจอร์หรือไม่
โดยเฉพาะสิ่งที่ฉันกำลังมองหาคือเครื่องมือที่มีฟังก์ชั่นการใช้งานบางอย่างซึ่งเป็นคุณสมบัติเฉพาะสำหรับงานวิศวกรรม ฉันต้องการที่จะสามารถเรียบมองเห็นเติมช่องว่าง ฯลฯ สิ่งที่คล้ายกับ MS Excel แต่ที่มี R เป็นภาษาพื้นฐานแทน VB

6
SVD และ PCA มีข้อมูลขนาดใหญ่ได้อย่างไร
ฉันมีชุดข้อมูลขนาดใหญ่ (ประมาณ 8GB) ฉันต้องการใช้การเรียนรู้ของเครื่องเพื่อวิเคราะห์ ดังนั้นฉันคิดว่าฉันควรใช้ SVD แล้ว PCA เพื่อลดมิติข้อมูลเพื่อประสิทธิภาพ อย่างไรก็ตาม MATLAB และ Octave ไม่สามารถโหลดชุดข้อมูลขนาดใหญ่ดังกล่าวได้ เครื่องมือใดที่ฉันสามารถใช้เพื่อทำ SVD ด้วยข้อมูลจำนวนมาก

4
เลเยอร์ Convolution ที่ตามมาทำงานอย่างไร?
คำถามนี้เดือดลงไป "วิธีการทำชั้นบิดว่าการทำงาน สมมติว่าฉันมีภาพเฉดสีเทาขนาดดังนั้นภาพจึงมีหนึ่งช่อง ในชั้นแรกฉันใช้การแปลง3 × 3กับตัวกรองk 1และช่องว่างภายใน จากนั้นฉันก็มีชั้นสังวัตนาอีกชั้นหนึ่งที่มีตัวกรอง5 × 5และตัวกรองk 2 ฉันมีแผนที่คุณลักษณะกี่อันn×mn×mn \times m3×33×33\times 3k1k1k_15×55×55 \times 5k2k2k_2 Convolution แบบที่ 1 เลเยอร์แรกจะถูกดำเนินการ หลังจากนั้นฉันมีแผนที่คุณลักษณะ (อันสำหรับตัวกรองแต่ละตัว) แต่ละคนมีขนาดn ×เมตร ทุกพิกเซลถูกสร้างขึ้นโดยการใช้3 ⋅ 3 = 9พิกเซลจากภาพอินพุตเสริมk1k1k_1n×mn×mn \times m3⋅3=93⋅3=93 \cdot 3 = 9 จากนั้นเลเยอร์ที่สองจะถูกนำไปใช้ ทุกคนได้รับการกรองมาใช้แยกแต่ละแผนที่คุณลักษณะ ผลลัพธ์นี้มีการแม็พฟีเจอร์สำหรับแมปฟีเจอร์k 1ทุกรายการ ดังนั้นจึงมีแผนที่คุณลักษณะk 1 × k 2หลังจากเลเยอร์ที่สอง ทุกพิกเซลเดียวของแผนที่คุณลักษณะใหม่แต่ละรายการได้สร้างขึ้นโดยใช้ขนาด5 ⋅ 5 = 25 …

2
ความจริงจากพื้นดินคืออะไร
ในบริบทของการเรียนรู้ของเครื่องจักรฉันได้เห็นคำว่าGround Truthใช้บ่อยมาก ฉันค้นหามากและพบคำจำกัดความต่อไปนี้ในWikipedia : ในการเรียนรู้ของเครื่องจักรคำว่า "ความจริงพื้นฐาน" หมายถึงความแม่นยำของการจัดหมวดหมู่ของชุดฝึกอบรมสำหรับเทคนิคการเรียนรู้แบบมีผู้สอน สิ่งนี้ใช้ในแบบจำลองทางสถิติเพื่อพิสูจน์หรือพิสูจน์สมมติฐานการวิจัย คำว่า "ความจริงพื้นฐาน" หมายถึงกระบวนการรวบรวมข้อมูลที่เหมาะสม (พิสูจน์ได้) สำหรับการทดสอบนี้ เปรียบเทียบกับมาตรฐานทองคำ การกรองสแปมแบบเบย์เป็นตัวอย่างทั่วไปของการเรียนรู้แบบมีผู้สอน ในระบบนี้อัลกอริทึมได้รับการสอนด้วยตนเองถึงความแตกต่างระหว่างสแปมและไม่ใช่สแปม ทั้งนี้ขึ้นอยู่กับความจริงพื้นฐานของข้อความที่ใช้ในการฝึกอบรมอัลกอริทึม - ความไม่ถูกต้องในความจริงภาคพื้นดินจะสัมพันธ์กับความไม่ถูกต้องในการตัดสินผลสแปม / ไม่ใช่สแปม ประเด็นก็คือฉันไม่สามารถเข้าใจความหมายได้ นั่นคือเลเบลที่ใช้สำหรับแต่ละออบเจ็กต์ข้อมูลหรือฟังก์ชั่นเป้าหมายที่ให้เลเบลกับออบเจ็กต์ข้อมูลแต่ละอันหรืออาจเป็นอย่างอื่นหรือไม่?

3
การเลือกระหว่าง CPU และ GPU สำหรับการฝึกอบรมเครือข่ายประสาท
ฉันเคยเห็นการอภิปรายเกี่ยวกับ 'ค่าใช้จ่าย' ของ GPU และสำหรับเครือข่าย 'เล็ก' จริง ๆ แล้วมันอาจจะเร็วกว่าในการฝึกอบรมบน CPU (หรือเครือข่ายของ CPU) กว่า GPU 'เล็ก' มีความหมายว่าอะไร? ตัวอย่างเช่น MLP แบบชั้นเดียวที่มี 100 หน่วยที่ซ่อนอยู่จะเล็กหรือไม่ คำจำกัดความของเราเกี่ยวกับการเปลี่ยนแปลง 'เล็ก' สำหรับสถาปัตยกรรมที่เกิดขึ้นซ้ำหรือไม่? มีเกณฑ์อื่น ๆ ที่ควรพิจารณาเมื่อตัดสินใจว่าจะฝึกใช้งาน CPU หรือ GPU หรือไม่? แก้ไข 1: ฉันเพิ่งพบโพสต์บล็อก (อาจล้าสมัยหรือไม่มันมาจาก 2014): "... การ์ดเครือข่ายส่วนใหญ่จะใช้งานได้เฉพาะกับหน่วยความจำที่ลงทะเบียนกับ CPU เท่านั้นดังนั้น GPU กับ GPU ที่ถ่ายโอนระหว่างสองโหนดจะเป็นเช่นนี้: GPU 1 ถึง CPU 1 ไปยังการ์ดเครือข่าย …

3
รูปแบบข้อมูลลำดับชั้น ข้อดีเมื่อเปรียบเทียบกับรูปแบบอื่นคืออะไร
ประโยชน์หลักของการจัดเก็บข้อมูลใน HDF คืออะไร และอะไรคืองานด้านวิทยาศาสตร์ข้อมูลหลักที่ HDF เหมาะสมและมีประโยชน์จริง ๆ

4
เครือข่าย Neural Data แจงข้อมูลสตริง?
ดังนั้นฉันเพิ่งจะเริ่มเรียนรู้ว่าเครือข่ายประสาทสามารถทำงานเพื่อจดจำรูปแบบและจัดหมวดหมู่อินพุตและฉันได้เห็นว่าเครือข่ายประสาทเทียมสามารถวิเคราะห์ข้อมูลภาพและจัดหมวดหมู่ภาพ ( สาธิตด้วย convnetjs ) และที่สำคัญมี คือการลดตัวอย่างภาพและแต่ละพิกเซลจะกระตุ้นเซลล์ประสาทขาเข้าหนึ่งเข้าสู่เครือข่าย อย่างไรก็ตามฉันพยายามล้อมหัวของฉันถ้ามันเป็นไปได้ที่จะทำกับอินพุตสตริง? กรณีใช้งานที่ฉันได้รับคือ "เครื่องมือแนะนำ" สำหรับภาพยนตร์ที่ผู้ใช้ดู ภาพยนตร์มีข้อมูลสตริงจำนวนมาก (ชื่อเรื่องพล็อตแท็ก) และฉันจินตนาการได้ว่า "การสุ่มตัวอย่าง" ข้อความเป็นคำสำคัญสองสามคำที่อธิบายภาพยนตร์เรื่องนั้น แต่ถึงแม้ว่าฉันจะแยกคำห้าอันดับแรกที่อธิบายภาพยนตร์เรื่องนี้ออก คิดว่าฉันต้องการเซลล์ประสาทที่ใส่คำศัพท์ภาษาอังกฤษทุกคำเพื่อเปรียบเทียบชุดภาพยนตร์? ฉันสามารถ จำกัด เซลล์รับเข้าเฉพาะคำที่ใช้ในชุด แต่แล้วมันจะเติบโต / เรียนรู้โดยการเพิ่มภาพยนตร์ใหม่ (ผู้ใช้ดูภาพยนตร์ใหม่ด้วยคำใหม่)? ห้องสมุดส่วนใหญ่ที่ฉันเห็นไม่อนุญาตให้เพิ่มเซลล์ประสาทใหม่หลังจากระบบได้รับการฝึกอบรมแล้ว? มีวิธีมาตรฐานในการจับคู่ข้อมูลสตริง / คำ / ตัวอักษรเข้ากับเครือข่ายประสาทหรือไม่? หรือเครือข่ายประสาทเทียมไม่ใช่เครื่องมือที่เหมาะสมสำหรับงานการวิเคราะห์ข้อมูลสตริงเช่นนี้ (เป็นเครื่องมือที่ดีกว่าสำหรับการจับคู่รูปแบบในข้อมูลสตริง)

4
เมื่อใดที่จะใช้ Random Forest เหนือ SVM และในทางกลับกัน
เมื่อไหร่จะใช้Random Forestซ้ำSVMและในทางกลับกัน? ฉันเข้าใจว่าcross-validationและการเปรียบเทียบแบบจำลองเป็นสิ่งสำคัญในการเลือกแบบจำลอง แต่ที่นี่ฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับกฎง่ายๆและการวิเคราะห์พฤติกรรมของทั้งสองวิธี บางคนช่วยอธิบายรายละเอียดปลีกย่อยจุดแข็งและจุดอ่อนของตัวแยกประเภทรวมทั้งปัญหาที่เหมาะสมที่สุดสำหรับแต่ละคนได้หรือไม่?

4
ฉันควรใช้อัลกอริทึมใดเพื่อจำแนกงานตามข้อมูลประวัติย่อ
โปรดทราบว่าฉันกำลังทำทุกอย่างในอาร์ ปัญหาเกิดขึ้นดังนี้: โดยทั่วไปฉันมีรายการเรซูเม่ (CVs) ผู้สมัครบางคนจะมีประสบการณ์การทำงานมาก่อนและบางคนไม่ เป้าหมายที่นี่คือ: ขึ้นอยู่กับข้อความในประวัติส่วนตัวของพวกเขาฉันต้องการแบ่งพวกเขาออกเป็นภาคงานที่แตกต่างกัน โดยเฉพาะอย่างยิ่งฉันในกรณีเหล่านี้ซึ่งผู้สมัครไม่มีประสบการณ์ใด ๆ / เป็นนักเรียนและฉันต้องการที่จะทำนายการจำแนกประเภทของงานที่ผู้สมัครคนนี้น่าจะเป็นหลังจบการศึกษา คำถามที่ 1: ฉันรู้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันไม่เคยทำ NLP มาก่อน ฉันเจอการปันส่วน Dirichlet ของ Latent บนอินเทอร์เน็ต อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาของฉันหรือไม่ ความคิดเดิมของฉัน: ทำให้การเรียนรู้นี้ภายใต้การดูแลปัญหา สมมติว่าเรามีข้อมูลที่มีป้ายกำกับจำนวนมากอยู่แล้วซึ่งหมายความว่าเรามีการติดป้ายชื่อหมวดงานให้ถูกต้องสำหรับรายชื่อผู้สมัคร เราฝึกอบรมแบบจำลองโดยใช้อัลกอริธึม ML (เช่นเพื่อนบ้านที่ใกล้ที่สุด ... ) และป้อนข้อมูลในข้อมูลที่ไม่มีป้ายกำกับซึ่งเป็นผู้สมัครที่ไม่มีประสบการณ์การทำงาน / เป็นนักเรียนและพยายามคาดการณ์ว่าพวกเขาจะอยู่ในภาคส่วนใด อัปเดต คำถามที่ 2: เป็นการดีหรือไม่ที่จะสร้างไฟล์ข้อความโดยแยกทุกอย่างในประวัติย่อและพิมพ์ข้อมูลเหล่านี้ออกมาในไฟล์ข้อความเพื่อให้แต่ละเรซูเม่เกี่ยวข้องกับไฟล์ข้อความซึ่งมีสตริงที่ไม่มีโครงสร้างและจากนั้นเรา นำเทคนิคการขุดข้อความไปใช้กับไฟล์ข้อความและทำให้ข้อมูลมีโครงสร้างหรือแม้กระทั่งการสร้างเมทริกซ์ความถี่ของคำที่ใช้จากไฟล์ข้อความ? ตัวอย่างเช่นไฟล์ข้อความอาจมีลักษณะดังนี้: I deployed ML algorithm in this project and... Skills: Java, …

4
แบบจำลองควรได้รับการฝึกอบรมใหม่หรือไม่หากมีการสังเกตใหม่
ดังนั้นฉันไม่สามารถค้นหาวรรณกรรมใด ๆ ในเรื่องนี้ แต่ดูเหมือนว่ามีบางสิ่งที่ควรค่าแก่การคิด: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการฝึกอบรมแบบจำลองและการปรับให้เหมาะสมถ้ามีการสังเกตใหม่ มีวิธีใดบ้างในการกำหนดระยะเวลา / ความถี่ของการฝึกอบรมรูปแบบใหม่ก่อนที่การคาดการณ์จะเริ่มลดลง? มันเกินความเหมาะสมหรือไม่หากพารามิเตอร์ได้รับการปรับให้เหมาะสมกับข้อมูลที่รวบรวมใหม่? โปรดทราบว่าการเรียนรู้อาจไม่จำเป็นต้องออนไลน์ อาจต้องการอัปเกรดโมเดลที่มีอยู่หลังจากสังเกตความแปรปรวนอย่างมีนัยสำคัญในการคาดการณ์ล่าสุด

3
ทำความเข้าใจกับ predict_proba จาก MultiOutputClassifier
ฉันกำลังติดตามตัวอย่างนี้ในเว็บไซต์ scikit-Learn เพื่อทำการจัดประเภทมัลติเอาท์พุทด้วยโมเดล Random Forest from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = np.vstack((y1, y2)).T forest = RandomForestClassifier(n_estimators=10, random_state=1) multi_target_forest = MultiOutputClassifier(forest, n_jobs=-1) multi_target_forest.fit(X, …

6
ความแตกต่างระหว่างพารามิเตอร์โมเดลและพารามิเตอร์โมเดลคืออะไร
ฉันได้พบว่าข้อตกลงดังกล่าวเป็นรูปแบบhyperparameterและรูปแบบพารามิเตอร์ที่ได้รับการใช้สลับกันบนเว็บโดยไม่ต้องชี้แจงก่อน ฉันคิดว่ามันไม่ถูกต้องและต้องการคำอธิบาย พิจารณารูปแบบการเรียนรู้ของเครื่องเครื่องมือแยกประเภทหรือตัวจำแนกภาพที่ใช้ SVM / NN / NB อะไรคือhyperparametersและพารามิเตอร์ของรูปแบบ? โปรดยกตัวอย่างของคุณ

3
Hypertuning พารามิเตอร์ XGBoost
XGBoost ทำงานได้อย่างยอดเยี่ยมเมื่อพูดถึงการจัดการกับตัวแปรตามหมวดหมู่และต่อเนื่อง แต่ฉันจะเลือกพารามิเตอร์ที่เหมาะสมสำหรับปัญหา XGBoost ได้อย่างไร นี่คือวิธีที่ฉันใช้พารามิเตอร์สำหรับปัญหา Kaggle ล่าสุด: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda …
27 r  python  xgboost 

4
แอปพลิเคชันและความแตกต่างสำหรับความคล้ายคลึงกันของ Jaccard และ Cosine Similarity
ความคล้ายคลึงกันของ Jaccardและความเหมือนโคไซน์เป็นสองการวัดที่พบบ่อยมากในขณะที่เปรียบเทียบความคล้ายคลึงกันของรายการ อย่างไรก็ตามฉันไม่ชัดเจนในสถานการณ์ใดที่หนึ่งควรจะดีกว่าอีก ใครสามารถช่วยอธิบายความแตกต่างของการวัดทั้งสองนี้ (ความแตกต่างในแนวคิดหรือหลักการไม่ใช่คำจำกัดความหรือการคำนวณ) และแอปพลิเคชันที่ต้องการได้หรือไม่
27 similarity 

1
RNN's พร้อมคุณสมบัติมากมาย
ฉันมีความรู้เล็กน้อยที่สอนด้วยตนเองทำงานกับอัลกอริทึมการเรียนรู้ของเครื่อง (ป่าประเภทพื้นฐานแบบสุ่มและการถดถอยเชิงเส้นแบบพื้นฐาน) ฉันตัดสินใจแยกสาขาและเริ่มเรียนรู้ RNN กับ Keras เมื่อดูตัวอย่างส่วนใหญ่ซึ่งมักจะเกี่ยวข้องกับการคาดการณ์หุ้นฉันไม่สามารถหาตัวอย่างพื้นฐานของคุณสมบัติหลายอย่างที่ใช้งานนอกเหนือจาก 1 คอลัมน์เป็นวันที่ของคุณลักษณะและอีกอันเป็นเอาท์พุท มีสิ่งสำคัญพื้นฐานที่ขาดหายไปหรือเปล่า หากใครมีตัวอย่างฉันจะขอบคุณมันมาก ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.