วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
วิธีการใช้ GAN สำหรับการแยกฟีเจอร์ที่ไม่ได้รับอนุญาตจากรูปภาพ?
ฉันเข้าใจว่า GAN ทำงานอย่างไรในขณะที่เครือข่ายสองเครือข่าย (กำเนิดและเลือกปฏิบัติ) แข่งขันกันเอง ฉันได้สร้าง DCGAN (GAN พร้อมกับ discriminator discriminator และ de-convolutional generator) ซึ่งตอนนี้สร้างตัวเลขที่เขียนด้วยลายมือได้สำเร็จคล้ายกับที่อยู่ในชุดข้อมูล MNIST ฉันได้อ่านมากเกี่ยวกับแอปพลิเคชันของ GAN สำหรับการแยกฟีเจอร์จากรูปภาพ ฉันจะใช้โมเดล GAN ที่ผ่านการฝึกอบรมของฉัน (บนชุดข้อมูล MNIST) เพื่อแยกคุณลักษณะออกจากรูปภาพ Digist ที่เขียนด้วยลายมือด้วยตัวเองได้อย่างไร?

4
การเรียนรู้ของเครื่องเทียบกับการเรียนรู้ลึก
ฉันสับสนเล็กน้อยจากความแตกต่างระหว่างคำว่า "การเรียนรู้ของเครื่องจักร" และ "การเรียนรู้ลึก" ฉันได้ Googled แล้วอ่านบทความมากมาย แต่ก็ยังไม่ชัดเจนสำหรับฉัน คำจำกัดความที่รู้จักกันดีของ Machine Learning โดย Tom Mitchell คือ: โปรแกรมคอมพิวเตอร์ที่มีการกล่าวถึงเรียนรู้จากประสบการณ์Eด้วยความเคารพในชั้นเรียนของงานบางอย่างTและวัดประสิทธิภาพPถ้าผลการดำเนินงานของ บริษัท ที่งานในTเป็นวัดโดยPช่วยเพิ่มการมีประสบการณ์E ถ้าฉันใช้ปัญหาการจำแนกภาพของการจำแนกสุนัขและแมวเป็น taks Tของฉันจากคำจำกัดความนี้ฉันเข้าใจว่าถ้าฉันจะให้อัลกอริทึม ML เป็นรูปของสุนัขและแมว (ประสบการณ์E ) อัลกอริทึม ML สามารถเรียนรู้วิธี แยกความแตกต่างของภาพลักษณ์ใหม่ว่าเป็นสุนัขหรือแมว (โดยมีการวัดประสิทธิภาพPไว้ชัดเจน) จากนั้นเรียนรู้อย่างลึกซึ้ง ฉันเข้าใจว่าการเรียนรู้เชิงลึกเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องและคำจำกัดความข้างต้นมีไว้ ผลการปฏิบัติงานที่งานTช่วยเพิ่มการมีประสบการณ์E ไม่เป็นไรจนถึงตอนนี้ บล็อกนี้ระบุว่ามีความแตกต่างระหว่างการเรียนรู้ของเครื่องและการเรียนรู้ลึก ความแตกต่างตาม Adil คือในการเรียนรู้ด้วยเครื่อง (ดั้งเดิม) คุณสมบัติจะต้องมีการสร้างขึ้นด้วยมือ ตัวเลขต่อไปนี้ชี้แจงแถลงการณ์ของเขา ฉันสับสนกับความจริงที่ว่าในการเรียนรู้ของเครื่อง (ดั้งเดิม) คุณสมบัติจะต้องถูกสร้างขึ้นด้วยมือ จากความหมายข้างต้นโดยทอมมิทเชลล์ฉันคิดว่าคุณสมบัติเหล่านี้จะได้รับการเรียนรู้จากประสบการณ์EและประสิทธิภาพP จะเรียนรู้อะไรได้บ้างในการเรียนรู้ของเครื่อง? ในการเรียนรู้เชิงลึกฉันเข้าใจว่าจากประสบการณ์ที่คุณเรียนรู้คุณสมบัติและวิธีการที่พวกเขาเกี่ยวข้องกันเพื่อปรับปรุงประสิทธิภาพ ฉันสามารถสรุปได้ว่าในคุณสมบัติการเรียนรู้ของเครื่องต้องมีการสร้างขึ้นด้วยมือและสิ่งที่เรียนรู้คือการรวมกันของคุณสมบัติ? หรือฉันหายไปอย่างอื่น?

4
การวัดประสิทธิภาพ: ทำไมจึงเรียกว่าการเรียกคืน
ความแม่นยำคือส่วนของอินสแตนซ์ที่ดึงมาซึ่งมีความเกี่ยวข้องในขณะที่การเรียกคืน (หรือที่เรียกว่าความไว) คือส่วนของอินสแตนซ์ที่เกี่ยวข้องที่ถูกเรียกคืน ฉันรู้ว่าหมายของพวกเขา แต่ผมไม่ทราบว่าทำไมมันถูกเรียกว่าการเรียกคืน ? ฉันไม่ใช่เจ้าของภาษาอังกฤษ ฉันรู้ว่าการจำหมายถึงการจดจำแล้วฉันไม่ทราบความเกี่ยวข้องของความหมายนี้กับแนวคิดนี้! อาจจะครอบคลุมดีกว่าเพราะมันแสดงให้เห็นว่ามีกี่ครั้งที่ถูกครอบคลุม ... หรือคำอื่น ๆ ความไวยิ่งกว่านั้นฉันก็ไม่รู้สึกเช่นกัน! คุณสามารถช่วยฉันเชื่อมโยงคำเหล่านี้กับแนวคิดและรู้สึกถึงมันได้หรือไม่?

4
Overfitting / Underfitting ด้วยขนาดชุดข้อมูล
ในกราฟด้านล่าง แกน x => ขนาดชุดข้อมูล แกน y => คะแนนการตรวจสอบไขว้ เส้นสีแดงใช้สำหรับข้อมูลการฝึกอบรม สายสีเขียวสำหรับการทดสอบข้อมูล ในบทช่วยสอนที่ฉันอ้างถึงผู้เขียนบอกว่าจุดที่เส้นสีแดงและเส้นสีเขียวทับกันหมายถึง การรวบรวมข้อมูลมากขึ้นนั้นไม่น่าจะเพิ่มประสิทธิภาพการวางนัยทั่วไปและเราอยู่ในภูมิภาคที่เรามีแนวโน้มที่จะทำให้ข้อมูลไม่เหมาะสม ดังนั้นจึงเหมาะสมที่จะลองใช้โมเดลที่มีความจุมากขึ้น ฉันไม่สามารถเข้าใจความหมายของวลีที่ชัดเจนและมันเกิดขึ้นได้อย่างไร ขอบคุณสำหรับความช่วยเหลือใด ๆ

1
XGBoost เอาต์พุตการถดถอยเชิงเส้นไม่ถูกต้อง
ฉันเป็นมือใหม่ที่จะ XGBoost เพื่อให้อภัยความไม่รู้ของฉัน นี่คือรหัสหลาม: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred ผลลัพธ์คือ: [ 24.126194 24.126194] ในขณะที่คุณสามารถดูข้อมูลอินพุตเป็นเพียงเส้นตรง [40,50]ดังนั้นการส่งออกที่ผมคาดหวัง ฉันทำอะไรผิดที่นี่

1
จะเกิดอะไรขึ้นเมื่อเราฝึกอบรม SVM เชิงเส้นในข้อมูลที่แยกได้แบบไม่เชิงเส้น
จะเกิดอะไรขึ้นเมื่อเราฝึกอบรมเครื่องเวกเตอร์สนับสนุนขั้นพื้นฐาน (เคอร์เนลเชิงเส้นและไม่มีขอบนุ่ม) กับข้อมูลที่แยกไม่ได้เชิงเส้น ปัญหาการปรับให้เหมาะสมไม่สามารถทำได้ดังนั้นอัลกอริธึมการย่อขนาดจะส่งกลับอย่างไร

1
ปรีชาสำหรับพารามิเตอร์ regularization ใน SVM
การเปลี่ยนแปลงพารามิเตอร์การทำให้เป็นมาตรฐานใน SVM เปลี่ยนแปลงขอบเขตการตัดสินใจสำหรับชุดข้อมูลที่ไม่สามารถแบ่งแยกได้อย่างไร คำตอบที่มองเห็นและ / หรือความเห็นบางอย่างเกี่ยวกับพฤติกรรมการ จำกัด (สำหรับระเบียบขนาดใหญ่และขนาดเล็ก) จะเป็นประโยชน์มาก
11 svm 

6
Excel มีความเพียงพอสำหรับวิทยาศาสตร์ข้อมูลหรือไม่
ฉันกำลังอยู่ระหว่างการเตรียมการสอนหลักสูตรเบื้องต้นเกี่ยวกับวิทยาศาสตร์ข้อมูลโดยใช้ภาษาการเขียนโปรแกรม R ผู้ชมของฉันคือนักศึกษาระดับปริญญาตรีสาขาวิชาธุรกิจ ปริญญาตรีธุรกิจทั่วไปไม่มีประสบการณ์ในการเขียนโปรแกรมคอมพิวเตอร์ แต่ได้เรียนสองสามวิชาที่ใช้ Excel โดยส่วนตัวแล้วฉันรู้สึกสบายใจกับ R (หรือภาษาการเขียนโปรแกรมอื่น ๆ ) เพราะฉันเรียนวิชาเอกวิทยาการคอมพิวเตอร์ อย่างไรก็ตามฉันมีความรู้สึกว่านักเรียนของฉันหลายคนจะรู้สึกระแวดระวังในการเรียนรู้ภาษาการเขียนโปรแกรมเพราะมันอาจดูยากสำหรับพวกเขา ฉันมีความคุ้นเคยกับ Excel และฉันเชื่อว่าแม้ว่า Excel จะมีประโยชน์สำหรับวิทยาศาสตร์ข้อมูลแบบง่าย แต่ก็เป็นสิ่งจำเป็นสำหรับนักเรียนที่จะเรียนรู้ภาษาการเขียนโปรแกรมอย่างจริงจังสำหรับวิทยาศาสตร์ข้อมูล (เช่น R หรือ Python) ฉันจะโน้มน้าวใจตัวเองและนักเรียนว่า Excel ไม่เพียงพอสำหรับนักเรียนธุรกิจที่จริงจังในการเรียนวิทยาศาสตร์ข้อมูลและมันเป็นสิ่งจำเป็นสำหรับพวกเขาในการเรียนรู้การเขียนโปรแกรมบางอย่าง? แก้ไขเพื่อตอบสนองต่อความคิดเห็น นี่คือบางส่วนของหัวข้อที่ฉันจะกล่าวถึง: การประมวลผลข้อมูลและการทำความสะอาดข้อมูล วิธีจัดการตารางข้อมูลเช่นเลือกชุดย่อยของแถว (ตัวกรอง) เพิ่มตัวแปรใหม่ (กลายพันธุ์) เรียงลำดับแถวตามคอลัมน์ SQL เข้าร่วมโดยใช้แพ็คเกจdplyr วิธีการวาดแปลง (แปลงกระจาย, แปลงแท่ง, ฮิสโทแกรม ฯลฯ ) โดยใช้แพ็คเกจggplot2 วิธีการประเมินและตีความตัวแบบทางสถิติเช่นการถดถอยเชิงเส้นการถดถอยโลจิสติกส์การจำแนกต้นไม้และเพื่อนบ้านที่ใกล้ที่สุด เนื่องจากฉันไม่รู้จัก Excel เป็นอย่างดีฉันจึงไม่รู้ว่างานเหล่านี้ทั้งหมดสามารถทำได้อย่างง่ายดายใน Excel

1
ผลของการไม่เปลี่ยนน้ำหนักตัวกรองของ CNN ในระหว่างการเปลี่ยนถ่าย
ผลของการไม่เปลี่ยนน้ำหนักตัวกรองของซีเอ็นเอ็นระหว่างการแพร่กระจายภาพย้อนหลังคืออะไร? ฉันเปลี่ยนน้ำหนักของชั้นที่เชื่อมต่ออย่างเต็มที่ในขณะที่ฝึกฝนชุดข้อมูล MNIST และยังคงได้รับความแม่นยำเกือบ 99 เปอร์เซ็นต์

2
การถดถอยเชิงเส้นและการปรับขนาดของข้อมูล
พล็อตต่อไปนี้แสดงค่าสัมประสิทธิ์ที่ได้จากการถดถอยเชิงเส้น (พร้อมกับmpgตัวแปรเป้าหมายและอื่น ๆ ทั้งหมดเป็นตัวทำนาย) สำหรับชุดข้อมูล mtcars ( ที่นี่และที่นี่ ) ทั้งที่มีและไม่มีการปรับขนาดข้อมูล: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ตัวแปรhpและdispมีความสำคัญก็ต่อเมื่อมีการปรับสัดส่วนข้อมูล มีamและqsecความสำคัญเท่าเทียมกันหรือเป็นamสิ่งที่สำคัญกว่าqsec? ซึ่งตัวแปรหนึ่งควรจะพูดว่าเป็นปัจจัยสำคัญของการmpg? ขอบคุณสำหรับความเข้าใจของคุณ

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
หยุดก่อนที่จะสูญเสียการตรวจสอบหรือความถูกต้อง?
ขณะนี้ฉันกำลังฝึกอบรมเครือข่ายประสาทและฉันไม่สามารถตัดสินใจได้ว่าจะใช้เพื่อใช้เกณฑ์การหยุดก่อนกำหนดของฉัน: การสูญเสียการตรวจสอบความถูกต้องหรือตัวชี้วัดเช่นความแม่นยำ / f1score / auc / สิ่งที่คำนวณในชุดการตรวจสอบ ในการวิจัยของฉันฉันได้พบกับบทความที่ป้องกันจุดยืนทั้งสอง Keras ดูเหมือนว่าจะเป็นค่าเริ่มต้นสำหรับการสูญเสียการตรวจสอบความถูกต้อง แต่ฉันก็ได้พบคำตอบที่น่าเชื่อถือสำหรับแนวทางตรงกันข้าม (เช่นที่นี่ ) ใครบ้างมีคำแนะนำว่าควรใช้การสูญเสียการตรวจสอบความถูกต้องเมื่อใดและควรใช้การวัดแบบใด

3
ฉันจะจำแนกข้อมูลที่ไม่มีหมวดหมู่ได้อย่างไร?
ฉันมีปัญหาการจัดหมวดหมู่ด้วยข้อมูลทั้งหมวดหมู่และตัวเลข ปัญหาที่ฉันเผชิญคือข้อมูลที่เป็นหมวดหมู่ของฉันไม่ได้รับการแก้ไขนั่นหมายความว่าผู้สมัครใหม่ที่มีป้ายกำกับที่ฉันต้องการคาดการณ์อาจมีหมวดหมู่ใหม่ที่ไม่ได้สังเกตเห็นล่วงหน้า ตัวอย่างเช่นถ้าข้อมูลที่แน่ชัดของฉันเป็นsexเพียงป้ายชื่อที่เป็นไปได้female, maleและotherไม่ว่าสิ่งที่ อย่างไรก็ตามตัวแปรตามหมวดหมู่ของฉันคือcityมันอาจเกิดขึ้นได้ว่าคนที่ฉันพยายามจะทำนายมีเมืองใหม่ที่ตัวจำแนกของฉันไม่เคยเห็น ฉันสงสัยว่ามีวิธีการจัดหมวดหมู่ในข้อกำหนดเหล่านี้หรือถ้าฉันควรทำการฝึกอบรมอีกครั้งโดยพิจารณาข้อมูลหมวดหมู่ใหม่นี้

1
ใช้ RNN (LSTM) สำหรับระบบจดจำท่าทาง
ฉันกำลังพยายามสร้างระบบรู้จำท่าทางเพื่อจำแนกASL (ภาษามือแบบอเมริกัน)ท่าทางดังนั้นการป้อนข้อมูลของฉันควรเป็นลำดับของเฟรมไม่ว่าจะเป็นจากกล้องหรือไฟล์วิดีโอจากนั้นมันจะตรวจจับลำดับและแมปตามความเหมาะสม ชั้นเรียน (การนอนหลับการช่วยเหลือการกินการวิ่งเป็นต้น) สิ่งนี้คือฉันได้สร้างระบบที่คล้ายกันแล้ว แต่สำหรับรูปภาพแบบสแตติก (ไม่รวมการเคลื่อนไหว) มันมีประโยชน์สำหรับการแปลตัวอักษรเฉพาะในการสร้างซีเอ็นเอ็นนั้นเป็นงานที่ตรงไปตรงมาเนื่องจากมือไม่ขยับมากและ โครงสร้างชุดข้อมูลก็จัดการได้เช่นกันเมื่อฉันใช้kerasและอาจยังตั้งใจจะทำเช่นนั้น (ทุก ๆ โฟลเดอร์มีชุดภาพสำหรับสัญญาณเฉพาะและชื่อของโฟลเดอร์คือชื่อคลาสของเครื่องหมายนี้เช่น A, B, C , .. ) คำถามของฉันที่นี่ว่าฉันสามารถจัดชุดข้อมูลของฉันเพื่อให้สามารถป้อนข้อมูลลงในRNNใน keras และสิ่งที่ฟังก์ชั่นบางอย่างที่ฉันควรใช้ให้เกิดประสิทธิภาพในการฝึกอบรมรุ่นและพารามิเตอร์ใด ๆ ที่จำเป็นของฉันบางคนแนะนำให้ใช้TimeDistributedชั้น แต่ฉันทำไม่ได้ มีความคิดที่ชัดเจนเกี่ยวกับวิธีการใช้เพื่อประโยชน์ของฉันและคำนึงถึงรูปร่างอินพุตของทุกเลเยอร์ในเครือข่าย การพิจารณาว่าชุดข้อมูลของฉันจะประกอบด้วยภาพฉันอาจต้องใช้เลเยอร์ convolutional เป็นไปได้อย่างไรที่จะรวมเลเยอร์Convเข้ากับLSTMหนึ่ง (ฉันหมายถึงในแง่ของรหัส) ตัวอย่างเช่นฉันจินตนาการว่าชุดข้อมูลของฉันเป็นแบบนี้ โฟลเดอร์ที่ชื่อว่า 'Run' มี 3 โฟลเดอร์ 1, 2 และ 3 แต่ละโฟลเดอร์สอดคล้องกับเฟรมในลำดับ ดังนั้นRun_1จะมีชุดของภาพสำหรับกรอบแรกบางRun_2สำหรับกรอบสองและRun_3สำหรับสามรูปแบบของฉันวัตถุประสงค์คือการได้รับการอบรมที่มีลำดับนี้การส่งออกคำเรียก

3
XGboost - ตัวเลือกทำโดยรุ่น
ฉันใช้XGboostเพื่อทำนายตัวแปรเป้าหมาย 2 คลาสในการเคลมประกัน ฉันมีรูปแบบ (การฝึกอบรมกับการตรวจสอบข้ามการปรับพารามิเตอร์ไฮเปอร์ ฯลฯ .. ) ฉันทำงานในชุดข้อมูลอื่น คำถามของฉันคือ: มีวิธีที่จะรู้หรือไม่ว่าเหตุใดการอ้างสิทธิ์ที่ได้รับจึงส่งผลกระทบต่อหนึ่งคลาสเช่นคุณลักษณะที่อธิบายการเลือกของรุ่น จุดประสงค์คือเพื่อให้สามารถพิสูจน์ความถูกต้องของตัวเลือกที่เครื่องทำกับมนุษย์บุคคลที่สาม ขอบคุณสำหรับคำตอบ.
10 xgboost 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.