วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

5
ความแตกต่างระหว่างเครือข่ายนโยบายของ AlphaGo และเครือข่ายค่า
ฉันกำลังอ่านสรุประดับสูงเกี่ยวกับ AlphaGo ของ Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) ของ Google และฉันได้พบกับคำว่า "นโยบาย เครือข่าย "และ" เครือข่ายค่า " ในระดับสูงฉันเข้าใจว่ามีการใช้เครือข่ายนโยบายเพื่อแนะนำการเคลื่อนย้ายและใช้เครือข่ายค่าเพื่อ "ลดความลึกของโครงสร้างการค้นหา [และประเมิน] ผู้ชนะในแต่ละตำแหน่งแทนการค้นหาไปจนถึง จบเกม " เครือข่ายทั้งสองนี้ดูเหมือนจะซ้ำซ้อนกับฉัน เครือข่ายนโยบายกำลังทำอะไรหากไม่ได้ใช้เครือข่ายค่าเพื่อตัดนโยบาย ดูเหมือนว่าค่อนข้างชัดเจนว่าเครือข่ายค่าเป็นเครือข่ายประสาทการเรียนรู้ลึก เครือข่ายนโยบายเป็นเพียงนามธรรมในเชิงทฤษฎีไม่ใช่เครือข่ายประสาทจริงหรือ ตัวแปรเป้าหมายสำหรับเครือข่ายค่าดูเหมือนว่าจะเป็นชนะ / แพ้ มีตัวแปรเป้าหมายสำหรับเครือข่ายนโยบายหรือไม่ ถ้าเป็นเช่นนั้นมันคืออะไร? เครือข่ายนโยบายพยายามเพิ่มประสิทธิภาพอะไร ไฟล์ PDF ฉบับเต็มของ Google ที่เผยแพร่ใน Nature สามารถดูได้ที่นี่: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72

3
ค่าสัมประสิทธิ์จินีเทียบกับสิ่งเจือปนจินี - ต้นไม้การตัดสินใจ
ปัญหาหมายถึงการสร้างต้นไม้ตัดสินใจ ตามค่าสัมประสิทธิ์ Giniของ Wikipedia ไม่ควรสับสนกับ ' Gini impurity ' อย่างไรก็ตามสามารถใช้มาตรการทั้งสองเมื่อสร้างแผนผังการตัดสินใจ - สิ่งเหล่านี้สามารถรองรับตัวเลือกของเราเมื่อแยกชุดรายการ 1) 'มลทิน Gini' - เป็นตัวชี้วัดมาตรฐานแยกการตัดสินใจแบบต้นไม้ (ดูในลิงก์ด้านบน) 2) 'ค่าสัมประสิทธิ์ Gini' - แต่ละการแยกสามารถประเมินได้ตามเกณฑ์ AUC สำหรับแต่ละสถานการณ์ที่แยกเราสามารถสร้างเส้นโค้ง ROC และคำนวณเมตริก AUC ตาม Wikipedia AUC = (GiniCoeff + 1) / 2; คำถามคือ: มาตรการทั้งสองนี้เทียบเท่าหรือไม่ ในอีกด้านหนึ่งฉันได้รับแจ้งว่าค่าสัมประสิทธิ์ Gini ไม่ควรสับสนกับการปนเปื้อนของ Gini ในทางกลับกันมาตรการทั้งสองนี้สามารถใช้ในการทำสิ่งเดียวกัน - การประเมินคุณภาพของการแยกแผนภูมิการตัดสินใจ

4
Word2Vec สำหรับการจดจำเอนทิตีที่มีชื่อ
ฉันกำลังมองหาที่จะใช้การใช้งาน word2vec ของ Google เพื่อสร้างระบบรู้จำชื่อเอนทิตี ฉันได้ยินมาว่าตาข่ายแบบวนซ้ำที่มีการแพร่กระจายกลับผ่านโครงสร้างนั้นเหมาะสำหรับงานการจดจำเอนทิตีที่มีชื่อ แต่ฉันไม่สามารถหาการใช้งานที่เหมาะสมหรือแบบฝึกหัดที่ดีสำหรับแบบจำลองชนิดนั้น เนื่องจากฉันทำงานกับคลังข้อมูลผิดปกติเครื่องมือ NER มาตรฐานใน NLTK และที่คล้ายกันจึงทำงานได้แย่มากและดูเหมือนว่าฉันจะต้องฝึกระบบของตัวเอง กล่าวโดยย่อคือทรัพยากรใดบ้างที่มีสำหรับปัญหาประเภทนี้ มีมาตรฐานการใช้งานเครือข่ายประสาทแบบเรียกซ้ำ?

3
ทำไมเราต้องมี XGBoost และ Random Forest?
ฉันไม่ชัดเจนเกี่ยวกับแนวคิดสองประการ: XGBoost แปลงผู้เรียนที่อ่อนแอเป็นผู้เรียนที่แข็งแกร่ง อะไรคือข้อดีของการทำเช่นนี้? รวมผู้เรียนที่อ่อนแอหลายคนเข้าด้วยกันแทนที่จะใช้ต้นไม้ต้นเดียว? ป่าสุ่มใช้ตัวอย่างต่าง ๆ จากต้นไม้เพื่อสร้างต้นไม้ อะไรคือข้อดีของวิธีนี้แทนที่จะใช้ต้นไม้เอกพจน์

4
Scikit-learn: รับ SGDClassifier เพื่อทำนายเช่นเดียวกับ Logistic Regression
วิธีในการฝึกอบรม Logistic Regression คือการใช้การไล่ระดับสีแบบสุ่มสุ่มซึ่ง scikit-learn นำเสนออินเตอร์เฟส สิ่งที่ฉันต้องการจะทำคือการใช้ scikit การเรียนรู้ของSGDClassifierและมีมันคะแนนเช่นเดียวกับการถดถอยโลจิสติกที่นี่ อย่างไรก็ตามฉันต้องขาดการปรับปรุงการเรียนรู้ของเครื่องเนื่องจากคะแนนของฉันไม่เท่ากัน นี่คือรหัสปัจจุบันของฉัน ฉันขาดอะไรใน SGDClassifier ที่จะให้ผลลัพธ์เช่นเดียวกับ Logistic Regression from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset …

9
คอนโซล R ออนไลน์ใด ๆ
ฉันกำลังมองหาคอนโซลออนไลน์สำหรับภาษาอาร์เช่นเดียวกับฉันเขียนรหัสและเซิร์ฟเวอร์ควรดำเนินการและให้ผลลัพธ์ คล้ายกับเว็บไซต์ Datacamp
24 r  statistics 

4
ป่าสุ่มเกินไปหรือไม่
ฉันได้อ่านเกี่ยวกับป่าสุ่ม แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนเกี่ยวกับปัญหาการ overfitting จากเอกสารต้นฉบับของ Breiman พวกเขาไม่ควรกระฉับกระเฉงเมื่อเพิ่มจำนวนต้นไม้ในป่า แต่ดูเหมือนว่าจะไม่มีฉันทามติเกี่ยวกับเรื่องนี้ นี่เป็นการสร้างความสับสนให้กับฉันค่อนข้างมาก บางทีใครบางคนที่มีความเชี่ยวชาญมากกว่าฉันสามารถให้คำตอบที่เป็นรูปธรรมมากขึ้นหรือชี้แนะทิศทางที่ถูกต้องเพื่อทำความเข้าใจปัญหาให้ดีขึ้น

3
เหตุใด NLP และชุมชนการเรียนรู้ของเครื่องจึงมีความสนใจในการเรียนรู้ลึก
ฉันหวังว่าคุณสามารถช่วยฉันได้เนื่องจากฉันมีคำถามในหัวข้อนี้ ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและในขณะที่ฉันทำแบบฝึกหัดบางอย่างฉันไม่สามารถสร้างความสัมพันธ์หรือแยกแยะความคิดต่าง ๆ ได้

5
อิมเมจ VM สำหรับโครงการวิทยาศาสตร์ข้อมูล
เนื่องจากมีเครื่องมือมากมายสำหรับงานด้าน data data และมันยุ่งยากในการติดตั้งทุกอย่างและสร้างระบบที่สมบูรณ์แบบ มีอิมเมจ Linux / Mac OS พร้อม Python, R และเครื่องมือวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สอื่น ๆ ที่ติดตั้งและพร้อมให้คนใช้งานได้ทันทีหรือไม่? Ubuntu หรือระบบปฏิบัติการน้ำหนักเบาที่มี Python, R (รวมถึง IDEs) เวอร์ชันล่าสุดและเครื่องมือสร้างภาพข้อมูลแบบโอเพนซอร์สอื่น ๆ ที่ติดตั้งจะเหมาะสมที่สุด ฉันไม่เจอสิ่งใดในการค้นหาอย่างรวดเร็วบน Google โปรดแจ้งให้เราทราบหากมีบางคนหรือคนที่คุณสร้างขึ้นมาเพื่อตัวเอง? ฉันคิดว่ามหาวิทยาลัยบางแห่งอาจมีภาพ VM ของตัวเอง กรุณาแบ่งปันลิงค์ดังกล่าว
24 python  r  tools 

3
แนวทางปฏิบัติที่ดีที่สุดในการจัดเก็บรูปแบบการเรียนรู้ของเครื่องงู
แนวปฏิบัติที่ดีที่สุดในการบันทึกจัดเก็บและแบ่งปันโมเดลการเรียนรู้ของเครื่องมีอะไรบ้าง ใน Python เรามักจะจัดเก็บการเป็นตัวแทนไบนารีของโมเดลโดยใช้ pickle หรือ joblib แบบจำลองในกรณีของฉันอาจมีขนาดใหญ่ ~ 100Mo นอกจากนี้ joblib สามารถบันทึกรูปแบบหนึ่งไปยังหลายไฟล์ถ้าคุณตั้งcompress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- แกนกลาง ) แต่ถ้าคุณต้องการควบคุมสิทธิ์การเข้าถึงโมเดลและสามารถใช้โมเดลจากเครื่องต่าง ๆ วิธีที่ดีที่สุดในการจัดเก็บคืออะไร ฉันมีตัวเลือกน้อย: เก็บไว้เป็นไฟล์จากนั้นนำไปไว้ในที่เก็บโดยใช้ Git LFS เก็บไว้ในฐานข้อมูล SQL เป็นไฟล์ไบนารี: ตัวอย่างเช่นใน Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB นี่เป็นวิธีที่ทีม SQL Server แนะนำ: https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
ความหมายของคุณสมบัติแฝง?
ฉันกำลังเรียนรู้เกี่ยวกับเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันเห็นคำที่latent featuresเกิดขึ้นบ่อยเกินไป แต่ฉันไม่สามารถเข้าใจความหมายของมัน ฉันรู้ว่าฟีเจอร์คืออะไร แต่ฉันไม่เข้าใจความคิดของฟีเจอร์แฝง โปรดอธิบายได้ไหม หรืออย่างน้อยก็ชี้ให้ฉันไปที่กระดาษ / สถานที่ที่ฉันสามารถอ่านเกี่ยวกับมันได้?

4
มันจะดีกว่าเสมอที่จะใช้ชุดข้อมูลทั้งหมดเพื่อฝึกอบรมตัวแบบสุดท้ายหรือไม่
เทคนิคทั่วไปหลังการฝึกอบรมการตรวจสอบและทดสอบรูปแบบการเรียนรู้ของการเรียนรู้ด้วยเครื่องคือการใช้ชุดข้อมูลที่สมบูรณ์รวมถึงชุดย่อยการทดสอบเพื่อฝึกอบรมรูปแบบสุดท้ายเพื่อปรับใช้บนเช่นผลิตภัณฑ์ คำถามของฉันคือ: การทำเช่นนั้นดีที่สุดเสมอหรือไม่? จะเป็นอย่างไรถ้าประสิทธิภาพลดลงจริง ตัวอย่างเช่นให้เราสมมติกรณีที่โมเดลทำคะแนนประมาณ 65% ในการจำแนกชุดย่อยการทดสอบ นี่อาจหมายความว่าทั้งโมเดลได้รับการฝึกฝนไม่เพียงพอหรือชุดย่อยทดสอบประกอบด้วยค่าผิดปกติ ในกรณีหลังการฝึกอบรมรุ่นสุดท้ายกับพวกเขาจะลดประสิทธิภาพและคุณจะพบว่าหลังจากการปรับใช้ ถามคำถามเริ่มต้นของฉันอีกครั้ง: หากคุณมีการสาธิตแบบครั้งเดียวเช่นการนำไปใช้กับอุปกรณ์อิเล็กทรอนิกส์แบบฝังตัวในการทดลองจรวดที่มีราคาแพงคุณจะเชื่อถือรูปแบบที่ได้รับการฝึกอบรมซ้ำกับชุดย่อยทดสอบในขั้นตอนสุดท้ายโดยไม่ต้องทำการทดสอบซ้ำ ทดสอบประสิทธิภาพใหม่แล้วหรือยัง?

3
อะไรคือความแตกต่างระหว่าง Gradient Descent และ Stochastic Gradient Descent?
อะไรคือความแตกต่างระหว่าง Gradient Descent และ Stochastic Gradient Descent? ฉันไม่คุ้นเคยกับสิ่งเหล่านี้คุณสามารถอธิบายความแตกต่างด้วยตัวอย่างสั้น ๆ ได้หรือไม่?

3
การสร้างแบบจำลองด้วยป่าสุ่มต้องมีการตรวจสอบข้ามหรือไม่
เท่าที่ฉันเคยเห็นความคิดเห็นมีแนวโน้มที่จะแตกต่างกันเกี่ยวกับเรื่องนี้ แนวปฏิบัติที่ดีที่สุดจะใช้การตรวจสอบข้าม (โดยเฉพาะอย่างยิ่งหากเปรียบเทียบ RF กับอัลกอริทึมอื่นในชุดข้อมูลเดียวกัน) แหล่งที่มาดั้งเดิมระบุว่ามีการคำนวณข้อผิดพลาดจริงของ OOB ระหว่างการฝึกอบรมแบบจำลองเพียงพอที่จะเป็นตัวบ่งชี้ประสิทธิภาพของชุดการทดสอบ แม้แต่ Trevor Hastie ในการพูดคุยที่ค่อนข้างเร็วบอกว่า "ป่าสุ่มให้การตรวจสอบข้ามฟรี" โดยสัญชาตญาณสิ่งนี้สมเหตุสมผลสำหรับฉันถ้าการฝึกอบรมและพยายามปรับปรุงโมเดล RF-based บนหนึ่งชุดข้อมูล บางคนได้โปรดสร้างข้อโต้แย้งสำหรับและต่อต้านความต้องการการตรวจสอบข้ามป่าด้วยการสุ่ม?

3
แนวคิดโครงงานวิทยาศาสตร์ข้อมูล [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ฉันไม่รู้ว่านี่เป็นสถานที่ที่เหมาะสมที่จะถามคำถามนี้หรือไม่ แต่ชุมชนที่อุทิศให้กับ Data Science ควรเป็นสถานที่ที่เหมาะสมที่สุดในความคิดของฉัน ฉันเพิ่งเริ่มต้นด้วยวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง ฉันกำลังมองหาแนวคิดโครงการระยะยาวที่ฉันสามารถทำงานได้เช่น 8 เดือน การผสมผสานระหว่างวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องจักรจะยอดเยี่ยม โครงการใหญ่พอที่จะช่วยให้ฉันเข้าใจแนวคิดหลักและนำไปใช้ในเวลาเดียวกันจะเป็นประโยชน์อย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.