วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

7
มีบริการคลาวด์ฟรีสำหรับฝึกโมเดลการเรียนรู้ของเครื่องหรือไม่
ฉันต้องการฝึกอบรมโมเดลที่ลึกล้ำด้วยข้อมูลการฝึกอบรมจำนวนมาก แต่เดสก์ท็อปของฉันไม่มีพลังในการฝึกอบรมโมเดลที่ลึกล้ำดังกล่าวด้วยข้อมูลมากมายเหล่านี้ ฉันต้องการทราบว่ามีบริการคลาวด์ฟรีใด ๆ ที่สามารถใช้สำหรับการฝึกอบรมการเรียนรู้ของเครื่องและแบบจำลองการเรียนรู้ลึกได้หรือไม่ ฉันต้องการทราบว่ามีบริการคลาวด์หรือไม่ซึ่งฉันสามารถติดตามผลการฝึกอบรมได้และการฝึกอบรมจะดำเนินต่อไปแม้ว่าฉันจะไม่ได้เชื่อมต่อกับคลาวด์ก็ตาม

3
วิธีการบังคับให้น้ำหนักไม่เป็นค่าลบในการถดถอยเชิงเส้น
ฉันใช้การถดถอยเชิงเส้นมาตรฐานโดยใช้ scikit เรียนรู้ในหลาม อย่างไรก็ตามฉันต้องการบังคับให้น้ำหนักเป็นค่าบวกสำหรับทุก ๆ คุณสมบัติ (ไม่เป็นลบ) มีวิธีใดบ้างที่ฉันจะบรรลุเป้าหมายดังกล่าวได้? ฉันกำลังดูในเอกสาร แต่ไม่สามารถหาวิธีที่จะทำให้สำเร็จ ฉันเข้าใจว่าฉันอาจจะไม่ได้ทางออกที่ดีที่สุด แต่ฉันต้องการน้ำหนักที่ไม่เป็นลบ

3
วิธีการทั่วไปในการแยกข้อความสำคัญออกจากประโยค (nlp)
รับประโยคเช่น: Complimentary gym access for two for the length of stay ($12 value per person per day) ฉันสามารถใช้วิธีการทั่วไปในการระบุคำว่ายิมหรือการเข้าถึงยิมอย่างไร

1
Keras คำนวณความแม่นยำอย่างไร
Keras คำนวณความแม่นยำจากความน่าจะเป็นแบบคลาสสิกอย่างไร ตัวอย่างเช่นเรามี 100 ตัวอย่างในชุดทดสอบซึ่งสามารถเป็นหนึ่งในสองคลาส เรายังมีรายการของความน่าจะเป็นแบบคลาสสิก Keras ใช้เกณฑ์อะไรในการกำหนดตัวอย่างให้กับหนึ่งในสองคลาสนี้

1
PyTorch vs. Tensorflow Fold
ทั้งPyTorchและTensorflow Foldเป็นเฟรมเวิร์กการเรียนรู้ลึกซึ่งหมายถึงการจัดการกับสถานการณ์ที่ข้อมูลอินพุตมีความยาวหรือขนาดที่ไม่สม่ำเสมอ (นั่นคือสถานการณ์ที่กราฟแบบไดนามิกมีประโยชน์หรือจำเป็น) ฉันต้องการรู้ว่าพวกเขาเปรียบเทียบอย่างไรในแง่ของกรอบความคิดที่พวกเขาพึ่งพา (เช่นการแบตช์แบบไดนามิก) และความหมายของสิ่งต่าง ๆ ที่สามารถ / ไม่สามารถนำไปใช้ในแต่ละจุดอ่อน / จุดแข็ง ฯลฯ ฉันตั้งใจจะใช้ข้อมูลนี้เพื่อเลือกหนึ่งในนั้นเพื่อเริ่มสำรวจกราฟการคำนวณแบบไดนามิก แต่ฉันไม่มีงานเฉพาะในใจ หมายเหตุ 1: กรอบกราฟการคำนวณแบบไดนามิกอื่น ๆ เช่นDyNetหรือChainerก็ยินดีต้อนรับในการเปรียบเทียบ แต่ฉันต้องการมุ่งเน้นไปที่ PyTorch และ Tensorflow Fold เพราะฉันคิดว่าพวกเขา / จะเป็นคนที่ใช้มากที่สุด หมายเหตุ 2: ฉันได้พบแฮ็คข่าวนี้ใน PyTorchด้วยข้อมูลที่กระจัดกระจาย แต่ไม่มากนัก หมายเหตุ 3: หัวข้อแฮ็กข่าวใหม่ที่เกี่ยวข้องเกี่ยวกับ Tensorflow Fold ที่มีข้อมูลบางอย่างเกี่ยวกับวิธีการเปรียบเทียบ หมายเหตุ 4: ที่เกี่ยวข้องด้าย Reddit หมายเหตุ 5: ข้อผิดพลาดที่เกี่ยวข้องใน Github ของ Tensorflow Foldที่ระบุข้อ …

4
หนังสือเกี่ยวกับ“ วิทยาศาสตร์” ในวิทยาศาสตร์ข้อมูล? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา หนังสือเกี่ยวกับวิทยาศาสตร์และคณิตศาสตร์เบื้องหลังวิทยาศาสตร์ข้อมูลคืออะไร รู้สึกเหมือนหนังสือ "วิทยาศาสตร์ข้อมูล" จำนวนมากเป็นบทเรียนการเขียนโปรแกรมและไม่ได้สัมผัสสิ่งต่าง ๆ เช่นกระบวนการสร้างข้อมูลและการอนุมานเชิงสถิติ ฉันสามารถเขียนโค้ดแล้วสิ่งที่ฉันอ่อนแอคือคณิตศาสตร์ / สถิติ / ทฤษฎีที่อยู่เบื้องหลังสิ่งที่ฉันทำ หากฉันพร้อมที่จะเผาหนังสือ 1,000 ดอลลาร์ (ประมาณ 10 เล่ม ... ถอนหายใจ) ฉันจะซื้ออะไรได้บ้าง ตัวอย่าง: การวิเคราะห์ข้อมูลอย่างละเอียดของ Agresti , ตัวแบบผสมเชิงเส้นสำหรับข้อมูลระยะยาวฯลฯ ... ฯลฯ ...

7
ชุดข้อมูล / APIs เครือข่ายโซเชียลที่เปิดเผยต่อสาธารณชน
ในฐานะที่เป็นส่วนขยายของรายการชุดข้อมูลที่เปิดเผยต่อสาธารณชนเราต้องการทราบว่ามีรายการใด ๆ ของชุดข้อมูลเครือข่ายโซเชียลสาธารณะ / API การรวบรวมข้อมูล มันจะดีมากถ้าพร้อมกับลิงค์ไปยังชุดข้อมูล / API คุณสมบัติของข้อมูลที่มีอยู่ก็ถูกเพิ่มเข้ามา ข้อมูลดังกล่าวควรเป็นและไม่ จำกัด เฉพาะ: ชื่อเครือข่ายโซเชียล มีข้อมูลผู้ใช้ประเภทใดบ้าง (โพสต์โปรไฟล์เครือข่ายมิตรภาพ ... ); ไม่ว่าจะช่วยให้การรวบรวมเนื้อหาของมันผ่านทาง API (และอัตรา: 10 / นาที, 1k / เดือน, ... ); ไม่ว่าจะเป็นเพียงแค่ให้ภาพรวมของชุดข้อมูลทั้งหมด ข้อเสนอแนะและคุณสมบัติเพิ่มเติมที่จะเพิ่มยินดีต้อนรับมาก

7
วิธีการลอกแบบสภาพการทำงานของ Python บนเครื่องอื่นได้อย่างไร?
ฉันพัฒนารูปแบบการเรียนรู้ของเครื่องด้วย Python (Anaconda + Flask) บนเวิร์กสเตชันของฉันและทุกอย่างเป็นไปด้วยดี ต่อมาฉันพยายามส่งโปรแกรมนี้ไปยังเครื่องอื่นซึ่งแน่นอนว่าฉันพยายามตั้งค่าสภาพแวดล้อมเดียวกัน แต่โปรแกรมไม่สามารถทำงานได้ ฉันคัดลอกโปรแกรมไปยังเครื่องอื่นซึ่งทำงานได้อย่างราบรื่น ฉันไม่สามารถทราบได้ว่าปัญหาคืออะไรในกรณีที่ล้มเหลว (ทั้งรหัสโปรแกรมและข้อความแสดงข้อผิดพลาดมากมายดังนั้นฉันจึงไม่สามารถแสดงได้ที่นี่) แต่ฉันเกือบจะแน่ใจว่าเป็นสิ่งที่มีรุ่นที่แตกต่างกันของการอ้างอิง . ดังนั้นคำถามของฉันคือสภาพแวดล้อมที่โปรแกรมบางโปรแกรมทำงานได้ดีฉันจะโคลนไปยังโปรแกรมอื่นที่ควรทำงานได้อย่างไร แน่นอนว่าไม่มีการโคลนระบบเต็มรูปแบบ;)
26 python  anaconda 

7
การเรียนรู้ของเครื่องสามารถเรียนรู้ฟังก์ชั่นเช่นการหาค่าสูงสุดจากรายการได้หรือไม่?
ฉันมีอินพุตซึ่งเป็นรายการและเอาต์พุตคือองค์ประกอบสูงสุดของอินพุต - รายการ การเรียนรู้ของเครื่องสามารถเรียนรู้ฟังก์ชันที่เลือกค่าสูงสุดขององค์ประกอบอินพุตที่มีอยู่ในอินพุตได้หรือไม่? นี่อาจดูเหมือนเป็นคำถามพื้นฐานที่สวย แต่อาจทำให้ฉันเข้าใจในสิ่งที่การเรียนรู้ของเครื่องสามารถทำได้โดยทั่วไป ขอบคุณ!

5
วิธีการตั้งค่าจำนวนของเซลล์ประสาทและเลเยอร์ในเครือข่ายประสาท
ฉันเป็นผู้เริ่มต้นสำหรับเครือข่ายประสาทและมีปัญหาในการเข้าใจแนวคิดที่สอง: หนึ่งจะตัดสินใจจำนวนของเลเยอร์กลางเครือข่ายประสาทที่กำหนดได้อย่างไร 1 กับ 10 หรืออะไรก็ตาม หนึ่งจะตัดสินใจจำนวนของเซลล์ประสาทในแต่ละชั้นกลางได้อย่างไร ขอแนะนำให้มีเซลล์ประสาทจำนวนเท่ากันในแต่ละชั้นกลางหรือแตกต่างกันไปตามการใช้งาน?

2
วิธีตั้งค่า batch_size, steps_per epoch และขั้นตอนการตรวจสอบความถูกต้อง
ฉันเริ่มเรียนรู้ CNN โดยใช้ Keras ฉันใช้แบ็กเอนด์ theano ฉันไม่เข้าใจวิธีการตั้งค่าเป็น: batch_size, ขั้นตอนต่อยุค validation_steps สิ่งที่ควรเป็นค่ากำหนดเป็นbatch_sizeขั้นตอนต่อยุคและขั้นตอนการตรวจสอบถ้าฉันมี 240,000 ตัวอย่างในชุดฝึกอบรมและ 80,000 ในชุดทดสอบ?

6
เทคนิคการเรียนรู้ของเครื่องสำหรับการประเมินอายุของผู้ใช้ตามเว็บไซต์ Facebook ที่พวกเขาชอบ
ฉันมีฐานข้อมูลจากแอปพลิเคชัน Facebook ของฉันและฉันพยายามใช้การเรียนรู้ของเครื่องเพื่อประเมินอายุของผู้ใช้ตามไซต์ Facebook ที่พวกเขาชอบ มีสามลักษณะที่สำคัญของฐานข้อมูลของฉัน: การแจกแจงอายุในชุดการฝึกอบรมของฉัน (รวมเป็น 12k ของผู้ใช้) เอียงไปทางผู้ใช้ที่อายุน้อยกว่า (เช่นฉันมีผู้ใช้ 1157 คนอายุ 27 และ 23 ผู้ใช้อายุ 65 ปี) หลายไซต์มี likers ไม่เกิน 5 (ฉันกรองเว็บไซต์ FB ที่มี likers น้อยกว่า 5) มีคุณสมบัติมากมายกว่าตัวอย่าง ดังนั้นคำถามของฉันคือกลยุทธ์ใดที่คุณแนะนำให้เตรียมข้อมูลเพื่อการวิเคราะห์เพิ่มเติม ฉันควรลดมิติข้อมูลลงบ้างไหม? วิธีการ ML แบบใดที่เหมาะสมที่สุดที่จะใช้ในกรณีนี้ ฉันใช้ Python เป็นหลักดังนั้นคำแนะนำเฉพาะของ Python จะได้รับการชื่นชมอย่างมาก

2
LightGBM กับ XGBoost
ฉันพยายามเข้าใจว่าวิธีไหนดีกว่า (แม่นยำยิ่งขึ้นโดยเฉพาะในปัญหาการจำแนก) ฉันได้ค้นหาบทความเปรียบเทียบ LightGBM และ XGBoost แต่พบเพียงสอง: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - ซึ่งเกี่ยวกับความเร็ว แต่ไม่แม่นยำ https://github.com/Microsoft/LightGBM/wiki/Experiments - ซึ่งมาจากผู้เขียนของ LightGBM และไม่แปลกใจที่ LightGBM ชนะที่นั่น ในการทดสอบของฉันฉันได้รับ AUC เดียวกันทั้งสองอัลกอริทึม แต่ LightGBM ทำงานได้เร็วขึ้น 2 ถึง 5 เท่า ถ้า LGBM เจ๋งมากทำไมฉันไม่ได้ยินเรื่องนี้ที่นี่และ Kaggle :)
25 xgboost 

2
ผสานสองรุ่นที่แตกต่างกันใน Keras
ฉันกำลังพยายามรวมโมเดล Keras สองแบบเป็นแบบจำลองเดียวและฉันไม่สามารถทำสิ่งนี้ให้สำเร็จ ตัวอย่างเช่นในรูปที่แนบมาฉันต้องการดึงชั้นกลางของมิติ 8 และใช้สิ่งนี้เป็นอินพุตไปยังชั้น (จากมิติ 8 อีกครั้ง) ในรุ่นแล้วรวมทั้งแบบและแบบเป็นหนึ่งเดียว แบบA 2A2A2B 1B1B1BBBAAABBB ฉันใช้โมดูลการทำงานเพื่อสร้าง Modelและ Modelอย่างอิสระ ฉันจะทำงานนี้ให้สำเร็จได้อย่างไรAAABBB หมายเหตุ :เป็นชั้นที่ป้อนเข้ากับรูปแบบและเป็นชั้นป้อนข้อมูลไปยังรุ่นBA 1A1A1AAAB 1B1B1BBB

4
มีวิธีที่ตรงไปตรงมาในการรัน pandas.DataFrame.isin แบบขนานหรือไม่?
ฉันมีโปรแกรมการสร้างแบบจำลองและการให้คะแนนที่ใช้ประโยชน์จากDataFrame.isinฟังก์ชั่นของหมีแพนด้าอย่างหนักโดยค้นหาจากรายการบันทึกของ Facebook "ชอบ" ของผู้ใช้แต่ละคนสำหรับแต่ละหน้าไม่กี่พันหน้า นี่คือส่วนที่ใช้เวลานานที่สุดของโปรแกรมมากกว่าการสร้างแบบจำลองหรือให้คะแนนชิ้นส่วนเพียงเพราะมันทำงานบนแกนเดียวเท่านั้นในขณะที่ส่วนที่เหลือทำงานบนสองสามโหลพร้อมกัน แม้ว่าฉันจะรู้ว่าฉันสามารถแบ่งดาต้าเฟรมออกเป็นชิ้น ๆ และดำเนินการแบบขนานได้เองมีวิธีที่ตรงไปตรงมาในการทำสิ่งนั้นโดยอัตโนมัติหรือไม่? กล่าวอีกนัยหนึ่งมีแพ็คเกจประเภทใดบ้างที่จะรับรู้ว่าฉันกำลังใช้งานที่ได้รับมอบหมายอย่างง่ายดายและแจกจ่ายโดยอัตโนมัติหรือไม่ บางทีนั่นอาจจะขอมากเกินไป แต่ฉันก็รู้สึกประหลาดใจมากพอในอดีตโดยสิ่งที่มีอยู่ใน Python ดังนั้นฉันคิดว่ามันคุ้มค่าที่จะถาม ข้อเสนอแนะอื่น ๆ เกี่ยวกับวิธีการนี้อาจสำเร็จ (แม้ว่าจะไม่ใช่แพ็คเกจยูนิคอร์นเวทมนตร์) ก็จะได้รับการชื่นชมเช่นกัน ส่วนใหญ่เพียงแค่พยายามหาวิธีกำจัด 15-20 นาทีต่อการวิ่งโดยไม่ต้องใช้เวลาพอสมควรในการเข้ารหัสโซลูชัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.