วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
Keras Callback เป็นตัวอย่างสำหรับบันทึกโมเดลหลังจากทุกยุคหรือไม่
ใครช่วยกรุณาโพสต์ตัวอย่างที่ตรงไปตรงมาของ Keras โดยใช้การโทรกลับเพื่อบันทึกแบบจำลองหลังจากทุกยุค ฉันสามารถหาตัวอย่างของการบันทึกน้ำหนัก แต่ฉันต้องการที่จะสามารถบันทึกรูปแบบการทำงานอย่างสมบูรณ์หลังจากยุคการฝึกอบรมทุกครั้ง
17 python  keras 

8
จะนับจำนวนของค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร
ฉันจะรับจำนวนค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร ฉันต้องการแบ่งดาต้าไฟล์ให้เป็นดาต้าไฟล์อื่นที่มีจำนวนค่าหายไปเท่ากันในแต่ละแถว ข้อเสนอแนะใด ๆ
17 python  pandas 

2
เราควรจัดการกับข้อมูลที่หายไปที่ไหนในเวิร์กโฟลว์
ฉันกำลังสร้างเวิร์กโฟลว์สำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่อง (ในกรณีของฉันโดยใช้ Python pandasและsklearnแพ็คเกจ) จากข้อมูลที่ดึงมาจากฐานข้อมูลขนาดใหญ่มาก (ที่นี่ Vertica ด้วยวิธี SQL และpyodbc) และขั้นตอนสำคัญในกระบวนการนั้น ค่าของผู้ทำนาย สิ่งนี้ตรงไปตรงมาในแพลตฟอร์มการวิเคราะห์หรือสถิติเดียวไม่ว่าจะเป็น Python, R, Stata และอื่น ๆ --- แต่ฉันอยากรู้ว่าจะหาขั้นตอนนี้ได้ดีที่สุดในเวิร์กโฟลว์แบบหลายแพลตฟอร์มได้อย่างไร มันง่ายพอที่จะทำสิ่งนี้ใน Python ไม่ว่าจะเป็นsklearn.preprocessing.Imputerคลาสใช้pandas.DataFrame.fillnaวิธีการหรือด้วยมือ (ขึ้นอยู่กับความซับซ้อนของวิธีการใส่ความคิดที่ใช้) แต่เนื่องจากฉันจะใช้คอลัมน์นี้หลายสิบหรือหลายร้อยคอลัมน์ในหลายร้อยล้านระเบียนฉันสงสัยว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการทำสิ่งนี้โดยตรงผ่าน SQL ล่วงหน้าหรือไม่ นอกเหนือจากประสิทธิภาพที่เป็นไปได้ของการทำเช่นนี้ในแพลตฟอร์มแบบกระจายเช่น Vertica สิ่งนี้จะมีประโยชน์เพิ่มเติมที่ช่วยให้เราสามารถสร้างไปป์ไลน์อัตโนมัติสำหรับการสร้างตารางเวอร์ชัน "สมบูรณ์" ดังนั้นเราจึงไม่จำเป็นต้องกรอกชุดใหม่ ของค่าที่หายไปตั้งแต่เริ่มต้นทุกครั้งที่เราต้องการเรียกใช้แบบจำลอง ฉันไม่สามารถหาคำแนะนำมากมายเกี่ยวกับสิ่งนี้ แต่ฉันคิดว่าเราจะทำได้: สร้างตารางค่าทดแทน (เช่นค่าเฉลี่ย / มัธยฐาน / โหมดโดยรวมหรือตามกลุ่ม) สำหรับแต่ละคอลัมน์ที่ไม่สมบูรณ์ เข้าร่วมตารางค่าทดแทนกับตารางเดิมเพื่อกำหนดค่าทดแทนสำหรับแต่ละแถวและคอลัมน์ที่ไม่สมบูรณ์ ใช้ชุดคำสั่ง case เพื่อรับค่าดั้งเดิมหากมีและค่าทดแทนเป็นอย่างอื่น สิ่งนี้เป็นสิ่งที่สมเหตุสมผลที่ต้องทำใน Vertica / SQL …

5
TensorFlow มีข้อเสนออะไรเพิ่มเติมสำหรับ keras?
ฉันทราบว่า keras ทำหน้าที่เป็นอินเทอร์เฟซระดับสูงเพื่อ TensorFlow แต่สำหรับฉันแล้ว keras สามารถทำหน้าที่ได้หลายอย่างด้วยตัวเอง (การป้อนข้อมูลการสร้างแบบจำลองการฝึกอบรมการประเมินผล) นอกจากนี้ฟังก์ชันการทำงานบางอย่างของ TensorFlow สามารถส่งโดยตรงไปยัง keras (เช่นเป็นไปได้ที่จะใช้ฟังก์ชัน tf metric หรือ loss เป็น keras) คำถามของฉันคืออะไร TensorFlow ข้อเสนอที่ไม่สามารถทำซ้ำใน keras?
16 keras  tensorflow 

5
โครงข่ายประสาทเทียมมากเกินไป การออกกลางคันไม่ได้ช่วยอะไร
ฉันกำลังเล่นกับ convnets เล็กน้อย โดยเฉพาะฉันใช้ชุดข้อมูล cats-vs-dogs kaggle ซึ่งประกอบไปด้วยรูปภาพ 25,000 ภาพที่มีป้ายกำกับว่าเป็น cat หรือ dog (12500 อัน) ฉันจัดการเพื่อให้บรรลุความถูกต้องจำแนก 85% ในชุดทดสอบของฉัน แต่ฉันกำหนดเป้าหมายของการบรรลุความแม่นยำ 90% ปัญหาหลักของฉันคือ overfitting อย่างใดก็มักจะเกิดขึ้นเสมอ (ปกติหลังจากยุค 8-10) สถาปัตยกรรมของเครือข่ายของฉันได้รับแรงบันดาลใจมาจาก VGG-16 โดยเฉพาะอย่างยิ่งภาพของฉันได้รับการปรับขนาดเป็น128x128x3128x128x3128x128x3จากนั้นฉันเรียกใช้: Convolution 1 128x128x32 (kernel size is 3, strides is 1) Convolution 2 128x128x32 (kernel size is 3, strides is 1) Max pool 1 …

1
คะแนน LB ในการเรียนรู้ของเครื่องคืออะไร
ฉันกำลังอ่านบทความเกี่ยวกับบล็อก kaggle ผู้เขียนระบุว่า 'คะแนน LB' และ 'พอดีพอดี') ซ้ำเป็นตัวชี้วัดสำหรับประสิทธิภาพของการเรียนรู้ของเครื่อง (พร้อมกับคะแนนการตรวจสอบข้าม (CV)) จากการวิจัยเกี่ยวกับความหมายของ 'LB' ฉันใช้เวลาค่อนข้างนานฉันจึงตระหนักว่าโดยทั่วไปผู้คนมักจะอ้างถึงว่าเป็น LB โดยไม่มีพื้นฐานมาก ดังนั้นคำถามของฉันคือ 'LB' คืออะไร?

3
น้ำหนักและอคติในการเรียนรู้อย่างลึกซึ้งคืออะไร?
ฉันเริ่มเรียนรู้การเรียนรู้ของเครื่องจากเว็บไซต์ Tensorflow ฉันได้พัฒนาความเข้าใจพื้นฐานของโปรแกรมการเรียนรู้ที่ลึกล้ำตามมา (วิธีนี้ทำให้ฉันเรียนรู้เร็วแทนที่จะอ่านหนังสือและบทความใหญ่) มีบางสิ่งที่สับสนที่ฉันได้เจอมี 2 สิ่ง: อคติ น้ำหนัก ในการสอน MNIST บนเว็บไซต์ของเทนเซอร์โฟลว์พวกเขาได้กล่าวว่าเราต้องการอคติและน้ำหนักเพื่อค้นหาหลักฐานการมีอยู่ของรูปแบบเฉพาะในภาพ สิ่งที่ฉันไม่เข้าใจคือการกำหนดค่าสำหรับอคติและน้ำหนักที่ใดและอย่างไร เราต้องให้ค่าเหล่านี้หรือไม่หรือห้องสมุด TensorFlow คำนวณค่าเหล่านี้โดยอัตโนมัติตามชุดข้อมูลการฝึกอบรมหรือไม่? นอกจากนี้หากคุณสามารถให้คำแนะนำเกี่ยวกับวิธีเร่งความเร็วของฉันในการเรียนรู้อย่างลึกซึ้งนั่นจะยอดเยี่ยมมาก! การสอน Tensorflow Beginners

2
NLP - Gazetteer โกงหรือไม่?
ใน NLP มีแนวคิดGazetteerที่จะมีประโยชน์มากสำหรับการสร้างคำอธิบายประกอบ เท่าที่ฉันเข้าใจ: นักหนังสือพิมพ์ประกอบด้วยชุดของรายการที่มีชื่อของเอนทิตีเช่นเมือง, องค์กร, วันของสัปดาห์ ฯลฯ รายการเหล่านี้จะใช้ในการเกิดขึ้นของชื่อเหล่านี้ในข้อความเช่นสำหรับงานของการรับรู้นิติบุคคลที่มีชื่อ ดังนั้นมันจึงเป็นการค้นหา การโกงแบบนี้ไม่ใช่หรือ ถ้าเราใช้Gazetteerสำหรับการตรวจสอบหน่วยงานที่ชื่อนั้นมีไม่มากNatural Language Processingที่เกิดขึ้น เป็นการดีที่ฉันต้องการตรวจสอบเอนทิตีที่มีชื่อโดยใช้NLPเทคนิค มิฉะนั้นแล้วมันจะดีกว่าตัวจับรูปแบบ regex อย่างไร

2
ปัญหาการเรียนรู้แบบใดที่เหมาะกับ Support Vector Machines
จุดเด่นหรือคุณสมบัติที่ระบุว่าปัญหาการเรียนรู้บางอย่างสามารถแก้ไขได้โดยใช้เครื่องเวกเตอร์สนับสนุนคืออะไร เมื่อคุณเห็นปัญหาการเรียนรู้ทำให้คุณไป "โอ้ฉันควรใช้ SVM สำหรับสิ่งนี้แทนการใช้โครงข่ายประสาทเทียมหรือต้นไม้ตัดสินใจหรือสิ่งอื่นใด

3
จะเรียนรู้วิทยาศาสตร์ข้อมูลด้วยตนเองได้อย่างไร? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ฉันเป็นนักพัฒนาเว็บที่เรียนรู้ด้วยตนเองและสนใจที่จะสอนตัวเองด้านวิทยาศาสตร์ข้อมูล แต่ฉันไม่แน่ใจว่าจะเริ่มอย่างไร โดยเฉพาะอย่างยิ่งฉันสงสัยว่า: มีสาขาใดบ้างในวิทยาศาสตร์ข้อมูล (เช่นปัญญาประดิษฐ์, การเรียนรู้ของเครื่อง, การวิเคราะห์ข้อมูล ฯลฯ ) มีคลาสเรียนออนไลน์ที่ผู้คนสามารถแนะนำได้หรือไม่? มีโปรเจ็กต์ที่ฉันสามารถฝึกฝนได้หรือไม่ (เช่นชุดข้อมูลแบบเปิด) มีใบรับรองที่ฉันสามารถสมัครหรือกรอกได้หรือไม่?

6
พอดคาสต์วิทยาศาสตร์ข้อมูล?
พอดคาสต์บางตัวที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลคืออะไร นี่เป็นคำถามที่คล้ายกับคำถามคำขออ้างอิง CrossValidated รายละเอียดสินค้า / กฎ: The podcasts (the theme and the episodes) should be related to data science. (For example: A podcast which is about some other domain, with an episode which speaks about data science in that domain, is not a good reference/answer.) Personal opinions/reviews (if any) would …


2
แยกส่วนที่ให้ข้อมูลส่วนใหญ่ของข้อความจากเอกสาร
มีบทความหรือการสนทนาเกี่ยวกับการแยกส่วนของข้อความที่เก็บข้อมูลส่วนใหญ่เกี่ยวกับเอกสารปัจจุบันหรือไม่ ตัวอย่างเช่นฉันมีคลังเอกสารจำนวนมากจากโดเมนเดียวกัน มีข้อความบางส่วนที่เก็บข้อมูลสำคัญที่เอกสารพูดถึง ฉันต้องการแยกส่วนเหล่านั้นออกมาและใช้เป็นส่วนสรุปของข้อความ มีเอกสารที่มีประโยชน์เกี่ยวกับวิธีการบรรลุสิ่งนี้ มันจะมีประโยชน์จริง ๆ ถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องว่าฉันควรค้นหาหรืออ่านอะไรบ้างเพื่อรับข้อมูลเชิงลึกเกี่ยวกับงานที่อาจทำไปแล้วในการประมวลผลภาษาธรรมชาตินี้
16 nlp  text-mining 

3
การใช้ฐานข้อมูล NoSQL ในศาสตร์ข้อมูล
สามารถใช้ฐานข้อมูลNoSQLอย่างMongoDBในการวิเคราะห์ข้อมูลได้อย่างไร คุณสมบัติอะไรบ้างที่สามารถทำการวิเคราะห์ข้อมูลได้เร็วขึ้นและมีประสิทธิภาพ
16 bigdata  nosql  mongodb 

2
วิธีการเลือกคุณสมบัติสำหรับเครือข่ายประสาทเทียม?
ฉันรู้ว่าไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่สมมติว่าฉันมีเครือข่ายประสาทขนาดใหญ่ที่มีข้อมูลจำนวนมากและฉันต้องการเพิ่มคุณสมบัติใหม่ในอินพุต วิธีที่ "ดีที่สุด" คือการทดสอบเครือข่ายด้วยคุณสมบัติใหม่และดูผลลัพธ์ แต่มีวิธีทดสอบว่าคุณลักษณะดังกล่าวไม่เป็นประโยชน์หรือไม่? เช่นเดียวกับมาตรการความสัมพันธ์ ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) เป็นต้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.