วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
ข้อผิดพลาด train_test_split (): พบตัวแปรอินพุตที่มีจำนวนตัวอย่างที่ไม่สอดคล้องกัน
ค่อนข้างใหม่สำหรับ Python แต่สร้างแบบจำลอง RF แรกของฉันขึ้นอยู่กับข้อมูลการจำแนกบางส่วน ฉันแปลงฉลากทั้งหมดให้เป็นข้อมูลตัวเลข int64 และโหลดลงใน X และ Y เป็นอาร์เรย์ที่มีจำนวนมาก แต่ฉันกดปุ่มข้อผิดพลาดเมื่อฉันพยายามฝึกนางแบบ นี่คือลักษณะของอาร์เรย์ของฉัน: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, …

4
โคตรลาดลงมาบรรจบกันเป็นค่าที่เหมาะสมหรือไม่?
ฉันสงสัยว่ามีสถานการณ์ใดบ้างที่มีการไล่ระดับสีแบบเกรเดียนต์ไม่รวมกันเป็นอย่างต่ำ ฉันทราบดีว่าการไล่ระดับสีไม่ได้รับประกันว่าจะมาบรรจบกันในระดับที่เหมาะสมที่สุดในโลก ฉันก็ทราบด้วยว่ามันอาจจะแตกต่างจากที่เหมาะสมถ้าพูดขนาดก้าวใหญ่เกินไป อย่างไรก็ตามดูเหมือนว่าสำหรับฉันถ้ามันเบี่ยงเบนจากค่าที่เหมาะสมบางส่วนมันก็จะไปสู่ค่าที่เหมาะสมที่สุด ดังนั้นการไล่ระดับสีจะรับประกันได้ว่าจะมาบรรจบกันในระดับท้องถิ่นหรือระดับโลก นั่นถูกต้องใช่ไหม? ถ้าไม่คุณช่วยกรุณาอธิบายตัวอย่างคร่าวๆได้ไหม

1
การทำนายอนุกรมเวลาโดยใช้ LSTM: ความสำคัญของการสร้างอนุกรมเวลาให้ไม่หยุดนิ่ง
ในลิงค์นี้เกี่ยวกับ Stationarity และดิฟเฟอเรนเชียลมันถูกกล่าวถึงว่าโมเดลเช่น ARIMA ต้องการอนุกรมเวลาสำหรับการพยากรณ์เนื่องจากคุณสมบัติทางสถิติเช่นค่าเฉลี่ยความแปรปรวนความสัมพันธ์แบบออโตคอร์เรชั่น ฯลฯ คงที่ตลอดเวลา เนื่องจาก RNNs มีความสามารถที่ดีกว่าในการเรียนรู้ความสัมพันธ์ที่ไม่ใช่เชิงเส้น ( ตามที่กำหนดไว้ที่นี่: สัญญาของเครือข่ายประสาทที่เกิดขึ้นอีกสำหรับการพยากรณ์อนุกรมเวลา ) และทำงานได้ดีกว่าโมเดลอนุกรมเวลาทั่วไปเมื่อข้อมูลมีขนาดใหญ่ ข้อมูลจะมีผลต่อผลลัพธ์ คำถามที่ฉันต้องรู้คำตอบมีดังนี้: ในกรณีที่มีรูปแบบการพยากรณ์อนุกรมเวลาแบบดั้งเดิมความคงที่ของข้อมูลอนุกรมเวลาทำให้ง่ายต่อการคาดการณ์ว่าทำไมและอย่างไร ในขณะที่สร้างแบบจำลองการทำนายอนุกรมเวลาโดยใช้LSTM จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลอนุกรมเวลาคงที่ ถ้าเป็นเช่นนั้นทำไม

2
การใช้ torch.no_grad ใน pytorch คืออะไร
ฉันใหม่เพื่อ pytorch และเริ่มต้นด้วยการนี้รหัส GitHub ฉันไม่เข้าใจความคิดเห็นในบรรทัด 60-61 "because weights have requires_grad=True, but we don't need to track this in autograd"ในรหัส ฉันเข้าใจว่าเราพูดถึงrequires_grad=Trueตัวแปรที่เราต้องคำนวณการไล่ระดับสีสำหรับการใช้ autograd แต่มันหมายความว่า"tracked by autograd"อย่างไร
21 pytorch 

4
ความแตกต่างระหว่างการบูตสแตรปและการตรวจสอบความถูกต้องข้ามคืออะไร?
ฉันเคยใช้การตรวจสอบความถูกต้องไขว้ของ K-fold เพื่อประเมินโมเดลการเรียนรู้ของเครื่องของฉันอย่างมีประสิทธิภาพ แต่ฉันก็ตระหนักถึงการมีอยู่ของวิธีบูตสแตรปปิ้งเพื่อจุดประสงค์นี้เช่นกัน อย่างไรก็ตามฉันไม่สามารถเห็นความแตกต่างที่สำคัญระหว่างพวกเขาในแง่ของการประเมินประสิทธิภาพ เท่าที่ฉันเห็น bootstrapping ยังผลิตจำนวนสุ่มฝึกอบรม + ชุดย่อยทดสอบ (แม้ว่าในทางที่แตกต่างกัน) ดังนั้นสิ่งที่เป็นจุดได้เปรียบสำหรับการใช้วิธีนี้มากกว่า CV? สิ่งเดียวที่ฉันสามารถคิดได้ว่าในกรณีของการบูตสแตรปหนึ่งสามารถสร้างจำนวนเซตย่อยตามอำเภอใจได้อย่างแท้จริงในขณะที่สำหรับ CV จำนวนของอินสแตนซ์นั้นเป็นข้อ จำกัด สำหรับเรื่องนี้ แต่แง่มุมนี้ดูเหมือนจะสร้างความรำคาญเล็กน้อย

1
การแบ่งปันพารามิเตอร์ระหว่างคุณลักษณะและคลาสหมายความว่าอย่างไร
เมื่ออ่านบทความนี้จะมีบรรทัดที่ระบุว่า "ตัวแยกประเภทแบบเส้นตรงไม่ใช้พารามิเตอร์ร่วมกันระหว่างคุณลักษณะและคลาส" ความหมายของคำนี้คืออะไร? หมายความว่าลักษณนามเชิงเส้นเช่นการถดถอยโลจิสติกต้องการคุณสมบัติที่เป็นอิสระร่วมกัน?

2
การทำนายคำด้วยรูปแบบ Word2vec
ได้รับประโยค: "เมื่อฉันเปิด??ประตูก็จะเริ่มร้อนโดยอัตโนมัติ" ฉันต้องการรับรายการคำศัพท์ที่เป็นไปได้หรือไม่? ด้วยความน่าจะเป็น แนวคิดพื้นฐานที่ใช้ในรูปแบบ word2vec คือ "คาดการณ์" คำที่กำหนดบริบทโดยรอบ เมื่อแบบจำลองถูกสร้างขึ้นบริบทการทำงานของเวกเตอร์ที่ถูกต้องคืออะไรเพื่อดำเนินการทำนายของฉันในประโยคใหม่ มันเป็นเพียงผลรวมเชิงเส้นหรือไม่? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

7
ทำไมผลงานตีพิมพ์ส่วนใหญ่ในการถ่ายภาพทางการแพทย์จึงพยายามลดผลบวกปลอม?
ในการประมวลผลภาพทางการแพทย์ผลงานที่ตีพิมพ์ส่วนใหญ่พยายามลดอัตราการบวกผิด ๆ (FPR) ในขณะที่ในความเป็นจริงการปฏิเสธเชิงลบนั้นมีอันตรายมากกว่าการปลอมแปลงบวก เหตุผลเบื้องหลังมันคืออะไร?

2
การเลือกระหว่าง TensorFlow หรือ Theano เป็นแบ็กเอนด์สำหรับ Keras
Kerasสนับสนุนทั้งTensorFlowและTheanoในฐานะแบ็กเอนด์: อะไรคือข้อดี / ข้อเสียของการเลือกแบบหนึ่งกับแบบอื่น ๆ นอกเหนือจากความจริงที่ว่าปัจจุบันการดำเนินการบางอย่างไม่ได้ถูกนำไปใช้กับแบ็กเอนด์ TensorFlow

3
เริ่มต้นอาชีพการเป็นนักวิทยาศาสตร์ข้อมูลต้องมีประสบการณ์ด้านวิศวกรรมซอฟต์แวร์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันเป็นนักเรียนปริญญาโทที่มหาวิทยาลัยเอดินบะระมีความเชี่ยวชาญในการเรียนรู้เครื่องและการประมวลผลภาษาธรรมชาติ ฉันมีหลักสูตรภาคปฏิบัติที่เน้นการขุดข้อมูลและอื่น ๆ ที่เกี่ยวข้องกับการเรียนรู้ของเครื่องสถิติแบบเบย์และโมเดลกราฟิก พื้นหลังของฉันคือ BSc ในสาขาวิทยาศาสตร์คอมพิวเตอร์ ฉันทำวิศวกรรมซอฟต์แวร์บ้างและเรียนรู้แนวคิดพื้นฐานเช่นรูปแบบการออกแบบ แต่ฉันไม่เคยเกี่ยวข้องกับโครงการพัฒนาซอฟต์แวร์ขนาดใหญ่ อย่างไรก็ตามฉันมีโครงการขุดข้อมูลในปริญญาโทวิทยาศาสตร์ คำถามของฉันคือถ้าฉันต้องการมีอาชีพเป็นนักวิทยาศาสตร์ด้านข้อมูลฉันควรสมัครตำแหน่งนักวิทยาศาสตร์ข้อมูลระดับบัณฑิตศึกษาก่อนหรือฉันควรจะได้ตำแหน่งวิศวกรซอฟต์แวร์ระดับบัณฑิตศึกษาก่อนอาจเป็นบางสิ่งที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูลเช่นข้อมูลขนาดใหญ่ โครงสร้างพื้นฐานหรือการพัฒนาซอฟต์แวร์เรียนรู้เครื่อง? ความกังวลของฉันคือฉันอาจต้องมีทักษะวิศวกรรมซอฟต์แวร์ที่ดีสำหรับวิทยาศาสตร์ข้อมูลและฉันไม่แน่ใจว่าสิ่งเหล่านี้สามารถได้รับจากการทำงานในฐานะนักวิทยาศาสตร์ข้อมูลระดับบัณฑิตศึกษาโดยตรงหรือไม่ ยิ่งไปกว่านั้นในตอนนี้ฉันชอบ Data Mining แต่ถ้าฉันต้องการเปลี่ยนอาชีพเป็นวิศวกรรมซอฟต์แวร์ในอนาคต มันอาจเป็นเรื่องยากถ้าฉันมีความเชี่ยวชาญในศาสตร์ข้อมูลมาก ฉันยังไม่ได้รับการว่าจ้างดังนั้นความรู้ของฉันจึงยัง จำกัด ยินดีต้อนรับสู่การชี้แจงหรือคำแนะนำใด ๆ เนื่องจากฉันกำลังจะสำเร็จการศึกษาระดับปริญญาโทและต้องการเริ่มสมัครเข้าเรียนระดับบัณฑิตในช่วงต้นเดือนตุลาคม

14
การประชุมวิทยาศาสตร์ข้อมูล?
นี่เป็นคำถามที่คล้ายกันเช่นคำถามการประชุมสถิติที่ CrossValidated การประชุมวิทยาศาสตร์ข้อมูลที่สำคัญที่สุดประจำปีคืออะไร? กฎ: รวมลิงค์ไปยังการประชุม โปรดระบุลิงก์สำหรับการเจรจา (ไม่ว่าจะเป็น youtube, เว็บไซต์การประชุมหรือเว็บไซต์สตรีมมิ่งวิดีโออื่น ๆ )
20 community 

4
ฉันจะวัดความคล้ายคลึงของคำได้อย่างไร
วิธีที่ดีที่สุดในการค้นหาความคล้ายคลึงกันทางความหมายของคำคืออะไร Word2Vec ไม่เป็นไร แต่ไม่เหมาะ: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 …

3
การแยกคำหลัก / วลีจากข้อความโดยใช้ห้องสมุดการเรียนรู้ลึก
บางทีนี่อาจจะกว้างเกินไป แต่ฉันกำลังมองหาข้อมูลอ้างอิงเกี่ยวกับวิธีใช้การเรียนรู้อย่างลึกซึ้งในงานการสรุปข้อความ ฉันได้ใช้การสรุปข้อความโดยใช้วิธีการหาคำแบบมาตรฐานและการจัดอันดับประโยค แต่ฉันต้องการสำรวจความเป็นไปได้ของการใช้เทคนิคการเรียนรู้เชิงลึกสำหรับงานนี้ ฉันได้ผ่านการใช้งานบางอย่างที่ให้ไว้ในwildml.comโดยใช้ Convolutional Neural Networks (CNN) สำหรับการวิเคราะห์ความเชื่อมั่น ฉันต้องการทราบวิธีใช้ไลบรารีเช่น TensorFlow หรือ Theano สำหรับการสรุปข้อความและการแยกคำหลัก เป็นเวลาประมาณหนึ่งสัปดาห์แล้วที่ฉันเริ่มทดลองกับ Neural nets และฉันตื่นเต้นมากที่เห็นว่าประสิทธิภาพของห้องสมุดเหล่านี้เปรียบเทียบกับวิธีก่อนหน้าของฉันกับปัญหานี้อย่างไร ฉันกำลังมองหาเอกสารที่น่าสนใจและโครงการ GitHub ที่เกี่ยวข้องกับการสรุปข้อความโดยเฉพาะอย่างยิ่งโดยใช้กรอบงานเหล่านี้ ใครช่วยให้ฉันมีการอ้างอิงบางอย่าง?

3
ความแตกต่างระหว่างการจำแนกข้อความและตัวแบบหัวข้อคืออะไร?
ฉันรู้ความแตกต่างระหว่างการจัดกลุ่มและการจัดหมวดหมู่ในการเรียนรู้ของเครื่อง แต่ฉันไม่เข้าใจความแตกต่างระหว่างการจัดกลุ่มข้อความและการสร้างแบบจำลองหัวข้อสำหรับเอกสาร ฉันสามารถใช้การสร้างแบบจำลองหัวข้อบนเอกสารเพื่อระบุหัวข้อได้หรือไม่ ฉันสามารถใช้วิธีการจัดหมวดหมู่เพื่อจำแนกข้อความในเอกสารเหล่านี้ได้หรือไม่?

2
Keras vs. tf.keras
ฉันสับสนเล็กน้อยในการเลือกระหว่างKeras (keras-team / keras) และtf.keras (tensorflow / tensorflow / python / keras /) สำหรับโครงการวิจัยใหม่ของฉัน มีการถกเถียงกันว่าKerasไม่ได้เป็นของใครดังนั้นผู้คนมีความสุขที่ได้มีส่วนร่วมและมันจะง่ายขึ้นมากในการจัดการโครงการในอนาคต ในด้านอื่น ๆ , tf.kerasเป็นเจ้าของโดย Google ทดสอบเพื่อให้เข้มงวดมากขึ้นและการบำรุงรักษา ยิ่งกว่านั้นดูเหมือนว่านี่เป็นตัวเลือกที่ดีกว่าสำหรับการใช้ประโยชน์จากคุณสมบัติใหม่ที่มีอยู่ใน Tensorflow v.2 ดังนั้นเพื่อเริ่มโครงการข้อมูลวิทยาศาสตร์ (การเรียนรู้ของเครื่อง) (ในขั้นตอนการวิจัย) ว่าทั้งคู่ไม่เป็นไรในตอนแรกคุณเลือกอันไหน?!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.