วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

10
กลไกการเรียนรู้ของเครื่องสามารถทำนายผลคะแนนหรือการเล่นกีฬาได้หรือไม่?
ฉันมีชุดข้อมูล NFL ที่หลากหลายซึ่งฉันคิดว่าอาจทำผลงานได้ดี แต่ฉันยังไม่ได้ทำอะไรกับพวกเขา การมาที่ไซต์นี้ทำให้ฉันนึกถึงอัลกอริธึมการเรียนรู้ของเครื่องจักรและฉันสงสัยว่าพวกเขาจะดีแค่ไหนในการทำนายผลของเกมฟุตบอลหรือแม้แต่การเล่นครั้งต่อไป สำหรับฉันแล้วดูเหมือนว่าจะมีแนวโน้มบางอย่างที่สามารถระบุได้ - ในวันที่ 3 และ 1 ทีมที่มีการวิ่งกลับที่แข็งแกร่งในทางทฤษฎีควรมีแนวโน้มที่จะเล่นบอลในสถานการณ์นั้น การให้คะแนนอาจยากต่อการทำนาย แต่ทีมที่ชนะอาจเป็น คำถามของฉันคือคำถามเหล่านี้เป็นคำถามที่ดีหรือไม่สำหรับการเรียนรู้ด้วยอัลกอริทึม อาจเป็นไปได้ว่ามีคนหลายพันคนทดลองใช้มาก่อน แต่ลักษณะของกีฬาทำให้เป็นหัวข้อที่ไม่น่าเชื่อถือ

3
เมื่อใดจะใช้อะไร - การเรียนรู้ของเครื่อง [ปิด]
เมื่อเร็ว ๆ นี้ในคลาสการเรียนรู้ของเครื่องจากศาสตราจารย์ Oriol Pujol ที่ UPC / Barcelona เขาได้อธิบายถึงอัลกอริทึมหลักการและแนวคิดที่ใช้กันทั่วไปสำหรับงานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องจักร ที่นี่ฉันแบ่งปันให้กับคุณและถามคุณ: มีกรอบงานที่ครอบคลุมที่จับคู่กับแนวทางหรือวิธีการที่เกี่ยวข้องกับปัญหาการเรียนรู้ของเครื่องที่แตกต่างกันหรือไม่? ฉันจะเรียนรู้แบบเกาส์ง่ายๆได้อย่างไร ความน่าจะเป็นตัวแปรสุ่มการแจกแจง การประมาณค่าการลู่เข้าหาและเส้นกำกับช่วงเวลาความมั่นใจ ฉันจะเรียนรู้ส่วนผสมของ Gaussians (MoG) ได้อย่างไร โอกาสความคาดหวัง - สูงสุด (EM); การวางนัยทั่วไปการเลือกแบบจำลองการตรวจสอบข้าม k-หมายถึงรุ่นมาร์คอฟที่ซ่อนอยู่ (HMM) ฉันจะเรียนรู้ความหนาแน่นได้อย่างไร การประมาณค่าพารามิเตอร์เทียบกับที่ไม่ใช่พารามิเตอร์ Sobolev และพื้นที่การทำงานอื่น ๆ l ́ 2 ข้อผิดพลาด; การประมาณความหนาแน่นของเคอร์เนล (KDE), เคอร์เนลที่ดีที่สุด, ทฤษฎีของ KDE ฉันจะทำนายตัวแปรต่อเนื่อง (การถดถอย) ได้อย่างไร การถดถอยเชิงเส้น, การทำให้เป็นมาตรฐาน, การถดถอยแบบสันและ LASSO; การถดถอยเชิงเส้นท้องถิ่น การประมาณความหนาแน่นตามเงื่อนไข ฉันจะทำนายตัวแปรแยก …

5
GBM กับ XGBOOST ความแตกต่างที่สำคัญ?
ฉันพยายามเข้าใจถึงความแตกต่างที่สำคัญระหว่าง GBM และ XGBOOST ฉันพยายาม google แต่ไม่พบคำตอบที่ดีใด ๆ ที่อธิบายความแตกต่างระหว่างอัลกอริธึมทั้งสองและทำไม xgboost ทำงานได้ดีกว่า GBM เกือบทุกครั้ง อะไรทำให้ XGBOOST เร็วขึ้น?

3
batch_size ใน Keras มีผลกระทบต่อคุณภาพของผลลัพธ์หรือไม่
ฉันกำลังจะฝึกอบรมเครือข่าย LSTM ขนาดใหญ่ด้วยบทความ 2-3 ล้านรายการและกำลังดิ้นรนกับข้อผิดพลาดของหน่วยความจำ (ฉันใช้ AWS EC2 g2x2 ขนาดใหญ่) batch_sizeผมพบว่าหนึ่งในวิธีการแก้ปัญหาคือการลด อย่างไรก็ตามฉันไม่แน่ใจว่าพารามิเตอร์นี้เกี่ยวข้องกับปัญหาประสิทธิภาพการใช้หน่วยความจำหรือไม่หรือจะส่งผลต่อผลลัพธ์ของฉันเท่านั้น ตามความเป็นจริงฉันก็สังเกตเห็นว่าbatch_sizeโดยปกติแล้วการใช้ตัวอย่างเป็นพลังของสองซึ่งฉันไม่เข้าใจเช่นกัน ฉันไม่รังเกียจหากเครือข่ายของฉันใช้เวลาในการฝึกอบรมนานขึ้น แต่ฉันต้องการทราบว่าการลดbatch_sizeจะทำให้คุณภาพการคาดการณ์ของฉันลดลงหรือไม่ ขอบคุณ

9
ฉันต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูลหรือไม่?
นักวิทยาศาสตร์ข้อมูลที่ต้องการที่นี่ ฉันไม่รู้อะไรเกี่ยวกับ Hadoop แต่เมื่อฉันได้อ่านเกี่ยวกับ Data Science และ Big Data ฉันเห็นการพูดคุยมากมายเกี่ยวกับ Hadoop จำเป็นหรือไม่ที่จะต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูล?

3
อะไรคือความแตกต่างระหว่าง“ การเปรียบเทียบกับการแปล” และ“ การแปรผันของการแปล”
ฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างequivariant กับการแปลและคงที่กับการแปล ในหนังสือเรียนรู้ลึก MIT Press, 2016 (I. Goodfellow, A. Courville และ Y. Bengio) สามารถพบได้บนเครือข่าย convolutional: [... ] รูปแบบเฉพาะของการใช้พารามิเตอร์ร่วมกันทำให้เลเยอร์มีคุณสมบัติที่เรียกว่าความสมดุลเพื่อการแปล [... ] การรวมกำไรกันช่วยให้การแทนค่ากลายเป็นค่าประมาณที่ไม่แน่นอนกับการแปลขนาดเล็กของอินพุต มีความแตกต่างระหว่างพวกเขาหรือเป็นคำที่ใช้สลับกันได้?

11
นักวิทยาศาสตร์ข้อมูลใช้ Excel หรือไม่
ฉันจะคิดว่าตัวเองเป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพ เช่นเดียวกับคนส่วนใหญ่ (ฉันคิดว่า) ฉันทำแผนภูมิแรกของฉันและทำการรวมครั้งแรกของฉันในโรงเรียนมัธยมและวิทยาลัยโดยใช้ Excel ขณะที่ฉันเรียนวิทยาลัยจบการศึกษาและมีประสบการณ์การทำงานประมาณ 7 ปีฉันเลือกสิ่งที่ฉันคิดว่าเป็นเครื่องมือขั้นสูงเช่น SQL, R, Python, Hadoop, LaTeX เป็นต้น เรากำลังสัมภาษณ์ตำแหน่งนักวิทยาศาสตร์ด้านข้อมูลและผู้สมัครคนหนึ่งประกาศตัวเองว่าเป็น "นักวิทยาศาสตร์ด้านข้อมูลอาวุโส" (คำศัพท์ที่ค่อนข้างยุ่งเหยิงในสมัยนี้) ที่มีประสบการณ์มากกว่า 15 ปี เมื่อถูกถามว่าชุดเครื่องมือที่เขาต้องการคืออะไรเขาตอบว่านั่นคือ Excel ฉันใช้สิ่งนี้เป็นหลักฐานว่าเขาไม่ได้มีประสบการณ์มากเท่ากับประวัติย่อของเขาที่จะเรียกร้อง แต่ไม่แน่ใจ ท้ายที่สุดเพียงเพราะมันไม่ใช่เครื่องมือที่ฉันชอบไม่ได้หมายความว่าไม่ใช่คนอื่น นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ใช้ Excel หรือไม่ คุณสามารถสมมติว่าขาดประสบการณ์จากคนที่ใช้ Excel เป็นหลักหรือไม่?
37 tools  career  excel 

5
scikit-learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่
ฉันกำลังทำงานกับปัญหาที่มีคุณสมบัติมากเกินไปและการฝึกอบรมแบบจำลองของฉันใช้เวลานานเกินไป ฉันใช้อัลกอริทึมการเลือกไปข้างหน้าเพื่อเลือกคุณสมบัติ อย่างไรก็ตามฉันสงสัยว่า scikit-Learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่

2
จะตีความผลลัพธ์ของ XGBoost ได้อย่างไร?
ฉันใช้โมเดล xgboost xgb.importanceผมไม่ทราบว่าวิธีการตีความการส่งออกของ อะไรคือความหมายของการได้รับความคุ้มครองและความถี่และเราจะตีความมันได้อย่างไร นอกจากนี้ Split, RealCover และ RealCover% หมายถึงอะไร ฉันมีพารามิเตอร์พิเศษบางอย่างที่นี่ มีพารามิเตอร์อื่น ๆ ที่สามารถบอกฉันเพิ่มเติมเกี่ยวกับคุณสมบัติการนำเข้า จากเอกสาร R ฉันมีความเข้าใจว่าการได้รับนั้นคล้ายกับการรับข้อมูลและความถี่คือจำนวนครั้งที่มีการใช้คุณลักษณะในต้นไม้ทั้งหมด ฉันไม่รู้ว่า Cover คืออะไร ฉันรันโค้ดตัวอย่างที่ให้ไว้ในลิงก์ (และพยายามทำเช่นเดียวกันกับปัญหาที่ฉันกำลังทำอยู่) แต่การแยกคำจำกัดความที่ให้ที่นั่นไม่ตรงกับตัวเลขที่ฉันคำนวณ importance_matrix เอาท์พุท: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: …

13
วิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับคำพูดตลก
เป็นธรรมเนียมที่ผู้ใช้ของชุมชนต่าง ๆจะอ้างถึงสิ่งที่ตลกเกี่ยวกับทุ่งนาของพวกเขา มันอาจเป็นเรื่องสนุกที่จะแบ่งปันเรื่องตลกของคุณเกี่ยวกับการเรียนรู้ของเครื่องการเรียนรู้ลึกวิทยาศาสตร์ข้อมูลและสิ่งที่คุณเผชิญทุกวัน!

3
การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น
ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

13
คุณคิดอย่างไรกับการรับรองวิทยาศาสตร์ข้อมูล
ผมเคยเห็นตอนนี้สองวิทยาศาสตร์ข้อมูลโปรแกรมการรับรอง - เดอะจอห์นฮอปกินส์หนึ่งที่มีอยู่ใน CourseraและCloudera หนึ่ง ฉันแน่ใจว่ามีคนอื่นออกมี ชุดชั้นเรียนของ John Hopkins เน้นที่ R เป็นชุดเครื่องมือ แต่ครอบคลุมหัวข้อต่างๆดังนี้: การเขียนโปรแกรม R การทำความสะอาดและการรับข้อมูล การวิเคราะห์ข้อมูล การวิจัยซ้ำ อนุมานทางสถิติ แบบจำลองการถดถอย การเรียนรู้ของเครื่อง การพัฒนาผลิตภัณฑ์ข้อมูล และสิ่งที่ดูเหมือนว่าจะเป็นงานที่เสร็จสิ้นตามโครงการคล้ายกับการท้าทายวิทยาศาสตร์ข้อมูลของ Cloudera โปรแกรม Cloudera มีลักษณะบางบนพื้นผิว แต่ดูเหมือนจะตอบคำถามสำคัญสองข้อ - "คุณรู้จักเครื่องมือ", "คุณสามารถใช้เครื่องมือในโลกแห่งความเป็นจริงได้ไหม" โปรแกรมของพวกเขาประกอบด้วย: วิทยาศาสตร์ข้อมูลเบื้องต้น การสอบข้อมูลวิทยาศาสตร์ที่จำเป็น Data Science Challenge (สถานการณ์จำลองโครงงานวิทยาศาสตร์ข้อมูลจริง) ฉันไม่ได้มองหาคำแนะนำในโปรแกรมหรือการเปรียบเทียบคุณภาพ ฉันอยากรู้เกี่ยวกับการรับรองอื่น ๆ ที่นั่นหัวข้อที่พวกเขาครอบคลุมและความน่าเชื่อถือของชุมชนที่ได้รับการรับรอง DS แก้ไข: นี่คือคำตอบที่ดีทั้งหมด ฉันเลือกคำตอบที่ถูกต้องด้วยคะแนนโหวต
35 education 

6
ในการเรียนรู้แบบมีผู้สอนเหตุใดจึงไม่ดีที่จะมีคุณลักษณะที่สัมพันธ์กัน
ฉันอ่านที่ไหนสักแห่งว่าถ้าเรามีฟีเจอร์ที่สัมพันธ์กันมากเกินไปเราต้องลบออกเพราะมันอาจทำให้โมเดลแย่ลง เป็นที่ชัดเจนว่าฟีเจอร์ที่สัมพันธ์กันหมายความว่าพวกเขานำข้อมูลเดียวกันมาดังนั้นจึงเป็นการลบตรรกะอย่างใดอย่างหนึ่ง แต่ฉันไม่สามารถเข้าใจว่าทำไมสิ่งนี้ถึงทำให้รูปแบบแย่ลง

6
คำอธิบายการสูญเสียข้ามเอนโทรปี
สมมติว่าฉันสร้าง NN สำหรับการจัดหมวดหมู่ ชั้นสุดท้ายเป็นชั้นหนาแน่นด้วยการเปิดใช้งาน softmax ฉันมีห้าคลาสที่แตกต่างกันเพื่อจัดประเภท สมมติว่าสำหรับการฝึกอบรมเช่นเดียวtrue labelคือในขณะที่การคาดการณ์จะเป็น[1 0 0 0 0] [0.1 0.5 0.1 0.1 0.2]ฉันจะคำนวณการสูญเสียเอนโทรปีของตัวอย่างนี้ได้อย่างไร

1
ความแตกต่างระหว่าง "หนาแน่น" และ "เวลากระจาย" ของ Keras`
ฉันยังคงสับสนเกี่ยวกับความแตกต่างระหว่างDenseและTimeDistributedDenseของKerasแม้ว่าจะมีอยู่แล้วบางคำถามที่คล้ายกันถามที่นี่และที่นี่ ผู้คนกำลังพูดคุยกันมากมาย แต่ไม่มีข้อสรุปที่ตกลงร่วมกัน และถึงแม้ว่าที่นี่ @fchollet ระบุว่า: TimeDistributedDenseใช้การดำเนินการเดียวกันDense(เชื่อมต่อแบบเต็ม) กับทุกการประทับเวลาของ 3D tensor ฉันยังต้องการภาพประกอบโดยละเอียดเกี่ยวกับความแตกต่างระหว่างพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.