วิทยาศาสตร์ข้อมูล

10

กลไกการเรียนรู้ของเครื่องสามารถทำนายผลคะแนนหรือการเล่นกีฬาได้หรือไม่?

ฉันมีชุดข้อมูล NFL ที่หลากหลายซึ่งฉันคิดว่าอาจทำผลงานได้ดี แต่ฉันยังไม่ได้ทำอะไรกับพวกเขา การมาที่ไซต์นี้ทำให้ฉันนึกถึงอัลกอริธึมการเรียนรู้ของเครื่องจักรและฉันสงสัยว่าพวกเขาจะดีแค่ไหนในการทำนายผลของเกมฟุตบอลหรือแม้แต่การเล่นครั้งต่อไป สำหรับฉันแล้วดูเหมือนว่าจะมีแนวโน้มบางอย่างที่สามารถระบุได้ - ในวันที่ 3 และ 1 ทีมที่มีการวิ่งกลับที่แข็งแกร่งในทางทฤษฎีควรมีแนวโน้มที่จะเล่นบอลในสถานการณ์นั้น การให้คะแนนอาจยากต่อการทำนาย แต่ทีมที่ชนะอาจเป็น คำถามของฉันคือคำถามเหล่านี้เป็นคำถามที่ดีหรือไม่สำหรับการเรียนรู้ด้วยอัลกอริทึม อาจเป็นไปได้ว่ามีคนหลายพันคนทดลองใช้มาก่อน แต่ลักษณะของกีฬาทำให้เป็นหัวข้อที่ไม่น่าเชื่อถือ

40 machine-learning sports

3

เมื่อใดจะใช้อะไร - การเรียนรู้ของเครื่อง [ปิด]

เมื่อเร็ว ๆ นี้ในคลาสการเรียนรู้ของเครื่องจากศาสตราจารย์ Oriol Pujol ที่ UPC / Barcelona เขาได้อธิบายถึงอัลกอริทึมหลักการและแนวคิดที่ใช้กันทั่วไปสำหรับงานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องจักร ที่นี่ฉันแบ่งปันให้กับคุณและถามคุณ: มีกรอบงานที่ครอบคลุมที่จับคู่กับแนวทางหรือวิธีการที่เกี่ยวข้องกับปัญหาการเรียนรู้ของเครื่องที่แตกต่างกันหรือไม่? ฉันจะเรียนรู้แบบเกาส์ง่ายๆได้อย่างไร ความน่าจะเป็นตัวแปรสุ่มการแจกแจง การประมาณค่าการลู่เข้าหาและเส้นกำกับช่วงเวลาความมั่นใจ ฉันจะเรียนรู้ส่วนผสมของ Gaussians (MoG) ได้อย่างไร โอกาสความคาดหวัง - สูงสุด (EM); การวางนัยทั่วไปการเลือกแบบจำลองการตรวจสอบข้าม k-หมายถึงรุ่นมาร์คอฟที่ซ่อนอยู่ (HMM) ฉันจะเรียนรู้ความหนาแน่นได้อย่างไร การประมาณค่าพารามิเตอร์เทียบกับที่ไม่ใช่พารามิเตอร์ Sobolev และพื้นที่การทำงานอื่น ๆ l ́ 2 ข้อผิดพลาด; การประมาณความหนาแน่นของเคอร์เนล (KDE), เคอร์เนลที่ดีที่สุด, ทฤษฎีของ KDE ฉันจะทำนายตัวแปรต่อเนื่อง (การถดถอย) ได้อย่างไร การถดถอยเชิงเส้น, การทำให้เป็นมาตรฐาน, การถดถอยแบบสันและ LASSO; การถดถอยเชิงเส้นท้องถิ่น การประมาณความหนาแน่นตามเงื่อนไข ฉันจะทำนายตัวแปรแยก …

39 machine-learning algorithms

5

GBM กับ XGBOOST ความแตกต่างที่สำคัญ?

ฉันพยายามเข้าใจถึงความแตกต่างที่สำคัญระหว่าง GBM และ XGBOOST ฉันพยายาม google แต่ไม่พบคำตอบที่ดีใด ๆ ที่อธิบายความแตกต่างระหว่างอัลกอริธึมทั้งสองและทำไม xgboost ทำงานได้ดีกว่า GBM เกือบทุกครั้ง อะไรทำให้ XGBOOST เร็วขึ้น?

39 machine-learning algorithms xgboost ensemble-modeling gbm

3

batch_size ใน Keras มีผลกระทบต่อคุณภาพของผลลัพธ์หรือไม่

ฉันกำลังจะฝึกอบรมเครือข่าย LSTM ขนาดใหญ่ด้วยบทความ 2-3 ล้านรายการและกำลังดิ้นรนกับข้อผิดพลาดของหน่วยความจำ (ฉันใช้ AWS EC2 g2x2 ขนาดใหญ่) batch_sizeผมพบว่าหนึ่งในวิธีการแก้ปัญหาคือการลด อย่างไรก็ตามฉันไม่แน่ใจว่าพารามิเตอร์นี้เกี่ยวข้องกับปัญหาประสิทธิภาพการใช้หน่วยความจำหรือไม่หรือจะส่งผลต่อผลลัพธ์ของฉันเท่านั้น ตามความเป็นจริงฉันก็สังเกตเห็นว่าbatch_sizeโดยปกติแล้วการใช้ตัวอย่างเป็นพลังของสองซึ่งฉันไม่เข้าใจเช่นกัน ฉันไม่รังเกียจหากเครือข่ายของฉันใช้เวลาในการฝึกอบรมนานขึ้น แต่ฉันต้องการทราบว่าการลดbatch_sizeจะทำให้คุณภาพการคาดการณ์ของฉันลดลงหรือไม่ ขอบคุณ

38 deep-learning keras

9

ฉันต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูลหรือไม่?

นักวิทยาศาสตร์ข้อมูลที่ต้องการที่นี่ ฉันไม่รู้อะไรเกี่ยวกับ Hadoop แต่เมื่อฉันได้อ่านเกี่ยวกับ Data Science และ Big Data ฉันเห็นการพูดคุยมากมายเกี่ยวกับ Hadoop จำเป็นหรือไม่ที่จะต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูล?

38 bigdata apache-hadoop

3

อะไรคือความแตกต่างระหว่าง“ การเปรียบเทียบกับการแปล” และ“ การแปรผันของการแปล”

ฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างequivariant กับการแปลและคงที่กับการแปล ในหนังสือเรียนรู้ลึก MIT Press, 2016 (I. Goodfellow, A. Courville และ Y. Bengio) สามารถพบได้บนเครือข่าย convolutional: [... ] รูปแบบเฉพาะของการใช้พารามิเตอร์ร่วมกันทำให้เลเยอร์มีคุณสมบัติที่เรียกว่าความสมดุลเพื่อการแปล [... ] การรวมกำไรกันช่วยให้การแทนค่ากลายเป็นค่าประมาณที่ไม่แน่นอนกับการแปลขนาดเล็กของอินพุต มีความแตกต่างระหว่างพวกเขาหรือเป็นคำที่ใช้สลับกันได้?

38 neural-network deep-learning convolution

11

นักวิทยาศาสตร์ข้อมูลใช้ Excel หรือไม่

ฉันจะคิดว่าตัวเองเป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพ เช่นเดียวกับคนส่วนใหญ่ (ฉันคิดว่า) ฉันทำแผนภูมิแรกของฉันและทำการรวมครั้งแรกของฉันในโรงเรียนมัธยมและวิทยาลัยโดยใช้ Excel ขณะที่ฉันเรียนวิทยาลัยจบการศึกษาและมีประสบการณ์การทำงานประมาณ 7 ปีฉันเลือกสิ่งที่ฉันคิดว่าเป็นเครื่องมือขั้นสูงเช่น SQL, R, Python, Hadoop, LaTeX เป็นต้น เรากำลังสัมภาษณ์ตำแหน่งนักวิทยาศาสตร์ด้านข้อมูลและผู้สมัครคนหนึ่งประกาศตัวเองว่าเป็น "นักวิทยาศาสตร์ด้านข้อมูลอาวุโส" (คำศัพท์ที่ค่อนข้างยุ่งเหยิงในสมัยนี้) ที่มีประสบการณ์มากกว่า 15 ปี เมื่อถูกถามว่าชุดเครื่องมือที่เขาต้องการคืออะไรเขาตอบว่านั่นคือ Excel ฉันใช้สิ่งนี้เป็นหลักฐานว่าเขาไม่ได้มีประสบการณ์มากเท่ากับประวัติย่อของเขาที่จะเรียกร้อง แต่ไม่แน่ใจ ท้ายที่สุดเพียงเพราะมันไม่ใช่เครื่องมือที่ฉันชอบไม่ได้หมายความว่าไม่ใช่คนอื่น นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ใช้ Excel หรือไม่ คุณสามารถสมมติว่าขาดประสบการณ์จากคนที่ใช้ Excel เป็นหลักหรือไม่?

37 tools career excel

5

scikit-learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่

ฉันกำลังทำงานกับปัญหาที่มีคุณสมบัติมากเกินไปและการฝึกอบรมแบบจำลองของฉันใช้เวลานานเกินไป ฉันใช้อัลกอริทึมการเลือกไปข้างหน้าเพื่อเลือกคุณสมบัติ อย่างไรก็ตามฉันสงสัยว่า scikit-Learn มีการเลือกล่วงหน้า / อัลกอริทึมการถดถอยแบบขั้นตอนหรือไม่

37 feature-selection scikit-learn

2

จะตีความผลลัพธ์ของ XGBoost ได้อย่างไร?

ฉันใช้โมเดล xgboost xgb.importanceผมไม่ทราบว่าวิธีการตีความการส่งออกของ อะไรคือความหมายของการได้รับความคุ้มครองและความถี่และเราจะตีความมันได้อย่างไร นอกจากนี้ Split, RealCover และ RealCover% หมายถึงอะไร ฉันมีพารามิเตอร์พิเศษบางอย่างที่นี่ มีพารามิเตอร์อื่น ๆ ที่สามารถบอกฉันเพิ่มเติมเกี่ยวกับคุณสมบัติการนำเข้า จากเอกสาร R ฉันมีความเข้าใจว่าการได้รับนั้นคล้ายกับการรับข้อมูลและความถี่คือจำนวนครั้งที่มีการใช้คุณลักษณะในต้นไม้ทั้งหมด ฉันไม่รู้ว่า Cover คืออะไร ฉันรันโค้ดตัวอย่างที่ให้ไว้ในลิงก์ (และพยายามทำเช่นเดียวกันกับปัญหาที่ฉันกำลังทำอยู่) แต่การแยกคำจำกัดความที่ให้ที่นั่นไม่ตรงกับตัวเลขที่ฉันคำนวณ importance_matrix เอาท์พุท: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: …

36 machine-learning xgboost

13

วิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับคำพูดตลก

เป็นธรรมเนียมที่ผู้ใช้ของชุมชนต่าง ๆจะอ้างถึงสิ่งที่ตลกเกี่ยวกับทุ่งนาของพวกเขา มันอาจเป็นเรื่องสนุกที่จะแบ่งปันเรื่องตลกของคุณเกี่ยวกับการเรียนรู้ของเครื่องการเรียนรู้ลึกวิทยาศาสตร์ข้อมูลและสิ่งที่คุณเผชิญทุกวัน!

35 machine-learning neural-network deep-learning

3

การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น

ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

35 python statistics visualization pandas

13

คุณคิดอย่างไรกับการรับรองวิทยาศาสตร์ข้อมูล

ผมเคยเห็นตอนนี้สองวิทยาศาสตร์ข้อมูลโปรแกรมการรับรอง - เดอะจอห์นฮอปกินส์หนึ่งที่มีอยู่ใน CourseraและCloudera หนึ่ง ฉันแน่ใจว่ามีคนอื่นออกมี ชุดชั้นเรียนของ John Hopkins เน้นที่ R เป็นชุดเครื่องมือ แต่ครอบคลุมหัวข้อต่างๆดังนี้: การเขียนโปรแกรม R การทำความสะอาดและการรับข้อมูล การวิเคราะห์ข้อมูล การวิจัยซ้ำ อนุมานทางสถิติ แบบจำลองการถดถอย การเรียนรู้ของเครื่อง การพัฒนาผลิตภัณฑ์ข้อมูล และสิ่งที่ดูเหมือนว่าจะเป็นงานที่เสร็จสิ้นตามโครงการคล้ายกับการท้าทายวิทยาศาสตร์ข้อมูลของ Cloudera โปรแกรม Cloudera มีลักษณะบางบนพื้นผิว แต่ดูเหมือนจะตอบคำถามสำคัญสองข้อ - "คุณรู้จักเครื่องมือ", "คุณสามารถใช้เครื่องมือในโลกแห่งความเป็นจริงได้ไหม" โปรแกรมของพวกเขาประกอบด้วย: วิทยาศาสตร์ข้อมูลเบื้องต้น การสอบข้อมูลวิทยาศาสตร์ที่จำเป็น Data Science Challenge (สถานการณ์จำลองโครงงานวิทยาศาสตร์ข้อมูลจริง) ฉันไม่ได้มองหาคำแนะนำในโปรแกรมหรือการเปรียบเทียบคุณภาพ ฉันอยากรู้เกี่ยวกับการรับรองอื่น ๆ ที่นั่นหัวข้อที่พวกเขาครอบคลุมและความน่าเชื่อถือของชุมชนที่ได้รับการรับรอง DS แก้ไข: นี่คือคำตอบที่ดีทั้งหมด ฉันเลือกคำตอบที่ถูกต้องด้วยคะแนนโหวต

35 education

6

ในการเรียนรู้แบบมีผู้สอนเหตุใดจึงไม่ดีที่จะมีคุณลักษณะที่สัมพันธ์กัน

ฉันอ่านที่ไหนสักแห่งว่าถ้าเรามีฟีเจอร์ที่สัมพันธ์กันมากเกินไปเราต้องลบออกเพราะมันอาจทำให้โมเดลแย่ลง เป็นที่ชัดเจนว่าฟีเจอร์ที่สัมพันธ์กันหมายความว่าพวกเขานำข้อมูลเดียวกันมาดังนั้นจึงเป็นการลบตรรกะอย่างใดอย่างหนึ่ง แต่ฉันไม่สามารถเข้าใจว่าทำไมสิ่งนี้ถึงทำให้รูปแบบแย่ลง

35 machine-learning correlation

6

คำอธิบายการสูญเสียข้ามเอนโทรปี

สมมติว่าฉันสร้าง NN สำหรับการจัดหมวดหมู่ ชั้นสุดท้ายเป็นชั้นหนาแน่นด้วยการเปิดใช้งาน softmax ฉันมีห้าคลาสที่แตกต่างกันเพื่อจัดประเภท สมมติว่าสำหรับการฝึกอบรมเช่นเดียวtrue labelคือในขณะที่การคาดการณ์จะเป็น[1 0 0 0 0] [0.1 0.5 0.1 0.1 0.2]ฉันจะคำนวณการสูญเสียเอนโทรปีของตัวอย่างนี้ได้อย่างไร

35 machine-learning deep-learning

1

ความแตกต่างระหว่าง "หนาแน่น" และ "เวลากระจาย" ของ Keras`

ฉันยังคงสับสนเกี่ยวกับความแตกต่างระหว่างDenseและTimeDistributedDenseของKerasแม้ว่าจะมีอยู่แล้วบางคำถามที่คล้ายกันถามที่นี่และที่นี่ ผู้คนกำลังพูดคุยกันมากมาย แต่ไม่มีข้อสรุปที่ตกลงร่วมกัน และถึงแม้ว่าที่นี่ @fchollet ระบุว่า: TimeDistributedDenseใช้การดำเนินการเดียวกันDense(เชื่อมต่อแบบเต็ม) กับทุกการประทับเวลาของ 3D tensor ฉันยังต้องการภาพประกอบโดยละเอียดเกี่ยวกับความแตกต่างระหว่างพวกเขา

34 machine-learning neural-network keras