วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

5
ความสำคัญของคุณลักษณะกับป่าสุ่มเรียนรู้ scikit แสดงค่าเบี่ยงเบนมาตรฐานที่สูงมาก
ฉันกำลังใช้ตัวจำแนกประเภทฟอเรสต์แบบสุ่มของ scikitและฉันต้องการพล็อตความสำคัญของคุณลักษณะเช่นในตัวอย่างนี้ อย่างไรก็ตามผลลัพธ์ของฉันแตกต่างอย่างสิ้นเชิงในแง่ที่ความสำคัญของความเบี่ยงเบนมาตรฐานสำคัญมักจะใหญ่กว่าความสำคัญของคุณสมบัติ (ดูรูปที่แนบมา) เป็นไปได้ไหมที่จะมีพฤติกรรมเช่นนี้หรือฉันทำผิดพลาดบางอย่างเมื่อวางแผนมัน? รหัสของฉันคือ: import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier() clf.fit(predictors.values, outcome.values.ravel()) importance = clf.feature_importances_ importance = pd.DataFrame(importance, index=predictors.columns, columns=["Importance"]) importance["Std"] = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0) x = range(importance.shape[0]) y = importance.ix[:, 0] …

1
รู้จักไวยากรณ์ในลำดับของโทเค็นฟัซซี่
ฉันมีเอกสารข้อความที่มีรายการเป็นส่วนใหญ่ แต่ละรายการเป็นกลุ่มของโทเค็นหลายประเภทที่แตกต่างกัน: FirstName, นามสกุล, วันเกิด, หมายเลขโทรศัพท์, เมือง, อาชีพ, ฯลฯ โทเค็นคือกลุ่มของคำ รายการสามารถวางได้หลายบรรทัด รายการจากเอกสารจะมีรูปแบบโทเค็นเดียวกัน แต่ไม่จำเป็นต้องเหมือนกันทุกประการ อาจเป็นโทเค็นบางรายการมากขึ้น / น้อยลงระหว่างไอเท็มรวมถึงภายในไอเท็ม FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation เป้าหมายคือการระบุไวยากรณ์ที่ใช้เช่น Occupation City และในท้ายที่สุดระบุรายการทั้งหมดแม้คิดว่าพวกเขาไม่ตรงกัน …

3
ด้วยคลาสที่ไม่สมดุลฉันต้องใช้ภายใต้การสุ่มตัวอย่างในชุดข้อมูลการตรวจสอบ / การทดสอบของฉันหรือไม่
ฉันเป็นผู้เริ่มต้นในการเรียนรู้ของเครื่องจักรและฉันกำลังเผชิญกับสถานการณ์ ฉันกำลังทำงานเกี่ยวกับปัญหาการเสนอราคาแบบเรียลไทม์กับชุดข้อมูล IPinYou และฉันพยายามคาดคะเนการคลิก อย่างที่คุณทราบชุดข้อมูลนั้นไม่สมดุลมาก: มีตัวอย่างเชิงลบประมาณ 1300 ตัวอย่าง (ไม่ใช่คลิก) สำหรับตัวอย่างที่เป็นบวก 1 รายการ (คลิก) นี่คือสิ่งที่ฉันทำ: โหลดข้อมูล แบ่งชุดข้อมูลออกเป็น 3 ชุดข้อมูล: A = การฝึกอบรม (60%) B = การตรวจสอบความถูกต้อง (20%) C = การทดสอบ (20%) สำหรับแต่ละชุดข้อมูล (A, B, C) ให้ทำ under-sampling บนแต่ละคลาสลบเพื่อให้มีอัตราส่วน 5 (ตัวอย่างลบ 5 สำหรับตัวอย่างบวก 1 ตัวอย่าง) ให้ 3 ชุดข้อมูลใหม่ที่มีความสมดุลมากกว่า: A 'B' C ' …

2
การถดถอยเชิงเส้นพร้อมฟังก์ชันต้นทุนที่ไม่สมมาตร
ฉันต้องการที่จะทำนายค่าบางและฉันพยายามที่จะได้รับบางทำนายที่เพิ่มประสิทธิภาพระหว่างการเป็นที่ต่ำที่สุดเท่าที่เป็นไปได้ แต่ยังคงความมีขนาดใหญ่กว่า(x) กล่าวอีกนัยหนึ่ง: Y ( x ) Y ( x ) ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) } > > ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) }Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} ฉันคิดว่าการถดถอยเชิงเส้นอย่างง่ายควรทำได้ดี ดังนั้นฉันค่อนข้างรู้วิธีการใช้งานด้วยตนเอง …

2
อัลกอริทึมที่มีประสิทธิภาพในการคำนวณเส้นโค้ง ROC สำหรับลักษณนามที่ประกอบด้วยชุดของตัวแยกประเภทที่แยกจากกัน
สมมติว่าฉันมีตัวจําแนก C_1 ... C_n ที่แยกจากกันในแง่ที่ว่าไม่มีสองคนใดที่จะคืนค่าจริงในอินพุตเดียวกัน (เช่นโหนดในแผนผังการตัดสินใจ) ฉันต้องการสร้างตัวจําแนกใหม่ที่เป็นสหภาพของชุดย่อยบางส่วนของสิ่งเหล่านี้ (เช่นฉันต้องการที่จะตัดสินใจว่าใบของต้นไม้การตัดสินใจที่จะให้การจัดหมวดหมู่ในเชิงบวก) แน่นอนในการทำเช่นนั้นจะมีการแลกเปลี่ยนระหว่างความไวและค่าการทำนายเชิงบวก ดังนั้นฉันต้องการเห็นเส้นโค้ง ROC ในหลักการฉันสามารถทำได้โดยการระบุเซตย่อยทั้งหมดของตัวแยกประเภทและคำนวณความไวที่เกิดขึ้นและ PPV อย่างไรก็ตามสิ่งนี้มีราคาแพงหาก n มากกว่า 30 หรือมากกว่านั้น ในทางกลับกันมีชุดค่าผสมบางตัวที่ไม่เหมาะกับพาเรโตดังนั้นอาจมีบางสาขาและกลยุทธ์ที่ผูกมัดหรือบางอย่าง ฉันต้องการคำแนะนำเกี่ยวกับวิธีการนี้ว่ามีแนวโน้มที่จะประสบความสำเร็จหรือไม่และมีงานใด ๆ หรือหากคุณมีแนวคิดใด ๆ เกี่ยวกับการคำนวณเส้นโค้ง ROC อย่างมีประสิทธิภาพในสถานการณ์ข้างต้น
13 algorithms 

2
วิธีการคำนวณค่าเฉลี่ยของคอลัมน์ข้อมูลและค้นหา 10% ยอดนิยม
ฉันยังใหม่ต่อสกาล่าและสปาร์คและกำลังออกกำลังกายด้วยตัวเองโดยใช้สถิติเบสบอล ฉันใช้คลาสเคสสร้าง RDD และกำหนดสกีมาให้กับข้อมูลจากนั้นเปลี่ยนเป็น DataFrame เพื่อให้ฉันสามารถใช้ SparkSQL เพื่อเลือกกลุ่มผู้เล่นผ่านสถิติที่ตรงกับเกณฑ์ที่กำหนด เมื่อฉันมีกลุ่มย่อยของผู้เล่นที่ฉันสนใจที่จะดูเพิ่มเติมฉันต้องการค้นหาค่าเฉลี่ยของคอลัมน์ เช่น Batting Average หรือ RBIs จากที่นั่นฉันต้องการแบ่งผู้เล่นทั้งหมดออกเป็นกลุ่มเปอร์เซ็นไทล์ตามประสิทธิภาพโดยเฉลี่ยเมื่อเทียบกับผู้เล่นทุกคน 10% สูงสุด 10% ด้านล่าง 40-50% ฉันสามารถใช้ฟังก์ชัน DataFrame.describe () เพื่อส่งกลับข้อมูลสรุปของคอลัมน์ที่ต้องการ (mean, stddev, count, min และ max) ทั้งหมดเป็นสตริงได้ มีวิธีที่ดีกว่าในการรับค่าเฉลี่ยและ stddev ในฐานะ Doubles และวิธีที่ดีที่สุดในการแบ่งผู้เล่นออกเป็นกลุ่ม 10 เปอร์เซ็นต์คืออะไร จนถึงความคิดของฉันคือการหาค่าที่ bookend ช่วงเปอร์เซ็นต์และเขียนฟังก์ชั่นที่ผู้เล่นกลุ่มผ่านการเปรียบเทียบ แต่ที่รู้สึกเหมือนมันล้อมรอบในการคิดค้นล้อ ฉันมีการนำเข้าต่อไปนี้ในขณะนี้: import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} …

7
ฉันเป็นโปรแกรมเมอร์ฉันจะเข้าสู่สาขาวิทยาศาสตร์ข้อมูลได้อย่างไร
ก่อนอื่นคำนี้ฟังดูคลุมเครือมาก อย่างไรก็ตาม .. ฉันเป็นโปรแกรมเมอร์ซอฟต์แวร์ หนึ่งในภาษาที่ฉันสามารถใช้รหัสคือ Python การพูดของข้อมูลฉันสามารถใช้ SQL และสามารถทำ Data Scraping ได้ สิ่งที่ฉันรู้หลังจากอ่านบทความมากมายที่วิทยาศาสตร์ข้อมูลเป็นเรื่องที่ดีที่: 1- สถิติ 2- พีชคณิต 3- การวิเคราะห์ข้อมูล 4- การสร้างภาพ 5- การเรียนรู้ของเครื่อง สิ่งที่ฉันรู้จนถึงตอนนี้: 1- การเขียนโปรแกรม Python 2- การทิ้งข้อมูลใน Python ผู้เชี่ยวชาญช่วยแนะนำฉันหรือแนะนำแผนงานเพื่อปัดกวาดทั้งทฤษฎีและการปฏิบัติได้หรือไม่? ฉันให้เวลากับตัวเองประมาณ 8 เดือน
13 beginner  career 

1
ความแตกต่างระหว่างการสร้างคุณลักษณะและการแยกคุณสมบัติคืออะไร?
ใครช่วยบอกฉันได้ว่าจุดประสงค์ของการสร้างคุณลักษณะคืออะไร และเหตุใดจึงต้องเพิ่มพื้นที่ของฟีเจอร์ก่อนจัดประเภทรูปภาพ มันเป็นขั้นตอนที่จำเป็น? มีวิธีใดบ้างในการเพิ่มพื้นที่คุณลักษณะ?

1
Neo4j กับ OrientDB vs Titan
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับการขุดความสัมพันธ์ทางสังคมและต้องการจัดเก็บข้อมูลในฐานข้อมูลกราฟบางตัว ตอนแรกฉันเลือก Neo4j เป็นฐานข้อมูล แต่มันตะเข็บ Neo4j ไม่ได้ปรับขนาดได้ดี ทางเลือกที่ฉันพบคือไททันและ oriebtDB ฉันได้ผ่านนี้เปรียบเทียบทั้งสามฐานข้อมูล แต่ฉันต้องการที่จะได้รับรายละเอียดเพิ่มเติมเกี่ยวกับฐานข้อมูลเหล่านี้ ดังนั้นบางคนสามารถช่วยฉันในการเลือกที่ดีที่สุด ส่วนใหญ่ฉันต้องการเปรียบเทียบประสิทธิภาพการปรับขนาดเอกสารออนไลน์ / แบบฝึกหัดที่มีการสนับสนุนห้องสมุด Python ความซับซ้อนของภาษาคิวรีและการสนับสนุนอัลกอริทึมกราฟของฐานข้อมูลเหล่านี้ มีตัวเลือกฐานข้อมูลที่ดีอื่น ๆ อีกหรือไม่

2
การแสดงการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก
ฉันกำลังพยายามหา Hinton Diagrams ที่เทียบเท่าสำหรับเครือข่ายหลายชั้นเพื่อวางแผนน้ำหนักในระหว่างการฝึก เครือข่ายที่ได้รับการฝึกอบรมจะค่อนข้างคล้ายกับ Deep SRN นั่นคือมันมีการฝึกอบรมน้ำหนักหลายอย่างซึ่งจะทำให้พล็อต Hinton Diagrams หลาย ๆ ภาพพร้อมกันสับสน ไม่มีใครรู้วิธีที่ดีในการมองเห็นกระบวนการปรับปรุงน้ำหนักสำหรับเครือข่ายที่เกิดซ้ำที่มีหลายเลเยอร์ ฉันไม่พบเอกสารจำนวนมากในหัวข้อ ฉันกำลังคิดที่จะแสดงข้อมูลเกี่ยวกับเวลาเกี่ยวกับน้ำหนักต่อเลเยอร์แทนหากฉันไม่สามารถหาอะไรได้ เช่น Weight-delta เมื่อเวลาผ่านไปสำหรับแต่ละเลเยอร์ (ไม่ใช้การเชื่อมต่อทุกครั้ง) PCA เป็นไปได้อีกอย่างหนึ่ง แต่ฉันไม่ต้องการสร้างการคำนวณเพิ่มเติมเนื่องจากการสร้างภาพข้อมูลออนไลน์ในระหว่างการฝึกอบรม

1
ฟอเรสต์แบบสุ่มออนไลน์โดยเพิ่มต้นไม้การตัดสินใจเดียว
Random Forest (RF) ถูกสร้างโดยกลุ่ม Decision Trees's (DT) โดยการใช้การบรรจุถุง DT แต่ละตัวจะได้รับการฝึกอบรมในชุดข้อมูลที่แตกต่างกัน ดังนั้นมีวิธีใดบ้างที่จะใช้ฟอเรสต์แบบสุ่มออนไลน์โดยเพิ่มการตัดสินใจข้อมูลเพิ่มเติมใหม่? ตัวอย่างเช่นเรามีตัวอย่าง 10K และฝึกอบรม 10 DT จากนั้นเราจะได้รับ 1K ตัวอย่างและแทนที่จะฝึกอบรม RF แบบเต็มอีกครั้งเราเพิ่ม DT ใหม่ การทำนายเสร็จสิ้นในตอนนี้โดยค่าเฉลี่ยของเบย์จาก 10 + 1 DT นอกจากนี้หากเราเก็บข้อมูลก่อนหน้านี้ทั้งหมด DT ใหม่สามารถได้รับการฝึกอบรมเป็นหลักในข้อมูลใหม่ที่ความน่าจะเป็นของการเลือกตัวอย่างนั้นจะมีน้ำหนักขึ้นอยู่กับจำนวนครั้งที่ได้รับ

2
คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP
ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

4
การเรียนรู้กลไกการเรียนรู้ของเครื่อง: ความลึกของความเข้าใจเทียบกับจำนวนอัลกอริทึม
เมื่อเร็ว ๆ นี้ฉันได้รับการแนะนำให้รู้จักกับสาขาวิทยาศาสตร์ข้อมูล (ประมาณ 6 เดือน) และ Ii เริ่มต้นการเดินทางด้วยหลักสูตรการเรียนรู้ด้วยเครื่องโดย Andrew Ng และโพสต์ที่เริ่มทำงานกับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์โดย JHU ในส่วนของการใช้งานจริงฉันได้พยายามสร้างแบบจำลองการทำนายที่จะทำนายการขัดสี จนถึงตอนนี้ฉันได้ใช้ glm, bayesglm, rf ในความพยายามที่จะเรียนรู้และใช้วิธีการเหล่านี้ แต่ฉันพบช่องว่างจำนวนมากในการทำความเข้าใจอัลกอริธึมเหล่านี้ ภาวะที่กลืนไม่เข้าคายไม่ออกพื้นฐานของฉันคือ: ไม่ว่าฉันจะควรมุ่งเน้นที่การเรียนรู้ความซับซ้อนของอัลกอริธึมน้อยลงหรือฉันควรใช้วิธีการที่จะรู้ว่าพวกมันเป็นจำนวนเท่าไรและเมื่อใดและเท่าที่จำเป็น? โปรดแนะนำฉันในทิศทางที่ถูกต้องอาจแนะนำหนังสือหรือบทความหรือสิ่งที่คุณคิดว่าจะช่วย ฉันจะขอบคุณถ้าคุณจะตอบด้วยความคิดที่จะแนะนำคนที่เพิ่งเริ่มต้นอาชีพของเขาในสาขาวิทยาศาสตร์ข้อมูลและต้องการเป็นคนที่แก้ปัญหาในทางปฏิบัติสำหรับโลกธุรกิจ ฉันจะอ่านทรัพยากร (หนังสือบทความ) ที่แนะนำในโพสต์นี้มากที่สุดเท่าที่จะเป็นไปได้และจะจัดหาฟีดส่วนตัวกลับมาให้กับข้อดีข้อเสียของสิ่งเดียวกัน ในอนาคตและฉันคิดว่าคงจะดีถ้ามีคนแนะนำหนังสือเหล่านี้ก็สามารถทำได้เหมือนกัน

6
ชุดข้อมูลเข้าใจวิธีปฏิบัติที่ดีที่สุด
ฉันเป็นนักศึกษาปริญญาโท CS ในด้านการขุดข้อมูล หัวหน้างานของฉันเคยบอกฉันว่าก่อนที่ฉันจะเรียกใช้ตัวจําแนกใด ๆ หรือทำอะไรกับชุดข้อมูลฉันต้องเข้าใจข้อมูลทั้งหมดและตรวจสอบให้แน่ใจว่าข้อมูลสะอาดและถูกต้อง คำถามของฉัน: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการทำความเข้าใจชุดข้อมูล (มิติสูงที่มีคุณลักษณะตัวเลขและระบุ)? วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลนั้นสะอาดหรือไม่ วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลไม่มีค่าผิดหรือเป็นเช่นนั้น?

1
เมื่อฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพดีกว่าไม่มีความสัมพันธ์
เมื่อฐานข้อมูลเชิงสัมพันธ์เช่น MySQL มีประสิทธิภาพที่ดีกว่าไม่มีความสัมพันธ์เช่น MongoDB? ฉันเห็นคำถามเกี่ยวกับ Quora เมื่อวันก่อนเกี่ยวกับสาเหตุที่ Quora ยังคงใช้ MySQL เป็นแบ็กเอนด์และประสิทธิภาพยังคงดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.