วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

6
พื้นฐานการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่มีรายละเอียดพื้นฐานของการเรียนรู้ลึก จะเป็นการดีเลิศเช่นหลักสูตร Andrew Ng สำหรับการเรียนรู้อย่างลึกซึ้ง คุณรู้ไหมว่าฉันจะหาเจอได้จากที่ไหน

5
การคำนวณ KL Divergence ใน Python
ฉันค่อนข้างใหม่สำหรับสิ่งนี้และไม่สามารถพูดได้ว่าฉันมีความเข้าใจที่สมบูรณ์เกี่ยวกับแนวคิดทางทฤษฎีที่อยู่เบื้องหลังสิ่งนี้ ฉันกำลังพยายามคำนวณ KL Divergence ระหว่างรายการหลายจุดใน Python ฉันใช้http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.htmlเพื่อลองทำสิ่งนี้ ปัญหาที่ฉันพบคือค่าที่ส่งคืนนั้นเหมือนกันสำหรับ 2 หมายเลขรายการใด ๆ (1.3862943611198906) ฉันมีความรู้สึกว่าฉันทำผิดทางทฤษฎีบางอย่างที่นี่ แต่มองไม่เห็น values1 = [1.346112,1.337432,1.246655] values2 = [1.033836,1.082015,1.117323] metrics.mutual_info_score(values1,values2) นี่คือตัวอย่างของสิ่งที่ฉันกำลังทำงาน - เพียงแค่ฉันได้รับผลลัพธ์เดียวกันสำหรับ 2 อินพุทใด ๆ คำแนะนำใด ๆ / ความช่วยเหลือจะได้รับการชื่นชม!

4
วิทยาศาสตร์ข้อมูลเหมือนกับการทำ Data หรือไม่?
ฉันแน่ใจว่าวิทยาศาสตร์ข้อมูลตามที่จะกล่าวถึงในฟอรัมนี้มีคำพ้องความหมายหลายคำหรืออย่างน้อยฟิลด์ที่เกี่ยวข้องที่มีการวิเคราะห์ข้อมูลขนาดใหญ่ คำถามเฉพาะของฉันเกี่ยวกับ Data Mining ฉันเข้าเรียนระดับบัณฑิตศึกษาสาขา Data Mining เมื่อไม่กี่ปีก่อน อะไรคือความแตกต่างระหว่าง Data Science และ Data Mining และโดยเฉพาะอย่างยิ่งฉันจะต้องมองอะไรที่จะมีความเชี่ยวชาญใน Data Mining มากขึ้น?

2
วิธีการจัดการกับอนุกรมเวลาที่เปลี่ยนแปลงในฤดูกาลหรือรูปแบบอื่น ๆ ?
พื้นหลัง ฉันกำลังทำงานเกี่ยวกับชุดข้อมูลเวลาของการอ่านมาตรวัดพลังงาน ความยาวของซีรีย์แตกต่างกันไปตามเมตร - สำหรับบางคนที่ฉันมีหลายปีอื่น ๆ เพียงไม่กี่เดือน ฯลฯ หลายคนแสดงฤดูกาลที่สำคัญและมักจะหลายชั้น - ภายในวันสัปดาห์หรือปี หนึ่งในสิ่งที่ฉันได้ทำคือการจัดกลุ่มของอนุกรมเวลาเหล่านี้ งานของฉันเป็นงานวิชาการในขณะนี้และในขณะที่ฉันทำการวิเคราะห์ข้อมูลอื่น ๆ เช่นกันฉันมีเป้าหมายที่เฉพาะเจาะจงในการทำคลัสเตอร์บางอย่าง ฉันเริ่มงานแรกโดยที่ฉันคำนวณคุณสมบัติต่าง ๆ (เปอร์เซ็นต์ที่ใช้ในวันหยุดสุดสัปดาห์กับวันทำงานเปอร์เซ็นต์ที่ใช้ในช่วงเวลาต่าง ๆ เป็นต้น) จากนั้นฉันก็ไปดูที่การใช้ Dynamic Time Warping (DTW) เพื่อให้ได้ระยะห่างระหว่างซีรีย์ที่แตกต่างกันและการจัดกลุ่มตามค่าที่แตกต่างกันและฉันก็พบเอกสารหลายฉบับที่เกี่ยวข้องกับเรื่องนี้ คำถาม การเปลี่ยนแปลงตามฤดูกาลในซีรีส์ที่ระบุจะทำให้การจัดกลุ่มของฉันไม่ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นฉันจะจัดการกับมันได้อย่างไร ความกังวลของฉันคือระยะทางที่ได้รับจาก DTW อาจทำให้เข้าใจผิดในกรณีที่รูปแบบในอนุกรมเวลาเปลี่ยนไป สิ่งนี้อาจนำไปสู่การทำคลัสเตอร์ที่ไม่ถูกต้อง ในกรณีที่ข้างต้นไม่ชัดเจนให้พิจารณาตัวอย่างเหล่านี้: ตัวอย่างที่ 1 มาตรวัดมีการอ่านค่าต่ำตั้งแต่เที่ยงคืนจนถึง 8 โมงเช้าการอ่านเพิ่มขึ้นอย่างรวดเร็วในชั่วโมงถัดไปและอยู่สูงจาก 9.00 น. ถึง 17.00 น. จากนั้นลดลงอย่างรวดเร็วในชั่วโมงถัดไปจากนั้นพักต่ำจาก 18.00 น. จนถึงเที่ยงคืน มิเตอร์ยังคงรูปแบบนี้อย่างต่อเนื่องทุกวันเป็นเวลาหลายเดือน แต่จากนั้นเปลี่ยนเป็นรูปแบบที่การอ่านอยู่ในระดับสม่ำเสมอตลอดทั้งวัน …

3
คุณจัดการความคาดหวังในที่ทำงานได้อย่างไร
ด้วย hoopla รอบ ๆ วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องและเรื่องราวความสำเร็จทั้งหมดมีทั้งความชอบธรรมและเกินความคาดหวังจากนักวิทยาศาสตร์ข้อมูลและแบบจำลองการทำนายของพวกเขา คำถามของฉันเกี่ยวกับการฝึกฝนนักสถิติผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและนักวิทยาศาสตร์ด้านข้อมูล - คุณจะจัดการความคาดหวังจากนักธุรกิจใน บริษัท ของคุณได้อย่างไรโดยเฉพาะอย่างยิ่งเกี่ยวกับความแม่นยำในการทำนายของโมเดล หากต้องการแบบจำลองที่ดีที่สุดของคุณเท่านั้นที่สามารถบรรลุความแม่นยำ 90% และผู้บริหารระดับสูงคาดว่าจะไม่น้อยกว่า 99% คุณจะรับมือกับสถานการณ์เช่นนี้ได้อย่างไร


2
วิธีการคำนวณ mAP สำหรับภารกิจตรวจจับสำหรับ PASCAL VOC Challenge?
วิธีการคำนวณ mAP (หมายถึงความแม่นยำเฉลี่ย) สำหรับภารกิจตรวจจับสำหรับผู้นำ Pascal VOC ได้อย่างไร http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 มีการกล่าว - ที่หน้า 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf ความแม่นยำเฉลี่ย (AP) สำหรับความท้าทาย VOC2007 ความแม่นยำเฉลี่ยแบบสอดแทรก (Salton และ Mcgill 1986) ถูกใช้เพื่อประเมินทั้งการจำแนกและการตรวจจับ สำหรับงานและคลาสที่กำหนดเส้นโค้งความแม่นยำ / การเรียกคืนถูกคำนวณจากเอาต์พุตอันดับของวิธีการ การเรียกคืนถูกกำหนดให้เป็นสัดส่วนของตัวอย่างเชิงบวกทั้งหมดที่จัดอันดับอยู่เหนืออันดับที่กำหนด ความแม่นยำคือสัดส่วนของตัวอย่างทั้งหมดข้างต้นที่อยู่ในระดับบวก AP สรุปรูปร่างของเส้นโค้งความแม่นยำ / การเรียกคืนและถูกกำหนดเป็นความแม่นยำเฉลี่ยที่ชุดของสิบเอ็ดระดับการเรียกคืนที่เว้นระยะเท่ากัน AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) ความแม่นยำในการเรียกคืนแต่ละระดับ r ถูกสอดแทรกโดยการวัดความแม่นยำสูงสุดสำหรับวิธีที่การเรียกคืนที่สอดคล้องกันเกินกว่า r: pinterp(r) = max p(r˜)โดยที่ p (r˜) คือความแม่นยำที่วัดได้ที่การเรียกคืน …

4
วิธีรับความแม่นยำ F1 ความแม่นยำและการเรียกคืนสำหรับโมเดล keras ได้อย่างไร
ฉันต้องการคำนวณความแม่นยำการเรียกคืนและคะแนน F1 สำหรับโมเดล KerasClassifier ไบนารีของฉัน แต่ไม่พบวิธีแก้ปัญหาใด ๆ นี่คือรหัสจริงของฉัน: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = …

3
เป็นวิธีที่ดีในการแปลงแอตทริบิวต์ลำดับรอบเป็นอย่างไร
ฉันมีฟิลด์ 'ชั่วโมง' เป็นคุณลักษณะของฉัน แต่มันต้องใช้ค่าวงจร ฉันจะแปลงคุณสมบัติเพื่อรักษาข้อมูลเช่น '23' และ '0' ชั่วโมงได้อย่างไร วิธีหนึ่งที่ฉันสามารถคิดได้คือทำการเปลี่ยนแปลง: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 …

2
วิธีหาผลรวมค่าจัดกลุ่มตามสองคอลัมน์ในนุ่น
ฉันมี Pandas DataFrame เช่นนี้: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 ฉันจะสร้าง DataFrame ใหม่เช่นนี้ได้อย่างไร: Date one …

3
การผสานเฟรมข้อมูลหลายแถวใน PySpark
ฉันมีเฟรม 10 ข้อมูลpyspark.sql.dataframe.DataFrameที่ได้รับจากrandomSplitเป็น(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)ตอนนี้ผมต้องการที่จะเข้าร่วม 9 td's ลงในกรอบข้อมูลเดียวว่าฉันควรทำเช่นนั้น? ฉันได้ลองไปแล้วunionAllแต่ฟังก์ชั่นนี้ยอมรับเพียงสองข้อโต้แย้งเท่านั้น td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments …

3
ฉันจะโหลดแบบจำลอง FastText ที่ผ่านการอบรมด้วย Gensim ได้อย่างไร
ผมพยายามที่จะโหลด fastText รุ่น pretrained จากที่นี่รุ่น Fasttext ฉันใช้wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) แต่มันแสดงข้อผิดพลาดดังต่อไปนี้ Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) …
21 nlp  gensim 

1
มีกฎสำหรับการเลือกขนาดของ mini-batch หรือไม่?
เมื่อฝึกอบรมโครงข่ายประสาทเทียมหนึ่งพารามิเตอร์ขนาดใหญ่คือขนาดของรถมินิบัส ตัวเลือกทั่วไปคือองค์ประกอบ 32, 64 และ 128 ต่อมินิแบทช์ มีกฎ / แนวทางใดบ้างที่ควรมี mini-batch ขนาดใหญ่? สิ่งพิมพ์ใดบ้างที่ตรวจสอบผลกระทบของการฝึกอบรม?

3
โครงข่ายประสาทเทียมสำหรับการส่งออกหลาย ๆ
ฉันมีชุดข้อมูลที่มีคอลัมน์อินพุต 34 คอลัมน์และ 8 คอลัมน์เอาต์พุต วิธีหนึ่งในการแก้ปัญหาคือใช้อินพุต 34 ตัวและสร้างแบบจำลองการถดถอยแบบแยกเฉพาะสำหรับแต่ละคอลัมน์ผลลัพธ์ ฉันสงสัยว่าปัญหานี้สามารถแก้ไขได้โดยใช้เพียงหนึ่งโมเดลโดยเฉพาะอย่างยิ่งการใช้ Neural Network ฉันใช้ Multilayer Perceptron แต่ต้องการโมเดลหลายแบบเช่นการถดถอยเชิงเส้น Sequence to Sequence เป็นตัวเลือกที่ทำงานได้หรือไม่? ฉันใช้ TensorFlow ฉันมีรหัส แต่ฉันคิดว่ามันสำคัญกว่าที่จะเข้าใจสิ่งที่ฉันพลาดในแง่ของทฤษฎีพหุเพอร์ตรอนหลายชั้น ฉันเข้าใจว่าใน MLP ถ้าคุณมีหนึ่งโหนดมันจะให้ผลลัพธ์หนึ่ง หากคุณมีโหนดเอาต์พุต 10 โหนดแสดงว่าเป็นปัญหาแบบหลายคลาส คุณเลือกคลาสที่มีความน่าจะเป็นสูงสุดจาก 10 เอาต์พุต แต่ในกรณีของฉันแน่นอนว่าจะมี 8 เอาต์พุตสำหรับอินพุตเดียวกัน ให้บอกว่าสำหรับชุดอินพุตคุณจะได้รับพิกัด 3 มิติของบางสิ่ง (X, Y, Z) ชอบอินพุต = {1,10,5,7} เอาท์พุท = {1,2,1} ดังนั้นสำหรับอินพุตเดียวกัน {1,10,5,7} ฉันต้องสร้างแบบจำลองสำหรับค่า …

5
อัลกอริทึมต้นไม้ตัดสินใจเป็นแบบเชิงเส้นหรือไม่เชิงเส้น
เมื่อเร็ว ๆ นี้เพื่อนของฉันถูกถามว่าอัลกอริทึมการตัดสินใจต้นไม้เป็นขั้นตอนวิธีเชิงเส้นหรือไม่เชิงเส้นในการสัมภาษณ์ ฉันพยายามค้นหาคำตอบสำหรับคำถามนี้ แต่ไม่พบคำอธิบายที่น่าพอใจ ทุกคนสามารถตอบและอธิบายวิธีแก้ปัญหาสำหรับคำถามนี้ได้หรือไม่? นอกจากนี้ยังมีตัวอย่างอื่น ๆ ของอัลกอริทึมการเรียนรู้ด้วยเครื่องไม่เชิงเส้นคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.