วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
ความสัมพันธ์ระหว่าง KS, AUROC และ Gini
สถิติการตรวจสอบรูปแบบทั่วไปเช่นการทดสอบ Kolmogorov – Smirnov (KS), AUROCและค่าสัมประสิทธิ์จินีล้วนมีความสัมพันธ์กับหน้าที่ อย่างไรก็ตามคำถามของฉันเกี่ยวข้องกับการพิสูจน์ว่าสิ่งเหล่านี้เกี่ยวข้องกันอย่างไร ฉันอยากรู้ว่าใครสามารถช่วยฉันพิสูจน์ความสัมพันธ์เหล่านี้ได้ ฉันไม่สามารถหาอะไรออนไลน์ได้ แต่ฉันแค่สนใจอย่างแท้จริงว่าการพิสูจน์ทำงานอย่างไร ตัวอย่างเช่นฉันรู้ Gini = 2AUROC-1 แต่หลักฐานที่ดีที่สุดของฉันเกี่ยวข้องกับการชี้ไปที่กราฟ ฉันสนใจในการพิสูจน์อย่างเป็นทางการ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

2
การเก็บหนังสือของการทดสอบและผลการทดสอบ
ฉันเป็นนักวิจัยและฉันชอบการทดสอบวิธีแก้ปัญหาที่มีศักยภาพดังนั้นฉันมักจะทำการทดลองมากมาย ตัวอย่างเช่นหากฉันกำลังคำนวณคะแนนความคล้ายคลึงกันระหว่างเอกสารฉันอาจต้องการลองใช้มาตรการหลายอย่าง ที่จริงแล้วสำหรับแต่ละการวัดฉันอาจต้องทำการทดสอบหลายครั้งเพื่อทดสอบผลกระทบของพารามิเตอร์บางอย่าง จนถึงตอนนี้ฉันได้ติดตามอินพุตและผลลัพธ์ของพวกเขาโดยการเขียนผลลัพธ์ลงในไฟล์ที่มีข้อมูลเกี่ยวกับอินพุตมากพอ ปัญหาคือการดึงผลลัพธ์ที่เฉพาะเจาะจงกลายเป็นสิ่งที่ท้าทายในบางครั้งแม้ว่าฉันจะพยายามเพิ่มข้อมูลอินพุตให้กับชื่อไฟล์ ฉันลองใช้สเปรดชีตพร้อมลิงก์ไปยังผลลัพธ์ แต่นี่ก็ไม่ได้สร้างความแตกต่างอย่างมาก คุณใช้เครื่องมือ / กระบวนการใดในการทำหนังสือของคุณ

3
การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับ NER
ฉันใช้ระบบ NER ด้วยการใช้อัลกอริธึม CRF กับคุณลักษณะแบบ handcrafted ของฉันที่ให้ผลลัพธ์ค่อนข้างดี สิ่งหนึ่งคือฉันใช้คุณสมบัติที่แตกต่างมากมายรวมถึงแท็ก POS และบทแทรก ตอนนี้ฉันต้องการสร้าง NER เดียวกันสำหรับภาษาอื่น ปัญหานี่คือฉันไม่สามารถใช้แท็ก POS และบทแทรก ฉันเริ่มอ่านบทความเกี่ยวกับการเรียนรู้อย่างลึกล้ำและการเรียนรู้คุณสมบัติที่ไม่มีผู้ดูแล คำถามของฉันคือ: เป็นไปได้ไหมที่จะใช้วิธีการสำหรับการเรียนรู้คุณสมบัติที่ไม่ได้รับการจัดการด้วยอัลกอริทึม CRF? ไม่มีใครลองและได้ผลดีบ้างไหม? มีบทความหรือการสอนเกี่ยวกับเรื่องนี้หรือไม่? ฉันยังไม่เข้าใจวิธีการสร้างคุณลักษณะนี้อย่างสมบูรณ์ดังนั้นฉันจึงไม่ต้องการใช้เวลามากสำหรับบางสิ่งที่ไม่ได้ผล ดังนั้นข้อมูลใด ๆ จะเป็นประโยชน์จริงๆ ในการสร้างระบบ NER ทั้งหมดโดยอิงจากการเรียนรู้เชิงลึกนั้นเป็นเรื่องที่ค่อนข้างมากในตอนนี้

1
การนำ t-SNE Python มาใช้: Kullback-Leibler divergence
t-SNE ดังที่ [1] ทำงานโดยลดการเบี่ยงเบน Kullback-Leibler (KL) อย่างต่อเนื่องจนกว่าจะบรรลุเงื่อนไขบางประการ ผู้สร้าง t-SNE แนะนำให้ใช้ KL divergence เป็นเกณฑ์ประสิทธิภาพสำหรับการสร้างภาพข้อมูล: คุณสามารถเปรียบเทียบความแตกต่าง Kullback-Leibler ที่รายงาน T-SNE เป็นการดีที่จะเรียกใช้ t-SNE สิบครั้งและเลือกโซลูชันที่มีค่าเบี่ยงเบน KL ต่ำสุด [2] ฉันลองใช้งานสองแบบของ t-SNE: หลาม : sklearn.manifold.TSNE () R : tsne จากไลบรารี่ (tsne) การประยุกต์ใช้ทั้งสองนี้เมื่อตั้งค่าการใช้คำฟุ่มเฟือยพิมพ์ข้อผิดพลาด (Kullback-Leibler divergence) สำหรับการวนซ้ำแต่ละครั้ง อย่างไรก็ตามพวกเขาไม่อนุญาตให้ผู้ใช้รับข้อมูลนี้ซึ่งดูแปลกสำหรับฉัน ตัวอย่างเช่นรหัส: import numpy as np from sklearn.manifold import TSNE X = …

3
การสร้างภาพข้อมูลสำหรับการวิเคราะห์รูปแบบ (ไม่ขึ้นกับภาษา แต่ต้องการ R)
ฉันต้องการพล็อตไบต์จากดิสก์อิมเมจเพื่อทำความเข้าใจกับรูปแบบในนั้น นี่เป็นงานวิชาการส่วนใหญ่เนื่องจากฉันเกือบจะแน่ใจว่ารูปแบบนี้ถูกสร้างขึ้นโดยโปรแกรมทดสอบดิสก์ แต่ฉันต้องการทำวิศวกรรมย้อนกลับ ฉันรู้อยู่แล้วว่ารูปแบบดังกล่าวอยู่ในแนวเดียวกันโดยมีระยะเวลา 256 อักขระ ฉันสามารถจินตนาการได้สองวิธีในการแสดงข้อมูลนี้: ระนาบ 16x16 ที่ดูผ่านเวลา (3 มิติ) โดยที่แต่ละพิกเซลของสีคือรหัส ASCII สำหรับตัวละครหรือ 256 พิกเซลสำหรับแต่ละช่วงเวลา (2 มิติ) นี่เป็นภาพรวมของรูปแบบ (คุณสามารถดูได้มากกว่าหนึ่งรายการ) มองเห็นผ่านxxd(32x16): ฉันกำลังพยายามหาวิธีแสดงภาพข้อมูลนี้ นี่อาจไม่ใช่เรื่องยากสำหรับทุกคนในการวิเคราะห์สัญญาณ แต่ฉันไม่สามารถหาวิธีใช้ซอฟต์แวร์โอเพ่นซอร์ส ฉันต้องการหลีกเลี่ยง Matlab หรือ Mathematica และฉันต้องการคำตอบใน R เนื่องจากฉันได้เรียนรู้เมื่อเร็ว ๆ นี้ แต่กระนั้นภาษาใดก็ยินดีต้อนรับ อัปเดต, 2014-07-25: ได้รับคำตอบจาก Emre ด้านล่างนี่เป็นรูปแบบที่ได้รับจากรูปแบบ 30MB แรกที่จัดที่ 512 แทน 256 (การจัดตำแหน่งนี้ดูดีกว่า): ยินดีต้อนรับแนวคิดเพิ่มเติมใด ๆ !
11 r  visualization 

4
ฉันจะดาวน์โหลดมูลค่าหลักทรัพย์ตามราคาตลาดในอดีตและข้อมูลการหมุนเวียนรายวันสำหรับหุ้นได้ที่ไหน
มีแหล่งข้อมูลมากมายที่ให้ข้อมูลสต็อคในอดีต แต่จะมีเพียงฟิลด์ OHLC พร้อมกับปริมาณและการปิดปรับปรุง นอกจากนี้แหล่งข้อมูลสองแห่งที่ฉันพบให้ชุดข้อมูลตามราคาตลาด แต่พวกเขาถูก จำกัด เฉพาะหุ้นสหรัฐ Yahoo Finance ให้ข้อมูลนี้ออนไลน์ แต่ไม่มีตัวเลือกให้ดาวน์โหลด (หรือไม่มีใครรู้) ฉันจะดาวน์โหลดข้อมูลนี้สำหรับหุ้นที่เป็นของตลาดหลักทรัพย์ชั้นนำต่าง ๆ ทั่วประเทศโดยใช้ชื่อสัญลักษณ์ได้อย่างไร มีวิธีดาวน์โหลดผ่าน Yahoo Finance หรือ Google Finance บ้างไหม? ฉันต้องการข้อมูลในช่วงสิบปีที่ผ่านมาและด้วยเหตุนี้จึงต้องมีสคริปต์หรือ API ที่จะทำเช่นนี้
11 dataset 

4
ทำงานกับกลุ่ม HPC
ในมหาวิทยาลัยของฉันเรามีกลุ่มคอมพิวเตอร์ HPC ฉันใช้คลัสเตอร์เพื่อฝึกตัวแยกประเภทและอื่น ๆ ดังนั้นโดยปกติจะส่งงานให้กับคลัสเตอร์ (เช่นงูหลาม scikit เรียนรู้สคริปต์) ผมต้องเขียนสคริปต์ทุบตีที่มี (อื่น) qsub script.pyคำสั่งเช่น อย่างไรก็ตามฉันพบว่ากระบวนการนี้น่าผิดหวังมาก โดยปกติสิ่งที่เกิดขึ้นคือฉันเขียนสคริปต์หลามบนแล็ปท็อปของฉันจากนั้นฉันลงชื่อเข้าใช้เซิร์ฟเวอร์และอัปเดตที่เก็บ SVN ดังนั้นฉันจึงได้รับสคริปต์หลามเดียวกัน จากนั้นฉันเขียนสคริปต์ Bash นั้นหรือแก้ไขเพื่อให้ฉันสามารถเรียกใช้สคริปต์ทุบตีได้ อย่างที่คุณเห็นสิ่งนี้น่าผิดหวังจริง ๆ สำหรับทุก ๆ การอัพเดทเล็กน้อยสำหรับสคริปต์ไพ ธ อนฉันต้องทำหลายขั้นตอนเพื่อให้มันทำงานที่คลัสเตอร์คอมพิวเตอร์ แน่นอนว่างานจะยิ่งซับซ้อนมากขึ้นเมื่อฉันต้องวางข้อมูลบนเซิร์ฟเวอร์และใช้เส้นทางของชุดข้อมูลบนเซิร์ฟเวอร์ ฉันแน่ใจว่าผู้คนจำนวนมากที่นี่กำลังใช้คอมพิวเตอร์คำนวณสำหรับงานด้านข้อมูล ฉันแค่อยากรู้ว่าพวกคุณจัดการส่งงานไปยังกลุ่มได้อย่างไร?

3
วิธีการประมวลผลคำค้นหาภาษาธรรมชาติ?
ฉันอยากรู้เกี่ยวกับการสืบค้นภาษาธรรมชาติ Stanford มีสิ่งที่ดูเหมือนจะเป็นชุดที่แข็งแกร่งของซอฟแวร์สำหรับการประมวลผลภาษาธรรมชาติ ผมเคยเห็นยังห้องสมุด Apache OpenNLPและสถาปัตยกรรมทั่วไปสำหรับข้อความวิศวกรรม มีจำนวนการใช้อย่างไม่น่าเชื่อสำหรับการประมวลผลภาษาธรรมชาติและทำให้เอกสารของโครงการเหล่านี้ยากต่อการดูดซับอย่างรวดเร็ว คุณสามารถทำให้สิ่งต่าง ๆ ง่ายขึ้นสำหรับฉันเล็กน้อยและในระดับสูงร่างงานที่จำเป็นสำหรับการแปลคำถามพื้นฐานง่ายๆใน SQL? สี่เหลี่ยมผืนผ้าแรกบนแผนภูมิการไหลของฉันเป็นบิตของความลึกลับ ตัวอย่างเช่นฉันอาจต้องการทราบ: How many books were sold last month? และฉันต้องการแปลเป็น Select count(*) from sales where item_type='book' and sales_date >= '5/1/2014' and sales_date <= '5/31/2014'
11 nlp 

4
การถดถอยโลจิสติกส์เป็นอัลกอริทึมการถดถอยจริงหรือไม่
ความหมายปกติของการถดถอย (เท่าที่ผมทราบ) จะทำนายตัวแปรที่ส่งออกต่อเนื่องมาจากชุดที่กำหนดของตัวแปร การถดถอยโลจิสติกเป็นอัลกอริทึมการจำแนกแบบไบนารีดังนั้นจึงสร้างเอาต์พุตหมวดหมู่ มันเป็นขั้นตอนวิธีการถดถอยจริงหรือ ถ้าเป็นเช่นนั้นทำไม

3
ชุดข้อมูล / คำถามวิจัยทางวิทยาศาสตร์ข้อมูลสำหรับวิทยานิพนธ์ปริญญาโทวิทยาศาสตร์สาขาสถิติ
ฉันต้องการสำรวจ 'วิทยาศาสตร์ข้อมูล' คำดูเหมือนคลุมเครือเล็กน้อยสำหรับฉัน แต่ฉันคาดหวังว่าจะต้อง: การเรียนรู้ของเครื่อง (มากกว่าสถิติดั้งเดิม); ชุดข้อมูลขนาดใหญ่เพียงพอที่คุณต้องเรียกใช้การวิเคราะห์บนคลัสเตอร์ มีชุดข้อมูลและปัญหาอะไรบ้างที่สามารถเข้าถึงได้โดยนักสถิติที่มีพื้นฐานการเขียนโปรแกรมที่ฉันสามารถใช้เพื่อสำรวจสาขาวิทยาศาสตร์ข้อมูลได้ เพื่อให้แคบที่สุดเท่าที่จะทำได้ฉันต้องการเชื่อมโยงไปยังชุดข้อมูลเปิดและชุดข้อมูลที่ใช้งานได้ดีและปัญหาตัวอย่าง

5
เมื่อใดที่จะลบตัวแปรที่เกี่ยวข้อง
ใครก็ได้ช่วยแนะนำขั้นตอนที่ถูกต้องในการลบตัวแปรที่มีความสัมพันธ์กันก่อนวิศวกรรมฟีเจอร์หรือหลังจากคุณสมบัติวิศวกรรม

3
LSTM, BiLSTM คืออะไรและใช้เมื่อใด?
ฉันยังใหม่ต่อการเรียนรู้เชิงลึกและฉันสนใจที่จะรู้ว่า LSTM และ BiLSTM คืออะไรและควรใช้เมื่อใด (พื้นที่ใช้งานหลัก) เหตุใด LSTM และ BILSTM จึงได้รับความนิยมมากกว่า RNN เราสามารถใช้สถาปัตยกรรมการเรียนรู้ลึกเหล่านี้ในปัญหาที่ไม่มีผู้ดูแลได้หรือไม่?

2
มีพฤติกรรมแปลก ๆ กับ Adam optimizer เมื่อฝึกอบรมนานเกินไป
ฉันพยายามฝึก perceptron เดี่ยว (1,000 หน่วยอินพุต, 1 เอาต์พุต, ไม่มีเลเยอร์ที่ซ่อนอยู่) ใน 64 จุดข้อมูลที่สร้างแบบสุ่ม ฉันใช้ Pytorch ใช้เพิ่มประสิทธิภาพอดัม: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, D_out) loss_fn = torch.nn.MSELoss(size_average=False) optimizer = torch.optim.Adam(model.parameters()) for t in xrange(5000): …

1
จำนวนและขนาดของเลเยอร์หนาแน่นใน CNN
เครือข่ายส่วนใหญ่ที่ฉันเคยเห็นมีชั้นหนาแน่นหนึ่งหรือสองชั้นก่อนหน้าชั้น softmax สุดท้าย มีวิธีใดในการเลือกจำนวนและขนาดของเลเยอร์หนาแน่น เลเยอร์หนาแน่นสองเลเยอร์เป็นตัวแทนมากกว่าหนึ่งสำหรับพารามิเตอร์จำนวนเดียวกันหรือไม่ ควรจะออกกลางคันก่อนแต่ละชั้นที่หนาแน่นหรือแค่ครั้งเดียว?
11 convnet 

1
ต้นไม้ไล่ระดับสีไล่ระดับสี:“ ยิ่งตัวแปรยิ่งดี”
จากบทช่วยสอนของ XGBoost ฉันคิดว่าเมื่อแต่ละต้นโตขึ้นตัวแปรทั้งหมดจะถูกสแกนเพื่อเลือกให้แยกปมและเลือกอันที่มีการแยกเกนสูงสุด ดังนั้นคำถามของฉันคือถ้าฉันเพิ่มตัวแปรเสียงลงในชุดข้อมูลตัวแปรเสียงเหล่านี้จะมีผลต่อการเลือกตัวแปร (สำหรับการปลูกต้นไม้แต่ละต้น) หรือไม่ เหตุผลของฉันคือเพราะตัวแปรเสียงเหล่านี้ไม่ได้ให้ผลประโยชน์สูงสุดเลยพวกเขาจะไม่ถูกเลือกดังนั้นพวกเขาจึงไม่ส่งผลต่อการเติบโตของต้นไม้ ถ้าคำตอบคือใช่มันเป็นความจริงหรือไม่ที่ "ยิ่งตัวแปรยิ่งดีสำหรับ XGBoost มากขึ้น" อย่ามาพิจารณาเวลาฝึก นอกจากนี้หากคำตอบคือใช่ก็เป็นความจริงที่ว่า "เราไม่จำเป็นต้องกรองตัวแปรที่ไม่สำคัญออกจากตัวแบบ" ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.