วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
Vector Machine สนับสนุนยังถือว่าเป็น“ ทันสมัย” ในช่องของพวกเขาหรือไม่
คำถามนี้เป็นการตอบกลับความคิดเห็นที่ฉันเห็นในคำถามอื่น ความคิดเห็นเกี่ยวกับหลักสูตรการเรียนรู้ของเครื่องเรียนรู้บน Coursera และตามแนวของ "SVMs ไม่ได้ใช้งานมากในปัจจุบัน" ฉันเพิ่งจบการบรรยายที่เกี่ยวข้องด้วยตัวเองเท่านั้นและความเข้าใจของฉันเกี่ยวกับ SVM คือพวกเขาเป็นอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพและมีประสิทธิภาพสำหรับการจัดหมวดหมู่และเมื่อใช้เคอร์เนลพวกเขามี "ช่องว่าง" จำนวนตัวอย่างการฝึกอบรมอาจจะ 100 ถึง 10,000 ขีด จำกัด ของตัวอย่างการฝึกอบรมเป็นเพราะอัลกอริทึมหลักหมุนรอบผลการปรับให้เหมาะสมที่สร้างจากเมทริกซ์จตุรัสที่มีขนาดตามจำนวนตัวอย่างการฝึกอบรมไม่ใช่จำนวนของคุณลักษณะดั้งเดิม ความคิดเห็นที่ฉันเห็นอ้างถึงการเปลี่ยนแปลงที่แท้จริงตั้งแต่เริ่มต้นหลักสูตรและถ้าเป็นเช่นนั้นการเปลี่ยนแปลงนั้น: อัลกอริธึมใหม่ที่ครอบคลุม "จุดที่น่าสนใจ" ของ SVM เช่นกันซีพียูที่ดีกว่าหมายถึงข้อดีของการคำนวณ SVM ไม่คุ้มค่ามาก ? หรืออาจเป็นความเห็นหรือประสบการณ์ส่วนตัวของผู้แสดงความคิดเห็น? ฉันพยายามค้นหาเช่น "เป็นเครื่องสนับสนุนเวกเตอร์ที่ล้าสมัย" และไม่พบสิ่งใดที่บ่งบอกว่าพวกเขากำลังตกหลุมรักสิ่งอื่นใด และวิกิพีเดียมีนี้: http://en.wikipedia.org/wiki/Support_vector_machine#Issues . . จุดยึดหลักดูเหมือนจะยากต่อการตีความตัวแบบ ซึ่งทำให้ SVM ดีสำหรับเครื่องยนต์ทำนายกล่องดำ แต่ไม่ดีสำหรับการสร้างข้อมูลเชิงลึก ฉันไม่เห็นว่าเป็นปัญหาที่สำคัญเพียงอีกสิ่งเล็กน้อยที่ต้องคำนึงถึงเมื่อเลือกเครื่องมือที่เหมาะสมสำหรับงาน (รวมถึงลักษณะของข้อมูลการฝึกอบรมและงานการเรียนรู้ ฯลฯ )

11
การลดมิติข้อมูลคืออะไร? ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคืออะไร?
จากวิกิพีเดีย การลดขนาดหรือการลดขนาดเป็นกระบวนการลดจำนวนตัวแปรสุ่มที่พิจารณาและสามารถแบ่งออกเป็นการเลือกคุณลักษณะและการแยกคุณลักษณะ ความแตกต่างระหว่างการเลือกคุณสมบัติและการแยกคุณสมบัติคืออะไร? ตัวอย่างของการลดมิติข้อมูลในงานประมวลผลภาษาธรรมชาติคืออะไร

5
เมื่อเป็นรุ่น Underfitted?
ลอจิกมักจะระบุว่าโดยการสร้างโมเดลความสามารถในการสรุปทั่วไปนั้นเพิ่มขึ้น ที่กล่าวว่าอย่างชัดเจนในบางจุดที่อยู่ภายใต้แบบจำลองทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูล คุณจะรู้ได้อย่างไรว่าแบบจำลองของคุณมีสมดุลที่ถูกต้องและไม่รองรับข้อมูลที่โมเดลต้องการ? หมายเหตุ:นี่คือการติดตามคำถามของฉัน " ทำไม Overfitting Bad "

4
1x1 Convolutions เหมือนกับเลเยอร์ที่เชื่อมต่ออย่างเต็มที่อย่างไร
ฉันเพิ่งอ่านYan LeCuns แสดงความคิดเห็นใน 1x1 convolutions : ใน Convolutional Nets ไม่มีสิ่งเช่น "เลเยอร์ที่เชื่อมต่อเต็มที่" มีเลเยอร์ Convolution เพียงชั้นเดียวที่มีเมล็ดคอนวีเนียน 1x1 และตารางการเชื่อมต่อเต็มรูปแบบ มันเป็นความจริงที่ไม่ค่อยเข้าใจมากนักที่ ConvNets ไม่จำเป็นต้องมีอินพุตที่มีขนาดคงที่ คุณสามารถฝึกอบรมพวกเขาเกี่ยวกับอินพุตที่เกิดขึ้นเพื่อสร้างเวกเตอร์เอาต์พุตเดี่ยว (โดยไม่มีขอบเขต) แล้วนำไปใช้กับภาพที่มีขนาดใหญ่ขึ้น แทนที่จะเป็นเวกเตอร์เอาต์พุตเดี่ยวคุณก็จะได้แผนที่อวกาศของเวกเตอร์เอาต์พุต เวกเตอร์แต่ละตัวจะเห็นหน้าต่างอินพุตในตำแหน่งต่างๆของอินพุต ในสถานการณ์นั้น "เลเยอร์ที่เชื่อมต่ออย่างเต็มที่" ทำหน้าที่เป็นความเชื่อมั่น 1x1 ฉันต้องการดูตัวอย่างง่ายๆสำหรับสิ่งนี้ ตัวอย่าง สมมติว่าคุณมีเครือข่ายที่เชื่อมต่ออย่างสมบูรณ์ มันมีเพียงชั้นเข้าและชั้นออก เลเยอร์อินพุตมี 3 โหนดชั้นเลเยอร์มี 2 โหนด เครือข่ายนี้มีพารามิเตอร์เพื่อให้เป็นรูปธรรมมากยิ่งขึ้นสมมติว่าคุณมีฟังก์ชั่นการเปิดใช้งาน ReLU ในชั้นเอาต์พุตและเมทริกซ์น้ำหนัก3⋅2=63⋅2=63 \cdot 2 = 6 Wb=(021315)∈R2×3=(813)∈R2W=(011235)∈R2×3b=(813)∈R2 \begin{align} W &= \begin{pmatrix} 0 …

3
RNN vs CNN ในระดับสูง
ฉันกำลังคิดเกี่ยวกับ Recurring Neural Networks (RNN) และความหลากหลายของพวกเขาและ Convolutional Neural Networks (CNN) และพันธุ์ของพวกเขา สองประเด็นนี้จะยุติธรรมหรือไม่ที่จะพูดว่า: ใช้ CNN เพื่อแยกส่วนประกอบ (เช่นรูปภาพ) ออกเป็นคอมโพเนนต์ย่อย (เช่นวัตถุในภาพเช่นโครงร่างของวัตถุในภาพ ฯลฯ ) ใช้ RNN เพื่อสร้างการรวมกันของคอมโพเนนต์ย่อย (คำบรรยายภาพ, การสร้างข้อความ, การแปลภาษา ฯลฯ ) ฉันจะขอบคุณถ้าใครต้องการชี้ให้เห็นความไม่ถูกต้องใด ๆ ในงบเหล่านี้ เป้าหมายของฉันที่นี่คือการได้รับรากฐานที่ชัดเจนยิ่งขึ้นเกี่ยวกับการใช้ CNN และ RNNs

8
ทำไม บริษัท อินเทอร์เน็ตถึงชอบ Java / Python สำหรับนักวิทยาศาสตร์ข้อมูล?
ฉันเห็นรายละเอียดงานหลายครั้งสำหรับนักวิทยาศาสตร์ข้อมูลที่ขอประสบการณ์ Python / Java และไม่สนใจอาร์ด้านล่างเป็นอีเมลส่วนตัวที่ฉันได้รับจากหัวหน้านักวิทยาศาสตร์ข้อมูลของ บริษัท ที่ฉันสมัครผ่าน LinkedIn X ขอขอบคุณที่เชื่อมต่อและแสดงความสนใจ คุณมีทักษะการวิเคราะห์ที่ดี อย่างไรก็ตามนักวิทยาศาสตร์ด้านข้อมูลของเราทุกคนต้องมีทักษะการเขียนโปรแกรมที่ดีใน Java / Python เนื่องจากเราเป็นองค์กรอินเทอร์เน็ต / มือถือและทุกอย่างที่เราทำออนไลน์อยู่ ในขณะที่ฉันเคารพการตัดสินใจของหัวหน้านักวิทยาศาสตร์ด้านข้อมูล แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าอะไรคืองานที่ Python สามารถทำสิ่งที่ R ไม่สามารถทำได้ ใครบ้างที่สามารถใส่ใจในรายละเอียด? จริง ๆ แล้วฉันกระตือรือร้นที่จะเรียนรู้ Python / Java หากฉันได้รับรายละเอียดเพิ่มเติม แก้ไข: ฉันพบการสนทนาที่น่าสนใจเกี่ยวกับ Quora ทำไม Python เป็นภาษาที่ถูกเลือกสำหรับนักวิทยาศาสตร์ด้านข้อมูล? แก้ไข 2: บล็อกจาก Udacity เกี่ยวกับภาษาและไลบรารีสำหรับการเรียนรู้ของเครื่อง

2
ควรใช้การเริ่มต้นปกติ (He หรือ Glorot) มากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ และผลกระทบอะไรกับ Batch Normalization
ฉันรู้ว่าเครือข่ายที่เหลือ (ResNet) ทำให้เขาเริ่มต้นปกติเป็นที่นิยม ใน ResNet จะใช้การกำหนดค่าเริ่มต้นตามปกติขณะที่ชั้นแรกใช้การกำหนดค่าเริ่มต้นที่สม่ำเสมอ ฉันได้ดูกระดาษ ResNet และกระดาษ "Delving Deep to Rectifiers" (เขาเริ่มต้นกระดาษ) แต่ฉันไม่พบพูดถึงเกี่ยวกับ init ปกติกับชุด init นอกจากนี้: การทำให้เป็นมาตรฐานแบบกลุ่มช่วยให้เราสามารถใช้อัตราการเรียนรู้ที่สูงขึ้นมากและระวังการเริ่มต้นน้อยลง ในบทคัดย่อของ Batch Normalization นั้นมีการกล่าวกันว่า Batch Normalization นั้นช่วยให้เราระมัดระวังการเริ่มต้นน้อยลง ResNet เองยังคงสนใจว่าเมื่อใดควรใช้ init ปกติกับชุด init (แทนที่จะใช้เพียงกับ init init) ดังนั้น: ควรใช้การเริ่มต้น (He หรือ Glorot) แบบกระจายทั่วไปมากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ การกำหนดค่าเริ่มต้นทั่วไปที่กระจายด้วย Batch Normalization คืออะไร หมายเหตุด้าน: มันเป็นเพลงที่ใช้ init ปกติกับ Batch …

8
การรวมกลุ่มพิกัดตำแหน่งทางภูมิศาสตร์ (lat, long long)
วิธีการที่เหมาะสมและอัลกอริทึมการจัดกลุ่มสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์คืออะไร? ฉันใช้รหัสต่อไปนี้เพื่อประสานพิกัดตำแหน่งทางภูมิศาสตร์: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() ถูกต้องหรือไม่ที่จะใช้ K- meanสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์เนื่องจากใช้ระยะทางแบบยุคลิดไม่ใช่สูตรฮาร์ไซน์เป็นฟังก์ชันระยะทาง

9
เครื่องมือและโปรโตคอลสำหรับวิทยาศาสตร์ข้อมูลที่สามารถทำซ้ำได้โดยใช้ Python
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลโดยใช้ Python โครงการมีหลายขั้นตอน แต่ละขั้นตอนประกอบด้วยการเก็บชุดข้อมูลโดยใช้สคริปต์ Python ข้อมูลเสริมการกำหนดค่าและพารามิเตอร์และการสร้างชุดข้อมูลอื่น ฉันเก็บรหัสในคอมไพล์ดังนั้นส่วนที่ครอบคลุม ฉันอยากจะได้ยินเกี่ยวกับ: เครื่องมือสำหรับการควบคุมเวอร์ชันของข้อมูล เครื่องมือที่เปิดใช้งานการทำซ้ำขั้นตอนและการทดลอง โปรโตคอลและโครงสร้างไดเรกทอรีที่แนะนำสำหรับโครงการดังกล่าว เครื่องมือสร้าง / เรียกใช้อัตโนมัติ

3
วิธีการต่อสู้ underfitting ในตาข่ายประสาทลึก
เมื่อฉันเริ่มต้นด้วยโครงข่ายใยประสาทเทียม (NN) ฉันคิดว่าฉันต้องต่อสู้กับปัญหาล้นใจเป็นปัญหาหลัก แต่ในทางปฏิบัติฉันไม่สามารถทำให้ NN ของฉันผ่านอุปสรรคอัตราความผิดพลาด 20% ได้ ฉันไม่สามารถเอาชนะคะแนนของฉันในป่าสุ่ม! ฉันกำลังมองหาคำแนะนำที่กว้างมากหรือไม่ควรให้คำแนะนำทั่วไปว่าควรทำอะไรเพื่อให้ NN เริ่มจับภาพแนวโน้มของข้อมูล สำหรับการใช้งาน NN ฉันใช้ Theano Stacked Auto Encoder กับโค้ดจากบทช่วยสอนที่ใช้งานได้ดี (อัตราความผิดพลาดน้อยกว่า 5%) สำหรับการจำแนกชุดข้อมูล MNIST มันเป็นตรอนหลายชั้นด้วยชั้น softmax ด้านบนกับแต่ละซ่อนภายหลังเป็นก่อนการฝึกอบรมเป็น autoencoder (อธิบายอย่างเต็มที่ในการกวดวิชา , บทที่ 8) มีคุณสมบัติอินพุต ~ 50 และ ~ 10 คลาสเอาต์พุต NN มี sigmoid neurons และข้อมูลทั้งหมดถูกทำให้เป็นมาตรฐาน [0,1] ฉันลองการกำหนดค่าต่าง ๆ มากมาย: จำนวนเลเยอร์และเซลล์ประสาทที่ซ่อนอยู่ในนั้น (100-> …

4
การจัดสรร Dirichlet แฝงเทียบกับกระบวนการ Dirichlet ตามลำดับชั้น
Latent Dirichlet Allocation (LDA)และHierarchical Dirichlet Process (HDP)เป็นทั้งกระบวนการสร้างแบบจำลองหัวข้อ ข้อแตกต่างที่สำคัญคือ LDA ต้องการข้อมูลจำเพาะจำนวนหัวข้อและ HDP ไม่ต้องการ เหตุผลที่เป็นเช่นนั้น? และอะไรคือความแตกต่างข้อดีและข้อเสียของวิธีการสร้างแบบจำลองหัวข้อทั้งสอง
49 nlp  topic-model  lda 

8
ทำไม Overfitting แย่ในการเรียนรู้ของเครื่อง?
ลอจิกมักจะกล่าวว่าโดยการ overfitting แบบจำลองความสามารถในการพูดคุยแบบทั่วไปมี จำกัด แม้ว่านี่อาจหมายถึงเฉพาะการ overfitting หยุดแบบจำลองจากการปรับปรุงหลังจากความซับซ้อนบางอย่าง การบรรจุมากเกินไปทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูลและถ้าเป็นเช่นนั้นเหตุใดจึงเป็นเช่นนี้ ที่เกี่ยวข้อง:ติดตามคำถามข้างต้น " โมเดลจะได้รับการสนับสนุนเมื่อใด "

4
โครงข่ายประสาท: ฟังก์ชั่นค่าใช้จ่ายที่จะใช้?
ฉันใช้TensorFlowสำหรับการทดลองกับเครือข่ายประสาทเป็นหลัก แม้ว่าตอนนี้ฉันได้ทำการทดลองบ้างแล้ว (XOR-Problem, MNIST, Regression บางอย่าง, ... ) ตอนนี้ฉันต่อสู้กับการเลือกฟังก์ชั่นต้นทุนที่ "ถูกต้อง" สำหรับปัญหาเฉพาะเพราะโดยรวมแล้วฉันถือว่าเป็นมือใหม่ ก่อนที่จะมาที่ TensorFlow ฉันเขียนรหัส MLP ที่เชื่อมต่ออย่างเต็มที่และเครือข่ายที่เกิดขึ้นเองด้วยPythonและNumPyแต่ส่วนใหญ่ฉันมีปัญหาที่ข้อผิดพลาดยกกำลังสองง่ายและการไล่ระดับสีอย่างง่ายนั้นเพียงพอ อย่างไรก็ตามเนื่องจาก TensorFlow มีฟังก์ชั่นค่าใช้จ่ายค่อนข้างมากเช่นเดียวกับการสร้างฟังก์ชั่นค่าใช้จ่ายที่กำหนดเองฉันต้องการที่จะทราบว่ามีการสอนบางอย่างที่เฉพาะเจาะจงสำหรับฟังก์ชั่นค่าใช้จ่ายในเครือข่ายประสาท (ฉันทำไปแล้วเหมือนครึ่งหนึ่งของแบบฝึกหัด TensorFlow อย่างเป็นทางการ แต่พวกเขาไม่ได้อธิบายว่าทำไมฟังก์ชั่นค่าใช้จ่ายเฉพาะหรือผู้เรียนใช้สำหรับปัญหาเฉพาะ - อย่างน้อยไม่ใช่สำหรับผู้เริ่มต้น) ในการให้ตัวอย่าง: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) ฉันเดาว่ามันใช้ฟังก์ชั่น softmax กับทั้งสองอินพุตเพื่อให้ผลรวมของเวกเตอร์หนึ่งเท่ากับ 1 แต่ไขว้เอนโทรปีของการบันทึกคืออะไร ฉันคิดว่ามันสรุปค่าและคำนวณค่าเอนโทรปีของการไขว้ ... ดังนั้นการวัดบางอย่าง?! นี่จะไม่เหมือนกันหรือไม่ถ้าฉันเอาท์พุทเป็นปกติ, หาผลรวมมันออกมา นอกจากนี้เหตุใดจึงใช้สิ่งนี้เช่นสำหรับ MNIST (หรือปัญหาที่ยากกว่า) เมื่อฉันต้องการที่จะจัดเช่น 10 หรือแม้กระทั่ง 1000 เรียนไม่ได้ข้อสรุปถึงค่าที่สมบูรณ์ทำลายข้อมูลใด ๆ เกี่ยวกับการที่ชั้นเป็นจริงการส่งออกหรือไม่ …

9
ภาษา R เหมาะสำหรับ Big Data หรือไม่
R มีห้องสมุดหลายแห่งที่มุ่งเน้นการวิเคราะห์ข้อมูล (เช่น JAGS, BUGS, ARULES และอื่น ๆ ) และถูกกล่าวถึงในหนังสือเรียนที่ได้รับความนิยมเช่น: J.Krusche, การวิเคราะห์ข้อมูลแบบเบย์ B. Lantz, "การเรียนรู้ของเครื่องจักรด้วย R" ฉันเห็นแนวทาง 5TB สำหรับชุดข้อมูลที่ถือว่าเป็นข้อมูลขนาดใหญ่ คำถามของฉันคือ R เหมาะสมกับปริมาณข้อมูลที่มักพบในปัญหา Big Data หรือไม่? มีกลยุทธ์ที่จะใช้เมื่อใช้ R กับชุดข้อมูลขนาดนี้หรือไม่?
48 bigdata  r 

9
มีโดเมนใดที่ Bayesian Networks มีประสิทธิภาพสูงกว่าเครือข่ายประสาทหรือไม่
เครือข่ายนิวรัลได้รับผลลัพธ์สูงสุดในงาน Computer Vision (ดูMNIST , ILSVRC , Kaggle Galaxy Challenge ) ดูเหมือนว่าพวกเขาจะเหนือกว่าทุก ๆ วิธีใน Computer Vision แต่ยังมีงานอื่น ๆ : Kaggle Molecular Activity Challenge การถดถอย: การทำนาย Kaggle Rainก็เป็นอันดับที่ 2 เช่นกัน เข้าใจและยกที่ 2นอกจากนี้ยังมีสถานที่ที่สาม - ระบุการเคลื่อนไหวมือจากการบันทึกคลื่นไฟฟ้าสมอง ฉันไม่แน่ใจเกินไปเกี่ยวกับ ASR (การรู้จำเสียงอัตโนมัติ) และการแปลด้วยเครื่อง แต่ฉันคิดว่าฉันก็เคยได้ยินว่า (เกิดขึ้นอีก) เครือข่ายประสาท (เริ่มต้น) มีประสิทธิภาพเหนือกว่าวิธีอื่น ๆ ขณะนี้ฉันกำลังเรียนรู้เกี่ยวกับ Bayesian Networks และฉันสงสัยว่าในกรณีใดโมเดลเหล่านี้มักจะถูกนำไปใช้ ดังนั้นคำถามของฉันคือ: มีการแข่งขันที่ท้าทาย / …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.