วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

4
กรณีศึกษา Big Data หรือใช้กรณีตัวอย่าง
ฉันได้อ่านบล็อก \ article มากมายเกี่ยวกับความแตกต่างของประเภทอุตสาหกรรมที่ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ แต่บทความส่วนใหญ่ไม่ได้กล่าวถึง บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล ฉันสงสัยว่าใครบางคนสามารถให้คำตอบสำหรับคำถามเหล่านี้ทั้งหมดหรือลิงก์ที่ตอบคำถามอย่างน้อย ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริง มันจะดีถ้ามีคนแบ่งปันว่าอุตสาหกรรมการเงินกำลังใช้ประโยชน์จากการวิเคราะห์ข้อมูลขนาดใหญ่อย่างไร

5
ทำไมการเพิ่มชั้นการออกกลางคันช่วยเพิ่มประสิทธิภาพการเรียนรู้อย่างลึก / ด้วยเครื่องจักรเนื่องจากการออกกลางคันช่วยยับยั้งเซลล์ประสาทบางส่วนจากแบบจำลอง
หากการเอาเซลล์ประสาทออกบางส่วนจะส่งผลให้แบบจำลองมีประสิทธิภาพดีขึ้นทำไมไม่ลองใช้โครงข่ายประสาทที่เรียบง่ายกว่าโดยมีเลเยอร์น้อยลงและมีเซลล์ประสาทน้อยลงในตอนแรก เหตุใดจึงต้องสร้างแบบจำลองที่ใหญ่และซับซ้อนกว่าเดิมในตอนเริ่มต้นและระงับบางส่วนในภายหลัง

3
การฝังกราฟคืออะไร
ฉันเพิ่งเจอกราฟการฝังเช่น DeepWalk และ LINE อย่างไรก็ตามฉันยังไม่มีความคิดที่ชัดเจนว่ากราฟ embeddings มีความหมายอย่างไรและควรใช้เมื่อใด (แอปพลิเคชัน) ข้อเสนอแนะใด ๆ ยินดีต้อนรับ!
13 graphs 

3
เหตุใดระบบสร้างโค้ดอัตโนมัติสำหรับการลดขนาดแบบสมมาตร
ฉันไม่ได้เป็นผู้เชี่ยวชาญใน autoencoders หรือเครือข่ายประสาทด้วยวิธีการใด ๆ ดังนั้นยกโทษให้ฉันถ้านี่เป็นคำถามที่โง่ สำหรับวัตถุประสงค์ของการลดขนาดหรือการแสดงภาพกลุ่มในข้อมูลมิติสูงเราสามารถใช้ autoencoder เพื่อสร้างการแสดงภาพ 2 มิติ (สูญเสีย) โดยการตรวจสอบผลลัพธ์ของเลเยอร์เครือข่ายด้วย 2 โหนด ตัวอย่างเช่นด้วยสถาปัตยกรรมต่อไปนี้เราจะตรวจสอบผลลัพธ์ของเลเยอร์ที่สาม [ X] → N1= 100 → N2= 25 → ( N3= 2 ) → N4= 25 → N5= 100 → [ X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] โดยที่คือข้อมูลอินพุตและคือจำนวนโหนดในเลเยอร์ …

3
ทำไม Convolutions จึงใช้เลขคี่เป็นตัวกรอง
ถ้าเราดูเอกสารที่ตีพิมพ์ 90-99% โดยใช้ CNN (ConvNet) ส่วนใหญ่ใช้ขนาดตัวกรองของตัวเลขคี่ : {1, 3, 5, 7} สำหรับการใช้งานมากที่สุด สถานการณ์นี้อาจนำไปสู่ปัญหาบางอย่าง: ด้วยขนาดตัวกรองเหล่านี้โดยปกติแล้วการดำเนินการสังวัตนาจะไม่สมบูรณ์แบบด้วยการเติม 2 (การเติมทั่วไป) และขอบบางส่วนของ input_field หายไปในกระบวนการ ... คำถามที่ 1:เหตุใดจึงใช้เพียง odd_numbers สำหรับขนาดตัวกรอง Convolutions คำถามที่ 2:จริง ๆ แล้วมันเป็นปัญหาที่จะละเว้นส่วนเล็ก ๆ ของ input_field ในระหว่างการโน้มน้าว? ทำไมต้องเป็นเช่นนั้น /

2
เหตุใดจึงควรเลือกการกำหนดค่าเริ่มต้นของน้ำหนักและอคติประมาณ 0
ฉันอ่านสิ่งนี้: ในการฝึกอบรมเครือข่ายประสาทของเราเราจะเริ่มต้นแต่ละพารามิเตอร์ W (l) ijWij (l) และแต่ละ b (l) ibi (l) เป็นค่าสุ่มเล็ก ๆ ใกล้ศูนย์ (พูดตามปกติ (0, ϵ2) ปกติ (0 , ϵ2) การกระจายตัวสำหรับขนาดเล็ก ϵϵ, พูด 0.01) จากบทเรียนการเรียนรู้ลึกของ Stanford ที่วรรค 7 ในอัลกอริทึม Backpropagation สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมการเริ่มต้นของน้ำหนักหรืออคติควรจะอยู่ที่ประมาณ 0 ?

1
อคติควรเริ่มต้นและทำให้เป็นมาตรฐานได้อย่างไร?
ฉันได้อ่านเอกสารสองสามฉบับเกี่ยวกับการเริ่มต้นเคอร์เนลและเอกสารจำนวนมากพูดถึงว่าพวกเขาใช้เคอร์เนล L2 ปกติ (มักจะมี )λ=0.0001λ=0.0001\lambda = 0.0001 มีใครทำสิ่งที่แตกต่างจากการเริ่มต้นอคติด้วยศูนย์คงที่และไม่ทำให้เป็นปกติ? เอกสารการกำหนดค่าเริ่มต้นเคอร์เนล Mishkin และ Matas: สิ่งที่คุณต้องการคือการเริ่มต้นที่ดี Xavier Glorot และ Yoshua Bengio: ทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายประสาทที่มีการป้อนลึก เขาและอื่น ๆ : การเจาะลึกลงไปในวงจรเรียงกระแส: ประสิทธิภาพที่เหนือกว่าระดับมนุษย์ในการจำแนกประเภท ImageNet

1
อะไรคือเลเยอร์ Convolutional 1D ในการเรียนรู้เชิงลึก?
ฉันมีความเข้าใจโดยทั่วไปเกี่ยวกับบทบาทและกลไกของเลเยอร์ convolutional ใน Deep Learning สำหรับการประมวลผลภาพในกรณีที่มีการใช้งาน 2D หรือ 3D พวกเขา "เพียงแค่" พยายามจับรูปแบบ 2D ในภาพ (ใน 3 ช่องในกรณี 3D) แต่เมื่อเร็ว ๆ นี้ฉันชนกับชั้น 1D ในบริบทของการประมวลผลภาษาธรรมชาติซึ่งเป็นเรื่องที่แปลกใจสำหรับฉันเพราะในการทำความเข้าใจของฉันการบิด 2D ถูกนำมาใช้เป็นพิเศษในการจับรูปแบบ 2D ที่เป็นไปไม่ได้ ของพิกเซลภาพ อะไรคือตรรกะที่อยู่เบื้องหลัง 1D convolution?

3
โครงข่ายประสาทเทียมมีความสามารถอธิบายได้เหมือนต้นไม้ตัดสินใจหรือไม่?
ในต้นไม้การตัดสินใจเราสามารถเข้าใจผลลัพธ์ของโครงสร้างต้นไม้และเรายังสามารถเห็นภาพว่าต้นไม้การตัดสินใจตัดสินใจได้อย่างไร ต้นไม้การตัดสินใจมีความสามารถอธิบายได้ (สามารถอธิบายผลลัพธ์ได้อย่างง่ายดาย) เรามีคำอธิบายในโครงข่ายประสาทเทียมเหมือนกับต้นไม้ตัดสินใจหรือไม่?

1
ลืมเลเยอร์ในเครือข่ายประสาทกำเริบ (RNN) -
ฉันกำลังพยายามหามิติของตัวแปรแต่ละตัวใน RNN ในเลเยอร์ลืมอย่างไรก็ตามฉันไม่แน่ใจว่าฉันกำลังติดตามถูกหรือไม่ รูปภาพและสมการถัดไปมาจากบล็อกของ Colah "การทำความเข้าใจกับเครือข่าย LSTM" : ที่อยู่: xtxtx_tคืออินพุตของขนาดเวกเตอร์m∗1m∗1m*1 ht−1ht−1h_{t-1}เป็นสถานะที่ซ่อนขนาดเวกเตอร์n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]คือการต่อข้อมูล (ตัวอย่างเช่นถ้าจากนั้น )xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_fคือน้ำหนักของขนาดเมทริกซ์โดยที่คือจำนวนของสถานะเซลล์ (ถ้าและในตัวอย่างด้านบนและถ้าเรามี 3 สถานะของเซลล์จากนั้นเมทริกซ์)k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_fเป็นอคติของขนาดเวกเตอร์โดยที่คือจำนวนของสถานะเซลล์ (เนื่องจากเป็นตัวอย่างด้านบนแล้วเป็น เวกเตอร์ )k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 หากเราตั้งค่าเป็น: wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & …

3
วิธีการเลือกลักษณนามหลังจากการตรวจสอบข้าม?
เมื่อเราทำการตรวจสอบความถูกต้องข้ามของ k-fold เราควรใช้ลักษณนามที่มีความแม่นยำในการทดสอบสูงสุดหรือไม่? โดยทั่วไปแล้ววิธีที่ดีที่สุดในการรับตัวจําแนกจากการตรวจสอบข้ามคืออะไร?

1
ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร
ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?

4
เราสามารถใช้ประโยชน์จากการใช้การเรียนรู้การถ่ายโอนในขณะฝึกรูปแบบ word2vec ได้หรือไม่?
ฉันกำลังมองหาน้ำหนักของรุ่นที่ผ่านการฝึกอบรมมาแล้วเช่นข้อมูล Google Newsเป็นต้นฉันพบว่ามันยากที่จะฝึกฝนโมเดลใหม่ด้วยจำนวนข้อมูลที่เพียงพอ (10 GB เป็นต้น) สำหรับตัวฉันเอง ดังนั้นฉันต้องการได้รับประโยชน์จากการเรียนรู้การถ่ายโอนซึ่งฉันสามารถรับน้ำหนักของเลเยอร์ที่ได้รับการฝึกอบรมมาล่วงหน้าและฝึกฝนน้ำหนักเหล่านั้นใหม่ด้วยคำศัพท์เฉพาะโดเมนของฉัน ดังนั้นแน่นอนว่าจะใช้เวลาค่อนข้างน้อยในการฝึกอบรม ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ขอบคุณล่วงหน้า :)

2
การปรับสเกลข้อมูลอย่างมีจริยธรรมและประหยัดต้นทุน
มีบางสิ่งในชีวิตที่ทำให้ฉันมีความสุขเช่นการขูดข้อมูลที่ไม่มีโครงสร้างและไม่มีโครงสร้างจากอินเทอร์เน็ตและใช้มันในแบบจำลองของฉัน ตัวอย่างเช่นชุด Data Science Toolkit (หรือRDSTKสำหรับโปรแกรมเมอร์ R) ช่วยให้ฉันสามารถดึงข้อมูลตามตำแหน่งที่ดีโดยใช้ IP หรือที่อยู่และแพคเกจtm.webmining.pluginสำหรับ R tmทำให้การคัดลอกข้อมูลทางการเงินและข่าวตรงไปตรงมา เมื่อจะเกิน (กึ่ง) XPathข้อมูลที่มีโครงสร้างเช่นฉันมักจะใช้ อย่างไรก็ตามฉันได้รับปริมาณ จำกัด อย่างต่อเนื่องกับจำนวนข้อความค้นหาที่คุณอนุญาต ฉันคิดว่า Google จำกัด ฉันให้ถึง 50,000 คำขอต่อ 24 ชั่วโมงซึ่งเป็นปัญหาสำหรับ Big Data จากมุมมองทางเทคนิคการเข้าถึงข้อ จำกัด เหล่านี้เป็นเรื่องง่ายเพียงแค่เปลี่ยนที่อยู่ IP และกำจัดตัวระบุอื่น ๆ จากสภาพแวดล้อมของคุณ อย่างไรก็ตามสิ่งนี้นำเสนอทั้งความกังวลด้านจริยธรรมและการเงิน (ฉันคิดว่า?) มีวิธีแก้ปัญหาที่ฉันมองเห็นหรือไม่?

3
วิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่มีแอตทริบิวต์หลายประเภท
ฉันอยากจะรู้ว่าอะไรคือวิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่ประกอบด้วยคุณลักษณะหลายประเภทเช่นข้อความและตัวเลข ฉันรู้ว่าฉันสามารถแปลงข้อความเป็นบูลีนได้ แต่คำศัพท์นั้นมีความหลากหลายและข้อมูลก็เบาบางเกินไป ฉันพยายามจำแนกประเภทของคุณลักษณะแยกจากกันและรวมผลลัพธ์เข้ากับเทคนิคการเรียนรู้เมตา แต่มันก็ใช้งานไม่ได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.