วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
ค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย
ฉันกำลังศึกษาการปรับขนาดข้อมูลและโดยเฉพาะอย่างยิ่งวิธีการมาตรฐาน ฉันเข้าใจคณิตศาสตร์ด้านหลังแล้ว แต่มันไม่ชัดเจนสำหรับฉันว่าทำไมจึงสำคัญที่จะต้องให้คุณสมบัติเป็นศูนย์ค่าเฉลี่ยและความแปรปรวนของหน่วย คุณอธิบายฉันได้ไหม

2
ฉันจะตรวจสอบได้อย่างไรว่ามีการเปลี่ยนรูปถ่าย?
ฉันต้องการตรวจสอบไฟล์ JPG หากพวกเขาถูกปรับเปลี่ยนเนื้อหา สิ่งที่ฉันพิจารณาไม่ใช่รูปถ่าย: การปลูกพืช หมุน (Scaling) ความละเอียดของภาพ การเปลี่ยนแปลงอัตโนมัติอาจทำให้สมาร์ทโฟน สิ่งที่ฉันคิดว่าการถ่ายภาพ: การเพิ่มรูปภาพใหม่ที่ด้านบนของส่วนต่าง ๆ ของภาพเก่า การเปลี่ยนข้อความของส่วนหนึ่งของภาพ จะตรวจสอบสิ่งนี้โดยอัตโนมัติได้อย่างไร (และ: มีไลบรารีที่พร้อมใช้งานหรือไม่)

4
PCA ถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่
ฉันเข้าใจว่าการวิเคราะห์องค์ประกอบหลักคือเทคนิคการลดขนาดเช่นได้รับคุณสมบัติการป้อนข้อมูล 10 ประการมันจะสร้างฟีเจอร์อิสระจำนวนน้อยซึ่งเป็นการเปลี่ยนมุมฉากและเชิงเส้นของคุณสมบัติดั้งเดิม คือPCAด้วยตัวเองถือเป็นขั้นตอนวิธีการเรียนรู้หรือมันเป็นขั้นตอนข้อมูลก่อนการประมวลผล

2
เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐาน L1 บน L2
การสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ฟังก์ชั่นการสูญเสียทำไมฉันจึงควรใช้ L1L1L_1 แทน L2L2L_2 กู? การป้องกันการ overfitting ดีกว่าไหม มันเป็นสิ่งที่กำหนด (เสมอดังนั้นวิธีการแก้ปัญหาที่ไม่ซ้ำกัน)? จะดีกว่าในการเลือกคุณสมบัติ (เพราะการผลิตแบบจำลองกระจัดกระจาย)? มันกระจายน้ำหนักในคุณสมบัติหรือไม่

3
พิกัด GPS (ละติจูดและลองจิจูด) สามารถใช้เป็นคุณสมบัติในตัวแบบเชิงเส้นได้หรือไม่?
ฉันมีชุดข้อมูลที่บรรจุพิกัด GPS (ละติจูดและลองจิจูด) ในบรรดาคุณสมบัติหลายประการ ฉันต้องการใช้ชุดข้อมูลเหล่านี้เพื่อสำรวจปัญหาเช่น: (1) การคำนวณ ETA เพื่อขับเคลื่อนระหว่างจุดเริ่มต้นและจุดสิ้นสุด; และ (2) การประเมินจำนวนอาชญากรรมสำหรับจุดเฉพาะ ฉันต้องการใช้แบบจำลองการถดถอยเชิงเส้น อย่างไรก็ตามฉันสามารถใช้พิกัด GPS เหล่านี้โดยตรงในโมเดลเชิงเส้นได้หรือไม่ ละติจูดและลองจิจูดไม่ได้มีคุณสมบัติลำดับเช่นกับอายุของบุคคล ตัวอย่างเช่นสองจุด (40.805996, -96.681473) และ (41.226682, -95.986587) ดูเหมือนจะไม่มีคำสั่งที่มีความหมายใด ๆ พวกเขาเป็นเพียงจุดในอวกาศ ฉันคิดของการแทนที่พวกเขาด้วยเด็ดขาดรหัสไปรษณีย์ของสหรัฐอเมริกาแล้วทำเข้ารหัสร้อนแต่ที่จะส่งผลให้จำนวนมากของตัวแปร

2
Keras หลาย“Softmax” ในชั้นสุดท้ายไปได้หรือไม่
เป็นไปได้หรือไม่ที่จะใช้ softmaxes mutiple ในเลเยอร์สุดท้ายใน Keras ดังนั้นผลรวมของโหนด 1-4 = 1; 5-8 = 1; เป็นต้น ฉันควรจะไปออกแบบเครือข่ายอื่นหรือไม่?

1
เพื่อนบ้านที่ใกล้ที่สุดทำความเข้าใจกับ t-SNE ไหม?
คำตอบที่นี่ได้กล่าวว่าขนาดในเสื้อ SNE ที่มีความหมายและที่ระยะทางระหว่างจุดที่ไม่ได้เป็นตัวชี้วัดความคล้ายคลึงกัน อย่างไรก็ตามเราสามารถพูดอะไรเกี่ยวกับจุดหนึ่งโดยอ้างอิงจากเพื่อนบ้านที่ใกล้ที่สุดในพื้นที่ t-SNE ได้หรือไม่? คำตอบนี้เป็นสาเหตุที่ทำให้จุดที่เหมือนกันทั้งหมดไม่กระจุกกันแสดงให้เห็นว่าอัตราส่วนของระยะทางระหว่างจุดต่าง ๆ นั้นคล้ายคลึงกันระหว่างการเป็นตัวแทนมิติที่ต่ำกว่าและสูงกว่า ตัวอย่างเช่นภาพด้านล่างแสดง t-SNE บนหนึ่งในชุดข้อมูลของฉัน (15 คลาส) ฉันพูดได้cro 479ไหมว่า(บนขวา) เป็นค่าผิดปกติ? คือfra 1353(ล่างซ้าย) เป็นคล้ายcir 375กว่าภาพอื่น ๆ ในfraชั้นเรียน ฯลฯ ? หรือสิ่งเหล่านี้อาจเป็นเพียงสิ่งประดิษฐ์เช่นfra 1353ติดอยู่ในอีกด้านหนึ่งของกลุ่มไม่กี่กลุ่มและไม่สามารถบังคับให้ผ่านไปยังfraชั้นอื่นได้
10 tsne 

2
เรียงลำดับตัวเลขโดยใช้เลเยอร์ที่ซ่อนเพียง 2 ชั้น
ฉันกำลังอ่านลำดับขั้นตอนสำคัญของการเรียนรู้กับโครงข่ายประสาทโดย Ilya Sutskever และ Quoc Le ในหน้าแรกจะกล่าวสั้น ๆ ว่า: A surprising example of the power of DNNs is their ability to sort N N-bit numbers using only 2 hidden layers of quadratic size ทุกคนสามารถสรุปวิธีการเรียงลำดับตัวเลขโดยใช้เลเยอร์ที่ซ่อนเพียง 2 ชั้นได้หรือไม่?

2
จะทำการ Logistic Regression ด้วยคุณสมบัติจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80% นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่ ฉันกำลังทำงานกับ Python ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!

2
ฟีเจอร์เมทริกซ์ใน word2vec คืออะไร?
ฉันเป็นผู้เริ่มต้นในเครือข่ายประสาทและตอนนี้ฉันกำลังสำรวจรุ่น word2vec อย่างไรก็ตามฉันมีช่วงเวลาที่ยากลำบากในการทำความเข้าใจว่าคุณลักษณะของเมทริกคืออะไร ฉันเข้าใจได้ว่าเมทริกซ์แรกนั้นเป็นเวกเตอร์ที่เข้ารหัสร้อนแรงสำหรับคำที่กำหนด แต่เมทริกซ์ที่สองมีความหมายอย่างไร โดยเฉพาะอย่างยิ่งแต่ละค่าเหล่านั้น (เช่น 17, 24, 1 ฯลฯ ) หมายถึงอะไร

4
ทำไมการเร่งความเร็วของการไล่ระดับสีหากฟังก์ชั่นนั้นราบรื่น
ตอนนี้ผมอ่านหนังสือเล่มหนึ่งชื่อ"Hands-on เครื่องการเรียนรู้กับ Scikit เรียนรู้และ TensorFlow"และในบทที่ 11 ก็มีคำอธิบายต่อไปนี้ในคำอธิบายของ ELU (การชี้แจง Relu) ประการที่สามฟังก์ชั่นนั้นราบรื่นทุกที่รวมถึงรอบ z = 0 ซึ่งจะช่วยเร่งความเร็วการไล่ระดับสีเนื่องจากมันจะไม่เด้งซ้ายและขวามากเท่ากับ z = 0 zหมายถึงแกน x บนกราฟข้างต้น ผมเข้าใจอนุพันธ์เป็นไปอย่างราบรื่นตั้งแต่เส้นมีเส้นโค้งและในดินแดนที่เป็นตราสารอนุพันธ์จะไม่เท่ากับz < 00 อย่างไรก็ตามทำไมเป็นกรณีที่ถ้าฟังก์ชั่น "ราบรื่นทุกที่รวมถึงรอบ z = 0" มันจะเพิ่มความเร็วในการไล่ระดับสี

3
ค้นหาศูนย์ติดต่อกันใน DataFrame และทำการแทนที่ตามเงื่อนไข
ฉันมีชุดข้อมูลเช่นนี้: ตัวอย่าง Dataframe import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) ฉันต้องการแทนที่บางส่วน0ในcol1และcol2ด้วย1's แต่ไม่แทนที่0' s หากสามหรือมากกว่า0อยู่ติดกันในคอลัมน์เดียวกัน วิธีนี้สามารถทำได้กับแพนด้า ชุดข้อมูลดั้งเดิม: names col1 col2 A 0 0 …

1
จะกำหนดความซับซ้อนของประโยคภาษาอังกฤษได้อย่างไร?
ฉันทำงานใน app เพื่อช่วยให้คนเรียนรู้ภาษาอังกฤษเป็นภาษาที่สอง ฉันตรวจสอบแล้วว่าประโยคช่วยในการเรียนรู้ภาษาโดยให้บริบทเพิ่มเติม ฉันทำอย่างนั้นโดยการทำวิจัยเล็ก ๆ ในห้องเรียน 60 คน ฉันขุดกว่าแสนประโยคจากวิกิพีเดียสำหรับคำภาษาอังกฤษที่หลากหลาย (รวมถึง Barrons'800 คำและ 1,000 คำที่พบบ่อยที่สุดในอังกฤษ) ข้อมูลทั้งหมดสามารถดูได้ที่https://buildmyvocab.in เพื่อรักษาคุณภาพของเนื้อหาฉันได้กรองประโยคที่มีความยาวเกิน 160 ตัวอักษรเนื่องจากอาจเข้าใจยาก ในขั้นตอนต่อไปฉันต้องการให้กระบวนการเรียงลำดับเนื้อหานี้เป็นไปโดยอัตโนมัติเพื่อให้ง่ายต่อการเข้าใจ ฉันเป็นคนพูดภาษาอังกฤษที่ไม่ใช่เจ้าของภาษา ฉันต้องการทราบว่าคุณลักษณะใดที่ฉันสามารถใช้เพื่อแยกประโยคง่าย ๆ ออกจากประโยคที่ยาก คุณคิดว่ามันเป็นไปได้ไหม

1
หลีกเลี่ยงการโหลด DataFrame ระหว่างเมล็ดหลามที่แตกต่างกัน
มีวิธีการเก็บรักษาตัวแปร (ตารางขนาดใหญ่ / กรอบข้อมูล) ในหน่วยความจำและใช้ร่วมกันในหลาย ๆ โน๊ตบุ๊ค ipython หรือไม่? ฉันกำลังมองหาบางอย่างที่คล้ายกับแนวคิดของ MATLAB ตัวแปรถาวร มีความเป็นไปได้ที่จะเรียกฟังก์ชั่นที่กำหนดเอง / ห้องสมุดจากบรรณาธิการแต่ละคน (โน๊ตบุ๊ค) และมีฟังก์ชั่นภายนอกแคชบางผลลัพธ์ (หรือตารางขนาดใหญ่) ส่วนใหญ่ฉันต้องการหลีกเลี่ยงการโหลดตารางที่ใช้งานหนัก (ซึ่งโหลดผ่านไลบรารีแบบกำหนดเองที่เรียกจากสมุดบันทึก) เนื่องจากการอ่านจะใช้เวลาประมาณ 2-3 นาทีเมื่อใดก็ตามที่ฉันเริ่มการวิเคราะห์ใหม่

1
ทำไม TensorFlow ไม่พอดีกับโมเดลเชิงเส้นอย่างง่ายถ้าฉันลดข้อผิดพลาดค่าเฉลี่ยสัมบูรณ์แทนข้อผิดพลาดกำลังสองเฉลี่ย?
ในบทนำฉันเพิ่งจะเปลี่ยน loss = tf.reduce_mean(tf.square(y - y_data)) ถึง loss = tf.reduce_mean(tf.abs(y - y_data)) และโมเดลไม่สามารถเรียนรู้การสูญเสียที่ยิ่งใหญ่ขึ้นตามกาลเวลา ทำไม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.