วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

10
ชั้น deconvolutional คืออะไร?
ฉันเพิ่งอ่านเครือข่าย Convolutional ครบวงจรสำหรับการแบ่งส่วนแบบ Semanticโดย Jonathan Long, Evan Shelhamer, Trevor Darrell ฉันไม่เข้าใจว่า "เลเยอร์ deconvolutional" ทำอะไร / ทำงานอย่างไร ส่วนที่เกี่ยวข้องคือ 3.3 การยกกลับคือการบิดอย่างช้าๆ อีกวิธีหนึ่งในการเชื่อมต่อเอาต์พุตหยาบกับพิกเซลหนาแน่นคือการแก้ไข ตัวอย่างเช่นการประมาณค่าแบบสองจังหวะง่ายคำนวณแต่ละเอาต์พุตจากอินพุตสี่ที่ใกล้ที่สุดโดยแผนที่เชิงเส้นที่ขึ้นอยู่กับตำแหน่งสัมพัทธ์ของเซลล์อินพุตและเอาต์พุตเท่านั้น เรียกอีกอย่างว่าการยกตัวอย่างด้วยแฟคเตอร์fนั้นจะทำให้เกิดการโน้มน้าวใจด้วยการป้อนข้อมูลเศษส่วนที่ 1 / f ตราบใดที่ฉเป็นส่วนประกอบสำคัญเป็นวิธีธรรมชาติในการ upsample จึงย้อนกลับบิด (บางครั้งเรียก deconvolution) กับกางเกงของการส่งออกของ ฉ การดำเนินการเช่นนี้ไม่สำคัญที่จะนำมาใช้เพราะมันเพียงแค่ย้อนกลับไปข้างหน้าและย้อนกลับผ่านการบิดyijyijy_{ij}fffffffff ดังนั้นการสุ่มตัวอย่างจะดำเนินการในเครือข่ายสำหรับการเรียนรู้แบบ end-to-end โดย backpropagation จากการสูญเสียพิกเซล โปรดทราบว่าตัวกรอง deconvolution ในเลเยอร์ดังกล่าวไม่จำเป็นต้องได้รับการแก้ไข (เช่นไปยังการสุ่มตัวอย่าง bilinear) แต่สามารถเรียนรู้ได้ สแต็คของ deconvolution เลเยอร์และฟังก์ชั่นการเปิดใช้งานยังสามารถเรียนรู้การยกตัวอย่างแบบไม่เชิงเส้น ในการทดลองของเราเราพบว่าการอัปแซมปลิงในเครือข่ายนั้นรวดเร็วและมีประสิทธิภาพสำหรับการเรียนรู้การทำนายที่หนาแน่น สถาปัตยกรรมการแบ่งส่วนที่ดีที่สุดของเราใช้เลเยอร์เหล่านี้เพื่อเรียนรู้ที่จะยกตัวอย่างสำหรับการทำนายที่ละเอียดในหัวข้อ 4.2 …

30
ชุดข้อมูลที่เผยแพร่สู่สาธารณะ
หนึ่งในปัญหาที่พบบ่อยในศาสตร์ข้อมูลคือการรวบรวมข้อมูลจากแหล่งต่าง ๆ ในรูปแบบที่ทำความสะอาด (กึ่งโครงสร้าง) และการรวมตัวชี้วัดจากแหล่งต่าง ๆ เพื่อทำการวิเคราะห์ในระดับที่สูงขึ้น เมื่อมองถึงความพยายามของคนอื่นโดยเฉพาะคำถามอื่น ๆ ในเว็บไซต์นี้ดูเหมือนว่าคนจำนวนมากในสาขานี้กำลังทำงานซ้ำ ๆ ตัวอย่างเช่นการวิเคราะห์ทวีตโพสต์ Facebook บทความ Wikipedia ฯลฯ เป็นส่วนหนึ่งของปัญหาข้อมูลจำนวนมาก ชุดข้อมูลเหล่านี้บางส่วนสามารถเข้าถึงได้โดยใช้ API สาธารณะที่จัดทำโดยไซต์ผู้ให้บริการ แต่โดยปกติแล้วข้อมูลหรือตัวชี้วัดที่มีค่าบางอย่างจะหายไปจาก API เหล่านี้และทุกคนต้องทำการวิเคราะห์แบบเดียวกันซ้ำแล้วซ้ำอีก ตัวอย่างเช่นแม้ว่าผู้ใช้ที่ทำคลัสเตอร์อาจขึ้นอยู่กับกรณีการใช้งานที่แตกต่างกันและการเลือกคุณสมบัติ แต่การมีการทำคลัสเตอร์พื้นฐานของผู้ใช้ Twitter / Facebook อาจมีประโยชน์ในแอปพลิเคชัน Big Data จำนวนมากซึ่ง API เหล่านี้ไม่ได้จัดหา . มีเว็บไซต์โฮสติ้งชุดข้อมูลดัชนีหรือสาธารณะที่มีชุดข้อมูลที่มีค่าที่สามารถนำกลับมาใช้ใหม่ในการแก้ปัญหาข้อมูลขนาดใหญ่อื่น ๆ ได้หรือไม่? ฉันหมายถึงบางอย่างเช่น GitHub (หรือกลุ่มของไซต์ / ชุดข้อมูลสาธารณะหรืออย่างน้อยก็เป็นรายการที่ครอบคลุม) สำหรับวิทยาศาสตร์ข้อมูล ถ้าไม่มีเหตุผลอะไรที่ไม่มีแพลตฟอร์มสำหรับวิทยาศาสตร์ข้อมูล? มูลค่าเชิงพาณิชย์ของข้อมูลจำเป็นต้องอัพเดทชุดข้อมูลบ่อยๆ ... ? เราไม่สามารถมีโมเดลโอเพ่นซอร์สสำหรับการแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่?

13
K-หมายถึงการจัดกลุ่มสำหรับข้อมูลตัวเลขและหมวดหมู่ผสม
ชุดข้อมูลของฉันมีแอตทริบิวต์ตัวเลขจำนวนหนึ่งและหนึ่งหมวดหมู่ พูดว่าNumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, ที่CategoricalAttrจะใช้เวลาหนึ่งของค่าที่เป็นไปได้ที่สาม: CategoricalAttrValue1, หรือCategoricalAttrValue2CategoricalAttrValue3 ฉันใช้ค่าเริ่มต้น k หมายถึงการจัดกลุ่มการดำเนินการขั้นตอนวิธีสำหรับคู่https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ ใช้งานได้กับข้อมูลตัวเลขเท่านั้น ดังนั้นคำถามของฉัน: มันเป็นที่ถูกต้องในการแยกแอตทริบิวต์เด็ดขาดCategoricalAttrเป็นสามตัวเลข (binary) ตัวแปรเช่นIsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

17
ห้องสมุดไพ ธ อนที่ดีที่สุดสำหรับเครือข่ายประสาทเทียม
ฉันใช้โครงข่ายประสาทเทียมเพื่อแก้ปัญหาการเรียนรู้ของเครื่องที่แตกต่างกัน ฉันใช้ Python และpybrainแต่ห้องสมุดนี้เกือบจะหยุดแล้ว มีทางเลือกอื่นที่ดีใน Python หรือไม่?

8
วิธีการตั้งค่าน้ำหนักของคลาสสำหรับคลาสที่ไม่สมดุลใน Keras
ฉันรู้ว่ามีความเป็นไปได้ใน Keras ด้วยclass_weightsพจนานุกรมพารามิเตอร์ที่เหมาะสม แต่ฉันไม่พบตัวอย่างใด ๆ ใครบางคนจะใจดีที่จะให้อย่างใดอย่างหนึ่ง? โดยวิธีการในกรณีนี้แพรคซิที่เหมาะสมเป็นเพียงการเพิ่มน้ำหนักให้กับชนกลุ่มน้อยตามสัดส่วนการแสดง?

5
ปัญหา“ ตาย ReLU” ในเครือข่ายประสาทคืออะไร?
อ้างอิงจากบันทึกของหลักสูตรสแตนฟอร์ดเกี่ยวกับเครือข่ายประสาทเทียมเพื่อการจดจำภาพย่อหน้าบอกว่า: "น่าเสียดายที่หน่วย ReLU นั้นบอบบางในระหว่างการฝึกและสามารถ" ตาย "ได้ตัวอย่างเช่นการไล่ระดับสีขนาดใหญ่ที่ไหลผ่านเซลล์ประสาท ReLU อาจทำให้น้ำหนักนั้นอัปเดตในลักษณะที่เซลล์ประสาทจะไม่เปิดใช้งานบน datapoint ใด ๆ อีก เกิดขึ้นแล้วการไล่ระดับสีที่ไหลผ่านหน่วยจะเป็นศูนย์จากจุดนั้นตลอดไปนั่นคือหน่วย ReLU สามารถตายอย่างไม่สามารถกลับคืนได้ในระหว่างการฝึกอบรมเนื่องจากพวกเขาสามารถชนกับข้อมูลได้มากมายตัวอย่างเช่นคุณอาจพบว่า 40 % ของเครือข่ายของคุณอาจเป็น "ตาย" (เช่นเซลล์ประสาทที่ไม่เคยเปิดใช้งานในชุดข้อมูลการฝึกอบรมทั้งหมด) หากอัตราการเรียนรู้สูงเกินไปหากตั้งค่าอัตราการเรียนรู้ที่เหมาะสมจะทำให้เกิดปัญหาน้อยลง " การตายของเซลล์ประสาทที่นี่หมายถึงอะไร คุณช่วยกรุณาอธิบายคำอธิบายที่เข้าใจง่ายด้วยคำศัพท์ที่ง่ายขึ้นได้ไหม

5
ฟังก์ชันข้อผิดพลาดข้ามเอนโทรปีในเครือข่ายประสาท
ในMNIST สำหรับ ML Beginnersพวกเขานิยาม cross-entropy เป็น HY'( y) : = - ∑ผมY'ผมเข้าสู่ระบบ( yผม)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) Yผมyiy_iคือค่าความน่าจะเป็นที่คาดการณ์สำหรับ classและคือความน่าจะเป็นที่แท้จริงสำหรับคลาสนั้นy ′ ฉันผมiiY'ผมyi′y_i' คำถามที่ 1 เป็นปัญหาหรือไม่ที่ (ใน ) อาจเป็น 0? นี่แปลว่าเรามีลักษณนามที่แย่จริงๆ แต่คิดว่ามีข้อผิดพลาดในชุดของเราเช่นว่า "เห็นได้ชัด" ระบุว่าเป็น มันจะผิดพลาดหรือไม่ แบบจำลองที่เราเลือก (การเปิดใช้งาน softmax ในตอนท้าย) นั้นไม่เคยให้ความน่าจะเป็น 0 สำหรับคลาสที่ถูกต้องหรือไม่ log ( y i )Yผมyiy_iเข้าสู่ระบบ( yผม)log⁡(yi)\log(y_i)13 คำถามที่ …

8
ข้อแตกต่างระหว่าง fit และ fit_transform ในรุ่น scikit_learn หรือไม่?
ฉันเป็นมือใหม่ในด้านวิทยาศาสตร์ข้อมูลและฉันไม่เข้าใจความแตกต่างระหว่างfitและfit_transformวิธีการในการเรียนรู้ Scikit ใครช่วยอธิบายได้ไหมว่าทำไมเราถึงต้องแปลงข้อมูล แบบจำลองการฟิตข้อมูลการฝึกอบรมและการแปลงเป็นข้อมูลการทดสอบหมายความว่าอย่างไร มันหมายความว่าตัวอย่างเช่นการแปลงตัวแปรเด็ดขาดเป็นตัวเลขในรถไฟและแปลงคุณสมบัติใหม่เพื่อทดสอบข้อมูล?

6
Micro Average vs Macro Average ประสิทธิภาพในการตั้งค่าการจัดหมวดหมู่หลายคลาส
ฉันกำลังลองตั้งค่าการจำแนกประเภทหลายคลาสด้วย 3 คลาส การกระจายคลาสนั้นเบ้โดยข้อมูลส่วนใหญ่ตกหล่นใน 1 ใน 3 คลาส (เลเบลของคลาสเป็น 1,2,3 โดยมี 67.28% ของข้อมูลที่อยู่ในคลาสเลเบล 1, ข้อมูล 11.99% ในคลาส 2 และยังคงอยู่ในคลาส 3) ฉันกำลังฝึกตัวแยกประเภทหลายคลาสในชุดข้อมูลนี้และฉันได้รับประสิทธิภาพต่อไปนี้: Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 ฉันไม่แน่ใจว่าทำไม avg Micro ทั้งหมด การแสดงมีค่าเท่ากันและทำไมค่าเฉลี่ยมาโครจึงต่ำ

15
Python vs R สำหรับการเรียนรู้ของเครื่อง
ฉันเพิ่งเริ่มพัฒนาแอปพลิเคชั่นการเรียนรู้ของเครื่องจักรเพื่อจุดประสงค์ทางวิชาการ ฉันกำลังใช้Rและฝึกฝนตัวเองอยู่ คนอย่างไรก็ตามในจำนวนมากที่ผมได้เห็นการใช้งูหลาม ผู้คนกำลังใช้อะไรในสถาบันการศึกษาและอุตสาหกรรมและคำแนะนำคืออะไร

3
เมื่อใดจึงต้องใช้ One Hot Encoding กับ LabelEncoder vs DictVectorizor
ฉันได้สร้างแบบจำลองที่มีข้อมูลหมวดหมู่มาระยะหนึ่งแล้วและเมื่ออยู่ในสถานการณ์นี้ฉันเริ่มใช้ฟังก์ชั่น LabelEncoder ของ scikit-Learn เพื่อแปลงข้อมูลนี้ก่อนที่จะสร้างแบบจำลอง ผมเข้าใจความแตกต่างระหว่างOHE, LabelEncoderและDictVectorizorในแง่ของสิ่งที่พวกเขากำลังทำเพื่อข้อมูล แต่สิ่งที่ไม่ชัดเจนกับผมคือเมื่อคุณอาจเลือกที่จะจ้างเทคนิคหนึ่งมากกว่าอีก มีอัลกอริทึมหรือสถานการณ์บางอย่างที่มีข้อดี / ข้อเสียเกี่ยวกับผู้อื่นหรือไม่?

6
เมื่อใดที่จะใช้ GRU ผ่าน LSTM
แตกต่างที่สำคัญระหว่าง GRU และ LSTM เป็นที่ GRU มีสองประตู ( ตั้งค่าและการปรับปรุงประตู) ขณะที่ LSTM มีสามประตู (คือการป้อนข้อมูล , การส่งออกและลืมประตู) ทำไมเราใช้ประโยชน์จาก GRU เมื่อเราควบคุมเครือข่ายได้อย่างชัดเจนผ่านโมเดล LSTM (เนื่องจากเรามีสามประตู) ในสถานการณ์ใดที่ GRU ต้องการมากกว่า LSTM

12
ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด
ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

8
การเลือกอัตราการเรียนรู้
ฉันกำลังทำงานเกี่ยวกับการใช้ Stochastic Gradient Descent SGDสำหรับอวนประสาทโดยใช้การขยายพันธุ์กลับและในขณะที่ฉันเข้าใจวัตถุประสงค์ของมันฉันมีคำถามเกี่ยวกับวิธีเลือกค่าสำหรับอัตราการเรียนรู้ อัตราการเรียนรู้ที่เกี่ยวข้องกับรูปร่างของการไล่ระดับสีผิดพลาดตามที่กำหนดอัตราการลดลงหรือไม่? ถ้าเป็นเช่นนั้นคุณจะใช้ข้อมูลนี้เพื่อแจ้งการตัดสินใจของคุณเกี่ยวกับคุณค่าอย่างไร หากไม่ใช่สิ่งที่ฉันควรเลือกค่าประเภทใดและฉันควรเลือกพวกเขาอย่างไร ดูเหมือนว่าคุณต้องการค่าเล็ก ๆ น้อย ๆ เพื่อหลีกเลี่ยงการแก้ไขปัญหา แต่คุณจะเลือกได้อย่างไรว่าคุณจะไม่ติดอยู่ใน minima ท้องถิ่นหรือใช้เวลานานในการสืบทอด มันสมเหตุสมผลหรือไม่ที่จะมีอัตราการเรียนรู้ที่คงที่หรือฉันควรใช้ตัวชี้วัดบางอย่างเพื่อเปลี่ยนค่าของมันเมื่อฉันเข้าใกล้การไล่ระดับสีน้อยที่สุด? กล่าวโดยย่อ: ฉันจะเลือกอัตราการเรียนรู้สำหรับ SGD ได้อย่างไร

15
คุณมองเห็นสถาปัตยกรรมเครือข่ายประสาทเทียมได้อย่างไร
เมื่อเขียนบทความ / นำเสนอเกี่ยวกับหัวข้อที่เกี่ยวกับโครงข่ายประสาทเทียมมักจะแสดงภาพสถาปัตยกรรมเครือข่าย อะไรคือวิธีที่ดี / ง่ายในการมองเห็นสถาปัตยกรรมทั่วไปโดยอัตโนมัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.