วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

1
จำนวนพารามิเตอร์สำหรับเลเยอร์ convolution
ในบทความที่อ้างถึงอย่างสูงนี้ผู้เขียนให้คำอธิบายเกี่ยวกับจำนวนพารามิเตอร์น้ำหนัก ฉันไม่ชัดเจนว่าทำไมมันมีพารามิเตอร์ฉันคิดว่ามันควรจะเป็นเนื่องจากแต่ละช่องสัญญาณใช้ตัวกรองเดียวกันร่วมกันซึ่งมีพารามิเตอร์49C249C249C^249C49C49CCCC494949

3
ฉันจะทำให้เมทริกซ์ความสับสนใหญ่อ่านง่ายขึ้นได้อย่างไร
ฉันเพิ่งเผยแพร่ชุดข้อมูล ( ลิงก์ ) ที่มี 369 คลาส ฉันทำการทดลองสองสามครั้งเพื่อให้พวกเขารู้สึกว่างานการจัดหมวดหมู่นั้นยากเพียงใด โดยปกติแล้วฉันชอบมันถ้ามีเมทริกซ์ความสับสนเพื่อดูชนิดของข้อผิดพลาดที่เกิดขึ้น อย่างไรก็ตาม369×369369×369369 \times 369 เมทริกซ์นั้นใช้ไม่ได้ มีวิธีให้ข้อมูลที่สำคัญเกี่ยวกับเมทริกซ์ความสับสนใหญ่หรือไม่? ตัวอย่างเช่นโดยทั่วไปจะมี 0 จำนวนมากซึ่งไม่น่าสนใจ เป็นไปได้ไหมที่จะจัดเรียงคลาสเพื่อให้รายการที่ไม่เป็นศูนย์ส่วนใหญ่อยู่ในแนวทแยงมุมเพื่ออนุญาตให้แสดงเมทริกซ์หลายตัวซึ่งเป็นส่วนหนึ่งของเมทริกซ์ความสับสนแบบสมบูรณ์? นี่คือตัวอย่างสำหรับเมทริกซ์ความสับสนใหญ่ ตัวอย่างในป่า รูปที่ 6 ของEMNISTดูดี: มันง่ายที่จะดูว่ามีหลายกรณี อย่างไรก็ตามเหล่านั้นเป็นเพียง262626ชั้นเรียน หากมีการใช้ทั้งหน้าแทนที่จะเป็นเพียงคอลัมน์เดียวอาจเป็น 3 เท่าได้ แต่นั่นจะยังคงเป็นเพียงเท่านั้น3⋅26=783⋅26=783 \cdot 26 = 78ชั้นเรียน ไม่ได้ใกล้เคียงกับ 369 คลาสของ HASY หรือ 1,000 ImageNet ดูสิ่งนี้ด้วย คำถามที่คล้ายกันของฉันในCS.stackexchange

1
Convolutional ply แตกต่างจากเครือข่าย Convolutional ทั่วไปอย่างไร
ฉันกำลังทำงานเพื่อสร้างผลลัพธ์ของเอกสารนี้ใหม่ ในกระดาษพวกเขาอธิบายวิธีการใช้ CNN สำหรับการสกัดคุณลักษณะและมีรูปแบบอะคูสติกที่ Dnn-hmm และถูกฝึกโดยใช้ RBM ส่วนย่อย III ระบุสถานะที่แตกต่างกันในการแสดงข้อมูลอินพุต ฉันตัดสินใจที่จะสแต็คพล็อตสเปกตรัมของสแตติกเดลต้าและเดลต้าในแนวตั้ง ดังนั้นเช่น: กระดาษจะอธิบายว่าเครือข่ายควรเป็นอย่างไร พวกเขาระบุว่าพวกเขาใช้เครือข่าย convolutional แต่ไม่มีอะไรเกี่ยวกับโครงสร้างของเครือข่าย? ยิ่งไปกว่านั้นเครือข่ายอ้างถึงเสมอว่าเป็นคนเร่ขายของ? ซึ่งฉันแน่ใจว่าฉันเห็นความแตกต่างใด ๆ เมื่อเทียบกับเครือข่ายประสาทเทียมธรรมดาเครือข่าย (cnn) กระดาษระบุสิ่งนี้เกี่ยวกับความแตกต่าง: (จากส่วนย่อย III B) อย่างไรก็ตามการแปลงชั้นจะแตกต่างจากเลเยอร์มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์ในสองส่วนที่สำคัญ ขั้นแรกหน่วย Convolutional แต่ละหน่วยจะรับอินพุตจากพื้นที่ท้องถิ่นของอินพุตเท่านั้น ซึ่งหมายความว่าแต่ละหน่วยแสดงถึงคุณสมบัติบางอย่างของภูมิภาคท้องถิ่นของอินพุต ประการที่สองหน่วยของการจัดเรียงสังวัตนาสามารถจัดเป็นแผนที่คุณลักษณะจำนวนหนึ่งซึ่งหน่วยทั้งหมดในแผนที่คุณลักษณะเดียวกันจะมีน้ำหนักเท่ากัน แต่รับข้อมูลจากสถานที่ต่าง ๆ ของชั้นล่าง อีกสิ่งหนึ่งที่ฉันสงสัยคือว่ากระดาษระบุจำนวนเอาต์พุตพารามิเตอร์ที่จำเป็นในการป้อนข้อมูลแบบจำลองอะคูสติก dnn-hmm หรือไม่ ฉันดูเหมือนจะไม่สามารถถอดรหัสจำนวนตัวกรองขนาดตัวกรอง .. ในรายละเอียดทั่วไปของเครือข่ายได้หรือไม่

4
การตีความแผนผังการตัดสินใจในบริบทของคุณลักษณะสำคัญ
ฉันกำลังพยายามที่จะเข้าใจวิธีการทำความเข้าใจกระบวนการตัดสินใจของรูปแบบการจัดหมวดหมู่ต้นไม้การตัดสินใจที่สร้างขึ้นด้วยความเข้าใจ สิ่งสำคัญสองประการที่ฉันกำลังดูคือการนำเสนอกราฟวิซของต้นไม้และรายการของคุณลักษณะสำคัญ สิ่งที่ฉันไม่เข้าใจคือการกำหนดความสำคัญของคุณลักษณะในบริบทของต้นไม้ ตัวอย่างเช่นนี่คือรายการสำคัญของคุณลักษณะของฉัน: การจัดอันดับคุณลักษณะ: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD (0.075009) คุณสมบัติ E (0.068310) FeatureF (0.067118) FeatureG (0.066510) คุณสมบัติ H (0.043502) คุณสมบัติ I (0.040281) คุณสมบัติ J (0.039006) FeatureK (0.032618) FeatureL (0.008136) FeatureM (0.000000) อย่างไรก็ตามเมื่อฉันดูที่ด้านบนของต้นไม้ดูเหมือนว่า: ในความเป็นจริงแล้วฟีเจอร์บางอย่างที่มีการจัดอันดับว่า "สำคัญที่สุด" จะไม่ปรากฏขึ้นจนกว่าจะลงไปถึงต้นไม้และบนสุดของต้นไม้คือ FeatureJ ซึ่งเป็นหนึ่งในฟีเจอร์ที่มีอันดับต่ำที่สุด ข้อสันนิษฐานที่ไร้เดียงสาของฉันคือว่าฟีเจอร์ที่สำคัญที่สุดจะถูกจัดอยู่ใกล้กับส่วนบนสุดของต้นไม้เพื่อให้ได้ผลที่ดีที่สุด หากไม่ถูกต้องแล้วคุณสมบัติใดที่ทำให้ "สำคัญ"

2
ทำไมอัตราการเรียนรู้ทำให้น้ำหนักของเครือข่ายประสาทเทียมสูงขึ้น?
ฉันใช้เทนเซอร์โฟลว์เพื่อเขียนโครงข่ายประสาทอย่างง่ายสำหรับการวิจัยนิดหน่อยและฉันมีปัญหามากมายเกี่ยวกับน้ำหนักของ 'น่าน' ในขณะฝึกอบรม ฉันลองวิธีแก้ไขปัญหาที่แตกต่างกันมากมายเช่นการเปลี่ยนเครื่องมือเพิ่มประสิทธิภาพการเปลี่ยนแปลงการสูญเสียขนาดข้อมูลเป็นต้น แต่ไม่มีประโยชน์ ในที่สุดฉันสังเกตเห็นว่าการเปลี่ยนแปลงของอัตราการเรียนรู้ทำให้น้ำหนักของฉันแตกต่างอย่างไม่น่าเชื่อ ใช้อัตราการเรียนรู้. 001 (ซึ่งฉันคิดว่าค่อนข้างอนุรักษ์นิยม) ฟังก์ชั่นย่อเล็กสุดจะเพิ่มความสูญเสียอย่างมาก หลังจากยุคหนึ่งความสูญเสียอาจเพิ่มขึ้นจากจำนวนในหลักพันไปเป็นล้านล้านและจากนั้นไปสู่อนันต์ ('น่าน') เมื่อฉันลดอัตราการเรียนรู้เป็น. 0001 ทุกอย่างก็ใช้ได้ดี 1) เหตุใดลำดับความสำคัญเดียวจึงมีผลเช่นนี้? 2) ทำไมฟังก์ชั่นย่อเล็กสุดทำหน้าที่ตรงข้ามกับฟังก์ชั่นของมันและเพิ่มการสูญเสียสูงสุด? สำหรับฉันแล้วดูเหมือนว่าจะไม่เกิดขึ้นไม่ว่าจะเรียนรู้อะไรก็ตาม

2
คุณสมบัติของคำเวกเตอร์ใน word2vec
ฉันพยายามวิเคราะห์ความเชื่อมั่น เพื่อที่จะแปลงคำเป็นเวกเตอร์คำฉันใช้รุ่น word2vec สมมติว่าฉันมีประโยคทั้งหมดในรายการชื่อ 'ประโยค' และฉันส่งประโยคเหล่านี้ไปยัง word2vec ดังนี้: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) เนื่องจากฉันเป็น noob ไปยังคำเวกเตอร์ฉันมีสองข้อสงสัย 1- การตั้งค่าจำนวนคุณสมบัติเป็น 300 จะกำหนดคุณสมบัติของคำว่าเวกเตอร์ แต่คุณสมบัติเหล่านี้มีความหมายว่าอะไร? หากแต่ละคำในรูปแบบนี้มีอาร์เรย์แบบ 1x1 อันคุณสมบัติแบบ 300 เหล่านี้มีความหมายอะไรกับคำนั้น? 2- การสุ่มตัวอย่างลงตามที่แสดงด้วยพารามิเตอร์ 'ตัวอย่าง' ในแบบจำลองด้านบนทำตามความเป็นจริงอย่างไร ขอบคุณล่วงหน้า.

1
จะเข้าใกล้การแข่งขัน numer.ai ด้วยวิธีทำนายตัวเลขแบบไม่ระบุชื่อได้อย่างไร
Numer.aiอยู่มาระยะหนึ่งแล้วและดูเหมือนจะมีเพียงไม่กี่โพสต์หรือการสนทนาอื่น ๆ เกี่ยวกับมันบนเว็บ ระบบมีการเปลี่ยนแปลงเป็นครั้งคราวและการตั้งค่าวันนี้มีดังต่อไปนี้: ฝึกอบรม (N = 96K) และทดสอบข้อมูล (N = 33K) พร้อมคุณสมบัติ 21 อย่างที่มีค่าต่อเนื่องใน [0,1] และเป้าหมายไบนารี ข้อมูลสะอาด (ไม่มีค่าขาดหาย) และอัปเดตทุก 2 สัปดาห์ คุณสามารถอัปโหลดการทำนายของคุณ (ในชุดทดสอบ) และดูการสูญเสียบันทึก ส่วนหนึ่งของข้อมูลการทดสอบคือข้อมูลสดและคุณจะได้รับเงินสำหรับการคาดการณ์ที่ดี สิ่งที่ฉันต้องการจะพูดคุย: เนื่องจากคุณสมบัติไม่ระบุชื่อโดยสิ้นเชิงฉันคิดว่ามีวิศวกรรมคุณสมบัติไม่มากที่เราสามารถทำได้ ดังนั้นวิธีการของฉันมีกลไกมาก: แรงบันดาลใจจากนี้ฉันจะใช้ขั้นตอนวิธีการจัดหมวดหมู่ในการกรองข้อมูลการฝึกอบรมผู้ที่พอดีกับการทดสอบข้อมูลที่ดีที่สุดของฉัน คิดออกก่อนการประมวลผลที่ดี ฝึกอัลกอริทึมการจำแนกที่ดี สร้างตระการตาของพวกเขา (ซ้อน, .. ) คำถามที่เป็นรูปธรรม: เกี่ยวกับขั้นตอนที่ 1: คุณมีประสบการณ์เกี่ยวกับวิธีการดังกล่าวหรือไม่? สมมติว่าฉันสั่งความน่าจะเป็นของตัวอย่างรถไฟให้เป็นของการทดสอบ (ปกติต่ำกว่า 0.5) จากนั้นฉันหาค่าความน่าจะเป็น K ที่ใหญ่ที่สุด คุณจะเลือก K อย่างไร ฉันพยายามกับ …

1
ความสำคัญของคุณสมบัติผ่านป่าสุ่มและการถดถอยเชิงเส้นจะแตกต่างกัน
ใช้ Lasso เพื่อจัดอันดับคุณสมบัติและได้ผลลัพธ์ต่อไปนี้: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 โปรดทราบว่าชุดข้อมูลมี 3 ป้าย การจัดอันดับของคุณสมบัติสำหรับป้ายกำกับที่แตกต่างกันเหมือนกัน จากนั้นใช้ฟอเรสต์แบบสุ่มกับชุดข้อมูลเดียวกัน: rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 โปรดสังเกตว่าการจัดอันดับแตกต่างจากการจัดทำโดย Lasso อย่างมาก จะตีความความแตกต่างได้อย่างไร มันบอกเป็นนัย ๆ ว่าแบบจำลองพื้นฐานไม่เชิงเส้นหรือไม่?

3
การเลือกวิธีการทำให้เป็นมาตรฐานในเครือข่ายประสาท
เมื่อฝึกอบรมเครือข่ายประสาทเทียมมีอย่างน้อย 4 วิธีในการทำให้เป็นปกติของเครือข่าย: การทำให้เป็นมาตรฐาน L1 การทำให้เป็นมาตรฐาน L2 การออกกลางคัน การปรับสภาพเป็นกลุ่ม บวกกับสิ่งอื่น ๆ เช่นการแบ่งปันน้ำหนักและการลดจำนวนการเชื่อมต่อซึ่งอาจไม่ได้มาตรฐานในแง่ที่เข้มงวดที่สุด แต่เราจะเลือกวิธีการทำให้เป็นมาตรฐานแบบใดที่จะใช้? มีวิธีหลักการมากกว่า "เพียงแค่ลองทุกอย่างและดูว่าอะไรทำงาน"?

3
อัลกอริทึมการเรียนรู้ของเครื่องใดที่ได้รับการยอมรับว่าเป็นการแลกเปลี่ยนที่ดีระหว่างการอธิบายและการทำนาย?
ข้อความการเรียนรู้ของเครื่องที่อธิบายอัลกอริธึมเช่นเครื่องเร่งการไล่ระดับสีหรือเครือข่ายประสาทเทียมมักจะแสดงความคิดเห็นว่าแบบจำลองเหล่านี้ดีต่อการทำนาย แต่สิ่งนี้มาจากการสูญเสียความสามารถในการอธิบายหรือตีความ ในทางกลับกันต้นไม้การตัดสินใจเดี่ยวและแบบจำลองการถดถอยแบบคลาสสิกนั้นมีคำอธิบายที่ดี แต่ให้ความแม่นยำในการทำนายที่ค่อนข้างต่ำเมื่อเทียบกับแบบจำลองที่มีความซับซ้อนเช่นป่าที่สุ่มหรือ SVM มีรูปแบบการเรียนรู้ด้วยเครื่องที่ยอมรับกันโดยทั่วไปว่าเป็นรูปแบบการแลกเปลี่ยนที่ดีระหว่างทั้งสอง มีวรรณกรรมใดที่แจกแจงลักษณะของอัลกอริทึมที่อนุญาตให้อธิบายได้หรือไม่? (คำถามนี้ถูกถามก่อนหน้านี้เกี่ยวกับการตรวจสอบข้าม)

3
กลไกการแนะนำอะไรสำหรับสถานการณ์ที่ผู้ใช้สามารถเห็นเศษส่วนของรายการทั้งหมดเท่านั้น
ฉันต้องการที่จะเพิ่มคุณลักษณะข้อเสนอแนะไปยังระบบการจัดการเอกสาร เป็นเซิร์ฟเวอร์ที่จัดเก็บเอกสารของ บริษัท ส่วนใหญ่ พนักงานเรียกดูเว็บอินเตอร์เฟสและคลิกเพื่อดาวน์โหลด (หรืออ่านออนไลน์) เอกสารที่ต้องการ พนักงานแต่ละคนมีสิทธิ์เข้าถึงชุดย่อยของเอกสารทั้งหมดเท่านั้น: เป้าหมายของฉัน : แนะนำเพื่อนร่วมทีมให้เอกสารที่เพิ่งเปิดโดยเพื่อนร่วมทีมของพวกเขาหรือสเปรดชีตที่ทำหน้าที่เป็นภาคผนวกของเอกสารที่เพิ่งเปิดหรือสิ่งที่พวกเขาอาจต้องการอ่าน มีกลไกการแนะนำจำนวนมากสำหรับข้อมูลที่เปิดเผยต่อสาธารณะ (ผู้ใช้ Netflix ทุกคนสามารถดูภาพยนตร์ทั้งหมด) แต่สถานการณ์ที่นี่เป็นพิเศษ: พนักงานแต่ละคนได้รับอนุญาตให้ใช้เศษส่วนของเอกสารทั้งหมดเท่านั้นในขณะที่ผู้ใช้ Netflix ทุกคนสามารถเข้าถึงภาพยนตร์ทั้งหมดได้ ตัวอย่าง : Employee1 สามารถอ่าน DocumentA แต่ไม่ใช่ DocumentB Employee2 สามารถอ่านได้ทั้งสองและ Employee3 ไม่สามารถอ่านใด ๆ แน่นอนฉันต้องไม่แนะนำเอกสารของพนักงานที่เขา / เธอไม่สามารถเข้าถึงได้ นอกจากนี้ฉันคิดว่าฉันควรพิจารณาความนิยมของเอกสารเฉพาะในบริบทของพนักงานที่สามารถเข้าถึงเอกสารได้ เพื่อทำให้สิ่งที่ซับซ้อนยิ่งขึ้นบางครั้งพนักงานย้ายจากโครงการหนึ่งไปอีกโครงการหนึ่งซึ่งส่งผลกระทบต่อเอกสารที่พวกเขาสามารถเข้าถึงได้ มีชื่อของปัญหาประเภทนี้หรือไม่? สามารถลดลงโดยไม่สูญเสียความแม่นยำ / ประสิทธิภาพไปสู่ปัญหาที่พบบ่อยได้หรือไม่ ถ้าไม่แนวทางใดจะทำงานได้ดีสำหรับปัญหาประเภทนี้ หมายเหตุ: เอ็นจิ้นการแนะนำที่เหมือน Netflix นั้นไม่ดีพอ ควรมีเอกสารที่มีจำนวนการดู 50 ครั้งหากพนักงาน 10 คน …

2
ชุดข้อมูลมาตรฐานสำหรับการกรองร่วมกัน
ฉันต้องการที่จะทดสอบขั้นตอนวิธีการใหม่สำหรับการกรองการทำงานร่วมกัน กรณีการใช้งานทั่วไปคือการแนะนำภาพยนตร์ตามการตั้งค่าของผู้ใช้ที่คล้ายกับผู้ใช้ที่เฉพาะเจาะจง ชุดข้อมูลเบนช์มาร์กทั่วไปที่นักวิจัยมักใช้เพื่อทดสอบอัลกอริทึมคืออะไร ฉันรู้ว่าใน Computer Vision ผู้คนมักใช้ MNIST หรือ CIFAR แต่ฉันไม่พบชุดข้อมูลที่คล้ายกันสำหรับการกรองร่วมกัน

3
ส่งออกน้ำหนัก (สูตร) ​​จาก Random Forest Regressor ใน Scikit-Learn
ฉันได้ฝึกฝนแบบจำลองการทำนายด้วย Scikit Learn ใน Python (Random Forest Regressor) และฉันต้องการแยกน้ำหนักของคุณลักษณะแต่ละอย่างเพื่อสร้างเครื่องมือ excel สำหรับการคาดการณ์ด้วยตนเอง สิ่งเดียวที่ฉันพบคือmodel.feature_importances_แต่มันไม่ได้ช่วย มีวิธีการที่จะบรรลุหรือไม่ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model …

1
ความสัมพันธ์ระหว่าง SVM และการสูญเสียบานพับคืออะไร?
เพื่อนร่วมงานของฉันและฉันกำลังพยายามห้อมล้อมความแตกต่างระหว่างการถดถอยโลจิสติกและ SVM เห็นได้ชัดว่าพวกเขากำลังปรับฟังก์ชั่นวัตถุประสงค์ที่แตกต่างกัน SVM ง่ายเหมือนการบอกว่ามันเป็นลักษณนามแบบแบ่งแยกที่สามารถปรับการสูญเสียบานพับให้เหมาะสมได้หรือไม่? หรือซับซ้อนกว่านั้นหรือ? เวกเตอร์สนับสนุนมีบทบาทอย่างไร สิ่งที่เกี่ยวกับตัวแปรหย่อน ทำไมคุณไม่สามารถใช้ SVM แบบลึกในแบบที่คุณไม่สามารถมีเครือข่ายประสาทแบบลึกที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid ได้?

2
มีการศึกษาใดที่ตรวจสอบการออกกลางคันเทียบกับการทำให้เป็นมาตรฐานอื่น ๆ ?
มีเอกสารใดที่ตีพิมพ์ซึ่งแสดงความแตกต่างของวิธีการทำให้เป็นมาตรฐานสำหรับเครือข่ายประสาทโดยเฉพาะอย่างยิ่งในโดเมนที่ต่างกัน (หรืออย่างน้อยชุดข้อมูลที่แตกต่างกัน) ฉันถามเพราะตอนนี้ฉันมีความรู้สึกว่าคนส่วนใหญ่ดูเหมือนจะใช้การออกกลางคันสำหรับการมองเห็นในคอมพิวเตอร์เป็นประจำ ฉันต้องการตรวจสอบว่ามีเหตุผล (ไม่) ที่จะใช้วิธีการทำให้เป็นมาตรฐานแบบต่างๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.