วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

1
วิธีจัดการกับปัจจัยศูนย์ในการคำนวณลักษณนาม Naive Bayes?
ถ้าฉันมีชุดข้อมูลการฝึกอบรมและฉันฝึกตัวจําแนก Naive Bayes บนมันและฉันมีค่าคุณลักษณะที่มีความน่าจะเป็นศูนย์ ฉันจะจัดการสิ่งนี้ได้อย่างไรหากฉันต้องการทำนายการจัดประเภทของข้อมูลใหม่ในภายหลัง ปัญหาคือถ้ามีศูนย์ในการคำนวณผลิตภัณฑ์ทั้งหมดจะกลายเป็นศูนย์ไม่ว่าจะมีค่าอื่น ๆ อีกกี่ค่าที่ฉันได้รับซึ่งอาจจะหาวิธีแก้ไขปัญหาอื่นได้ ตัวอย่าง: P( x | s p a m = ye s ) = P( Tฉันm e Zo n e = US| spam=yE s )⋅ P( G e o L o c a t i o n = E)ยู| spam=yE s ) ⋅ …

1
Heatmap บนแผนที่ใน Python
การวิเคราะห์โหมดมีคุณลักษณะ heatmap ที่ดี ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ) แต่มันไม่เอื้อต่อการเปรียบเทียบแผนที่ (เพียงหนึ่งต่อรายงาน) สิ่งที่พวกเขาอนุญาตคือการดึงข้อมูลเข้าสู่โน้ตบุ๊คไพ ธ อนที่ห่อหุ้มได้ง่าย จากนั้นภาพใด ๆ ในหลามสามารถเพิ่มลงในรายงานได้อย่างง่ายดาย ดังนั้นคำถามของฉันคือฉันจะสร้าง heatmap บนแผนที่จริงใน Python ได้อย่างไร ฉันได้ตรวจสอบ follium และชัดเจน แต่ดูเหมือนจะไม่มีฟังก์ชั่นที่คล้ายกัน

5
ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่
ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …
14 python  r  data-cleaning  data  sql 

1
Back-propagation ผ่านเลเยอร์การรวมสูงสุด
ฉันมีขนาดเล็กย่อยคำถามคำถามนี้ ฉันเข้าใจว่าเมื่อการแพร่กระจายย้อนกลับผ่านเลเยอร์รวมกำไรสูงสุดการไล่ระดับสีจะถูกส่งกลับในลักษณะที่เซลล์ประสาทในเลเยอร์ก่อนหน้าซึ่งถูกเลือกเมื่อแม็กซ์ได้รับการไล่ระดับสีทั้งหมด สิ่งที่ฉันไม่แน่ใจ 100% คือวิธีการไล่ระดับสีในเลเยอร์ถัดไปที่ได้รับการส่งกลับไปยังเลเยอร์รวมกำไร ดังนั้นคำถามแรกคือถ้าฉันมีเลเยอร์ร่วมกันเชื่อมต่อกับเลเยอร์เชื่อมต่ออย่างเต็มที่ - เช่นภาพด้านล่าง เมื่อคำนวณการไล่สีสำหรับ cyan "neuron" ของ pooling layer ฉันจะรวมการไล่ระดับสีทั้งหมดจากเซลล์เลเยอร์ FC หรือไม่ หากสิ่งนี้ถูกต้องแล้ว "เซลล์ประสาท" ของเลเยอร์รวมกำไรทุกคนมีการไล่ระดับสีเดียวกันหรือไม่ ตัวอย่างเช่นถ้าเซลล์ประสาทแรกของเลเยอร์ FC มีการไล่ระดับสีที่ 2, ที่สองมีการไล่ระดับสีที่ 3 และที่สามการไล่ระดับที่ 6 การไล่ระดับสีของ "เซลล์ประสาท" สีน้ำเงินและสีม่วงในชั้นรวมกำไรคืออะไรและทำไม? และคำถามที่สองคือเมื่อเลเยอร์ร่วมกันเชื่อมต่อกับอีกชั้นหนึ่ง ฉันจะคำนวณการไล่ระดับสีได้อย่างไร ดูตัวอย่างด้านล่าง สำหรับ "เซลล์ประสาท" ที่อยู่บนสุดสุดของชั้นรวมกำไร (สีเขียวที่กำหนดไว้) ฉันแค่ใช้การไล่ระดับสีของเซลล์ประสาทสีม่วงในชั้น Conv ต่อไปและกำหนดเส้นทางกลับใช่ไหม? สีเขียวที่เติมเต็มแล้วล่ะ? ฉันต้องคูณคอลัมน์แรกของเซลล์ประสาทในเลเยอร์ถัดไปเนื่องจากกฎลูกโซ่ หรือฉันจะต้องเพิ่มพวกเขา? โปรดอย่าโพสต์สมการและบอกฉันว่าคำตอบของฉันอยู่ตรงนั้นเพราะฉันพยายามคลุมหัวสมการและฉันยังไม่เข้าใจมันอย่างสมบูรณ์แบบนั่นคือเหตุผลที่ฉันถามคำถามนี้ในแบบง่าย ๆ ทาง

3
Doc2vec (gensim) - ฉันจะอนุมานฉลากของประโยคที่มองไม่เห็นได้อย่างไร
https://radimrehurek.com/gensim/models/doc2vec.html ตัวอย่างเช่นหากเราฝึกอบรม doc2vec ด้วย "aaaaaAAAAAaaaaaa" - "ป้ายกำกับ 1" "bbbbbbBBBBBbbbbb" - "ป้ายกำกับ 2" เราสามารถอนุมาน“ aaaaAAAAaaaaAA” เป็นป้ายกำกับ 1 โดยใช้ Doc2vec ได้หรือไม่ ฉันรู้ว่า Doc2vec สามารถฝึกคำเวกเตอร์และเวกเตอร์ฉลาก การใช้เวกเตอร์นี้เราสามารถอนุมานประโยคที่มองไม่เห็น
14 gensim 

1
อะไรคือความแตกต่างระหว่างเครือข่าย Bayes (ไดนามิก) และ HMM
ฉันได้อ่านแล้วว่า HMMs ตัวกรองอนุภาคและตัวกรองคาลมานเป็นกรณีพิเศษของเครือข่ายเบย์แบบไดนามิก อย่างไรก็ตามฉันรู้เพียง HMM และฉันไม่เห็นความแตกต่างของเครือข่าย Bayes แบบไดนามิก ใครช่วยอธิบายหน่อยได้ไหม มันจะดีถ้าคำตอบของคุณอาจคล้ายกับต่อไปนี้ แต่สำหรับเครือข่ายเบย์: โมเดลมาร์คอฟที่ซ่อนอยู่ โมเดลมาร์คอฟที่ซ่อนอยู่ (HMM) คือ 5-tuple :λ=(S,O,A,B,Π)λ=(S,O,A,B,Π)\lambda = (S, O, A, B, \Pi) : ชุดของรัฐ (เช่น "จุดเริ่มต้นของฟอนิม", "กึ่งกลางของฟอนิม", "จุดสิ้นสุดของฟอนิม")S≠∅S≠∅S \neq \emptyset : ชุดการสังเกตที่เป็นไปได้ (สัญญาณเสียง)O≠∅O≠∅O \neq \emptyset : เมทริกซ์สุ่มซึ่งจะช่วยให้Probabilités ( ฉันเจ )ที่จะได้รับจากรัฐฉันไปยังรัฐเจA∈R|S|×|S|A∈R|S|×|S|A \in \mathbb{R}^{|S| \times |S|}(aij)(aij)(a_{ij})iiijjj : เมทริกซ์สุ่มซึ่งจะช่วยให้Probabilités ( ขk L …

2
ข้อมูลมิติสูง: เทคนิคที่เป็นประโยชน์ที่จะรู้คืออะไร?
เนื่องจากคำสาปของขนาดต่าง ๆความแม่นยำและความเร็วของเทคนิคการทำนายทั่วไปจำนวนมากจะลดลงในข้อมูลมิติสูง เทคนิค / เทคนิค / การวิเคราะห์พฤติกรรมที่มีประโยชน์ที่สุดที่ช่วยจัดการกับข้อมูลมิติสูงอย่างมีประสิทธิภาพคืออะไร ตัวอย่างเช่น, วิธีการทางสถิติ / แบบจำลองบางอย่างทำงานได้ดีกับชุดข้อมูลที่มีมิติสูงหรือไม่? เราสามารถปรับปรุงประสิทธิภาพของแบบจำลองการทำนายของเราบนข้อมูลมิติสูงโดยใช้บางอย่าง (ที่กำหนดแนวคิดทางเลือกของระยะทาง) หรือเมล็ด (ที่กำหนดความคิดทางเลือกของผลิตภัณฑ์จุด) อะไรคือเทคนิคที่มีประโยชน์ที่สุดในการลดมิติข้อมูลสำหรับข้อมูลมิติสูง?

2
การวิเคราะห์ผลการทดสอบ A / B ซึ่งไม่ได้มีการแจกแจงแบบปกติโดยใช้ t-test อิสระ
ฉันมีชุดผลลัพธ์จากการทดสอบ A / B (กลุ่มควบคุมหนึ่งกลุ่มหนึ่งกลุ่มคุณลักษณะ) ซึ่งไม่พอดีกับการแจกแจงแบบปกติ ในความเป็นจริงการกระจายมีความคล้ายคลึงกับการกระจายรถม้า ฉันเชื่อว่าการทดสอบแบบอิสระนั้นต้องการให้กลุ่มตัวอย่างกระจายอย่างน้อยประมาณปกติซึ่งทำให้ฉันไม่ได้ใช้การทดสอบแบบทีเป็นวิธีการทดสอบอย่างมีนัยสำคัญ แต่คำถามของฉันคือ: ณ จุดใดที่หนึ่งสามารถพูดได้ว่าการทดสอบ t- ไม่ใช่วิธีการทดสอบที่สำคัญ? หรือใส่อีกวิธีหนึ่งจะมีคุณสมบัติอย่างไรความน่าเชื่อถือของค่า p ของการทดสอบ t ได้รับเพียงชุดข้อมูล?

3
p-values ​​หลอกลวงเมื่อใด
เงื่อนไขข้อมูลที่เราควรระวังคืออะไรค่า p อาจไม่ใช่วิธีที่ดีที่สุดในการตัดสินใจนัยสำคัญทางสถิติ มีปัญหาประเภทใดบ้างที่เข้าหมวดนี้หรือไม่

3
ปรับขนาดรูปภาพและขยายสำหรับ CNN
ฉันต้องการฝึกการรับรู้ภาพของ CNN รูปภาพสำหรับการฝึกอบรมมีขนาดไม่คงที่ ฉันต้องการให้ขนาดอินพุตสำหรับ CNN เท่ากับ 50x100 (สูง x กว้าง) ตัวอย่างเช่น เมื่อฉันปรับขนาดภาพขนาดเล็กบางอย่าง (เช่น 32x32) เป็นขนาดอินพุตเนื้อหาของภาพจะถูกยืดออกในแนวนอนมากเกินไป แต่สำหรับภาพขนาดกลางบางภาพมันก็โอเค วิธีการที่เหมาะสมสำหรับการปรับขนาดภาพในขณะที่หลีกเลี่ยงเนื้อหาที่ถูกทำลายคืออะไร? (ฉันกำลังคิดเกี่ยวกับการขยายภาพด้วยขนาด 0s เพื่อให้ได้ขนาดที่สมบูรณ์หลังจากปรับขนาดเป็นอัตราส่วนการรักษาความกว้างและความสูงในระดับหนึ่งมันจะโอเคกับวิธีนี้ไหม)

1
ต้นไม้ตัดสินใจ: ต้นไม้ฉลาด (ดีที่สุดก่อน) และระดับต้นไม้ฉลาด
ปัญหาที่ 1: ฉันสับสนกับคำอธิบายของ LightGBMเกี่ยวกับวิธีการขยายต้นไม้ พวกเขาระบุ: ขั้นตอนวิธีการเรียนรู้ต้นไม้ตัดสินใจส่วนใหญ่จะปลูกต้นไม้ตามระดับ (ความลึก) ในแนวนอนเช่นภาพต่อไปนี้: คำถามที่ 1 : อัลกอริทึม "ส่วนใหญ่" ใดถูกนำมาใช้ในลักษณะนี้ เท่าที่ฉันรู้ C4.5 และ CART ใช้ DFS XGBoost ใช้ BFS อัลกอริธึมหรือแพ็คเกจอื่นใดที่ใช้ BFS สำหรับต้นไม้ตัดสินใจ ปัญหาที่ 2: สถานะ LightGBM: LightGBM ปลูกต้นไม้ตามใบฉลาด (ดีที่สุดก่อน) มันจะเลือกใบไม้ที่มีการสูญเสียเดลต้าสูงสุดที่จะเติบโต เมื่อปลูกใบเดียวกันอัลกอริทึมใบไม้ฉลาดสามารถลดการสูญเสียมากกว่าอัลกอริทึมระดับฉลาด คำถามที่ 2 : ถูกต้องหรือไม่ที่จะบอกว่าต้นไม้เจริญเติบโตที่ชาญฉลาดระดับจะมีความลึกเท่ากันสำหรับใบไม้ทั้งหมด? คำถามที่ 3:หากคำถามที่ 2 ไม่ถูกต้องต้นไม้จากการเติบโตในระดับที่ฉลาดและใบไม้จะมีลักษณะเหมือนกันในตอนท้ายของการสำรวจเส้นทาง (โดยไม่ต้องตัดแต่งกิ่ง ฯลฯ ) มันเป็นคำสั่งที่ถูกต้องหรือไม่ คำถามที่ 4:ถ้าคำถามที่ 3 …


3
ทำไมต้องเลือก Max Pooling ที่จะลดขนาดภาพลงไป
แนวคิดของการใช้ตัวกรองเพื่อทำสิ่งต่าง ๆ เช่นระบุขอบเป็นแนวคิดที่ยอดเยี่ยม ตัวอย่างเช่นคุณสามารถถ่ายภาพที่ 7 ด้วยฟิลเตอร์บางตัวคุณสามารถลงเอยด้วยภาพที่ถูกแปลงซึ่งเน้นลักษณะที่แตกต่างของภาพต้นฉบับ ต้นฉบับ 7: สามารถมีประสบการณ์โดยเครือข่ายเป็น: สังเกตว่าภาพแต่ละภาพแตกต่างจากเดิม 7 อย่างไร ทั้งหมดนี้ยอดเยี่ยม แต่จากนั้นพูดว่าเลเยอร์ถัดไปในเครือข่ายของคุณคือเลเยอร์รวมกำไรสูงสุด โดยทั่วไปแล้วคำถามของฉันดูเหมือนจะไม่เกินความเป็นจริงหรือไม่ เราแค่ระมัดระวังและไตร่ตรองอย่างรอบคอบด้วยการระบุขอบโดยใช้ฟิลเตอร์ - ตอนนี้เราไม่สนใจเรื่องนี้อีกต่อไปเนื่องจากเราได้ทำลายนรกจากค่าพิกเซล! โปรดแก้ไขให้ฉันถ้าฉันผิด แต่เราเปลี่ยนจาก 25 X 25 เป็น 2 X 2! ทำไมไม่ลองตรงไปที่ Max Pooling ในตอนนั้นพวกเราจะไม่จบลงด้วยสิ่งเดียวกันหรือเปล่า? ในฐานะที่เป็นส่วนขยายคำถามของฉันฉันไม่สามารถช่วย แต่สงสัยว่าจะเกิดอะไรขึ้นถ้าบังเอิญทั้งสี่สี่เหลี่ยมทั้งหมดเกิดขึ้นมีพิกเซลที่มีค่าสูงสุดเดียวกัน แน่นอนว่านี่ไม่ใช่กรณีที่หายากใช่ไหม ทันใดนั้นภาพการฝึกของคุณทั้งหมดก็เหมือนกันทุกประการ

4
วิธีเริ่มต้นรุ่น word2vec ใหม่ด้วยน้ำหนักแบบฝึกอบรมล่วงหน้า?
ฉันใช้ Gensim Library ในหลามเพื่อใช้และฝึกอบรม word2vector model เมื่อเร็ว ๆ นี้ฉันกำลังดูที่การเริ่มต้นน้ำหนักแบบจำลองของฉันด้วยแบบจำลอง word2vec ที่ผ่านการฝึกอบรมล่วงหน้าเช่น (รุ่น GoogleNewDataset แบบฝึกที่มีการฝึกฝน) ฉันดิ้นรนกับมันสองสามสัปดาห์ ตอนนี้ฉันเพิ่งค้นพบว่าใน gesim มีฟังก์ชั่นที่สามารถช่วยฉันเริ่มต้นน้ำหนักของแบบจำลองของฉันด้วยน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมมาแล้ว ที่กล่าวถึงด้านล่าง: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. ฉันไม่รู้ว่าฟังก์ชั่นนี้สามารถทำสิ่งเดียวกันได้หรือไม่ กรุณาช่วย!!!

8
Python เหมาะสำหรับข้อมูลขนาดใหญ่หรือไม่
ผมอ่านในโพสต์นี้คือภาษา R ที่เหมาะสมสำหรับข้อมูลขนาดใหญ่ที่ถือว่าข้อมูลขนาดใหญ่5TBและในขณะที่มันไม่ได้งานที่ดีในการให้ข้อมูลเกี่ยวกับความเป็นไปได้ของการทำงานกับชนิดของข้อมูลในนี้ก็มีข้อมูลน้อยมากเกี่ยวกับR Pythonฉันสงสัยว่าPythonสามารถทำงานกับข้อมูลจำนวนมากเช่นนี้ได้หรือไม่
14 bigdata  python 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.