วิทยาศาสตร์ข้อมูล

3

ความถี่ในการคลิกนั้นมีความเกี่ยวข้องกันหรือไม่

ในขณะที่สร้างอันดับพูดสำหรับเครื่องมือค้นหาหรือระบบคำแนะนำมันถูกต้องหรือไม่ที่จะต้องพึ่งพาความถี่การคลิกเพื่อกำหนดความเกี่ยวข้องของรายการ?

17 recommender-system information-retrieval

1

ทำไม ReLU ถึงดีกว่าฟังก์ชั่นการเปิดใช้งานอื่น ๆ

ที่นี่คำตอบหมายถึงการหายไปและการไล่ระดับสีแบบกระจายที่sigmoidฟังก์ชั่นการเปิดใช้งานเหมือนกัน แต่ฉันเดาว่าReluมีข้อเสียและเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของReluดังนั้นค่าที่คาดหวังจะไม่เป็นศูนย์ ผมจำได้ว่าช่วงเวลาก่อนที่ความนิยมของReluที่เป็นที่นิยมมากที่สุดในหมู่เครื่องผู้เชี่ยวชาญด้านการเรียนรู้มากกว่าtanh sigmoidเหตุผลก็คือค่าที่คาดหวังของtanhศูนย์เท่ากับและมันช่วยให้การเรียนรู้ในชั้นลึกจะเร็วขึ้นในโครงข่ายประสาท Reluไม่มีคุณสมบัตินี้ แต่ทำไมมันถึงทำงานได้ดีถ้าเราเอาความได้เปรียบเชิงอนุพันธ์มาใช้ ยิ่งกว่านั้นฉันคิดว่าอนุพันธ์อาจได้รับผลกระทบด้วย เพราะการเปิดใช้งาน (ผลลัพธ์ของRelu) มีส่วนร่วมในการคำนวณกฎการอัพเดท

17 machine-learning neural-network deep-learning gradient-descent activation-function

3

สัญกรณ์ mAP @ [. 5: .95] หมายถึงอะไร?

สำหรับการตรวจจับวิธีทั่วไปในการพิจารณาว่าข้อเสนอวัตถุหนึ่งถูกต้องหรือไม่คือIntersection over Union (IoU, IU) สิ่งนี้ใช้ชุดของออบเจกต์พิกเซลที่เสนอและชุดของออบเจ็กต์พิกเซลจริงและคำนวณ:BAAABBB ผมo คุณ( A , B ) = A ∩ BA ∪ Bผมโอยู(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} โดยทั่วไป IoU> 0.5 หมายความว่ามันเป็นที่นิยมมิฉะนั้นจะเกิดความล้มเหลว สำหรับแต่ละชั้นเรียนหนึ่งสามารถคำนวณ True Positive ( ): ข้อเสนอถูกสร้างขึ้นสำหรับคลาสและจริง ๆ แล้วเป็นวัตถุของคลาสc cTP( c )TP(ค)TP(c)คคcคคc False Positive ( ): มีการทำข้อเสนอสำหรับคลาสแต่ไม่มีวัตถุของคลาสc cFP( c )FP(ค)FP(c)คคcคคc ความแม่นยำเฉลี่ยสำหรับคลาส :# …

17 computer-vision

2

Doc2Vec - วิธีติดฉลากย่อหน้า (gensim)

ฉันสงสัยว่าจะติดป้าย (แท็ก) ประโยค / ย่อหน้า / เอกสารด้วย doc2vec เป็น gensim ได้อย่างไร - จากมุมมองเชิงปฏิบัติ คุณจำเป็นต้องมีแต่ละประโยค / ย่อหน้า / เอกสารที่มีป้ายกำกับที่เป็นเอกลักษณ์ของตนเอง (เช่น "Sent_123") หรือไม่ สิ่งนี้มีประโยชน์หากคุณต้องการพูดว่า "คำหรือประโยคใดที่คล้ายกับประโยคที่ระบุว่า" Sent_123 "มากที่สุด คุณสามารถให้ป้ายกำกับซ้ำตามเนื้อหาได้หรือไม่ ตัวอย่างเช่นหากแต่ละประโยค / ย่อหน้า / เอกสารเกี่ยวกับสินค้าบางรายการ (และมีหลายประโยค / ย่อหน้า / เอกสารสำหรับรายการผลิตภัณฑ์ที่กำหนด) คุณสามารถติดป้ายประโยคตามรายการแล้วคำนวณความคล้ายคลึงกันระหว่างคำหรือ ประโยคและป้ายกำกับนี้ (ซึ่งฉันคิดว่าเป็นเหมือนค่าเฉลี่ยของประโยคทั้งหมดที่เกี่ยวข้องกับรายการผลิตภัณฑ์)

17 machine-learning text-mining word-embeddings word2vec

3

การทำ Bagging vs Dropout ใน Deep Neural Networks

การบรรจุถุงเป็นการสร้างตัวทำนายหลายตัวที่ทำงานเป็นตัวทำนายอย่างเดียว การออกกลางคันเป็นเทคนิคที่สอนให้กับเครือข่ายประสาทเทียมโดยเฉลี่ยเครือข่ายย่อยที่เป็นไปได้ทั้งหมด การดูการแข่งขันที่สำคัญที่สุดของ Kaggle นั้นดูเหมือนว่าทั้งสองเทคนิคนี้ใช้กันบ่อยมาก ฉันไม่เห็นความแตกต่างทางทฤษฎีใด ๆ นอกเหนือจากการใช้งานจริง ใครสามารถอธิบายฉันได้ว่าทำไมเราควรใช้ทั้งคู่ในแอปพลิเคชันจริง ๆ และทำไมประสิทธิภาพจึงดีขึ้นเมื่อเราใช้ทั้งสองอย่าง

17 machine-learning neural-network deep-learning

4

K- หมายถึง: อะไรคือวิธีที่ดีในการเลือกชุดเซนทรอยด์เริ่มต้นที่มีประสิทธิภาพ

เมื่อมีการใช้งานการเริ่มต้นแบบสุ่มของ centroids การวิ่งที่ต่างกันของ K-mean จะสร้าง SSE รวมที่แตกต่างกัน และเป็นสิ่งสำคัญในประสิทธิภาพของอัลกอริทึม อะไรคือแนวทางที่มีประสิทธิภาพในการแก้ไขปัญหานี้? แนวทางล่าสุดได้รับการชื่นชม

17 data-mining clustering k-means

2

จริยธรรมควรนำไปใช้ในศาสตร์ข้อมูลอย่างไร

มีความบ้าคลั่งที่ผ่านมากับเป็นFacebook ทดลองกับผู้ใช้ของพวกเขาเพื่อดูว่าพวกเขาสามารถปรับเปลี่ยนอารมณ์ความรู้สึกของผู้ใช้และตอนนี้OkCupid ในขณะที่ฉันไม่ได้เป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพฉันอ่านเกี่ยวกับจริยธรรมข้อมูลวิทยาศาสตร์จากหนังสือ 'การทำวิทยาศาสตร์ข้อมูล' ของ Cathy O'Neillและต้องการทราบว่านี่เป็นสิ่งที่ผู้เชี่ยวชาญได้รับการสอนในระดับวิชาการหรือไม่ ถูกเพิกเฉยหรือถูกนำไปใช้ในโลกมืออาชีพเล็กน้อย โดยเฉพาะอย่างยิ่งสำหรับผู้ที่สิ้นสุดการทำข้อมูลวิทยาศาสตร์ตั้งใจ ในขณะที่บทความที่เชื่อมโยงสัมผัสกับความถูกต้องของข้อมูลหนังสือเล่มนี้ยังได้กล่าวถึงจริยธรรมทางศีลธรรมที่อยู่เบื้องหลังการทำความเข้าใจถึงผลกระทบของแบบจำลองข้อมูลที่สร้างขึ้นและผลกระทบของแบบจำลองเหล่านั้นซึ่งอาจมีผลข้างเคียงเมื่อใช้อย่างไม่เหมาะสม ไม่ถูกต้องสร้างผลลัพธ์ที่ไม่พึงประสงค์อีกครั้ง บทความนี้กล่าวถึงแนวทางปฏิบัติและกล่าวถึงจรรยาบรรณของสมาคมวิทยาศาสตร์ข้อมูลนี่เป็นสิ่งที่ใช้งานอยู่หรือไม่? กฎข้อที่ 7 เป็นสิ่งที่น่าสนใจเป็นพิเศษ (อ้างอิงจากเว็บไซต์ของพวกเขา): (a) บุคคลที่ปรึกษากับนักวิทยาศาสตร์ด้านข้อมูลเกี่ยวกับความเป็นไปได้ในการสร้างความสัมพันธ์กับนักวิทยาศาสตร์ข้อมูลลูกค้าด้วยความเคารพต่อสิ่งนั้นเป็นลูกค้าที่คาดหวัง (b) แม้ว่าจะไม่มีความสัมพันธ์ระหว่างนักวิทยาศาสตร์ข้อมูลลูกค้า แต่นักวิทยาศาสตร์ข้อมูลที่เรียนรู้ข้อมูลจากลูกค้าที่คาดหวังจะต้องไม่ใช้หรือเปิดเผยข้อมูลนั้น (c) นักวิทยาศาสตร์ข้อมูลภายใต้วรรค (b) จะต้องไม่ให้บริการข้อมูลวิทยาศาสตร์ระดับมืออาชีพสำหรับลูกค้าที่มีความสนใจอย่างมากต่อลูกค้าที่คาดหวังในอุตสาหกรรมเดียวกันหรือที่เกี่ยวข้องอย่างมีนัยสำคัญหากนักวิทยาศาสตร์ข้อมูลได้รับข้อมูลจากลูกค้าที่คาดหวัง ที่อาจเป็นอันตรายอย่างมีนัยสำคัญต่อบุคคลนั้นในเรื่อง นี่เป็นสิ่งที่ฝึกฝนอย่างมืออาชีพหรือไม่? ผู้ใช้หลายคนยอมรับว่าเราได้รับบริการฟรี (เมลเครือข่ายสังคมโฮสติ้งรูปภาพแพลตฟอร์มบล็อก ฯลฯ ) และเห็นด้วยกับ EULA เพื่อให้โฆษณาผลักดันให้เรา ในที่สุดกฎระเบียบนี้เป็นอย่างไรฉันมักจะอ่านเกี่ยวกับผู้ใช้ที่มีความพร้อมเมื่อเงื่อนไขของบริการเปลี่ยนไป แต่ดูเหมือนว่ามันต้องการองค์กรอิสระการดำเนินการในชั้นเรียนหรือสมาชิกวุฒิสภาเพื่อตอบสนองต่อสิ่งเหล่านั้น ด้วยวิธีที่ฉันไม่ได้ทำการตัดสินใด ๆ ที่นี่หรือบอกว่านักวิทยาศาสตร์ข้อมูลทั้งหมดทำตัวแบบนี้ฉันสนใจในสิ่งที่สอนด้านวิชาการและฝึกฝนอย่างมืออาชีพ

17 social-network-analysis

1

อัลกอริทึมสำหรับการจัดกลุ่มข้อความ

ฉันมีปัญหาในการจัดกลุ่มประโยคจำนวนมากเป็นความหมายของกลุ่ม สิ่งนี้คล้ายกับปัญหาเมื่อคุณมีประโยคจำนวนมากและต้องการจัดกลุ่มตามความหมาย ขั้นตอนวิธีใดที่แนะนำให้ทำเช่นนี้? ฉันไม่ทราบจำนวนกลุ่มล่วงหน้า (และเมื่อข้อมูลเพิ่มเติมมาถึงกลุ่มสามารถเปลี่ยนแปลงได้เช่นกัน) โดยปกติคุณสมบัติใดที่ใช้เพื่อแสดงถึงแต่ละประโยค ตอนนี้ฉันกำลังลองใช้ฟีเจอร์ที่ง่ายที่สุดเพียงแค่ใส่คำและระยะห่างระหว่างประโยคที่กำหนดเป็น: (A และ B เป็นชุดคำที่สอดคล้องกันในประโยค A และ B) มันสมเหตุสมผลหรือไม่ ฉันกำลังพยายามใช้อัลกอริทึมMean-Shiftจาก scikit ไลบรารี่กับระยะทางนี้เนื่องจากไม่จำเป็นต้องใช้จำนวนคลัสเตอร์ล่วงหน้า หากใครจะแนะนำวิธีการ / แนวทางที่ดีกว่าสำหรับปัญหา - มันจะได้รับการชื่นชมอย่างมากเพราะฉันยังใหม่กับหัวข้อ

17 clustering text-mining algorithms scikit-learn

3

เพื่อนบ้านที่ใกล้ที่สุดค้นหาข้อมูลมิติที่สูงมาก

ฉันมีเมทริกซ์กระจัดกระจายขนาดใหญ่ของผู้ใช้และรายการที่พวกเขาชอบ (เรียงตามผู้ใช้ 1M และรายการ 100K ที่มีระดับความเบาบางต่ำมาก) ฉันสำรวจวิธีการที่ฉันสามารถทำการค้นหาด้วย kNN ด้วยขนาดของชุดข้อมูลของฉันและการทดสอบเริ่มต้นที่ฉันทำข้อสมมติฐานของฉันคือวิธีการที่ฉันจะใช้จะต้องขนานหรือกระจาย ดังนั้นฉันจึงพิจารณาวิธีแก้ปัญหาที่เป็นไปได้สองคลาส: อันที่มีอยู่ (หรือนำไปใช้ได้ในวิธีที่ง่ายพอสมควร) บนเครื่องมัลติคอร์เดียวอีกอันในคลัสเตอร์ Spark เช่นเป็นโปรแกรม MapReduce ต่อไปนี้เป็นแนวคิดสามประการที่ฉันพิจารณา: สมมติว่ามีความคล้ายคลึงกันแบบโคไซน์ให้ทำการคูณเมทริกซ์ที่ได้รับการทำให้เป็นมาตรฐานเต็มรูปแบบด้วยทรานสโพส (นำมาใช้เป็นผลรวมของผลิตภัณฑ์ด้านนอก) การใช้การแฮชที่มีความอ่อนไหวต่อท้องที่ (LSH) การลดมิติแรกของปัญหาด้วย PCA ฉันขอขอบคุณความคิดหรือคำแนะนำเกี่ยวกับวิธีการที่เป็นไปได้ที่ฉันสามารถแก้ไขปัญหานี้ได้

17 machine-learning distributed map-reduce dimensionality-reduction

6

คุณใช้อะไรในการสร้างแดชบอร์ดใน R

ฉันต้องสร้างรายงานแดชบอร์ดการวิเคราะห์เว็บเป็นรายวัน (รายเดือน) สิ่งเหล่านี้จะคงที่และไม่ต้องการการโต้ตอบดังนั้นให้จินตนาการว่าไฟล์ PDF เป็นเอาต์พุตเป้าหมาย รายงานจะผสมตารางและแผนภูมิ (ส่วนใหญ่เป็นประกายและกราฟแสดงหัวข้อย่อยที่สร้างด้วย ggplot2) คิดว่าแดชบอร์ดสไตล์ Stephen Few / Perceptual Edge เช่น: แต่นำไปใช้กับการวิเคราะห์เว็บ คำแนะนำใด ๆ เกี่ยวกับแพ็คเกจที่จะใช้ในการสร้างรายงานแดชบอร์ดเหล่านี้ สัญชาตญาณแรกของฉันคือใช้ R markdown และ knitr แต่บางทีคุณอาจพบทางออกที่ดีกว่า ฉันไม่สามารถหาตัวอย่างมากมายของแดชบอร์ดที่สร้างจาก R

17 r visualization

4

ชั้นเอาท์พุทพิเศษในเครือข่ายประสาทเทียม (ทศนิยมให้เป็นไบนารี)

ฉันทำงานผ่านคำถามจากหนังสือออนไลน์: http://neuralnetworksanddeeplearning.com/chap1.html ฉันสามารถเข้าใจได้ว่าถ้าเลเยอร์เอาต์พุตเพิ่มเติมเป็น 5 เซลล์ประสาทเอาท์พุทฉันอาจตั้งค่าไบอัสที่ 0.5 และน้ำหนัก 0.5 แต่ละเซลล์สำหรับเลเยอร์ก่อนหน้า แต่คำถามนี้ขอเลเยอร์ใหม่สี่เซลล์ประสาทส่งออก - ซึ่งเป็นมากกว่าเพียงพอที่จะเป็นตัวแทนของ 10 ผลที่เป็นไปได้ที่ 424242^{4} ใครช่วยแนะนำขั้นตอนในการทำความเข้าใจและการแก้ปัญหานี้ได้บ้าง คำถามการออกกำลังกาย: มีวิธีการพิจารณาการแสดงตัวเลข bitwise ของหลักโดยการเพิ่มเลเยอร์พิเศษให้กับเครือข่ายสามชั้นด้านบน เลเยอร์พิเศษจะแปลงเอาต์พุตจากเลเยอร์ก่อนหน้านี้เป็นการแทนแบบไบนารี่ดังแสดงในรูปด้านล่าง ค้นหาชุดของน้ำหนักและอคติสำหรับเลเยอร์เอาท์พุทใหม่ สมมติว่าเซลล์ประสาท 3 ชั้นแรกเป็นเช่นนั้นเอาต์พุตที่ถูกต้องในชั้นที่สาม (เช่นเลเยอร์เอาท์พุทเก่า) มีการเปิดใช้งานอย่างน้อย 0.99 และเอาต์พุตที่ไม่ถูกต้องมีการเปิดใช้งานน้อยกว่า 0.01

17 neural-network

7

การแสดงกราฟด้วยจุดยอดหนึ่งล้าน

เครื่องมือที่ดีที่สุดในการใช้แสดงภาพ (วาดจุดยอดและขอบ) กราฟที่มีจุดยอด 1000000 คืออะไร กราฟมีประมาณ 50,000 อัน และฉันสามารถคำนวณตำแหน่งของจุดยอดและจุดแต่ละจุด ฉันกำลังคิดเกี่ยวกับการเขียนโปรแกรมเพื่อสร้าง svg ข้อเสนอแนะอื่น ๆ ?

17 visualization graphs

2

ใช้ liblinear กับข้อมูลขนาดใหญ่สำหรับการวิเคราะห์ความหมาย

ฉันใช้Libsvmเพื่อฝึกอบรมข้อมูลและทำนายการจำแนกปัญหาการวิเคราะห์ความหมาย แต่มันก็มีผลการดำเนินงานปัญหากับข้อมูลขนาดใหญ่เนื่องจากความกังวลเกี่ยวกับการวิเคราะห์ความหมายn มิติปัญหา เมื่อปีที่แล้วLiblinearได้เปิดตัวและสามารถแก้ไขปัญหาคอขวดของประสิทธิภาพได้ แต่มันก็มีค่าใช้จ่ายมากเกินไปหน่วยความจำ คือMapReduceวิธีเดียวที่จะแก้ปัญหาการวิเคราะห์ความหมายเกี่ยวกับข้อมูลขนาดใหญ่? หรือมีวิธีอื่นใดที่สามารถปรับปรุงคอขวดของหน่วยความจำบนLiblinear ได้หรือไม่?

17 machine-learning bigdata libsvm

4

การจัดกลุ่มตามคะแนนความคล้ายคลึงกัน

สมมติว่าเรามีชุดขององค์ประกอบEและความคล้ายคลึงกัน ( ไม่ใช่ระยะทาง ) ฟังก์ชั่นซิม (EI, EJ)ระหว่างสององค์ประกอบEI, EJ ∈ E เราจะจัดองค์ประกอบของEโดยใช้ซิมได้อย่างไร(อย่างมีประสิทธิภาพ) ตัวอย่างเช่นk -means ต้องการk ที่ให้มา, Canopy Clustering ต้องการค่าสองค่า ถ้าเราไม่ต้องการพารามิเตอร์ที่กำหนดไว้ล่วงหน้า โปรดทราบว่าซิมนั้นไม่จำเป็นต้องมีการวัด (เช่นความไม่เท่าเทียมกันของสามเหลี่ยมอาจหรืออาจไม่ถือ) ยิ่งกว่านั้นมันไม่สำคัญว่ากลุ่มจะแยกจากกัน (พาร์ติชันของE )

17 clustering algorithms similarity

5

ข้อมูลใน DBMS เชิงสัมพันธ์ของเรามีจำนวนเพิ่มขึ้นเป็นเวลาที่จะย้ายไปที่ NoSQL หรือไม่?

เราสร้างแอปพลิเคชันเครือข่ายสังคมออนไลน์เพื่อจุดประสงค์การเรียน เป็นโครงการทดลองที่เราทำการวิจัยในห้องแล็บของเรา มันถูกใช้ในบางกรณีศึกษามาระยะหนึ่งแล้วและข้อมูลใน DBMS เชิงสัมพันธ์ของเรา (SQL Server 2008) เริ่มมีจำนวนมากขึ้น มันเป็นไม่กี่กิกะไบต์ในขณะนี้และตารางที่เชื่อมต่อกันอย่างมาก ประสิทธิภาพยังคงดี แต่เมื่อใดที่เราควรพิจารณาตัวเลือกอื่น ๆ มันเป็นเรื่องของประสิทธิภาพหรือไม่

17 nosql relational-dbms