วิทยาศาสตร์ข้อมูล machine-learning

2

ตัวแยกประเภท Scikit ใช้เวลานานเท่าไรในการจำแนก?

ฉันวางแผนที่จะใช้ลักษณนามลักษณนามของเวกเตอร์สนับสนุนเชิงเส้น (SVM) ของ scikit สำหรับการจำแนกข้อความบนคลังข้อมูลซึ่งประกอบด้วยเอกสารที่มีป้ายกำกับ 1 ล้านฉบับ สิ่งที่ฉันกำลังวางแผนที่จะทำคือเมื่อผู้ใช้ป้อนคำหลักบางคำลักษณนามจะจัดประเภทไว้ในหมวดหมู่ก่อนแล้วแบบสอบถามการสืบค้นข้อมูลที่ตามมาจะเกิดขึ้นภายในเอกสารของหมวดหมู่หมวดหมู่นั้น ฉันมีคำถามสองสามข้อ: ฉันจะยืนยันได้อย่างไรว่าการจำแนกประเภทจะใช้เวลาไม่นาน ฉันไม่ต้องการให้ผู้ใช้ต้องใช้เวลารอการจัดหมวดหมู่ให้เสร็จเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น การใช้ห้องสมุด scikit ของ Python สำหรับเว็บไซต์ / แอปพลิเคชันบนเว็บเหมาะสมกับเรื่องนี้หรือไม่? ไม่มีใครรู้ว่า amazon หรือ flipkart ดำเนินการจัดหมวดหมู่ในการค้นหาของผู้ใช้หรือพวกเขาใช้ตรรกะที่แตกต่างอย่างสิ้นเชิง?

10 machine-learning classification python scikit-learn

2

การดีบักโครงข่ายประสาทเทียม

ฉันได้สร้างเครือข่ายประสาทเทียมในไพ ธ อนโดยใช้ฟังก์ชั่นการเพิ่มประสิทธิภาพ scipy.optimize.minimize (การไล่ระดับสีคอนจูเกต) ฉันใช้การตรวจสอบไล่ระดับสีตรวจสอบทุกอย่าง ฯลฯ และฉันค่อนข้างมั่นใจว่ามันทำงานอย่างถูกต้อง ฉันรันมันสองสามครั้งและถึง 'การเพิ่มประสิทธิภาพสิ้นสุดลงเรียบร้อยแล้ว' แต่เมื่อฉันเพิ่มจำนวนเลเยอร์ที่ซ่อนอยู่ค่าใช้จ่ายของสมมติฐานจะเพิ่มขึ้น (ทุกอย่างจะยังคงเหมือนเดิม) หลังจากที่ยกเลิกไปแล้ว มันรู้สึกว่าค่าใช้จ่ายควรลดลงเมื่อจำนวนเลเยอร์ที่ซ่อนอยู่เพิ่มขึ้นเนื่องจากสามารถสร้างสมมติฐานที่ซับซ้อนมากขึ้นซึ่งสามารถพอดีกับข้อมูลได้ดีขึ้นอย่างไรก็ตามสิ่งนี้ดูเหมือนจะไม่เป็นเช่นนั้น ฉันสนใจที่จะเข้าใจว่าเกิดอะไรขึ้นที่นี่หรือหากฉันใช้งานโครงข่ายประสาทผิดปกติ

10 machine-learning python neural-network

2

เครื่องจักร / เทคนิคการเรียนรู้อย่างลึกซึ้ง / เทคนิค nlp ใช้ในการจำแนกคำที่กำหนดเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่อีเมลรัฐเคาน์ตีเมือง ฯลฯ

ฉันกำลังพยายามสร้างแบบจำลองอัจฉริยะที่สามารถสแกนชุดคำหรือสตริงและจำแนกเป็นชื่อหมายเลขโทรศัพท์มือถือที่อยู่เมืองรัฐประเทศและหน่วยงานอื่น ๆ โดยใช้การเรียนรู้ของเครื่องจักรหรือการเรียนรู้เชิงลึก ฉันค้นหาวิธีการ แต่น่าเสียดายที่ฉันไม่พบวิธีการใด ๆ ฉันได้ลองใช้กระเป๋าคำว่า model และ word glove เพื่อคาดเดาว่าสตริงนั้นเป็นชื่อหรือเมือง ฯลฯ แต่ฉันไม่ประสบความสำเร็จกับรูปแบบถุงคำและด้วย GloVe มีชื่อมากมายที่ไม่ครอบคลุมในตัวอย่างการฝัง: - ลอเรนมีอยู่ในถุงมือและลอเรน่าไม่ ฉันพบโพสต์นี้ที่นี่ซึ่งมีคำตอบที่สมเหตุสมผล แต่ฉันไม่สามารถเข้าหาเพื่อแก้ไขปัญหานอกเหนือจากข้อเท็จจริงที่ว่ามีการใช้ NLP และ SVM เพื่อแก้ไขปัญหา ข้อเสนอแนะใด ๆ ที่ชื่นชม ขอขอบคุณและขอแสดงความนับถือ Sai Charan Adurthi

9 machine-learning deep-learning text-mining natural-language-process

1

ข้อมูลที่ไม่สมดุลทำให้เกิดการจำแนกผิดพลาดในชุดข้อมูลหลายคลาส

ฉันทำงานเกี่ยวกับการจำแนกข้อความที่ฉันมี 39 หมวดหมู่ / คลาสและ 8.5 ล้านบันทึก (ในอนาคตข้อมูลและหมวดหมู่จะเพิ่มขึ้น) โครงสร้างหรือรูปแบบของข้อมูลของฉันมีดังนี้ ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | …

9 machine-learning python classification scikit-learn multiclass-classification

2

อัลกอริทึมที่จะใช้สำหรับการเลือกจุดที่เหมาะสม

รูปด้านล่างแสดง 7 จุดรอบจุดกำเนิด หนึ่งในนั้นได้รับการคัดเลือกโดยมนุษย์ตามกฎและประสบการณ์และเป็นสีแดง (หนึ่งในควอดเรเตอร์ซ้ายล่าง) ตอนนี้เรามีมากกว่า 1,000 ชุดของจุดเหล่านี้และสำหรับแต่ละชุดมนุษย์ได้เลือกจุดเดียว เงื่อนไขเหล่านี้ใช้กับชุดทั้งหมด: แต่ละชุดมีประมาณ 3 - 10 คะแนน ไม่มีค่าผิดปกติ คะแนนสามารถมีค่าบวกและลบ ไม่มีข้อผิดพลาดเกิดขึ้นเมื่อเลือกจุด คำถามของฉันคือ: มีอัลกอริทึมการเรียนรู้ด้วยเครื่องเพื่อเรียนรู้จากชุดเหล่านี้และการเลือกโดยมนุษย์เพื่อให้สามารถตัดสินใจเลือกจุดโดยอัตโนมัติเมื่อได้รับชุดคะแนนใหม่หรือไม่ ชุดใหม่นี้ตรงตามเงื่อนไข 3 ประการแรกจากด้านบนของหลักสูตร 2 ข้อสังเกตสุดท้าย: ตัวอย่างที่ฉันให้เป็นเพียงตัวอย่างที่ฉันสร้างขึ้นเพื่อสนับสนุนแนวคิดเกี่ยวกับจุดในระนาบรอบจุดกำเนิดพร้อมกับจุดที่เลือก ในชีวิตจริงอาจมีโครงสร้างมากขึ้น แต่ตอนนี้ฉันอยากรู้อยากเห็นและอยากจะรู้ว่าสิ่งที่เป็นไปได้สำหรับกรณีนี้ รูปแบบจะเป็นไปได้? สมมติว่าเป็นจุดที่เลือกไว้ประมาณ 2 จุดหรือคุณมีวงกลมที่มีรัศมีตามที่กำหนดแทนคะแนน

9 machine-learning

2

"ทฤษฎีบทของ Noether ลึก": อาคารในข้อ จำกัด สมมาตร

หากฉันมีปัญหาการเรียนรู้ที่ควรมีความสมมาตรโดยธรรมชาติมีวิธีที่จะทำให้ปัญหาการเรียนรู้ของฉันมีข้อ จำกัด ที่สมมาตรเพื่อปรับปรุงการเรียนรู้หรือไม่? ตัวอย่างเช่นหากฉันกำลังรับรู้ภาพฉันอาจต้องการสมมาตรแบบหมุนได้ 2 มิติ ความหมายว่าเวอร์ชันที่หมุนของรูปภาพควรได้ผลลัพธ์เช่นเดียวกับต้นฉบับ หรือถ้าฉันเรียนรู้ที่จะเล่นโอเอกซ์การหมุนด้วย 90deg น่าจะให้ผลเหมือนกับการเล่นเกมเดียวกัน ได้วิจัยใด ๆ รับการดำเนินการเกี่ยวกับเรื่องนี้?

9 machine-learning

1

ฉันจะเข้าถึงปัญหาการจำแนกประเภทที่คลาสใดคลาสหนึ่งได้รับการกำหนดโดย 'ไม่ได้อยู่ในคลาสอื่น'

สมมติว่าฉันสนใจในสามชั้น , , c_3แต่ชุดของฉันจริงมีหลายชั้นเรียนจริงมากขึ้น nค1c1c_1ค2c2c_2ค3c3c_3(คJ)nj = 4(cj)j=4n(c_j)_{j=4}^n คำตอบที่ชัดเจนคือการกำหนด classที่อ้างอิงถึงคลาสทั้งหมด ,แต่ฉันสงสัยว่านี่ไม่ใช่ความคิดที่ดีเนื่องจากตัวอย่างในจะหายากและไม่เหมือนกันมากค^4c^4\hat c_4คJcjc_jj > 3j>3j>3ค^4c^4\hat c_4 เพื่อให้เห็นภาพสิ่งที่ฉันพยายามจะพูดสมมติว่าฉันมีพื้นที่ว่างสองตัวแปรต่อไปนี้และคลาส , , ,ถูกอธิบายด้วยสีแดง, til, green และ สีดำตามลำดับ นี่คือวิธีที่ฉันสงสัยว่าข้อมูลของฉันจะเป็นอย่างไรค1c1c_1ค2c2c_2ค3c3c_3ค^4=⋃nJ = 4คJc^4=⋃j=4ncj\hat c_4= \bigcup_{j=4}^n c_j มีวิธีมาตรฐานในการแก้ไขปัญหานี้หรือไม่? อะไรจะเป็นลักษณนามที่มีประสิทธิภาพมากที่สุดและทำไม?

9 machine-learning classification

3

ทำไมไม่ฝึกโมเดลสุดท้ายกับข้อมูลทั้งหมดหลังจากทำการทดสอบข้อมูลการปรับแต่งพื้นฐานแบบไฮเปอร์พาราเมตริกและข้อมูลการตรวจสอบพื้นฐานการเลือกโมเดล?

จากข้อมูลทั้งหมดฉันหมายถึงการฝึกอบรม + ทดสอบ + การตรวจสอบ เมื่อฉันแก้ไขไฮเปอร์พารามิเตอร์ของฉันโดยใช้ข้อมูลการตรวจสอบความถูกต้องและเลือกแบบจำลองโดยใช้ข้อมูลการทดสอบจะไม่เป็นการดีกว่าที่จะมีแบบจำลองที่ผ่านการฝึกอบรมกับข้อมูลทั้งหมดเพื่อให้พารามิเตอร์ได้รับการฝึกอบรมที่ดีกว่า ข้อมูลรถไฟ

9 machine-learning

3

เหตุใดจึงต้องใช้ NN แบบ convolutional สำหรับงานตรวจสอบด้วยภาพผ่านการจับคู่แม่แบบ CV แบบคลาสสิก

ฉันมีการสนทนาที่น่าสนใจเกิดขึ้นจากโครงการที่เรากำลังทำอยู่: เหตุใดจึงต้องใช้ระบบตรวจสอบด้วยภาพของ CNN ผ่านอัลกอริทึมการจับคู่แม่แบบ พื้นหลัง: ฉันได้แสดงตัวอย่างของระบบการมองเห็นซีเอ็นเอ็นอย่างง่าย (เว็บแคม + แล็ปท็อป) ที่ตรวจพบว่าวัตถุชนิดใดชนิดหนึ่ง "แตก" / มีข้อบกพร่องหรือไม่ - ในกรณีนี้แผงวงจร PCB โมเดล CNN ของฉันแสดงตัวอย่างแผงวงจรที่เหมาะสมและชำรุด (ประมาณ 100 ภาพของแต่ละภาพ) บนพื้นหลังแบบคงที่ โมเดลของเราใช้เลเยอร์ Conv / maxpool สองสามตัวแรกของ VGG16 ที่ผ่านการฝึกอบรมล่วงหน้า (บน imagenet) และจากนั้นเราเพิ่มการฝึกอบรม / สระว่ายน้ำที่สามารถฝึกอบรมได้อีกสองสามอัน : (is_empty, has_good_product, has_defective_product) รูปแบบการฝึกอบรมได้อย่างง่ายดายและถึง 99% การตรวจสอบตามมาตรฐานไม่มีปัญหา; เรายังได้รับการฝึกฝนด้วยการเพิ่มข้อมูลต่าง ๆ เนื่องจากเรารู้ว่าชุดข้อมูลของเรามีขนาดเล็ก ในทางปฏิบัติมันใช้งานได้ประมาณ 9 ครั้งจาก 10 ครั้ง …

9 machine-learning convnet image-classification

1

จำนวนพารามิเตอร์สำหรับเลเยอร์ convolution

ในบทความที่อ้างถึงอย่างสูงนี้ผู้เขียนให้คำอธิบายเกี่ยวกับจำนวนพารามิเตอร์น้ำหนัก ฉันไม่ชัดเจนว่าทำไมมันมีพารามิเตอร์ฉันคิดว่ามันควรจะเป็นเนื่องจากแต่ละช่องสัญญาณใช้ตัวกรองเดียวกันร่วมกันซึ่งมีพารามิเตอร์49C249C249C^249C49C49CCCC494949

9 machine-learning deep-learning computer-vision

4

การตีความแผนผังการตัดสินใจในบริบทของคุณลักษณะสำคัญ

ฉันกำลังพยายามที่จะเข้าใจวิธีการทำความเข้าใจกระบวนการตัดสินใจของรูปแบบการจัดหมวดหมู่ต้นไม้การตัดสินใจที่สร้างขึ้นด้วยความเข้าใจ สิ่งสำคัญสองประการที่ฉันกำลังดูคือการนำเสนอกราฟวิซของต้นไม้และรายการของคุณลักษณะสำคัญ สิ่งที่ฉันไม่เข้าใจคือการกำหนดความสำคัญของคุณลักษณะในบริบทของต้นไม้ ตัวอย่างเช่นนี่คือรายการสำคัญของคุณลักษณะของฉัน: การจัดอันดับคุณลักษณะ: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD (0.075009) คุณสมบัติ E (0.068310) FeatureF (0.067118) FeatureG (0.066510) คุณสมบัติ H (0.043502) คุณสมบัติ I (0.040281) คุณสมบัติ J (0.039006) FeatureK (0.032618) FeatureL (0.008136) FeatureM (0.000000) อย่างไรก็ตามเมื่อฉันดูที่ด้านบนของต้นไม้ดูเหมือนว่า: ในความเป็นจริงแล้วฟีเจอร์บางอย่างที่มีการจัดอันดับว่า "สำคัญที่สุด" จะไม่ปรากฏขึ้นจนกว่าจะลงไปถึงต้นไม้และบนสุดของต้นไม้คือ FeatureJ ซึ่งเป็นหนึ่งในฟีเจอร์ที่มีอันดับต่ำที่สุด ข้อสันนิษฐานที่ไร้เดียงสาของฉันคือว่าฟีเจอร์ที่สำคัญที่สุดจะถูกจัดอยู่ใกล้กับส่วนบนสุดของต้นไม้เพื่อให้ได้ผลที่ดีที่สุด หากไม่ถูกต้องแล้วคุณสมบัติใดที่ทำให้ "สำคัญ"

9 machine-learning visualization scikit-learn data decision-trees

2

ทำไมอัตราการเรียนรู้ทำให้น้ำหนักของเครือข่ายประสาทเทียมสูงขึ้น?

ฉันใช้เทนเซอร์โฟลว์เพื่อเขียนโครงข่ายประสาทอย่างง่ายสำหรับการวิจัยนิดหน่อยและฉันมีปัญหามากมายเกี่ยวกับน้ำหนักของ 'น่าน' ในขณะฝึกอบรม ฉันลองวิธีแก้ไขปัญหาที่แตกต่างกันมากมายเช่นการเปลี่ยนเครื่องมือเพิ่มประสิทธิภาพการเปลี่ยนแปลงการสูญเสียขนาดข้อมูลเป็นต้น แต่ไม่มีประโยชน์ ในที่สุดฉันสังเกตเห็นว่าการเปลี่ยนแปลงของอัตราการเรียนรู้ทำให้น้ำหนักของฉันแตกต่างอย่างไม่น่าเชื่อ ใช้อัตราการเรียนรู้. 001 (ซึ่งฉันคิดว่าค่อนข้างอนุรักษ์นิยม) ฟังก์ชั่นย่อเล็กสุดจะเพิ่มความสูญเสียอย่างมาก หลังจากยุคหนึ่งความสูญเสียอาจเพิ่มขึ้นจากจำนวนในหลักพันไปเป็นล้านล้านและจากนั้นไปสู่อนันต์ ('น่าน') เมื่อฉันลดอัตราการเรียนรู้เป็น. 0001 ทุกอย่างก็ใช้ได้ดี 1) เหตุใดลำดับความสำคัญเดียวจึงมีผลเช่นนี้? 2) ทำไมฟังก์ชั่นย่อเล็กสุดทำหน้าที่ตรงข้ามกับฟังก์ชั่นของมันและเพิ่มการสูญเสียสูงสุด? สำหรับฉันแล้วดูเหมือนว่าจะไม่เกิดขึ้นไม่ว่าจะเรียนรู้อะไรก็ตาม

9 machine-learning python tensorflow optimization gradient-descent

2

คุณสมบัติของคำเวกเตอร์ใน word2vec

ฉันพยายามวิเคราะห์ความเชื่อมั่น เพื่อที่จะแปลงคำเป็นเวกเตอร์คำฉันใช้รุ่น word2vec สมมติว่าฉันมีประโยคทั้งหมดในรายการชื่อ 'ประโยค' และฉันส่งประโยคเหล่านี้ไปยัง word2vec ดังนี้: model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300, window=5, sample=1e-3) เนื่องจากฉันเป็น noob ไปยังคำเวกเตอร์ฉันมีสองข้อสงสัย 1- การตั้งค่าจำนวนคุณสมบัติเป็น 300 จะกำหนดคุณสมบัติของคำว่าเวกเตอร์ แต่คุณสมบัติเหล่านี้มีความหมายว่าอะไร? หากแต่ละคำในรูปแบบนี้มีอาร์เรย์แบบ 1x1 อันคุณสมบัติแบบ 300 เหล่านี้มีความหมายอะไรกับคำนั้น? 2- การสุ่มตัวอย่างลงตามที่แสดงด้วยพารามิเตอร์ 'ตัวอย่าง' ในแบบจำลองด้านบนทำตามความเป็นจริงอย่างไร ขอบคุณล่วงหน้า.

9 machine-learning deep-learning word-embeddings word2vec sentiment-analysis

1

จะเข้าใกล้การแข่งขัน numer.ai ด้วยวิธีทำนายตัวเลขแบบไม่ระบุชื่อได้อย่างไร

Numer.aiอยู่มาระยะหนึ่งแล้วและดูเหมือนจะมีเพียงไม่กี่โพสต์หรือการสนทนาอื่น ๆ เกี่ยวกับมันบนเว็บ ระบบมีการเปลี่ยนแปลงเป็นครั้งคราวและการตั้งค่าวันนี้มีดังต่อไปนี้: ฝึกอบรม (N = 96K) และทดสอบข้อมูล (N = 33K) พร้อมคุณสมบัติ 21 อย่างที่มีค่าต่อเนื่องใน [0,1] และเป้าหมายไบนารี ข้อมูลสะอาด (ไม่มีค่าขาดหาย) และอัปเดตทุก 2 สัปดาห์ คุณสามารถอัปโหลดการทำนายของคุณ (ในชุดทดสอบ) และดูการสูญเสียบันทึก ส่วนหนึ่งของข้อมูลการทดสอบคือข้อมูลสดและคุณจะได้รับเงินสำหรับการคาดการณ์ที่ดี สิ่งที่ฉันต้องการจะพูดคุย: เนื่องจากคุณสมบัติไม่ระบุชื่อโดยสิ้นเชิงฉันคิดว่ามีวิศวกรรมคุณสมบัติไม่มากที่เราสามารถทำได้ ดังนั้นวิธีการของฉันมีกลไกมาก: แรงบันดาลใจจากนี้ฉันจะใช้ขั้นตอนวิธีการจัดหมวดหมู่ในการกรองข้อมูลการฝึกอบรมผู้ที่พอดีกับการทดสอบข้อมูลที่ดีที่สุดของฉัน คิดออกก่อนการประมวลผลที่ดี ฝึกอัลกอริทึมการจำแนกที่ดี สร้างตระการตาของพวกเขา (ซ้อน, .. ) คำถามที่เป็นรูปธรรม: เกี่ยวกับขั้นตอนที่ 1: คุณมีประสบการณ์เกี่ยวกับวิธีการดังกล่าวหรือไม่? สมมติว่าฉันสั่งความน่าจะเป็นของตัวอย่างรถไฟให้เป็นของการทดสอบ (ปกติต่ำกว่า 0.5) จากนั้นฉันหาค่าความน่าจะเป็น K ที่ใหญ่ที่สุด คุณจะเลือก K อย่างไร ฉันพยายามกับ …

9 machine-learning deep-learning cross-validation preprocessing competitions

3

อัลกอริทึมการเรียนรู้ของเครื่องใดที่ได้รับการยอมรับว่าเป็นการแลกเปลี่ยนที่ดีระหว่างการอธิบายและการทำนาย?

ข้อความการเรียนรู้ของเครื่องที่อธิบายอัลกอริธึมเช่นเครื่องเร่งการไล่ระดับสีหรือเครือข่ายประสาทเทียมมักจะแสดงความคิดเห็นว่าแบบจำลองเหล่านี้ดีต่อการทำนาย แต่สิ่งนี้มาจากการสูญเสียความสามารถในการอธิบายหรือตีความ ในทางกลับกันต้นไม้การตัดสินใจเดี่ยวและแบบจำลองการถดถอยแบบคลาสสิกนั้นมีคำอธิบายที่ดี แต่ให้ความแม่นยำในการทำนายที่ค่อนข้างต่ำเมื่อเทียบกับแบบจำลองที่มีความซับซ้อนเช่นป่าที่สุ่มหรือ SVM มีรูปแบบการเรียนรู้ด้วยเครื่องที่ยอมรับกันโดยทั่วไปว่าเป็นรูปแบบการแลกเปลี่ยนที่ดีระหว่างทั้งสอง มีวรรณกรรมใดที่แจกแจงลักษณะของอัลกอริทึมที่อนุญาตให้อธิบายได้หรือไม่? (คำถามนี้ถูกถามก่อนหน้านี้เกี่ยวกับการตรวจสอบข้าม)

9 machine-learning predictive-modeling

คำถามติดแท็ก machine-learning