คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

1
ความแตกต่างระหว่าง Keras val_loss และการสูญเสียระหว่างการฝึก
ความแตกต่างระหว่างval_lossและlossระหว่างการฝึกอบรมใน Keras คืออะไร? เช่น Epoch 1/20 1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032 ในบางเว็บไซต์ฉันอ่านว่าเรื่องการตรวจสอบความถูกต้องการออกกลางคันไม่ทำงาน

1
ทำไม ReLU ถึงดีกว่าฟังก์ชั่นการเปิดใช้งานอื่น ๆ
ที่นี่คำตอบหมายถึงการหายไปและการไล่ระดับสีแบบกระจายที่sigmoidฟังก์ชั่นการเปิดใช้งานเหมือนกัน แต่ฉันเดาว่าReluมีข้อเสียและเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของReluดังนั้นค่าที่คาดหวังจะไม่เป็นศูนย์ ผมจำได้ว่าช่วงเวลาก่อนที่ความนิยมของReluที่เป็นที่นิยมมากที่สุดในหมู่เครื่องผู้เชี่ยวชาญด้านการเรียนรู้มากกว่าtanh sigmoidเหตุผลก็คือค่าที่คาดหวังของtanhศูนย์เท่ากับและมันช่วยให้การเรียนรู้ในชั้นลึกจะเร็วขึ้นในโครงข่ายประสาท Reluไม่มีคุณสมบัตินี้ แต่ทำไมมันถึงทำงานได้ดีถ้าเราเอาความได้เปรียบเชิงอนุพันธ์มาใช้ ยิ่งกว่านั้นฉันคิดว่าอนุพันธ์อาจได้รับผลกระทบด้วย เพราะการเปิดใช้งาน (ผลลัพธ์ของRelu) มีส่วนร่วมในการคำนวณกฎการอัพเดท

2
Doc2Vec - วิธีติดฉลากย่อหน้า (gensim)
ฉันสงสัยว่าจะติดป้าย (แท็ก) ประโยค / ย่อหน้า / เอกสารด้วย doc2vec เป็น gensim ได้อย่างไร - จากมุมมองเชิงปฏิบัติ คุณจำเป็นต้องมีแต่ละประโยค / ย่อหน้า / เอกสารที่มีป้ายกำกับที่เป็นเอกลักษณ์ของตนเอง (เช่น "Sent_123") หรือไม่ สิ่งนี้มีประโยชน์หากคุณต้องการพูดว่า "คำหรือประโยคใดที่คล้ายกับประโยคที่ระบุว่า" Sent_123 "มากที่สุด คุณสามารถให้ป้ายกำกับซ้ำตามเนื้อหาได้หรือไม่ ตัวอย่างเช่นหากแต่ละประโยค / ย่อหน้า / เอกสารเกี่ยวกับสินค้าบางรายการ (และมีหลายประโยค / ย่อหน้า / เอกสารสำหรับรายการผลิตภัณฑ์ที่กำหนด) คุณสามารถติดป้ายประโยคตามรายการแล้วคำนวณความคล้ายคลึงกันระหว่างคำหรือ ประโยคและป้ายกำกับนี้ (ซึ่งฉันคิดว่าเป็นเหมือนค่าเฉลี่ยของประโยคทั้งหมดที่เกี่ยวข้องกับรายการผลิตภัณฑ์)

3
การทำ Bagging vs Dropout ใน Deep Neural Networks
การบรรจุถุงเป็นการสร้างตัวทำนายหลายตัวที่ทำงานเป็นตัวทำนายอย่างเดียว การออกกลางคันเป็นเทคนิคที่สอนให้กับเครือข่ายประสาทเทียมโดยเฉลี่ยเครือข่ายย่อยที่เป็นไปได้ทั้งหมด การดูการแข่งขันที่สำคัญที่สุดของ Kaggle นั้นดูเหมือนว่าทั้งสองเทคนิคนี้ใช้กันบ่อยมาก ฉันไม่เห็นความแตกต่างทางทฤษฎีใด ๆ นอกเหนือจากการใช้งานจริง ใครสามารถอธิบายฉันได้ว่าทำไมเราควรใช้ทั้งคู่ในแอปพลิเคชันจริง ๆ และทำไมประสิทธิภาพจึงดีขึ้นเมื่อเราใช้ทั้งสองอย่าง

3
เพื่อนบ้านที่ใกล้ที่สุดค้นหาข้อมูลมิติที่สูงมาก
ฉันมีเมทริกซ์กระจัดกระจายขนาดใหญ่ของผู้ใช้และรายการที่พวกเขาชอบ (เรียงตามผู้ใช้ 1M และรายการ 100K ที่มีระดับความเบาบางต่ำมาก) ฉันสำรวจวิธีการที่ฉันสามารถทำการค้นหาด้วย kNN ด้วยขนาดของชุดข้อมูลของฉันและการทดสอบเริ่มต้นที่ฉันทำข้อสมมติฐานของฉันคือวิธีการที่ฉันจะใช้จะต้องขนานหรือกระจาย ดังนั้นฉันจึงพิจารณาวิธีแก้ปัญหาที่เป็นไปได้สองคลาส: อันที่มีอยู่ (หรือนำไปใช้ได้ในวิธีที่ง่ายพอสมควร) บนเครื่องมัลติคอร์เดียวอีกอันในคลัสเตอร์ Spark เช่นเป็นโปรแกรม MapReduce ต่อไปนี้เป็นแนวคิดสามประการที่ฉันพิจารณา: สมมติว่ามีความคล้ายคลึงกันแบบโคไซน์ให้ทำการคูณเมทริกซ์ที่ได้รับการทำให้เป็นมาตรฐานเต็มรูปแบบด้วยทรานสโพส (นำมาใช้เป็นผลรวมของผลิตภัณฑ์ด้านนอก) การใช้การแฮชที่มีความอ่อนไหวต่อท้องที่ (LSH) การลดมิติแรกของปัญหาด้วย PCA ฉันขอขอบคุณความคิดหรือคำแนะนำเกี่ยวกับวิธีการที่เป็นไปได้ที่ฉันสามารถแก้ไขปัญหานี้ได้

2
ใช้ liblinear กับข้อมูลขนาดใหญ่สำหรับการวิเคราะห์ความหมาย
ฉันใช้Libsvmเพื่อฝึกอบรมข้อมูลและทำนายการจำแนกปัญหาการวิเคราะห์ความหมาย แต่มันก็มีผลการดำเนินงานปัญหากับข้อมูลขนาดใหญ่เนื่องจากความกังวลเกี่ยวกับการวิเคราะห์ความหมายn มิติปัญหา เมื่อปีที่แล้วLiblinearได้เปิดตัวและสามารถแก้ไขปัญหาคอขวดของประสิทธิภาพได้ แต่มันก็มีค่าใช้จ่ายมากเกินไปหน่วยความจำ คือMapReduceวิธีเดียวที่จะแก้ปัญหาการวิเคราะห์ความหมายเกี่ยวกับข้อมูลขนาดใหญ่? หรือมีวิธีอื่นใดที่สามารถปรับปรุงคอขวดของหน่วยความจำบนLiblinear ได้หรือไม่?

5
การตรวจจับแมวด้วยสายตาโดยการตรวจจับความผิดปกติ
ฉันมีโครงการงานอดิเรกที่ฉันคิดจะทำเพื่อเพิ่มประสบการณ์การเรียนรู้ของเครื่องจักรที่ จำกัด ฉันใช้ Coursera MOOC ไปแล้วในหัวข้อนี้ คำถามของฉันเกี่ยวกับความเป็นไปได้ของโครงการ ภารกิจมีดังต่อไปนี้: เพื่อนบ้านแมวมาเยี่ยมสวนของฉันเป็นครั้งคราวซึ่งฉันไม่ชอบเพราะพวกเขามักจะถ่ายอุจจาระบนสนามหญ้าของฉัน ฉันต้องการระบบเตือนที่แจ้งเตือนฉันเมื่อมีแมวอยู่เพื่อที่ฉันจะได้ไล่มันออกไปโดยใช้ super soaker ของฉัน เพื่อความเรียบง่ายบอกว่าฉันแค่ดูแลแมวที่มีสีดำและสีขาว ฉันได้ติดตั้งราสเบอร์รี่ pi พร้อมโมดูลกล้องที่สามารถจับภาพวิดีโอและ / หรือรูปภาพของส่วนหนึ่งของสวน ภาพตัวอย่าง: ความคิดแรกของฉันคือการฝึกลักษณนามเพื่อระบุวัตถุแมวหรือแมว แต่หลังจากทราบว่าฉันจะไม่สามารถรับตัวอย่างเชิงบวกจำนวนมากได้ ฉันคาดว่าถ้าฉันถ่ายภาพทุก ๆ วันฉันจะได้รูปแมวที่มีแมวห้าภาพ (ประมาณ 60,000 กับแสงอาทิตย์) ต่อวัน สิ่งนี้เป็นไปได้โดยใช้การตรวจจับความผิดปกติหรือไม่? ถ้าเป็นเช่นนั้นคุณสมบัติอะไรที่คุณจะแนะนำ? ความคิดของฉันคือการนับจำนวนพิกเซลด้วยสีที่แน่นอน ทำการตรวจจับหยด / การแบ่งส่วนภาพบางส่วน (ซึ่งฉันไม่ทราบว่าจะทำอย่างไรและต้องการหลีกเลี่ยง) และทำการวิเคราะห์สีแบบเดียวกันกับพวกมัน

2
เหตุใดจึงต้องใช้ทั้งชุดการตรวจสอบและชุดการทดสอบ
พิจารณาโครงข่ายประสาทเทียม: สำหรับชุดข้อมูลที่กำหนดเราแบ่งเป็นชุดฝึกอบรมตรวจสอบและทดสอบ สมมติว่าเราทำในอัตราส่วน 60:20:20 คลาสสิคจากนั้นเราป้องกันการ overfitting โดยตรวจสอบความถูกต้องของเครือข่ายโดยตรวจสอบในชุดการตรวจสอบความถูกต้อง ถ้าอย่างนั้นจำเป็นต้องทำการทดสอบอะไรในชุดทดสอบเพื่อตรวจสอบประสิทธิภาพ? ข้อผิดพลาดในชุดทดสอบจะค่อนข้างเหมือนกับชุดการตรวจสอบความถูกต้องสำหรับเครือข่ายเป็นข้อมูลที่มองไม่เห็นเหมือนกับชุดการตรวจสอบความถูกต้องและทั้งสองอย่างมีจำนวนเท่ากันหรือไม่ เราไม่สามารถเพิ่มชุดฝึกอบรมได้โดยรวมชุดทดสอบเข้าด้วยกันเพื่อให้เรามีข้อมูลการฝึกอบรมมากขึ้นและเครือข่ายฝึกอบรมได้ดีขึ้นจากนั้นใช้ชุดการตรวจสอบเพื่อป้องกันการ overfitting? ทำไมเราไม่ทำเช่นนี้?

2
วิธีเพิ่มความแม่นยำของตัวจําแนก
ฉันใช้ตัวอย่าง OpenCV letter_recog.cpp เพื่อทดลองบนต้นไม้แบบสุ่มและตัวแยกประเภทอื่น ๆ ตัวอย่างนี้มีการใช้งานของตัวแยกประเภทหกตัว - ต้นไม้แบบสุ่ม, การส่งเสริม, MLP, kNN, ไร้เดียงสา Bayes และ SVM ชุดข้อมูลการรู้จำจดหมาย UCI ที่มีอินสแตนซ์ 20,000 ตัวและมีฟีเจอร์ 16 ตัวซึ่งฉันแบ่งครึ่งสำหรับการฝึกอบรมและการทดสอบ ฉันมีประสบการณ์กับ SVM ดังนั้นฉันจึงตั้งค่าข้อผิดพลาดการรู้จำเป็น 3.3% หลังจากการทดลองสิ่งที่ฉันได้รับคือ: การรับรู้จดหมาย UCI: RTrees - 5.3% เพิ่ม - 13% MLP - 7.9% kNN (k = 3) - 6.5% เบย์ - 11.5% SVM - 3.3% …

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
ผสานข้อมูลที่เบาบางและหนาแน่นในการเรียนรู้ของเครื่องเพื่อปรับปรุงประสิทธิภาพ
ฉันมีคุณสมบัติเบาบางซึ่งสามารถคาดเดาได้และฉันยังมีคุณสมบัติที่หนาแน่นซึ่งสามารถคาดเดาได้ ฉันต้องรวมคุณสมบัติเหล่านี้เข้าด้วยกันเพื่อปรับปรุงประสิทธิภาพโดยรวมของตัวจําแนก ตอนนี้สิ่งที่เกิดขึ้นคือเมื่อฉันพยายามรวมสิ่งเหล่านี้เข้าด้วยกันคุณลักษณะที่หนาแน่นมีแนวโน้มที่จะครอบงำมากกว่าคุณสมบัติเบาบางดังนั้นจึงทำให้การปรับปรุง AUC เพียง 1% เมื่อเทียบกับรุ่นที่มีคุณสมบัติที่หนาแน่นเท่านั้น มีใครบางคนเจอปัญหาที่คล้ายกัน? ชื่นชมอินพุตที่ติดอยู่จริงๆ ฉันได้ลองตัวแยกประเภทที่แตกต่างกันจำนวนมากการรวมกันของตัวแยกประเภทการแปลงคุณสมบัติและการประมวลผลด้วยอัลกอริทึมที่แตกต่างกัน ขอบคุณล่วงหน้าสำหรับความช่วยเหลือ แก้ไข : ฉันได้ลองใช้คำแนะนำที่ให้ไว้ในความคิดเห็นแล้ว สิ่งที่ฉันสังเกตคือเกือบ 45% ของข้อมูลคุณสมบัติเบาบางทำงานได้ดีจริง ๆ ฉันได้รับ AUC ประมาณ 0.9 ด้วยฟีเจอร์เบาบางเท่านั้น แต่สำหรับคุณสมบัติที่หนาแน่นที่เหลืออยู่นั้นทำงานได้ดีกับ AUC ประมาณ 0.75 ฉันพยายามแยกชุดข้อมูลเหล่านี้ออก แต่ฉันได้รับ AUC เท่ากับ 0.6 ดังนั้นฉันจึงไม่สามารถฝึกอบรมโมเดลและตัดสินใจว่าจะใช้ฟีเจอร์ใด เกี่ยวกับข้อมูลโค้ดฉันได้ลองหลายสิ่งหลายอย่างแล้วซึ่งฉันไม่แน่ใจว่าจะแชร์สิ่งใดกันแน่ :(

2
เราควรใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่
ฉันกำลังทำโครงการเกี่ยวกับปัญหาการระบุผู้แต่ง ฉันใช้การปรับมาตรฐาน tf-idf เพื่อฝึกอบรมข้อมูลแล้วฝึก svm กับข้อมูลนั้น ตอนนี้เมื่อใช้ตัวจําแนกฉันควรทำให้ข้อมูลทดสอบเป็นปกติ ฉันรู้สึกว่าเป้าหมายพื้นฐานของการทำให้เป็นมาตรฐานคือการทำให้การเรียนรู้เพิ่มน้ำหนักให้กับคุณสมบัติที่สำคัญกว่าขณะเรียนรู้ ดังนั้นเมื่อมีการฝึกอบรมแล้วจะรู้ว่าคุณสมบัติใดมีความสำคัญซึ่งไม่ได้ ดังนั้นจำเป็นที่จะต้องใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่? ฉันยังใหม่กับสาขานี้ ดังนั้นโปรดเพิกเฉยหากคำถามนั้นโง่?

2
เราควรจัดการกับข้อมูลที่หายไปที่ไหนในเวิร์กโฟลว์
ฉันกำลังสร้างเวิร์กโฟลว์สำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่อง (ในกรณีของฉันโดยใช้ Python pandasและsklearnแพ็คเกจ) จากข้อมูลที่ดึงมาจากฐานข้อมูลขนาดใหญ่มาก (ที่นี่ Vertica ด้วยวิธี SQL และpyodbc) และขั้นตอนสำคัญในกระบวนการนั้น ค่าของผู้ทำนาย สิ่งนี้ตรงไปตรงมาในแพลตฟอร์มการวิเคราะห์หรือสถิติเดียวไม่ว่าจะเป็น Python, R, Stata และอื่น ๆ --- แต่ฉันอยากรู้ว่าจะหาขั้นตอนนี้ได้ดีที่สุดในเวิร์กโฟลว์แบบหลายแพลตฟอร์มได้อย่างไร มันง่ายพอที่จะทำสิ่งนี้ใน Python ไม่ว่าจะเป็นsklearn.preprocessing.Imputerคลาสใช้pandas.DataFrame.fillnaวิธีการหรือด้วยมือ (ขึ้นอยู่กับความซับซ้อนของวิธีการใส่ความคิดที่ใช้) แต่เนื่องจากฉันจะใช้คอลัมน์นี้หลายสิบหรือหลายร้อยคอลัมน์ในหลายร้อยล้านระเบียนฉันสงสัยว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการทำสิ่งนี้โดยตรงผ่าน SQL ล่วงหน้าหรือไม่ นอกเหนือจากประสิทธิภาพที่เป็นไปได้ของการทำเช่นนี้ในแพลตฟอร์มแบบกระจายเช่น Vertica สิ่งนี้จะมีประโยชน์เพิ่มเติมที่ช่วยให้เราสามารถสร้างไปป์ไลน์อัตโนมัติสำหรับการสร้างตารางเวอร์ชัน "สมบูรณ์" ดังนั้นเราจึงไม่จำเป็นต้องกรอกชุดใหม่ ของค่าที่หายไปตั้งแต่เริ่มต้นทุกครั้งที่เราต้องการเรียกใช้แบบจำลอง ฉันไม่สามารถหาคำแนะนำมากมายเกี่ยวกับสิ่งนี้ แต่ฉันคิดว่าเราจะทำได้: สร้างตารางค่าทดแทน (เช่นค่าเฉลี่ย / มัธยฐาน / โหมดโดยรวมหรือตามกลุ่ม) สำหรับแต่ละคอลัมน์ที่ไม่สมบูรณ์ เข้าร่วมตารางค่าทดแทนกับตารางเดิมเพื่อกำหนดค่าทดแทนสำหรับแต่ละแถวและคอลัมน์ที่ไม่สมบูรณ์ ใช้ชุดคำสั่ง case เพื่อรับค่าดั้งเดิมหากมีและค่าทดแทนเป็นอย่างอื่น สิ่งนี้เป็นสิ่งที่สมเหตุสมผลที่ต้องทำใน Vertica / SQL …

1
คะแนน LB ในการเรียนรู้ของเครื่องคืออะไร
ฉันกำลังอ่านบทความเกี่ยวกับบล็อก kaggle ผู้เขียนระบุว่า 'คะแนน LB' และ 'พอดีพอดี') ซ้ำเป็นตัวชี้วัดสำหรับประสิทธิภาพของการเรียนรู้ของเครื่อง (พร้อมกับคะแนนการตรวจสอบข้าม (CV)) จากการวิจัยเกี่ยวกับความหมายของ 'LB' ฉันใช้เวลาค่อนข้างนานฉันจึงตระหนักว่าโดยทั่วไปผู้คนมักจะอ้างถึงว่าเป็น LB โดยไม่มีพื้นฐานมาก ดังนั้นคำถามของฉันคือ 'LB' คืออะไร?

3
น้ำหนักและอคติในการเรียนรู้อย่างลึกซึ้งคืออะไร?
ฉันเริ่มเรียนรู้การเรียนรู้ของเครื่องจากเว็บไซต์ Tensorflow ฉันได้พัฒนาความเข้าใจพื้นฐานของโปรแกรมการเรียนรู้ที่ลึกล้ำตามมา (วิธีนี้ทำให้ฉันเรียนรู้เร็วแทนที่จะอ่านหนังสือและบทความใหญ่) มีบางสิ่งที่สับสนที่ฉันได้เจอมี 2 สิ่ง: อคติ น้ำหนัก ในการสอน MNIST บนเว็บไซต์ของเทนเซอร์โฟลว์พวกเขาได้กล่าวว่าเราต้องการอคติและน้ำหนักเพื่อค้นหาหลักฐานการมีอยู่ของรูปแบบเฉพาะในภาพ สิ่งที่ฉันไม่เข้าใจคือการกำหนดค่าสำหรับอคติและน้ำหนักที่ใดและอย่างไร เราต้องให้ค่าเหล่านี้หรือไม่หรือห้องสมุด TensorFlow คำนวณค่าเหล่านี้โดยอัตโนมัติตามชุดข้อมูลการฝึกอบรมหรือไม่? นอกจากนี้หากคุณสามารถให้คำแนะนำเกี่ยวกับวิธีเร่งความเร็วของฉันในการเรียนรู้อย่างลึกซึ้งนั่นจะยอดเยี่ยมมาก! การสอน Tensorflow Beginners

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.