คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

8
การรวมกลุ่มพิกัดตำแหน่งทางภูมิศาสตร์ (lat, long long)
วิธีการที่เหมาะสมและอัลกอริทึมการจัดกลุ่มสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์คืออะไร? ฉันใช้รหัสต่อไปนี้เพื่อประสานพิกัดตำแหน่งทางภูมิศาสตร์: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() ถูกต้องหรือไม่ที่จะใช้ K- meanสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์เนื่องจากใช้ระยะทางแบบยุคลิดไม่ใช่สูตรฮาร์ไซน์เป็นฟังก์ชันระยะทาง

8
ทำไม Overfitting แย่ในการเรียนรู้ของเครื่อง?
ลอจิกมักจะกล่าวว่าโดยการ overfitting แบบจำลองความสามารถในการพูดคุยแบบทั่วไปมี จำกัด แม้ว่านี่อาจหมายถึงเฉพาะการ overfitting หยุดแบบจำลองจากการปรับปรุงหลังจากความซับซ้อนบางอย่าง การบรรจุมากเกินไปทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูลและถ้าเป็นเช่นนั้นเหตุใดจึงเป็นเช่นนี้ ที่เกี่ยวข้อง:ติดตามคำถามข้างต้น " โมเดลจะได้รับการสนับสนุนเมื่อใด "

4
โครงข่ายประสาท: ฟังก์ชั่นค่าใช้จ่ายที่จะใช้?
ฉันใช้TensorFlowสำหรับการทดลองกับเครือข่ายประสาทเป็นหลัก แม้ว่าตอนนี้ฉันได้ทำการทดลองบ้างแล้ว (XOR-Problem, MNIST, Regression บางอย่าง, ... ) ตอนนี้ฉันต่อสู้กับการเลือกฟังก์ชั่นต้นทุนที่ "ถูกต้อง" สำหรับปัญหาเฉพาะเพราะโดยรวมแล้วฉันถือว่าเป็นมือใหม่ ก่อนที่จะมาที่ TensorFlow ฉันเขียนรหัส MLP ที่เชื่อมต่ออย่างเต็มที่และเครือข่ายที่เกิดขึ้นเองด้วยPythonและNumPyแต่ส่วนใหญ่ฉันมีปัญหาที่ข้อผิดพลาดยกกำลังสองง่ายและการไล่ระดับสีอย่างง่ายนั้นเพียงพอ อย่างไรก็ตามเนื่องจาก TensorFlow มีฟังก์ชั่นค่าใช้จ่ายค่อนข้างมากเช่นเดียวกับการสร้างฟังก์ชั่นค่าใช้จ่ายที่กำหนดเองฉันต้องการที่จะทราบว่ามีการสอนบางอย่างที่เฉพาะเจาะจงสำหรับฟังก์ชั่นค่าใช้จ่ายในเครือข่ายประสาท (ฉันทำไปแล้วเหมือนครึ่งหนึ่งของแบบฝึกหัด TensorFlow อย่างเป็นทางการ แต่พวกเขาไม่ได้อธิบายว่าทำไมฟังก์ชั่นค่าใช้จ่ายเฉพาะหรือผู้เรียนใช้สำหรับปัญหาเฉพาะ - อย่างน้อยไม่ใช่สำหรับผู้เริ่มต้น) ในการให้ตัวอย่าง: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) ฉันเดาว่ามันใช้ฟังก์ชั่น softmax กับทั้งสองอินพุตเพื่อให้ผลรวมของเวกเตอร์หนึ่งเท่ากับ 1 แต่ไขว้เอนโทรปีของการบันทึกคืออะไร ฉันคิดว่ามันสรุปค่าและคำนวณค่าเอนโทรปีของการไขว้ ... ดังนั้นการวัดบางอย่าง?! นี่จะไม่เหมือนกันหรือไม่ถ้าฉันเอาท์พุทเป็นปกติ, หาผลรวมมันออกมา นอกจากนี้เหตุใดจึงใช้สิ่งนี้เช่นสำหรับ MNIST (หรือปัญหาที่ยากกว่า) เมื่อฉันต้องการที่จะจัดเช่น 10 หรือแม้กระทั่ง 1000 เรียนไม่ได้ข้อสรุปถึงค่าที่สมบูรณ์ทำลายข้อมูลใด ๆ เกี่ยวกับการที่ชั้นเป็นจริงการส่งออกหรือไม่ …

9
มีโดเมนใดที่ Bayesian Networks มีประสิทธิภาพสูงกว่าเครือข่ายประสาทหรือไม่
เครือข่ายนิวรัลได้รับผลลัพธ์สูงสุดในงาน Computer Vision (ดูMNIST , ILSVRC , Kaggle Galaxy Challenge ) ดูเหมือนว่าพวกเขาจะเหนือกว่าทุก ๆ วิธีใน Computer Vision แต่ยังมีงานอื่น ๆ : Kaggle Molecular Activity Challenge การถดถอย: การทำนาย Kaggle Rainก็เป็นอันดับที่ 2 เช่นกัน เข้าใจและยกที่ 2นอกจากนี้ยังมีสถานที่ที่สาม - ระบุการเคลื่อนไหวมือจากการบันทึกคลื่นไฟฟ้าสมอง ฉันไม่แน่ใจเกินไปเกี่ยวกับ ASR (การรู้จำเสียงอัตโนมัติ) และการแปลด้วยเครื่อง แต่ฉันคิดว่าฉันก็เคยได้ยินว่า (เกิดขึ้นอีก) เครือข่ายประสาท (เริ่มต้น) มีประสิทธิภาพเหนือกว่าวิธีอื่น ๆ ขณะนี้ฉันกำลังเรียนรู้เกี่ยวกับ Bayesian Networks และฉันสงสัยว่าในกรณีใดโมเดลเหล่านี้มักจะถูกนำไปใช้ ดังนั้นคำถามของฉันคือ: มีการแข่งขันที่ท้าทาย / …

5
ฉันควรจะไปที่ชุดข้อมูล 'สมดุล' หรือชุดข้อมูล 'ตัวแทน'?
งาน 'การเรียนรู้ของเครื่อง' ของฉันคือการแยกการรับส่งข้อมูลอินเทอร์เน็ตที่ไม่เป็นอันตรายออกจากการรับส่งข้อมูลที่เป็นอันตราย ในสถานการณ์โลกแห่งความเป็นจริงการรับส่งข้อมูลทางอินเทอร์เน็ตส่วนใหญ่ (90% ขึ้นไป) นั้นไม่เป็นอันตราย ดังนั้นฉันรู้สึกว่าฉันควรเลือกการตั้งค่าข้อมูลที่คล้ายกันสำหรับการฝึกอบรมโมเดลของฉันเช่นกัน แต่ฉันเจอบทความวิจัยหนึ่งหรือสองเรื่อง (ในพื้นที่ที่ฉันทำงาน) ซึ่งใช้วิธีการ "จัดสมดุลคลาส" เพื่อฝึกอบรมนางแบบซึ่งหมายถึงจำนวนอินสแตนซ์ของการรับส่งข้อมูลที่ไม่เป็นอันตรายและเป็นอันตราย โดยทั่วไปถ้าฉันสร้างแบบจำลองการเรียนรู้ของเครื่องฉันควรจะไปหาชุดข้อมูลซึ่งเป็นตัวแทนของปัญหาโลกแห่งความจริงหรือเป็นชุดข้อมูลที่มีความสมดุลที่ดีกว่าเหมาะสำหรับการสร้างแบบจำลอง (เนื่องจากตัวแยกประเภทบางตัว เนื่องจากเหตุผลอื่น ๆ ที่ฉันไม่รู้จัก)? คนที่สามารถหลั่งน้ำตาแสงเพิ่มเติมเกี่ยวกับข้อดีและข้อเสียของทั้งสองทางเลือกและวิธีการที่จะตัดสินใจที่หนึ่งที่จะไปเลือก?

10
การเรียนรู้ของเครื่อง - คุณสมบัติด้านวิศวกรรมจากข้อมูลวันที่ / เวลา
แนวทางปฏิบัติทั่วไปที่ดีที่สุดในการจัดการข้อมูลเวลาสำหรับแอปพลิเคชันการเรียนรู้ของเครื่องคืออะไร ตัวอย่างเช่นหากในชุดข้อมูลมีคอลัมน์ที่มีการประทับเวลาของเหตุการณ์เช่น "2014-05-05" คุณจะแยกคุณลักษณะที่มีประโยชน์จากคอลัมน์นี้ได้อย่างไร? ขอบคุณล่วงหน้า!

4
การเพิ่มคุณสมบัติให้กับ Time Series รุ่น LSTM
ได้รับการอ่านขึ้นเล็กน้อยเกี่ยวกับ LSTM และการใช้งานของพวกเขาสำหรับชุดเวลาและมันน่าสนใจ แต่ก็ยากในเวลาเดียวกัน สิ่งหนึ่งที่ฉันมีปัญหาในการทำความเข้าใจคือวิธีการเพิ่มคุณลักษณะเพิ่มเติมลงในรายการคุณลักษณะของอนุกรมเวลาอยู่แล้ว สมมติว่าคุณมีชุดข้อมูลของคุณเช่นนี้: T-3, T-2, T-1, เอาท์พุท ตอนนี้ให้บอกว่าคุณรู้ว่าคุณมีคุณสมบัติที่มีผลต่อการส่งออก แต่ไม่จำเป็นต้องเป็นคุณลักษณะอนุกรมเวลาให้บอกว่าสภาพอากาศภายนอก นี่คือสิ่งที่คุณสามารถเพิ่มได้และ LSTM จะสามารถแยกแยะความแตกต่างของอนุกรมเวลาและอะไรไม่ได้

4
เหตุใดขนาดชุดเล็กจึงดีกว่า“ ชุดเดียว” ที่มีข้อมูลการฝึกอบรมทั้งหมด?
ฉันมักจะอ่านว่าในกรณีของการเรียนรู้แบบลึกการฝึกตามปกติคือการใช้ชุดเล็ก ๆ ฉันไม่สามารถเข้าใจเหตุผลที่อยู่เบื้องหลังนี้ได้ เว้นแต่ว่าฉันเข้าใจผิดขนาดแบทช์คือจำนวนอินสแตนซ์การฝึกอบรมที่เห็นโดยโมเดลระหว่างการทำซ้ำการฝึกอบรม และยุคคือการเปิดเต็มเมื่อแต่ละกรณีการฝึกอบรมได้รับการเห็นโดยรูปแบบ ถ้าเป็นเช่นนั้นฉันไม่สามารถเห็นข้อได้เปรียบของการวนซ้ำชุดย่อยที่แทบไม่มีนัยสำคัญของการฝึกอบรมหลายครั้งในทางตรงกันข้ามกับการใช้ "แบทช์สูงสุด" โดยการเปิดเผยอินสแตนซ์การฝึกอบรมที่มีอยู่ทั้งหมดในแต่ละครั้ง ความทรงจำ). ข้อดีของวิธีนี้คืออะไร?

10
ทำไมโมเดลการเรียนรู้ของเครื่องถึงเรียกว่ากล่องดำ
ฉันอ่านโพสต์บล็อกนี้ชื่อ: The Financial World ต้องการเปิดกล่องดำของ AIซึ่งผู้เขียนอ้างถึงนางแบบ ML เป็น "กล่องดำ" ซ้ำ ๆ มีการใช้คำศัพท์ที่คล้ายกันในหลายสถานที่เมื่ออ้างถึง ML model ทำไมถึงเป็นเช่นนั้น? มันไม่เหมือนวิศวกร ML ที่ไม่รู้ว่าเกิดอะไรขึ้นในโครงข่ายประสาท เลเยอร์ทุกอันจะถูกเลือกโดยวิศวกร ML ที่รู้ว่าจะใช้ฟังก์ชั่นการเปิดใช้งานอะไรชนิดของเลเยอร์นั้นจะทำอย่างไรการแพร่กระจายของข้อผิดพลาดกลับเป็นต้น

11
ข้อมูลวิทยาศาสตร์ใน C (หรือ C ++)
ฉันเป็นRโปรแกรมเมอร์ภาษา ฉันยังอยู่ในกลุ่มคนที่ถือว่าเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่มาจากสาขาวิชาการที่ไม่ใช่ CS สิ่งนี้ทำงานได้ดีในบทบาทของฉันในฐานะนักวิทยาศาสตร์ข้อมูล แต่ด้วยการเริ่มต้นอาชีพของฉันRและมีความรู้พื้นฐานเกี่ยวกับภาษาสคริปต์ / เว็บภาษาอื่น ๆ ฉันรู้สึกไม่เพียงพอใน 2 ประเด็นสำคัญ: ขาดความรู้ที่เป็นของแข็งเกี่ยวกับทฤษฎีการเขียนโปรแกรม ขาดระดับการแข่งขันของทักษะในภาษาได้เร็วขึ้นและกว้างขวางมากขึ้นมาใช้เช่นC, C++และJavaซึ่งสามารถนำมาใช้ในการเพิ่มความเร็วของท่อและข้อมูลขนาดใหญ่การคำนวณเช่นเดียวกับการสร้าง DS / ผลิตภัณฑ์ข้อมูลซึ่งสามารถได้รับการพัฒนามากขึ้นอย่างรวดเร็วเข้าไปอย่างรวดเร็ว สคริปต์แบ็คเอนด์หรือแอพพลิเคชันแบบสแตนด์อโลน วิธีแก้ปัญหานั้นง่ายมาก - ไปเรียนรู้เกี่ยวกับการเขียนโปรแกรมซึ่งเป็นสิ่งที่ฉันทำโดยลงทะเบียนในบางคลาส (ปัจจุบันคือการเขียนโปรแกรม C) อย่างไรก็ตามตอนนี้ฉันเริ่มที่จะแก้ไขปัญหาที่ # 1 และ # 2 ข้างต้นแล้วฉันก็ถามตัวเองว่า " ภาษาเป็นอย่างไรCและC++วิทยาศาสตร์ข้อมูลเป็นอย่างไร? " ตัวอย่างเช่นฉันสามารถย้ายข้อมูลไปมาอย่างรวดเร็วและโต้ตอบกับผู้ใช้ได้ดี แต่สิ่งที่เกี่ยวกับการถดถอยขั้นสูงการเรียนรู้ของเครื่องการทำเหมืองข้อความและการดำเนินการทางสถิติขั้นสูงอื่น ๆ ดังนั้น. สามารถCทำงานได้ - มีเครื่องมืออะไรบ้างสำหรับสถิติขั้นสูง ML, AI และสาขาอื่น ๆ ของ Data Science หรือฉันต้องหลวมประสิทธิภาพส่วนใหญ่ที่ได้จากการเขียนโปรแกรมCด้วยการโทรหาRสคริปต์หรือภาษาอื่น ๆ …

10
กลไกการเรียนรู้ของเครื่องสามารถทำนายผลคะแนนหรือการเล่นกีฬาได้หรือไม่?
ฉันมีชุดข้อมูล NFL ที่หลากหลายซึ่งฉันคิดว่าอาจทำผลงานได้ดี แต่ฉันยังไม่ได้ทำอะไรกับพวกเขา การมาที่ไซต์นี้ทำให้ฉันนึกถึงอัลกอริธึมการเรียนรู้ของเครื่องจักรและฉันสงสัยว่าพวกเขาจะดีแค่ไหนในการทำนายผลของเกมฟุตบอลหรือแม้แต่การเล่นครั้งต่อไป สำหรับฉันแล้วดูเหมือนว่าจะมีแนวโน้มบางอย่างที่สามารถระบุได้ - ในวันที่ 3 และ 1 ทีมที่มีการวิ่งกลับที่แข็งแกร่งในทางทฤษฎีควรมีแนวโน้มที่จะเล่นบอลในสถานการณ์นั้น การให้คะแนนอาจยากต่อการทำนาย แต่ทีมที่ชนะอาจเป็น คำถามของฉันคือคำถามเหล่านี้เป็นคำถามที่ดีหรือไม่สำหรับการเรียนรู้ด้วยอัลกอริทึม อาจเป็นไปได้ว่ามีคนหลายพันคนทดลองใช้มาก่อน แต่ลักษณะของกีฬาทำให้เป็นหัวข้อที่ไม่น่าเชื่อถือ

3
เมื่อใดจะใช้อะไร - การเรียนรู้ของเครื่อง [ปิด]
เมื่อเร็ว ๆ นี้ในคลาสการเรียนรู้ของเครื่องจากศาสตราจารย์ Oriol Pujol ที่ UPC / Barcelona เขาได้อธิบายถึงอัลกอริทึมหลักการและแนวคิดที่ใช้กันทั่วไปสำหรับงานที่เกี่ยวข้องกับการเรียนรู้ของเครื่องจักร ที่นี่ฉันแบ่งปันให้กับคุณและถามคุณ: มีกรอบงานที่ครอบคลุมที่จับคู่กับแนวทางหรือวิธีการที่เกี่ยวข้องกับปัญหาการเรียนรู้ของเครื่องที่แตกต่างกันหรือไม่? ฉันจะเรียนรู้แบบเกาส์ง่ายๆได้อย่างไร ความน่าจะเป็นตัวแปรสุ่มการแจกแจง การประมาณค่าการลู่เข้าหาและเส้นกำกับช่วงเวลาความมั่นใจ ฉันจะเรียนรู้ส่วนผสมของ Gaussians (MoG) ได้อย่างไร โอกาสความคาดหวัง - สูงสุด (EM); การวางนัยทั่วไปการเลือกแบบจำลองการตรวจสอบข้าม k-หมายถึงรุ่นมาร์คอฟที่ซ่อนอยู่ (HMM) ฉันจะเรียนรู้ความหนาแน่นได้อย่างไร การประมาณค่าพารามิเตอร์เทียบกับที่ไม่ใช่พารามิเตอร์ Sobolev และพื้นที่การทำงานอื่น ๆ l ́ 2 ข้อผิดพลาด; การประมาณความหนาแน่นของเคอร์เนล (KDE), เคอร์เนลที่ดีที่สุด, ทฤษฎีของ KDE ฉันจะทำนายตัวแปรต่อเนื่อง (การถดถอย) ได้อย่างไร การถดถอยเชิงเส้น, การทำให้เป็นมาตรฐาน, การถดถอยแบบสันและ LASSO; การถดถอยเชิงเส้นท้องถิ่น การประมาณความหนาแน่นตามเงื่อนไข ฉันจะทำนายตัวแปรแยก …

5
GBM กับ XGBOOST ความแตกต่างที่สำคัญ?
ฉันพยายามเข้าใจถึงความแตกต่างที่สำคัญระหว่าง GBM และ XGBOOST ฉันพยายาม google แต่ไม่พบคำตอบที่ดีใด ๆ ที่อธิบายความแตกต่างระหว่างอัลกอริธึมทั้งสองและทำไม xgboost ทำงานได้ดีกว่า GBM เกือบทุกครั้ง อะไรทำให้ XGBOOST เร็วขึ้น?

2
จะตีความผลลัพธ์ของ XGBoost ได้อย่างไร?
ฉันใช้โมเดล xgboost xgb.importanceผมไม่ทราบว่าวิธีการตีความการส่งออกของ อะไรคือความหมายของการได้รับความคุ้มครองและความถี่และเราจะตีความมันได้อย่างไร นอกจากนี้ Split, RealCover และ RealCover% หมายถึงอะไร ฉันมีพารามิเตอร์พิเศษบางอย่างที่นี่ มีพารามิเตอร์อื่น ๆ ที่สามารถบอกฉันเพิ่มเติมเกี่ยวกับคุณสมบัติการนำเข้า จากเอกสาร R ฉันมีความเข้าใจว่าการได้รับนั้นคล้ายกับการรับข้อมูลและความถี่คือจำนวนครั้งที่มีการใช้คุณลักษณะในต้นไม้ทั้งหมด ฉันไม่รู้ว่า Cover คืออะไร ฉันรันโค้ดตัวอย่างที่ให้ไว้ในลิงก์ (และพยายามทำเช่นเดียวกันกับปัญหาที่ฉันกำลังทำอยู่) แต่การแยกคำจำกัดความที่ให้ที่นั่นไม่ตรงกับตัวเลขที่ฉันคำนวณ importance_matrix เอาท์พุท: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: …

13
วิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับคำพูดตลก
เป็นธรรมเนียมที่ผู้ใช้ของชุมชนต่าง ๆจะอ้างถึงสิ่งที่ตลกเกี่ยวกับทุ่งนาของพวกเขา มันอาจเป็นเรื่องสนุกที่จะแบ่งปันเรื่องตลกของคุณเกี่ยวกับการเรียนรู้ของเครื่องการเรียนรู้ลึกวิทยาศาสตร์ข้อมูลและสิ่งที่คุณเผชิญทุกวัน!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.