คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

4
ช่วงเวลาการทำนายรอบการคาดการณ์อนุกรมเวลา LSTM
มีวิธีการคำนวณช่วงเวลาการทำนาย (การแจกแจงความน่าจะเป็น) รอบการพยากรณ์อนุกรมเวลาจากเครือข่ายประสาท LSTM (หรือการเกิดขึ้นอีกครั้ง) หรือไม่? ตัวอย่างเช่นฉันคาดการณ์ 10 ตัวอย่างในอนาคต (t + 1 ถึง t + 10) ตามตัวอย่างที่สังเกตได้ 10 รายการล่าสุด (t-9 ถึง t) ฉันคาดว่าการทำนายที่ t + 1 จะมากกว่านี้ แม่นยำกว่าการทำนายที่ t + 10 โดยปกติแล้วหนึ่งอาจวาดแถบข้อผิดพลาดรอบการทำนายเพื่อแสดงช่วงเวลา ด้วยโมเดล ARIMA (ภายใต้สมมติฐานของข้อผิดพลาดแบบกระจายทั่วไป) ฉันสามารถคำนวณช่วงการทำนาย (เช่น 95%) รอบค่าที่ทำนายแต่ละค่า ฉันสามารถคำนวณแบบเดียวกัน (หรือบางอย่างที่เกี่ยวข้องกับช่วงเวลาการทำนาย) จากแบบจำลอง LSTM ได้หรือไม่ ฉันทำงานกับ LSTM ใน Keras / Python …

4
วิธีการปรับขนาดอาร์เรย์ของจำนวนเต็มที่ลงนามให้อยู่ในช่วงตั้งแต่ 0 ถึง 1
ฉันกำลังใช้Brainในการฝึกอบรมโครงข่ายประสาทเทียมในชุดคุณลักษณะที่มีทั้งค่าบวกและค่าลบ แต่สมองต้องการค่าอินพุตระหว่าง 0 ถึง 1 วิธีที่ดีที่สุดในการทำให้ข้อมูลของฉันเป็นปกติคืออะไร

3
เอาต์พุตของฟังก์ชัน model.predict จาก Keras หมายถึงอะไร
ฉันได้สร้างแบบจำลอง LSTM เพื่อทำนายคำถามที่ซ้ำกันในชุดข้อมูลอย่างเป็นทางการของ Quora ป้ายทดสอบเป็น 0 หรือ 1 1 หมายถึงคู่คำถามซ้ำกัน หลังจากสร้างแบบจำลองโดยใช้model.fitฉันทดสอบแบบจำลองโดยใช้model.predictกับข้อมูลการทดสอบ ผลลัพธ์คืออาร์เรย์ของค่าบางอย่างดังนี้: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] ฉันแค่แสดง 10 ค่าแรกในอาร์เรย์ ฉันไม่เข้าใจค่าเหล่านี้หมายถึงอะไรและป้ายกำกับที่คาดการณ์ไว้สำหรับคู่คำถามแต่ละคู่คืออะไร

4
Gradient Descent เป็นศูนย์กลางของทุกเครื่องมือเพิ่มประสิทธิภาพหรือไม่
ฉันต้องการทราบว่า Gradient descent เป็นอัลกอริทึมหลักที่ใช้ในเครื่องมือเพิ่มประสิทธิภาพเช่น Adam, Adagrad, RMSProp และเครื่องมือเพิ่มประสิทธิภาพอื่น ๆ

1
XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?
ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

3
ด้วยคลาสที่ไม่สมดุลฉันต้องใช้ภายใต้การสุ่มตัวอย่างในชุดข้อมูลการตรวจสอบ / การทดสอบของฉันหรือไม่
ฉันเป็นผู้เริ่มต้นในการเรียนรู้ของเครื่องจักรและฉันกำลังเผชิญกับสถานการณ์ ฉันกำลังทำงานเกี่ยวกับปัญหาการเสนอราคาแบบเรียลไทม์กับชุดข้อมูล IPinYou และฉันพยายามคาดคะเนการคลิก อย่างที่คุณทราบชุดข้อมูลนั้นไม่สมดุลมาก: มีตัวอย่างเชิงลบประมาณ 1300 ตัวอย่าง (ไม่ใช่คลิก) สำหรับตัวอย่างที่เป็นบวก 1 รายการ (คลิก) นี่คือสิ่งที่ฉันทำ: โหลดข้อมูล แบ่งชุดข้อมูลออกเป็น 3 ชุดข้อมูล: A = การฝึกอบรม (60%) B = การตรวจสอบความถูกต้อง (20%) C = การทดสอบ (20%) สำหรับแต่ละชุดข้อมูล (A, B, C) ให้ทำ under-sampling บนแต่ละคลาสลบเพื่อให้มีอัตราส่วน 5 (ตัวอย่างลบ 5 สำหรับตัวอย่างบวก 1 ตัวอย่าง) ให้ 3 ชุดข้อมูลใหม่ที่มีความสมดุลมากกว่า: A 'B' C ' …

2
การถดถอยเชิงเส้นพร้อมฟังก์ชันต้นทุนที่ไม่สมมาตร
ฉันต้องการที่จะทำนายค่าบางและฉันพยายามที่จะได้รับบางทำนายที่เพิ่มประสิทธิภาพระหว่างการเป็นที่ต่ำที่สุดเท่าที่เป็นไปได้ แต่ยังคงความมีขนาดใหญ่กว่า(x) กล่าวอีกนัยหนึ่ง: Y ( x ) Y ( x ) ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) } > > ค่าใช้จ่าย{ Y ( x ) ≳ Y ( x ) }Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} ฉันคิดว่าการถดถอยเชิงเส้นอย่างง่ายควรทำได้ดี ดังนั้นฉันค่อนข้างรู้วิธีการใช้งานด้วยตนเอง …

1
ความแตกต่างระหว่างการสร้างคุณลักษณะและการแยกคุณสมบัติคืออะไร?
ใครช่วยบอกฉันได้ว่าจุดประสงค์ของการสร้างคุณลักษณะคืออะไร และเหตุใดจึงต้องเพิ่มพื้นที่ของฟีเจอร์ก่อนจัดประเภทรูปภาพ มันเป็นขั้นตอนที่จำเป็น? มีวิธีใดบ้างในการเพิ่มพื้นที่คุณลักษณะ?

2
การแสดงการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก
ฉันกำลังพยายามหา Hinton Diagrams ที่เทียบเท่าสำหรับเครือข่ายหลายชั้นเพื่อวางแผนน้ำหนักในระหว่างการฝึก เครือข่ายที่ได้รับการฝึกอบรมจะค่อนข้างคล้ายกับ Deep SRN นั่นคือมันมีการฝึกอบรมน้ำหนักหลายอย่างซึ่งจะทำให้พล็อต Hinton Diagrams หลาย ๆ ภาพพร้อมกันสับสน ไม่มีใครรู้วิธีที่ดีในการมองเห็นกระบวนการปรับปรุงน้ำหนักสำหรับเครือข่ายที่เกิดซ้ำที่มีหลายเลเยอร์ ฉันไม่พบเอกสารจำนวนมากในหัวข้อ ฉันกำลังคิดที่จะแสดงข้อมูลเกี่ยวกับเวลาเกี่ยวกับน้ำหนักต่อเลเยอร์แทนหากฉันไม่สามารถหาอะไรได้ เช่น Weight-delta เมื่อเวลาผ่านไปสำหรับแต่ละเลเยอร์ (ไม่ใช้การเชื่อมต่อทุกครั้ง) PCA เป็นไปได้อีกอย่างหนึ่ง แต่ฉันไม่ต้องการสร้างการคำนวณเพิ่มเติมเนื่องจากการสร้างภาพข้อมูลออนไลน์ในระหว่างการฝึกอบรม

2
คุณสมบัติใดที่ใช้โดยทั่วไปจากต้นการแยกวิเคราะห์ในกระบวนการจำแนกใน NLP
ฉันกำลังสำรวจโครงสร้างต้นไม้แยกวิเคราะห์ประเภทต่างๆ โครงสร้างการแยกวิเคราะห์ต้นไม้ที่รู้จักกันอย่างกว้างขวางทั้งสองคือก) การแยกวิเคราะห์ต้นไม้ตามโครงสร้างและข) โครงสร้างการแยกวิเคราะห์ต้นไม้ที่ขึ้นอยู่กับการพึ่งพา ฉันสามารถใช้สร้างโครงสร้างการแยกวิเคราะห์ต้นไม้ทั้งสองชนิดโดยใช้แพ็คเกจ Stanford NLP อย่างไรก็ตามฉันไม่แน่ใจว่าจะใช้โครงสร้างต้นไม้เหล่านี้สำหรับงานการจัดหมวดหมู่ของฉันได้อย่างไร ตัวอย่างเช่นถ้าฉันต้องการวิเคราะห์ความเชื่อมั่นและต้องการจัดหมวดหมู่ข้อความเป็นคลาสบวกและลบฉันสามารถใช้คุณลักษณะใดได้บ้างจากโครงสร้างการแยกวิเคราะห์ต้นไม้สำหรับงานการจัดหมวดหมู่ของฉัน

4
การเรียนรู้กลไกการเรียนรู้ของเครื่อง: ความลึกของความเข้าใจเทียบกับจำนวนอัลกอริทึม
เมื่อเร็ว ๆ นี้ฉันได้รับการแนะนำให้รู้จักกับสาขาวิทยาศาสตร์ข้อมูล (ประมาณ 6 เดือน) และ Ii เริ่มต้นการเดินทางด้วยหลักสูตรการเรียนรู้ด้วยเครื่องโดย Andrew Ng และโพสต์ที่เริ่มทำงานกับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์โดย JHU ในส่วนของการใช้งานจริงฉันได้พยายามสร้างแบบจำลองการทำนายที่จะทำนายการขัดสี จนถึงตอนนี้ฉันได้ใช้ glm, bayesglm, rf ในความพยายามที่จะเรียนรู้และใช้วิธีการเหล่านี้ แต่ฉันพบช่องว่างจำนวนมากในการทำความเข้าใจอัลกอริธึมเหล่านี้ ภาวะที่กลืนไม่เข้าคายไม่ออกพื้นฐานของฉันคือ: ไม่ว่าฉันจะควรมุ่งเน้นที่การเรียนรู้ความซับซ้อนของอัลกอริธึมน้อยลงหรือฉันควรใช้วิธีการที่จะรู้ว่าพวกมันเป็นจำนวนเท่าไรและเมื่อใดและเท่าที่จำเป็น? โปรดแนะนำฉันในทิศทางที่ถูกต้องอาจแนะนำหนังสือหรือบทความหรือสิ่งที่คุณคิดว่าจะช่วย ฉันจะขอบคุณถ้าคุณจะตอบด้วยความคิดที่จะแนะนำคนที่เพิ่งเริ่มต้นอาชีพของเขาในสาขาวิทยาศาสตร์ข้อมูลและต้องการเป็นคนที่แก้ปัญหาในทางปฏิบัติสำหรับโลกธุรกิจ ฉันจะอ่านทรัพยากร (หนังสือบทความ) ที่แนะนำในโพสต์นี้มากที่สุดเท่าที่จะเป็นไปได้และจะจัดหาฟีดส่วนตัวกลับมาให้กับข้อดีข้อเสียของสิ่งเดียวกัน ในอนาคตและฉันคิดว่าคงจะดีถ้ามีคนแนะนำหนังสือเหล่านี้ก็สามารถทำได้เหมือนกัน

5
ทำไมการเพิ่มชั้นการออกกลางคันช่วยเพิ่มประสิทธิภาพการเรียนรู้อย่างลึก / ด้วยเครื่องจักรเนื่องจากการออกกลางคันช่วยยับยั้งเซลล์ประสาทบางส่วนจากแบบจำลอง
หากการเอาเซลล์ประสาทออกบางส่วนจะส่งผลให้แบบจำลองมีประสิทธิภาพดีขึ้นทำไมไม่ลองใช้โครงข่ายประสาทที่เรียบง่ายกว่าโดยมีเลเยอร์น้อยลงและมีเซลล์ประสาทน้อยลงในตอนแรก เหตุใดจึงต้องสร้างแบบจำลองที่ใหญ่และซับซ้อนกว่าเดิมในตอนเริ่มต้นและระงับบางส่วนในภายหลัง

3
วิธีการเลือกลักษณนามหลังจากการตรวจสอบข้าม?
เมื่อเราทำการตรวจสอบความถูกต้องข้ามของ k-fold เราควรใช้ลักษณนามที่มีความแม่นยำในการทดสอบสูงสุดหรือไม่? โดยทั่วไปแล้ววิธีที่ดีที่สุดในการรับตัวจําแนกจากการตรวจสอบข้ามคืออะไร?

1
ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร
ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?

4
เราสามารถใช้ประโยชน์จากการใช้การเรียนรู้การถ่ายโอนในขณะฝึกรูปแบบ word2vec ได้หรือไม่?
ฉันกำลังมองหาน้ำหนักของรุ่นที่ผ่านการฝึกอบรมมาแล้วเช่นข้อมูล Google Newsเป็นต้นฉันพบว่ามันยากที่จะฝึกฝนโมเดลใหม่ด้วยจำนวนข้อมูลที่เพียงพอ (10 GB เป็นต้น) สำหรับตัวฉันเอง ดังนั้นฉันต้องการได้รับประโยชน์จากการเรียนรู้การถ่ายโอนซึ่งฉันสามารถรับน้ำหนักของเลเยอร์ที่ได้รับการฝึกอบรมมาล่วงหน้าและฝึกฝนน้ำหนักเหล่านั้นใหม่ด้วยคำศัพท์เฉพาะโดเมนของฉัน ดังนั้นแน่นอนว่าจะใช้เวลาค่อนข้างน้อยในการฝึกอบรม ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ขอบคุณล่วงหน้า :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.