วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

4
ช่วงเวลาการทำนายรอบการคาดการณ์อนุกรมเวลา LSTM
มีวิธีการคำนวณช่วงเวลาการทำนาย (การแจกแจงความน่าจะเป็น) รอบการพยากรณ์อนุกรมเวลาจากเครือข่ายประสาท LSTM (หรือการเกิดขึ้นอีกครั้ง) หรือไม่? ตัวอย่างเช่นฉันคาดการณ์ 10 ตัวอย่างในอนาคต (t + 1 ถึง t + 10) ตามตัวอย่างที่สังเกตได้ 10 รายการล่าสุด (t-9 ถึง t) ฉันคาดว่าการทำนายที่ t + 1 จะมากกว่านี้ แม่นยำกว่าการทำนายที่ t + 10 โดยปกติแล้วหนึ่งอาจวาดแถบข้อผิดพลาดรอบการทำนายเพื่อแสดงช่วงเวลา ด้วยโมเดล ARIMA (ภายใต้สมมติฐานของข้อผิดพลาดแบบกระจายทั่วไป) ฉันสามารถคำนวณช่วงการทำนาย (เช่น 95%) รอบค่าที่ทำนายแต่ละค่า ฉันสามารถคำนวณแบบเดียวกัน (หรือบางอย่างที่เกี่ยวข้องกับช่วงเวลาการทำนาย) จากแบบจำลอง LSTM ได้หรือไม่ ฉันทำงานกับ LSTM ใน Keras / Python …

2
การจัดอันดับแบบคู่ใน xgBoost เป็นอย่างไร
เท่าที่ฉันรู้ในการฝึกอบรมการเรียนรู้เพื่อจัดอันดับแบบจำลองคุณต้องมีสามสิ่งในชุดข้อมูล: ป้ายกำกับหรือความเกี่ยวข้อง รหัสกลุ่มหรือแบบสอบถาม คุณสมบัติเวกเตอร์ ตัวอย่างเช่นชุดข้อมูล Microsoft Learning to Rankใช้รูปแบบนี้ (ป้ายกำกับ, id กลุ่มและคุณสมบัติ) 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... ฉันลอง xgBoost ที่ใช้ GBM เพื่อทำการจัดอันดับแบบคู่ พวกเขามีตัวอย่างสำหรับงานการจัดอันดับที่ใช้โปรแกรม C ++ เพื่อเรียนรู้เกี่ยวกับชุดข้อมูล Microsoft ดังกล่าวข้างต้น อย่างไรก็ตามฉันใช้ตัวห่องูหลามและไม่สามารถหาตำแหน่งที่ฉันสามารถป้อนรหัสกลุ่ม ( qidด้านบน) ฉันสามารถฝึกนางแบบโดยใช้คุณสมบัติและคะแนนความเกี่ยวข้อง แต่ฉันรู้สึกว่าฉันขาดอะไรไป นี่คือสคริปต์ตัวอย่าง gbm = XGBRegressor(objective="rank:pairwise") X = np.random.normal(0, 1, 1000).reshape(100, 10) y = …
14 search  ranking  xgboost  gbm 

4
วิธีการปรับขนาดอาร์เรย์ของจำนวนเต็มที่ลงนามให้อยู่ในช่วงตั้งแต่ 0 ถึง 1
ฉันกำลังใช้Brainในการฝึกอบรมโครงข่ายประสาทเทียมในชุดคุณลักษณะที่มีทั้งค่าบวกและค่าลบ แต่สมองต้องการค่าอินพุตระหว่าง 0 ถึง 1 วิธีที่ดีที่สุดในการทำให้ข้อมูลของฉันเป็นปกติคืออะไร

3
เอาต์พุตของฟังก์ชัน model.predict จาก Keras หมายถึงอะไร
ฉันได้สร้างแบบจำลอง LSTM เพื่อทำนายคำถามที่ซ้ำกันในชุดข้อมูลอย่างเป็นทางการของ Quora ป้ายทดสอบเป็น 0 หรือ 1 1 หมายถึงคู่คำถามซ้ำกัน หลังจากสร้างแบบจำลองโดยใช้model.fitฉันทดสอบแบบจำลองโดยใช้model.predictกับข้อมูลการทดสอบ ผลลัพธ์คืออาร์เรย์ของค่าบางอย่างดังนี้: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] ฉันแค่แสดง 10 ค่าแรกในอาร์เรย์ ฉันไม่เข้าใจค่าเหล่านี้หมายถึงอะไรและป้ายกำกับที่คาดการณ์ไว้สำหรับคู่คำถามแต่ละคู่คืออะไร

6
แพ็คเกจ "การขุดตามลำดับบ่อย" ดีใน Python
มีใครเคยใช้ (และชอบ) แพ็คเกจ "การขุดหาลำดับบ่อย ๆ " ที่ดีใน Python นอกเหนือจาก FPM ใน MLLib บ้างไหม? ฉันกำลังมองหาแพคเกจที่มีความเสถียรดีกว่านิ่งได้รับการดูแลโดยคน ขอบคุณ!

4
จำนวนของยุคในการนำ Gensim Word2Vec มาใช้
มีiterพารามิเตอร์ในการgensimใช้งาน Word2Vec คลาส gensim.models.word2vec.Word2Vec (ประโยค = ไม่มี, ขนาด = 100, อัลฟ่า = 0.025, หน้าต่าง = 5, min_count = 5, max_vocab_size = ไม่มี, ตัวอย่าง = 0, คนงาน = 1, min_alpha = 0.0001, sg = 1, hs = 1, negative = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word …

2
คุณใช้ SMOTE กับการจำแนกข้อความได้อย่างไร
Oversampling เทคนิคการสังเคราะห์ของผู้ถือหุ้นส่วนน้อย (SMOTE) เป็นเทคนิคการ oversampling ที่ใช้ในปัญหาชุดข้อมูลที่ไม่สมดุล จนถึงตอนนี้ฉันมีความคิดว่าจะใช้กับข้อมูลทั่วไปที่มีโครงสร้างได้อย่างไร แต่เป็นไปได้หรือไม่ที่จะใช้กับปัญหาการจำแนกข้อความ? ส่วนใดของข้อมูลที่คุณจำเป็นต้องใช้ในการดูตัวอย่าง มีอีกคำถามหนึ่งเกี่ยวกับเรื่องนี้ แต่ไม่มีคำตอบ ฉันสามารถเรียนรู้ที่จะเริ่มต้นกับสิ่งนี้ได้ที่ไหน?

3
Pandas Dataframe ถึง DMatrix
ฉันพยายามเรียกใช้ xgboost ใน scikit เรียนรู้ และฉันใช้ Pandas เพื่อโหลดข้อมูลไปยังดาต้าเฟรม ฉันควรจะใช้แพนด้า df กับ xgboost อย่างไร ฉันสับสนกับชุดคำสั่ง DMatrix ที่จำเป็นในการเรียกใช้ xgboost algo

4
AlphaGo (และโปรแกรมเกมอื่น ๆ ที่ใช้การเสริมแรงการเรียนรู้) โดยไม่มีฐานข้อมูลมนุษย์
ฉันไม่ได้เป็นผู้เชี่ยวชาญเรื่องและคำถามของฉันอาจไร้เดียงสามาก มันเกิดจากเรียงความเพื่อทำความเข้าใจพลังและข้อ จำกัด ของการเรียนรู้การเสริมแรงที่ใช้ในโปรแกรม AlphaGo โปรแกรม AlphaGo ได้รับการสร้างขึ้นโดยใช้สิ่งอื่น ๆ (การสำรวจต้นไม้ - มอนติคาร์โล ฯลฯ ), โครงข่ายประสาทเทียมซึ่งได้รับการฝึกฝนจากฐานข้อมูลขนาดใหญ่ของเกมที่เล่นโดยมนุษย์และซึ่งได้รับการเสริมด้วยการให้ โปรแกรมกับตัวเองหลายครั้ง ตอนนี้ฉันสงสัยว่าสิ่งที่จะเกิดขึ้นคือเราพยายามสร้างโปรแกรมเช่นที่ไม่มีฐานข้อมูลมนุษย์เช่นเริ่มต้นด้วยโปรแกรมพื้นฐานของ Go เพียงแค่รู้กฎและวิธีการสำรวจต้นไม้และปล่อยให้เล่นกับตัวเองเพื่อปรับปรุงโครงข่ายประสาทเทียม เราจะเล่นเกมที่สามารถแข่งขันกับหรือเอาชนะผู้เล่นที่ดีที่สุดของมนุษย์ได้หรือไม่? และถ้าเป็นเช่นนั้นจะต้องมีกี่เกม (เรียงตามขนาด) สำหรับสิ่งนั้น? หรือในทางตรงกันข้ามโปรแกรมดังกล่าวจะรวมตัวเข้าหาผู้เล่นที่อ่อนแอกว่าหรือไม่? ฉันถือว่าการทดลองไม่ได้ถูกสร้างขึ้นเนื่องจาก AlphaGo เป็นรุ่นล่าสุด แต่อย่างไรก็ตามคำตอบอาจชัดเจนสำหรับผู้เชี่ยวชาญ ไม่เช่นนั้นการเดาที่มีการศึกษาจะทำให้ฉันสนใจ ท่านสามารถถามคำถามเดียวกันสำหรับเกม "ง่ายกว่า" ถ้าเราใช้เทคนิคการเรียนรู้เสริมแบบเดียวกับที่ใช้กับ AlphaGo แต่โดยไม่ใช้ฐานข้อมูลมนุษย์สำหรับโปรแกรมหมากรุกในที่สุดเราจะได้โปรแกรมที่สามารถเอาชนะมนุษย์ที่ดีที่สุดได้หรือไม่? และถ้าเป็นเช่นนั้นวิธีการที่รวดเร็ว? มีการทดลองนี้หรือไม่? หรือถ้าไม่ใช่สำหรับหมากรุกแล้วหมากฮอสหรือเกมที่เรียบง่ายกว่านี้ล่ะ? ขอบคุณมาก.

2
เหตุใดอัลกอริทึมทางพันธุกรรมจึงไม่ถูกใช้เพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียม
จากความเข้าใจของฉันอัลกอริทึมทางพันธุกรรมเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ นอกจากนี้การฝึกอบรม Neural Networks (โดยเฉพาะอย่างยิ่งคนลึก) นั้นยากและมีปัญหามากมาย (ฟังก์ชั่นค่าใช้จ่ายที่ไม่ใช่แบบนูน - minima ท้องถิ่น, หายไปและระเบิดการไล่ระดับสีเป็นต้น) นอกจากนี้ฉันว่าการฝึกอบรมแนวคิด NN กับ GA เป็นไปได้ ฉันสงสัยว่าทำไมพวกเขาไม่ใช้ในทางปฏิบัติ? มันเป็นเรื่องของประสิทธิภาพหรือไม่?

1
ความแตกต่างระหว่างการสุ่มตัวอย่างการอัปแซมปลิงและแบบสองจังหวะในซีเอ็นเอ็นคืออะไร?
ฉันกำลังพยายามที่จะเข้าใจกระดาษนี้และไม่แน่ใจในสิ่งที่การสุ่มตัวอย่างแบบสองทิศทางคืออะไร ใครสามารถอธิบายสิ่งนี้ในระดับสูงได้บ้าง https://arxiv.org/abs/1606.00915

4
Gradient Descent เป็นศูนย์กลางของทุกเครื่องมือเพิ่มประสิทธิภาพหรือไม่
ฉันต้องการทราบว่า Gradient descent เป็นอัลกอริทึมหลักที่ใช้ในเครื่องมือเพิ่มประสิทธิภาพเช่น Adam, Adagrad, RMSProp และเครื่องมือเพิ่มประสิทธิภาพอื่น ๆ

2
ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพ ADAM เสมอไป
ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม

1
XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?
ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

1
แปลงคอลัมน์ pandas ของ int เป็นประเภทข้อมูลประทับเวลา
ฉันมีชื่อไฟล์ที่เหนือสิ่งอื่นใดมีคอลัมน์ของจำนวนมิลลิวินาทีที่ผ่านไปตั้งแต่ปี 1970-1-1 ฉันต้องการแปลงคอลัมน์ของ ints นี้เป็นข้อมูลการประทับเวลาดังนั้นในที่สุดฉันก็สามารถแปลงมันเป็นคอลัมน์ของข้อมูลวันที่และเวลาโดยเพิ่มชุดคอลัมน์เวลาลงในชุดที่ประกอบด้วยค่าวันที่และเวลาทั้งหมดสำหรับ 1970-1-1 ฉันรู้วิธีแปลงชุดสตริงเป็นข้อมูล datetime (pandas.to_datetime) แต่ฉันไม่สามารถค้นหาหรือคิดวิธีแก้ปัญหาใด ๆ ในการแปลงทั้งคอลัมน์ของintsเป็น datetime data หรือข้อมูลประทับเวลา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.