คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

2
โคตรลาดไล่สีแบบสุ่มตามการดำเนินการของเวกเตอร์
สมมติว่าฉันต้องการฝึกอัลกอริธึมการถดถอยแบบไล่ระดับสีแบบสุ่มโดยใช้ชุดข้อมูลที่มีตัวอย่าง N ตัว เนื่องจากขนาดของชุดข้อมูลได้รับการแก้ไขฉันจะใช้ข้อมูล T ครั้ง ในการทำซ้ำแต่ละครั้งหรือ "ยุค" ฉันใช้ตัวอย่างการฝึกอบรมแต่ละครั้งทันทีหลังจากจัดลำดับการฝึกทั้งหมดใหม่แบบสุ่ม การติดตั้งของฉันนั้นใช้ Python และ Numpy ดังนั้นการใช้การดำเนินการเวกเตอร์สามารถลดเวลาในการคำนวณได้อย่างน่าทึ่ง การหาเวกเตอร์ของการไล่สีแบบแบทช์นั้นค่อนข้างตรงไปตรงมา อย่างไรก็ตามในกรณีของการไล่ระดับสีแบบสุ่มสุ่มฉันไม่สามารถหาวิธีที่จะหลีกเลี่ยงการวนรอบนอกที่วนซ้ำผ่านตัวอย่างทั้งหมดในแต่ละยุค ไม่มีใครรู้ว่าการใช้เวกเตอร์ของการไล่ระดับสีแบบสุ่มสุ่ม? แก้ไข : ฉันถูกถามว่าทำไมฉันถึงต้องการใช้การไล่ระดับสีแบบออนไลน์ถ้าขนาดของชุดข้อมูลของฉันได้รับการแก้ไข จาก [1] เราจะเห็นได้ว่าการไล่ระดับสีแบบออนไลน์นั้นช้ากว่าการไล่ระดับสีแบบแบทช์เป็นค่าต่ำสุดของต้นทุนเชิงประจักษ์ อย่างไรก็ตามมันมาบรรจบกันได้เร็วขึ้นจนถึงค่าต่ำสุดที่คาดไว้ซึ่งวัดประสิทธิภาพทั่วไป ฉันต้องการทดสอบผลกระทบของผลลัพธ์ทางทฤษฎีเหล่านี้ในปัญหาเฉพาะของฉันโดยใช้การตรวจสอบข้าม หากไม่มีการใช้งาน vectorized แล้วโค้ดโคตรลาดของฉันออนไลน์จะช้ากว่าโคตรเกรเดียนต์ของแบทช์ ที่เพิ่มขึ้นอย่างน่าทึ่งเวลาที่ใช้ในกระบวนการตรวจสอบข้ามที่จะแล้วเสร็จ แก้ไข : ฉันรวมที่นี่ pseudocode ของการดำเนินการสืบเชื้อสายการไล่ระดับสีแบบออนไลน์ของฉันตามที่เพื่อนร้องขอ ฉันกำลังแก้ปัญหาการถดถอย Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, …

2
การดีบักโครงข่ายประสาทเทียม
ฉันได้สร้างเครือข่ายประสาทเทียมในไพ ธ อนโดยใช้ฟังก์ชั่นการเพิ่มประสิทธิภาพ scipy.optimize.minimize (การไล่ระดับสีคอนจูเกต) ฉันใช้การตรวจสอบไล่ระดับสีตรวจสอบทุกอย่าง ฯลฯ และฉันค่อนข้างมั่นใจว่ามันทำงานอย่างถูกต้อง ฉันรันมันสองสามครั้งและถึง 'การเพิ่มประสิทธิภาพสิ้นสุดลงเรียบร้อยแล้ว' แต่เมื่อฉันเพิ่มจำนวนเลเยอร์ที่ซ่อนอยู่ค่าใช้จ่ายของสมมติฐานจะเพิ่มขึ้น (ทุกอย่างจะยังคงเหมือนเดิม) หลังจากที่ยกเลิกไปแล้ว มันรู้สึกว่าค่าใช้จ่ายควรลดลงเมื่อจำนวนเลเยอร์ที่ซ่อนอยู่เพิ่มขึ้นเนื่องจากสามารถสร้างสมมติฐานที่ซับซ้อนมากขึ้นซึ่งสามารถพอดีกับข้อมูลได้ดีขึ้นอย่างไรก็ตามสิ่งนี้ดูเหมือนจะไม่เป็นเช่นนั้น ฉันสนใจที่จะเข้าใจว่าเกิดอะไรขึ้นที่นี่หรือหากฉันใช้งานโครงข่ายประสาทผิดปกติ

1
ทำไมโมเดล Keras ของฉันเรียนรู้ที่จะจำพื้นหลัง
ฉันพยายามฝึกอบรมการใช้งาน Keras ของ Deeplabv3 +บน Pascal VOC2012 โดยใช้แบบจำลองที่ได้รับการฝึกอบรม (ซึ่งได้รับการฝึกฝนในชุดข้อมูลนั้นด้วย) ฉันได้ผลลัพธ์แปลก ๆ ด้วยความแม่นยำที่บรรจบกันอย่างรวดเร็วเป็น 1.0: 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step - loss: 42117.3555 - acc: 0.9815 - val_loss: 69088.5469 - val_acc: 0.9948 Epoch …

1
ข้อมูลที่ไม่สมดุลทำให้เกิดการจำแนกผิดพลาดในชุดข้อมูลหลายคลาส
ฉันทำงานเกี่ยวกับการจำแนกข้อความที่ฉันมี 39 หมวดหมู่ / คลาสและ 8.5 ล้านบันทึก (ในอนาคตข้อมูลและหมวดหมู่จะเพิ่มขึ้น) โครงสร้างหรือรูปแบบของข้อมูลของฉันมีดังนี้ ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | …

1
HDF5 สามารถเขียนและอ่านได้อย่างน่าเชื่อถือพร้อมกันด้วยกระบวนการหลามแบบแยกกันหรือไม่?
ฉันกำลังเขียนสคริปต์เพื่อบันทึกข้อมูลสดตามกาลเวลาเป็นไฟล์ HDF5 เดียวซึ่งรวมถึงชุดข้อมูลทั้งหมดของฉันสำหรับโครงการนี้ ฉันทำงานกับ Python 3.6 และตัดสินใจสร้างเครื่องมือบรรทัดคำสั่งclickเพื่อใช้รวบรวมข้อมูล ความกังวลของฉันคือสิ่งที่จะเกิดขึ้นถ้าสคริปต์รวบรวมข้อมูลคือการเขียนไปยังแฟ้ม HDF5 และยังเพื่อจะ ML พยายามประยุกต์ใช้ในการอ่านข้อมูลจากไฟล์เดียวกันได้หรือไม่ ฉันดูเอกสารของกลุ่ม HDF เกี่ยวกับHDF5 I / O แบบขนานแต่นั่นก็ไม่ได้ทำให้ฉันชัดเจน
9 python  dataset 

2
ทำไมอัตราการเรียนรู้ทำให้น้ำหนักของเครือข่ายประสาทเทียมสูงขึ้น?
ฉันใช้เทนเซอร์โฟลว์เพื่อเขียนโครงข่ายประสาทอย่างง่ายสำหรับการวิจัยนิดหน่อยและฉันมีปัญหามากมายเกี่ยวกับน้ำหนักของ 'น่าน' ในขณะฝึกอบรม ฉันลองวิธีแก้ไขปัญหาที่แตกต่างกันมากมายเช่นการเปลี่ยนเครื่องมือเพิ่มประสิทธิภาพการเปลี่ยนแปลงการสูญเสียขนาดข้อมูลเป็นต้น แต่ไม่มีประโยชน์ ในที่สุดฉันสังเกตเห็นว่าการเปลี่ยนแปลงของอัตราการเรียนรู้ทำให้น้ำหนักของฉันแตกต่างอย่างไม่น่าเชื่อ ใช้อัตราการเรียนรู้. 001 (ซึ่งฉันคิดว่าค่อนข้างอนุรักษ์นิยม) ฟังก์ชั่นย่อเล็กสุดจะเพิ่มความสูญเสียอย่างมาก หลังจากยุคหนึ่งความสูญเสียอาจเพิ่มขึ้นจากจำนวนในหลักพันไปเป็นล้านล้านและจากนั้นไปสู่อนันต์ ('น่าน') เมื่อฉันลดอัตราการเรียนรู้เป็น. 0001 ทุกอย่างก็ใช้ได้ดี 1) เหตุใดลำดับความสำคัญเดียวจึงมีผลเช่นนี้? 2) ทำไมฟังก์ชั่นย่อเล็กสุดทำหน้าที่ตรงข้ามกับฟังก์ชั่นของมันและเพิ่มการสูญเสียสูงสุด? สำหรับฉันแล้วดูเหมือนว่าจะไม่เกิดขึ้นไม่ว่าจะเรียนรู้อะไรก็ตาม

3
ส่งออกน้ำหนัก (สูตร) ​​จาก Random Forest Regressor ใน Scikit-Learn
ฉันได้ฝึกฝนแบบจำลองการทำนายด้วย Scikit Learn ใน Python (Random Forest Regressor) และฉันต้องการแยกน้ำหนักของคุณลักษณะแต่ละอย่างเพื่อสร้างเครื่องมือ excel สำหรับการคาดการณ์ด้วยตนเอง สิ่งเดียวที่ฉันพบคือmodel.feature_importances_แต่มันไม่ได้ช่วย มีวิธีการที่จะบรรลุหรือไม่ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model …

7
ห้องสมุดไพ ธ อนที่สามารถคำนวณเมทริกซ์ความสับสนสำหรับการจำแนกประเภทหลายฉลาก
ฉันกำลังมองหาห้องสมุดหลามที่สามารถคำนวณเมทริกซ์สำหรับการจำแนกประเภทความสับสนหลายป้าย FYI: scikit-Learn ไม่รองรับ multi-label สำหรับ matrix ที่สับสน) อะไรคือความแตกต่างระหว่าง Multiclass และ Multilabel Problem

1
วิธีการเข้ารหัสไบนามิคตัวแปรที่มีค่าหลายค่าจาก Pandas dataframe
สมมติว่าเรามีชื่อไฟล์ต่อไปนี้ที่มีหลายค่าสำหรับคอลัมน์ที่แน่นอน: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] เราจะได้โต๊ะแบบนี้ได้อย่างไร "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 หมายเหตุ: ฉันไม่จำเป็นต้องใช้ดาต้าเฟรมใหม่ฉันสงสัยว่าจะแปลงดาต้าเฟรมดังกล่าวเป็นรูปแบบใดที่เหมาะสมสำหรับการเรียนรู้ของเครื่อง
9 python  pandas 

2
การใช้งาน Naive Bayes แบบเสริมในหลาม
ปัญหา ฉันได้ลองใช้ Naive Bayes กับชุดข้อมูลอาชญากรรมที่มีข้อความ แต่ได้ผลลัพธ์ที่แย่มาก (ความแม่นยำ 7%) Naive Bayes ทำงานเร็วกว่า alogorithms อื่น ๆ ที่ฉันใช้ดังนั้นฉันจึงอยากลองค้นหาสาเหตุที่คะแนนต่ำ วิจัย หลังจากอ่านฉันพบว่าควรใช้เบย์ Naive กับชุดข้อมูลที่สมดุลเพราะมันมีอคติสำหรับคลาสที่มีความถี่สูงกว่า เนื่องจากข้อมูลของฉันไม่สมดุลฉันจึงอยากลองใช้ Naive Bayes เพิ่มเติมเพราะทำขึ้นเป็นพิเศษสำหรับจัดการกับข้อมูลที่ลื่นไหล ในบทความที่อธิบายถึงกระบวนการแอปพลิเคชันสำหรับการจำแนกข้อความ แต่ฉันไม่เห็นว่าทำไมเทคนิคไม่ทำงานในสถานการณ์อื่น ๆ คุณสามารถค้นหากระดาษที่ผมหมายถึงที่นี่ ในระยะสั้นความคิดคือการใช้น้ำหนักตามเหตุการณ์ที่เกิดขึ้นที่ชั้นไม่ปรากฏขึ้น หลังจากทำการวิจัยบางอย่างฉันสามารถค้นหาการนำไปใช้ใน Java แต่โชคไม่ดีที่ฉันไม่ทราบว่า Java และฉันไม่เข้าใจอัลกอริทึมที่ดีพอที่จะใช้ตัวเอง คำถาม ฉันสามารถหาการใช้งานในหลามได้ที่ไหน หากไม่มีอยู่ฉันควรดำเนินการด้วยตนเองอย่างไร

2
การจัดกลุ่มเอกสารโดยใช้หัวข้อที่ได้มาจากการจัดสรร Dirichlet แฝง
ฉันต้องการใช้ Latent Dirichlet Allocation สำหรับโครงการและฉันใช้ Python กับไลบรารี gensim หลังจากค้นหาหัวข้อที่ฉันต้องการจัดกลุ่มเอกสารโดยใช้อัลกอริทึมเช่น k-mean (โดยหลักแล้วฉันต้องการใช้ดีสำหรับการซ้อนกลุ่มเพื่อให้คำแนะนำยินดีต้อนรับ) ฉันจัดการเพื่อให้ได้หัวข้อ แต่อยู่ในรูปแบบของ: 0.041 * รัฐมนตรี + 0.041 * สำคัญ + 0.041 * ช่วงเวลา + 0.041 * แย้ง + 0.041 * นายกรัฐมนตรี เพื่อที่จะใช้อัลกอริทึมการจัดกลุ่มและแก้ไขให้ฉันถ้าฉันผิดฉันเชื่อว่าฉันควรหาวิธีที่จะเป็นตัวแทนของแต่ละคำเป็นตัวเลขโดยใช้ tfidf หรือ word2vec คุณมีความคิดว่าฉันจะ "ตัด" ข้อมูลที่เป็นข้อความจากเช่นรายการเพื่อทำเช่นนั้นแล้วนำมันกลับมาอีกครั้งเพื่อทำการคูณที่เหมาะสมหรือไม่ เช่นวิธีที่ฉันเห็นถ้าคำว่ารัฐมนตรีมีน้ำหนัก tfidf 0.042 และอื่น ๆ สำหรับคำอื่น ๆ ในหัวข้อเดียวกันฉันควรจะคำนวณสิ่งที่ชอบ: 0.041 * 0.42 …

2
เหตุใดการไล่ระดับสีแบบเพิ่มการถดถอยจึงทำนายค่าลบเมื่อไม่มีค่า y ติดลบในชุดการฝึกอบรมของฉัน
ในขณะที่ฉันเพิ่มจำนวนต้นไม้ในScikit เรียนรู้ของGradientBoostingRegressorฉันได้รับการคาดการณ์เชิงลบมากขึ้นแม้ว่าจะไม่มีค่าลบในชุดการฝึกอบรมหรือการทดสอบของฉัน ฉันมีคุณสมบัติประมาณ 10 ตัวซึ่งส่วนใหญ่เป็นแบบไบนารี่ พารามิเตอร์บางอย่างที่ฉันปรับจูน ได้แก่ : จำนวนต้นไม้ / การวนซ้ำ; การเรียนรู้เชิงลึก และอัตราการเรียนรู้ เปอร์เซ็นต์ของค่าลบดูเหมือนสูงสุดที่ ~ 2% ความลึกของการเรียนรู้ที่ 1 (ตอไม้) ดูเหมือนจะมีค่า% ที่ใหญ่ที่สุด เปอร์เซ็นต์นี้ดูเหมือนจะเพิ่มขึ้นด้วยต้นไม้มากขึ้นและอัตราการเรียนรู้ที่น้อยลง ชุดข้อมูลมาจากหนึ่งในการแข่งขันสนามเด็กเล่น kaggle รหัสของฉันเป็นสิ่งที่ชอบ: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = …

2
ข้อผิดพลาดของหน่วยความจำเมื่อใช้เลเยอร์เพิ่มเติมในรุ่น CNN
ใน dell core i7 ของฉัน - RAM 16GB - แล็ปท็อป GPU ความจุ 4 ล้าน 960m ฉันกำลังทำงานในโครงการเพื่อจัดประเภทภาพปอด CT โดยใช้ 3d CNN ฉันใช้ซีพียูรุ่น tensorflow ภาพถูกจัดทำขึ้นเป็นขนาดอาร์เรย์แบบ numpy (25,50,50) โมเดล CNN ของฉันมี 2 Conv ชั้น, maxpool สองชั้น, หนึ่งชั้น FC และชั้นผลลัพธ์ ด้วยสถาปัตยกรรมนี้ฉันสามารถฝึกฝนโมเดลด้วยตัวอย่างประมาณ (5,000 ถึง 6,000) หลังจากเพิ่มเลเยอร์มากขึ้นแบบจำลองของฉันตอนนี้มีชั้นความเชื่อมั่น 6 ชั้น, เลเยอร์พูลสูงสุด 3 ชั้น, FC และชั้นผลลัพธ์ ปัญหาของฉันคือหลังจากเปลี่ยนสถาปัตยกรรมที่มีตัวอย่างมากกว่า 1,000 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.