คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

2
ทำไมการฝึกอบรมใช้เวลานานมากกับ GPU ของฉัน
รายละเอียด: GPU : GTX 1080 การฝึกอบรม : ~ 1.1 ล้านภาพเป็นของ 10 คลาส การตรวจสอบความถูกต้อง : ~ 150 ภาพที่เป็นของ 10 คลาส เวลาต่อยุค : ~ 10 ชั่วโมง ฉันตั้งค่า CUDA, cuDNN และ Tensorflow (Tensorflow GPU ด้วย) ฉันไม่คิดว่าแบบจำลองของฉันมีความซับซ้อนซึ่งใช้เวลา 10 ชั่วโมงต่อยุค ฉันยังตรวจสอบว่า GPU ของฉันเป็นปัญหาหรือไม่ เป็นเวลาการฝึกอบรมเนื่องจากเลเยอร์ที่เชื่อมต่อเต็มที่หรือไม่ โมเดลของฉัน: model = Sequential() model.add() model.add(Conv2D(64, (3, 3), padding="same", strides=2)) model.add(Activation('relu')) …

2
พยายามใช้ TensorFlow เพื่อทำนายข้อมูลอนุกรมเวลาทางการเงิน
ฉันใหม่สำหรับ ML และ TensorFlow (ฉันเริ่มประมาณสองสามชั่วโมงที่ผ่านมา) และฉันพยายามใช้เพื่อทำนายจุดข้อมูลสองสามอันถัดไปในอนุกรมเวลา ฉันรับข้อมูลของฉันและทำสิ่งนี้กับมัน: /----------- x ------------\ .-------------------------------. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | '-------------------------------' \----------- y ------------/ สิ่งที่ฉันคิดว่าฉันกำลังทำคือการใช้xเป็นข้อมูลอินพุตและyเป็นผลลัพธ์ที่ต้องการสำหรับอินพุตนั้นเพื่อให้ 0-6 ฉันจะได้รับ 1-7 (โดยเฉพาะ 7) แต่เมื่อผมทำงานกราฟของฉันกับxเป็น input ในสิ่งที่ฉันได้รับคือการทำนายที่มีลักษณะเหมือนxกว่าปี นี่คือรหัส (ตามโพสต์นี้และโพสต์นี้ ): import tensorflow as tf import numpy …

3
เครือข่ายเซลล์ประสาทเทียม (ANN) ที่มีอินพุตและเอาต์พุตจำนวนเท่าใดก็ได้
ฉันต้องการใช้ ANN สำหรับปัญหาของฉัน แต่ปัญหาคืออินพุตและเอาต์พุตหมายเลขโหนดของฉันไม่ได้รับการแก้ไข ฉันทำการค้นหาด้วยกูเกิลก่อนถามคำถามของฉันและพบว่า RNN อาจช่วยฉันแก้ปัญหาได้ แต่ตัวอย่างทั้งหมดที่ฉันได้พบมีจำนวนกำหนดโหนดเข้าและออก ดังนั้นฉันกำลังมองหากลยุทธ์วิธีทำให้เป็นจริงหรืออย่างน้อยตัวอย่างเป็นที่นิยมใน Keras หรือ PyTorch รายละเอียดเพิ่มเติมเกี่ยวกับปัญหาของฉัน: ฉันมีสองรายการอินพุตซึ่งความยาวของรายการแรกได้รับการแก้ไขและเท่ากับสอง fe: in_1 = [2,2] แต่ความยาวของรายการที่สองมีความยืดหยุ่นความยาวได้จากสามถึง inf, fe: in_2 = [1,1,2,2] หรือ in_2 = [1,1,1,2,2,2,3,3,3] นอกจากนี้รายการอินพุตยังต้องพึ่งพาซึ่งกันและกัน รายการแรกแสดงมิติของรายการเอาท์พุท ดังนั้นถ้า in_1 = [2,2] หมายถึงผลลัพธ์ที่จะต้องมีความเป็นไปได้ที่จะก่อร่างใหม่ในรูปแบบ [2,2] ขณะนี้ฉันกำลังคิดที่จะรวมสองรายการอินพุตเป็นหนึ่ง: in = in_1 + in_2 = [2, 2, 1, 1, 2, 2] นอกจากนี้เอาต์พุตมีความยาวเท่ากับรายการin_2 …

4
แสดงรายการที่ซื้อบ่อยด้วยกัน
ฉันมีชุดข้อมูลในโครงสร้างต่อไปนี้แทรกอยู่ในไฟล์ CSV: Banana Water Rice Rice Water Bread Banana Juice แต่ละแถวบ่งชี้ชุดของรายการที่ซื้อด้วยกัน ตัวอย่างเช่นแถวแรกหมายถึงว่ารายการBanana, WaterและRiceกำลังซื้อด้วยกัน ฉันต้องการสร้างภาพข้อมูลดังนี้: นี่เป็นแผนภูมิกริดโดยทั่วไป แต่ฉันต้องการเครื่องมือบางอย่าง (อาจเป็น Python หรือ R) ที่สามารถอ่านโครงสร้างอินพุตและสร้างแผนภูมิเช่นด้านบนเป็นเอาต์พุต

1
การสร้างข้อมูลใหม่เพื่อการเรียนรู้อย่างลึกโดยใช้ Keras
ฉันเป็นผู้เริ่มต้นของ Keras และฉันได้เริ่มต้นด้วยตัวอย่าง MNIST เพื่อทำความเข้าใจว่าไลบรารีใช้งานได้จริงอย่างไร ข้อมูลโค้ดของปัญหา MNIST ในโฟลเดอร์ตัวอย่างของ Keras นั้นได้รับเป็น: import numpy as np np.random.seed(1337) # for reproducibility from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout, Activation, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.utils import np_utils batch_size = 128 nb_classes = 10 nb_epoch = …

2
โครงสร้างโครงการโครงงานการเรียนรู้เครื่องหลาม / วิทยาศาสตร์ข้อมูล
ฉันกำลังมองหาข้อมูลเกี่ยวกับวิธีการจัดโครงการการเรียนรู้ของเครื่องหลาม สำหรับงูหลามโครงการปกติมีcookiecutterและ R ProjectTemplate นี่คือโครงสร้างโฟลเดอร์ปัจจุบันของฉัน แต่ฉันกำลังผสม Jupyter Notebooks กับรหัส Python จริง ๆ และดูเหมือนจะไม่ชัดเจน . ├── cache ├── data ├── my_module ├── logs ├── notebooks ├── scripts ├── snippets └── tools ฉันทำงานในโฟลเดอร์สคริปต์และปัจจุบันเพิ่มฟังก์ชั่นทั้งหมดในไฟล์ภายใต้ my_module แต่นั่นทำให้เกิดข้อผิดพลาดในการโหลดข้อมูล (สัมพัทธ์ / พา ธ สัมบูรณ์) และปัญหาอื่น ๆ ฉันไม่สามารถหาแนวทางปฏิบัติที่เหมาะสมหรือตัวอย่างที่ดีในหัวข้อนี้นอกเหนือจากโซลูชันการแข่งขัน kaggle และโน้ตบุ๊คบางรุ่นที่มีฟังก์ชั่นทั้งหมดย่อในตอนเริ่มต้นของโน้ตบุ๊กดังกล่าว
10 python 

2
การสร้างคอลัมน์ใหม่โดยวนซ้ำแถวใน dataframe แพนด้า
ฉันมีกรอบข้อมูลแพนด้า (X11) เช่นนี้: ในความเป็นจริงฉันมี 99 คอลัมน์จนถึง dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 ฉันต้องการสร้างคอลัมน์เพิ่มเติมสำหรับค่าของเซลล์เช่น 25041,40391,5856 เป็นต้นดังนั้นจะมีคอลัมน์ 25041 ที่มีค่าเป็น 1 หรือ 0 หาก …

4
วิธีการขูดหน้าเว็บ imdb?
ฉันพยายามเรียนรู้การขูดเว็บโดยใช้ Python ด้วยตนเองเป็นส่วนหนึ่งของความพยายามในการเรียนรู้การวิเคราะห์ข้อมูล ฉันพยายามขูดหน้าเว็บ imdb ซึ่งมี url ต่อไปนี้: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 ฉันกำลังใช้โมดูล BeautifulSoup ต่อไปนี้เป็นรหัสที่ฉันใช้: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, …

2
จะทำการ Logistic Regression ด้วยคุณสมบัติจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80% นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่ ฉันกำลังทำงานกับ Python ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!

3
ค้นหาศูนย์ติดต่อกันใน DataFrame และทำการแทนที่ตามเงื่อนไข
ฉันมีชุดข้อมูลเช่นนี้: ตัวอย่าง Dataframe import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) ฉันต้องการแทนที่บางส่วน0ในcol1และcol2ด้วย1's แต่ไม่แทนที่0' s หากสามหรือมากกว่า0อยู่ติดกันในคอลัมน์เดียวกัน วิธีนี้สามารถทำได้กับแพนด้า ชุดข้อมูลดั้งเดิม: names col1 col2 A 0 0 …

1
หลีกเลี่ยงการโหลด DataFrame ระหว่างเมล็ดหลามที่แตกต่างกัน
มีวิธีการเก็บรักษาตัวแปร (ตารางขนาดใหญ่ / กรอบข้อมูล) ในหน่วยความจำและใช้ร่วมกันในหลาย ๆ โน๊ตบุ๊ค ipython หรือไม่? ฉันกำลังมองหาบางอย่างที่คล้ายกับแนวคิดของ MATLAB ตัวแปรถาวร มีความเป็นไปได้ที่จะเรียกฟังก์ชั่นที่กำหนดเอง / ห้องสมุดจากบรรณาธิการแต่ละคน (โน๊ตบุ๊ค) และมีฟังก์ชั่นภายนอกแคชบางผลลัพธ์ (หรือตารางขนาดใหญ่) ส่วนใหญ่ฉันต้องการหลีกเลี่ยงการโหลดตารางที่ใช้งานหนัก (ซึ่งโหลดผ่านไลบรารีแบบกำหนดเองที่เรียกจากสมุดบันทึก) เนื่องจากการอ่านจะใช้เวลาประมาณ 2-3 นาทีเมื่อใดก็ตามที่ฉันเริ่มการวิเคราะห์ใหม่

3
จะจัดกลุ่มค่าที่เหมือนกันและนับความถี่ใน Python อย่างไร
มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ: section: ส่วนของร้านค้า, str; prod_name: ชื่อผลิตภัณฑ์, str; ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int; แคชเชียร์จำนวนแคชเชียร์ int ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย; วันที่ในรูปแบบ MM / DD / YY, str; เวลาในรูปแบบ HH: MM: SS, a str; ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้ การทำงานกับข้อมูลใน DataFrame แพนด้า แก้ไข: นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 …

3
การสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อทำนายผลผลิตพืชจากข้อมูลสิ่งแวดล้อม
ฉันมีชุดข้อมูลที่มีข้อมูลเกี่ยวกับอุณหภูมิการตกตะกอนและผลผลิตถั่วเหลืองสำหรับฟาร์มเป็นเวลา 10 ปี (2005 - 2014) ฉันต้องการที่จะทำนายผลตอบแทนสำหรับปี 2015 จากข้อมูลนี้ โปรดทราบว่าชุดข้อมูลมีค่ารายวันสำหรับอุณหภูมิและปริมาณน้ำฝน แต่มีเพียง 1 ค่าต่อปีสำหรับผลผลิตเนื่องจากการเก็บเกี่ยวพืชผลเกิดขึ้นเมื่อสิ้นสุดฤดูกาลเพาะปลูก ฉันต้องการสร้างแบบจำลองการถดถอยหรือแบบจำลองการเรียนรู้ด้วยเครื่องอื่น ๆ เพื่อคาดการณ์ผลตอบแทนปี 2558 โดยยึดตามรูปแบบการถดถอย / แบบจำลองอื่น ๆ ที่ได้จากการศึกษาความสัมพันธ์ระหว่างอัตราผลตอบแทนกับอุณหภูมิและปริมาณน้ำฝนในปีก่อนหน้า ฉันคุ้นเคยกับการเรียนรู้ด้วยเครื่องโดยใช้ Scikit-Learn อย่างไรก็ตามไม่แน่ใจว่าจะแสดงปัญหานี้อย่างไร ส่วนที่ยุ่งยากนี่คืออุณหภูมิและปริมาณน้ำฝนเป็นรายวัน แต่ผลผลิตเพียง 1 ค่าต่อปี ฉันจะเข้าใกล้สิ่งนี้ได้อย่างไร

2
การถดถอยเชิงเส้นหลายตัวแปรในหลาม
ฉันกำลังมองหาแพ็คเกจ Python ที่ใช้การถดถอยเชิงเส้นหลายตัวแปร (หมายเหตุเกี่ยวกับคำศัพท์: การถดถอยหลายตัวแปรที่เกี่ยวข้องกับกรณีที่มีมากกว่าหนึ่งตัวแปรขึ้นอยู่กับในขณะที่หลาย ๆการถดถอยเกี่ยวข้องกับกรณีที่มีตัวแปรตาม แต่หนึ่งตัวแปรอิสระมากกว่าหนึ่ง)

2
ตัวแยกประเภท Scikit ใช้เวลานานเท่าไรในการจำแนก?
ฉันวางแผนที่จะใช้ลักษณนามลักษณนามของเวกเตอร์สนับสนุนเชิงเส้น (SVM) ของ scikit สำหรับการจำแนกข้อความบนคลังข้อมูลซึ่งประกอบด้วยเอกสารที่มีป้ายกำกับ 1 ล้านฉบับ สิ่งที่ฉันกำลังวางแผนที่จะทำคือเมื่อผู้ใช้ป้อนคำหลักบางคำลักษณนามจะจัดประเภทไว้ในหมวดหมู่ก่อนแล้วแบบสอบถามการสืบค้นข้อมูลที่ตามมาจะเกิดขึ้นภายในเอกสารของหมวดหมู่หมวดหมู่นั้น ฉันมีคำถามสองสามข้อ: ฉันจะยืนยันได้อย่างไรว่าการจำแนกประเภทจะใช้เวลาไม่นาน ฉันไม่ต้องการให้ผู้ใช้ต้องใช้เวลารอการจัดหมวดหมู่ให้เสร็จเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น การใช้ห้องสมุด scikit ของ Python สำหรับเว็บไซต์ / แอปพลิเคชันบนเว็บเหมาะสมกับเรื่องนี้หรือไม่? ไม่มีใครรู้ว่า amazon หรือ flipkart ดำเนินการจัดหมวดหมู่ในการค้นหาของผู้ใช้หรือพวกเขาใช้ตรรกะที่แตกต่างอย่างสิ้นเชิง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.