คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

2
วิธีหาผลรวมค่าจัดกลุ่มตามสองคอลัมน์ในนุ่น
ฉันมี Pandas DataFrame เช่นนี้: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 ฉันจะสร้าง DataFrame ใหม่เช่นนี้ได้อย่างไร: Date one …

3
การผสานเฟรมข้อมูลหลายแถวใน PySpark
ฉันมีเฟรม 10 ข้อมูลpyspark.sql.dataframe.DataFrameที่ได้รับจากrandomSplitเป็น(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)ตอนนี้ผมต้องการที่จะเข้าร่วม 9 td's ลงในกรอบข้อมูลเดียวว่าฉันควรทำเช่นนั้น? ฉันได้ลองไปแล้วunionAllแต่ฟังก์ชั่นนี้ยอมรับเพียงสองข้อโต้แย้งเท่านั้น td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments …

2
ข้อผิดพลาด train_test_split (): พบตัวแปรอินพุตที่มีจำนวนตัวอย่างที่ไม่สอดคล้องกัน
ค่อนข้างใหม่สำหรับ Python แต่สร้างแบบจำลอง RF แรกของฉันขึ้นอยู่กับข้อมูลการจำแนกบางส่วน ฉันแปลงฉลากทั้งหมดให้เป็นข้อมูลตัวเลข int64 และโหลดลงใน X และ Y เป็นอาร์เรย์ที่มีจำนวนมาก แต่ฉันกดปุ่มข้อผิดพลาดเมื่อฉันพยายามฝึกนางแบบ นี่คือลักษณะของอาร์เรย์ของฉัน: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, …

2
Keras vs. tf.keras
ฉันสับสนเล็กน้อยในการเลือกระหว่างKeras (keras-team / keras) และtf.keras (tensorflow / tensorflow / python / keras /) สำหรับโครงการวิจัยใหม่ของฉัน มีการถกเถียงกันว่าKerasไม่ได้เป็นของใครดังนั้นผู้คนมีความสุขที่ได้มีส่วนร่วมและมันจะง่ายขึ้นมากในการจัดการโครงการในอนาคต ในด้านอื่น ๆ , tf.kerasเป็นเจ้าของโดย Google ทดสอบเพื่อให้เข้มงวดมากขึ้นและการบำรุงรักษา ยิ่งกว่านั้นดูเหมือนว่านี่เป็นตัวเลือกที่ดีกว่าสำหรับการใช้ประโยชน์จากคุณสมบัติใหม่ที่มีอยู่ใน Tensorflow v.2 ดังนั้นเพื่อเริ่มโครงการข้อมูลวิทยาศาสตร์ (การเรียนรู้ของเครื่อง) (ในขั้นตอนการวิจัย) ว่าทั้งคู่ไม่เป็นไรในตอนแรกคุณเลือกอันไหน?!

3
การใช้งาน Python ของฟังก์ชั่นต้นทุนในการถดถอยโลจิสติก: เหตุใดการคูณดอทในนิพจน์หนึ่ง แต่การคูณองค์ประกอบที่ชาญฉลาดในอีกอันหนึ่ง
ฉันมีคำถามพื้นฐานที่เกี่ยวข้องกับ Python จำนวน numpy และการคูณเมทริกซ์ในการตั้งค่าของการถดถอยโลจิสติก ก่อนอื่นให้ฉันขอโทษที่ไม่ได้ใช้สัญกรณ์คณิตศาสตร์ ฉันสับสนเกี่ยวกับการใช้การคูณเมทริกซ์ดอทกับการแบ่งส่วนที่ชาญฉลาด ฟังก์ชันต้นทุนได้รับจาก: และในไพ ธ อนฉันได้เขียนสิ่งนี้เป็น cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) แต่สำหรับตัวอย่างการแสดงออกนี้ (อันแรก - อนุพันธ์ของ J เทียบกับ w) คือ dw = 1/m * np.dot(X, dz.T) ฉันไม่เข้าใจว่าทำไมมันถูกต้องที่จะใช้การคูณดอทในข้างต้น แต่ใช้การคูณองค์ประกอบที่ชาญฉลาดในฟังก์ชั่นค่าใช้จ่ายเช่นทำไมไม่: cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) ฉันเข้าใจอย่างเต็มที่ว่านี่ไม่ได้อธิบายอย่างละเอียด แต่ฉันเดาว่าคำถามง่ายมากที่ทุกคนที่มีประสบการณ์การถดถอยโลจิสติกขั้นพื้นฐานจะเข้าใจปัญหาของฉัน

1
วิธีจัดการกับคุณลักษณะลองจิจูด / ละติจูด [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังทำงานกับชุดข้อมูลที่มีตัวละคร 25 ตัว คุณลักษณะสองอย่างคือละติจูดและลองจิจูดของสถานที่และอื่น ๆ คือค่า pH, ระดับความสูง, windSpeed ​​และอื่น ๆ ที่มีช่วงที่แตกต่างกัน ฉันสามารถทำการปรับสภาพให้เป็นมาตรฐานสำหรับคุณสมบัติอื่น ๆ ได้ แต่ฉันจะเข้าสู่คุณสมบัติละติจูด / ลองจิจูดได้อย่างไร แก้ไข: นี่เป็นปัญหาในการทำนายผลผลิตทางการเกษตร ฉันคิดว่า lat / long นั้นมีความสำคัญมากเนื่องจากตำแหน่งสามารถมีความสำคัญในการทำนายและด้วยเหตุนี้ภาวะที่กลืนไม่เข้าคายไม่ออก

3
มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?
ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

4
การค้นหาพารามิเตอร์หลายระดับสำหรับ LSTM-RNN โดยใช้ Keras (Python)
จากการสอนของ Keras RNN: "RNN นั้นยุ่งยากการเลือกขนาดแบตช์เป็นสิ่งสำคัญตัวเลือกการสูญเสียและออพติไมเซอร์เป็นสิ่งสำคัญ ฯลฯ การกำหนดค่าบางอย่างจะไม่มาบรรจบกัน" ดังนั้นนี่เป็นคำถามทั่วไปเกี่ยวกับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ของ LSTM-RNN บน Keras ฉันต้องการทราบวิธีการในการค้นหาพารามิเตอร์ที่ดีที่สุดสำหรับ RNN ของคุณ ผมเริ่มต้นด้วยตัวอย่างเช่นไอเอ็มบน Keras' Github โมเดลหลักมีลักษณะดังนี้: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = …

3
การแยกคุณสมบัติของภาพใน Python
ในชั้นเรียนของฉันฉันต้องสร้างแอปพลิเคชั่นโดยใช้ตัวแยกประเภทสองตัวเพื่อตัดสินใจว่าวัตถุในภาพเป็นตัวอย่างของไฟลัมพอฟิรา (seasponge) หรือวัตถุอื่น ๆ อย่างไรก็ตามฉันหลงทางอย่างสิ้นเชิงเมื่อพูดถึงเทคนิคการแยกฟีเจอร์ในไพ ธ อน ที่ปรึกษาของฉันโน้มน้าวให้ฉันใช้รูปภาพที่ไม่ได้กล่าวถึงในชั้นเรียน ใครสามารถบอกฉันถึงเอกสารที่มีความหมายหรืออ่านหรือแนะนำวิธีการในการพิจารณา?

4
ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่
ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

2
แนะนำภาพยนตร์ที่มีคุณสมบัติเพิ่มเติมโดยใช้การกรองร่วมกัน
ฉันกำลังพยายามสร้างระบบการแนะนำโดยใช้การกรองร่วมกัน ฉันมี[user, movie, rating]ข้อมูลปกติ ฉันต้องการรวมคุณสมบัติเพิ่มเติมเช่น 'ภาษา' หรือ 'ระยะเวลาของภาพยนตร์' ฉันไม่แน่ใจว่าเทคนิคใดที่ฉันสามารถใช้สำหรับปัญหาดังกล่าว กรุณาแนะนำการอ้างอิงหรือแพคเกจในหลาม / R

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
ประโยชน์ของการแยกไฟล์ tfrecord ออกมาคืออะไร?
ฉันกำลังทำงานเกี่ยวกับการจดจำเสียงด้วย Tensorflow และวางแผนที่จะฝึกอบรม LSTM NN ด้วยชุดข้อมูลคลื่นขนาดใหญ่ เนื่องจากประสิทธิภาพที่เพิ่มขึ้นฉันวางแผนที่จะใช้ tfrecords มีตัวอย่างหลายอย่างในอินเทอร์เน็ต (Inception for ex.) ที่ไฟล์ tfrecords ถูกแบ่งออกเป็นเศษ คำถามของฉันคืออะไรประโยชน์ของการมีไฟล์ tfrecords เป็นชิ้น? มีการเพิ่มประสิทธิภาพใด ๆ ของการแยกนี้หรือไม่?

4
ตอนนี้แพนด้าเร็วกว่า data.table หรือไม่
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping มาตรฐานที่ data.table ยังไม่ได้รับการปรับปรุงตั้งแต่ปี 2014 ผมได้ยินมาว่าที่ใดที่หนึ่งคือตอนนี้เร็วกว่าPandas data.tableมันเป็นเรื่องจริงเหรอ? มีใครทำเปรียบเทียบบ้างไหม? ฉันไม่เคยใช้ Python มาก่อน แต่จะพิจารณาเปลี่ยนหากpandasสามารถเอาชนะได้data.tableหรือไม่
17 python  r  pandas  data  data.table 

3
กำลังมองหาแพ็คเกจที่ดีสำหรับการตรวจจับความผิดปกติในอนุกรมเวลา
มีแพ็คเกจโอเพ่นซอร์สที่ครอบคลุม (โดยเฉพาะอย่างยิ่งใน python หรือ R) ที่สามารถใช้สำหรับการตรวจจับความผิดปกติในอนุกรมเวลาหรือไม่? มีแพ็คเกจ SVM หนึ่งคลาสใน scikit-Learn แต่ไม่ใช่สำหรับข้อมูลอนุกรมเวลา ฉันกำลังมองหาแพ็คเกจที่มีความซับซ้อนมากขึ้นตัวอย่างเช่นใช้เครือข่ายแบบเบย์เพื่อตรวจจับสิ่งผิดปกติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.