คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

17
ห้องสมุดไพ ธ อนที่ดีที่สุดสำหรับเครือข่ายประสาทเทียม
ฉันใช้โครงข่ายประสาทเทียมเพื่อแก้ปัญหาการเรียนรู้ของเครื่องที่แตกต่างกัน ฉันใช้ Python และpybrainแต่ห้องสมุดนี้เกือบจะหยุดแล้ว มีทางเลือกอื่นที่ดีใน Python หรือไม่?

8
ข้อแตกต่างระหว่าง fit และ fit_transform ในรุ่น scikit_learn หรือไม่?
ฉันเป็นมือใหม่ในด้านวิทยาศาสตร์ข้อมูลและฉันไม่เข้าใจความแตกต่างระหว่างfitและfit_transformวิธีการในการเรียนรู้ Scikit ใครช่วยอธิบายได้ไหมว่าทำไมเราถึงต้องแปลงข้อมูล แบบจำลองการฟิตข้อมูลการฝึกอบรมและการแปลงเป็นข้อมูลการทดสอบหมายความว่าอย่างไร มันหมายความว่าตัวอย่างเช่นการแปลงตัวแปรเด็ดขาดเป็นตัวเลขในรถไฟและแปลงคุณสมบัติใหม่เพื่อทดสอบข้อมูล?

15
Python vs R สำหรับการเรียนรู้ของเครื่อง
ฉันเพิ่งเริ่มพัฒนาแอปพลิเคชั่นการเรียนรู้ของเครื่องจักรเพื่อจุดประสงค์ทางวิชาการ ฉันกำลังใช้Rและฝึกฝนตัวเองอยู่ คนอย่างไรก็ตามในจำนวนมากที่ผมได้เห็นการใช้งูหลาม ผู้คนกำลังใช้อะไรในสถาบันการศึกษาและอุตสาหกรรมและคำแนะนำคืออะไร

11
SVM โดยใช้ scikit เรียนรู้ทำงานอย่างไม่มีที่สิ้นสุดและไม่เคยดำเนินการจนเสร็จสมบูรณ์
ฉันพยายามเรียกใช้ SVR โดยใช้ scikit learn (python) บนชุดข้อมูลการฝึกอบรมที่มี 595605 แถวและ 5 คอลัมน์ (คุณสมบัติ) และชุดทดสอบที่มี 397070 แถว ข้อมูลได้รับการประมวลผลล่วงหน้าและทำให้เป็นมาตรฐาน ฉันสามารถรันตัวอย่างทดสอบได้สำเร็จ แต่เมื่อใช้งานชุดข้อมูลของฉันและปล่อยให้มันทำงานนานกว่าหนึ่งชั่วโมงฉันก็ยังไม่เห็นผลลัพธ์หรือการสิ้นสุดของโปรแกรม ฉันได้ลองใช้งานด้วย IDE ที่แตกต่างกันและแม้กระทั่งจาก terminal แต่นั่นก็ไม่ได้เป็นปัญหา ฉันได้ลองเปลี่ยนค่าพารามิเตอร์ 'C' จาก 1 เป็น 1e3 แล้ว ฉันกำลังเผชิญปัญหาที่คล้ายกันกับการใช้งาน svm ทั้งหมดโดยใช้ scikit ฉันไม่ได้รอให้เสร็จหรือไม่ การดำเนินการนี้ควรใช้เวลาเท่าไหร่ จากประสบการณ์ของฉันไม่ควรใช้เวลาสักครู่ นี่คือการกำหนดค่าระบบของฉัน: Ubuntu 14.04, RAM 8GB, หน่วยความจำฟรีมากมาย, โปรเซสเซอร์เจนเนอเรชั่นที่ 4 รุ่นที่ 4

1
ความแตกต่างระหว่าง isna () และ isnull () ใน pandas
ฉันใช้แพนด้ามานานแล้ว แต่ฉันไม่เข้าใจว่าอะไรคือความแตกต่างระหว่างisna()และisnull()ในนุ่น และที่สำคัญกว่านั้นคืออันไหนที่จะใช้สำหรับการระบุค่าที่หายไปในดาต้าเฟรม ความแตกต่างพื้นฐานพื้นฐานของวิธีการตรวจพบค่าเป็นอย่างใดอย่างหนึ่งnaหรือnullคืออะไร?

6
สตริงเป็นคุณลักษณะในต้นไม้ตัดสินใจ / ฟอเรสต์แบบสุ่ม
ฉันกำลังทำปัญหาบางอย่างกับการใช้ต้นไม้ตัดสินใจ / ป่าสุ่ม ฉันกำลังพยายามหาปัญหาที่มีตัวเลขและสตริง (เช่นชื่อประเทศ) เป็นคุณลักษณะ ตอนนี้ห้องสมุดscikit-learnจะใช้ตัวเลขเป็นพารามิเตอร์เท่านั้น แต่ฉันต้องการฉีดสตริงรวมถึงมีความรู้จำนวนมาก ฉันจะจัดการสถานการณ์ดังกล่าวได้อย่างไร ฉันสามารถแปลงสตริงเป็นตัวเลขโดยกลไกบางอย่างเช่น hashing ใน Python แต่ฉันต้องการทราบวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับวิธีการจัดการสตริงในปัญหาต้นไม้การตัดสินใจ

8
โอเพนซอร์สตรวจจับความผิดปกติใน Python
พื้นหลังของปัญหา: ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับไฟล์บันทึกที่คล้ายกับที่พบในพื้นที่การตรวจสอบไอที (เพื่อความเข้าใจที่ดีที่สุดของฉันเกี่ยวกับพื้นที่ไอที) ไฟล์บันทึกเหล่านี้เป็นข้อมูลอนุกรมเวลาซึ่งแบ่งเป็นหลายร้อย / หลายพันแถวของพารามิเตอร์ต่างๆ แต่ละพารามิเตอร์เป็นตัวเลข (ลอย) และมีค่าที่ไม่สำคัญ / ไม่ใช่ข้อผิดพลาดสำหรับแต่ละจุดเวลา งานของฉันคือการตรวจสอบว่าไฟล์บันทึกสำหรับการตรวจจับความผิดปกติ (แหลม, ตก, รูปแบบที่ผิดปกติกับพารามิเตอร์บางอย่างที่ไม่ได้ซิงค์, พฤติกรรมแปลกปลอมที่ 1/2 / ฯลฯ ฯลฯ ) ในการมอบหมายที่คล้ายกันฉันได้ลอง Splunk กับ Prelert แล้ว แต่ฉันกำลังสำรวจตัวเลือกโอเพนซอร์สในขณะนี้ ข้อ จำกัด : ฉัน จำกัด ตัวเองกับ Python เพราะฉันรู้ดีและต้องการชะลอการสลับเป็น R และเส้นโค้งการเรียนรู้ที่เกี่ยวข้อง เว้นแต่ว่าจะมีการสนับสนุน R (หรือภาษา / ซอฟต์แวร์อื่น ๆ ) อย่างล้นหลามฉันต้องการยึด Python สำหรับงานนี้ นอกจากนี้ฉันกำลังทำงานในสภาพแวดล้อม Windows ในขณะนี้ …

2
ฝึกอบรม RNN ด้วยตัวอย่างความยาวต่างกันใน Keras
ฉันพยายามเริ่มเรียนรู้เกี่ยวกับ RNNs และฉันใช้ Keras ฉันเข้าใจหลักฐานพื้นฐานของเลเยอร์วานิลลา RNN และ LSTM แต่ฉันมีปัญหาในการเข้าใจประเด็นทางเทคนิคบางประการสำหรับการฝึกอบรม ในเอกสาร kerasมันบอกว่าการป้อนข้อมูลไปยังชั้น RNN (batch_size, timesteps, input_dim)ต้องมีรูปร่าง นี่แสดงให้เห็นว่าตัวอย่างการฝึกอบรมทั้งหมดมีความยาวตามลำดับที่timestepsแน่นอน แต่นี่ไม่ใช่เรื่องปกติโดยเฉพาะใช่ไหม? ฉันอาจต้องการให้ RNN ทำงานกับประโยคที่มีความยาวต่างกัน เมื่อฉันฝึกมันในคลังข้อมูลบางอย่างฉันจะให้อาหารมันเป็นชุดของประโยคความยาวที่แตกต่างกันทั้งหมด ฉันคิดว่าสิ่งที่ชัดเจนที่ต้องทำคือค้นหาความยาวสูงสุดของลำดับใด ๆ ในชุดฝึกอบรมและ zero pad มัน แต่นั่นหมายความว่าฉันไม่สามารถคาดการณ์เวลาทดสอบที่มีความยาวอินพุทมากกว่านั้นได้หรือไม่? นี่เป็นคำถามเกี่ยวกับการใช้งานของ Keras โดยเฉพาะฉันคิดว่า แต่ฉันก็ถามว่าคนทั่วไปจะทำอย่างไรเมื่อต้องเผชิญกับปัญหาแบบนี้
60 python  keras  rnn  training 

8
การรวมกลุ่มพิกัดตำแหน่งทางภูมิศาสตร์ (lat, long long)
วิธีการที่เหมาะสมและอัลกอริทึมการจัดกลุ่มสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์คืออะไร? ฉันใช้รหัสต่อไปนี้เพื่อประสานพิกัดตำแหน่งทางภูมิศาสตร์: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() ถูกต้องหรือไม่ที่จะใช้ K- meanสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์เนื่องจากใช้ระยะทางแบบยุคลิดไม่ใช่สูตรฮาร์ไซน์เป็นฟังก์ชันระยะทาง

9
เครื่องมือและโปรโตคอลสำหรับวิทยาศาสตร์ข้อมูลที่สามารถทำซ้ำได้โดยใช้ Python
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลโดยใช้ Python โครงการมีหลายขั้นตอน แต่ละขั้นตอนประกอบด้วยการเก็บชุดข้อมูลโดยใช้สคริปต์ Python ข้อมูลเสริมการกำหนดค่าและพารามิเตอร์และการสร้างชุดข้อมูลอื่น ฉันเก็บรหัสในคอมไพล์ดังนั้นส่วนที่ครอบคลุม ฉันอยากจะได้ยินเกี่ยวกับ: เครื่องมือสำหรับการควบคุมเวอร์ชันของข้อมูล เครื่องมือที่เปิดใช้งานการทำซ้ำขั้นตอนและการทดลอง โปรโตคอลและโครงสร้างไดเรกทอรีที่แนะนำสำหรับโครงการดังกล่าว เครื่องมือสร้าง / เรียกใช้อัตโนมัติ

4
โครงข่ายประสาท: ฟังก์ชั่นค่าใช้จ่ายที่จะใช้?
ฉันใช้TensorFlowสำหรับการทดลองกับเครือข่ายประสาทเป็นหลัก แม้ว่าตอนนี้ฉันได้ทำการทดลองบ้างแล้ว (XOR-Problem, MNIST, Regression บางอย่าง, ... ) ตอนนี้ฉันต่อสู้กับการเลือกฟังก์ชั่นต้นทุนที่ "ถูกต้อง" สำหรับปัญหาเฉพาะเพราะโดยรวมแล้วฉันถือว่าเป็นมือใหม่ ก่อนที่จะมาที่ TensorFlow ฉันเขียนรหัส MLP ที่เชื่อมต่ออย่างเต็มที่และเครือข่ายที่เกิดขึ้นเองด้วยPythonและNumPyแต่ส่วนใหญ่ฉันมีปัญหาที่ข้อผิดพลาดยกกำลังสองง่ายและการไล่ระดับสีอย่างง่ายนั้นเพียงพอ อย่างไรก็ตามเนื่องจาก TensorFlow มีฟังก์ชั่นค่าใช้จ่ายค่อนข้างมากเช่นเดียวกับการสร้างฟังก์ชั่นค่าใช้จ่ายที่กำหนดเองฉันต้องการที่จะทราบว่ามีการสอนบางอย่างที่เฉพาะเจาะจงสำหรับฟังก์ชั่นค่าใช้จ่ายในเครือข่ายประสาท (ฉันทำไปแล้วเหมือนครึ่งหนึ่งของแบบฝึกหัด TensorFlow อย่างเป็นทางการ แต่พวกเขาไม่ได้อธิบายว่าทำไมฟังก์ชั่นค่าใช้จ่ายเฉพาะหรือผู้เรียนใช้สำหรับปัญหาเฉพาะ - อย่างน้อยไม่ใช่สำหรับผู้เริ่มต้น) ในการให้ตัวอย่าง: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) ฉันเดาว่ามันใช้ฟังก์ชั่น softmax กับทั้งสองอินพุตเพื่อให้ผลรวมของเวกเตอร์หนึ่งเท่ากับ 1 แต่ไขว้เอนโทรปีของการบันทึกคืออะไร ฉันคิดว่ามันสรุปค่าและคำนวณค่าเอนโทรปีของการไขว้ ... ดังนั้นการวัดบางอย่าง?! นี่จะไม่เหมือนกันหรือไม่ถ้าฉันเอาท์พุทเป็นปกติ, หาผลรวมมันออกมา นอกจากนี้เหตุใดจึงใช้สิ่งนี้เช่นสำหรับ MNIST (หรือปัญหาที่ยากกว่า) เมื่อฉันต้องการที่จะจัดเช่น 10 หรือแม้กระทั่ง 1000 เรียนไม่ได้ข้อสรุปถึงค่าที่สมบูรณ์ทำลายข้อมูลใด ๆ เกี่ยวกับการที่ชั้นเป็นจริงการส่งออกหรือไม่ …

7
ValueError: อินพุตมี NaN, อินฟินิตี้หรือค่าใหญ่เกินไปสำหรับ dtype ('float32')
ฉันได้รับ ValueError เมื่อทำนายข้อมูลการทดสอบโดยใช้โมเดล RandomForest รหัสของฉัน: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) ข้อผิดพลาด: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). ฉันจะค้นหาค่าที่ไม่ดีในชุดข้อมูลการทดสอบได้อย่างไร นอกจากนี้ฉันไม่ต้องการลบบันทึกเหล่านี้ฉันสามารถแทนที่พวกเขาด้วยค่าเฉลี่ยหรือค่ามัธยฐาน? ขอบคุณ

3
การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น
ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

3
Multi GPU เป็น keras
คุณสามารถโปรแกรมในไลบรารี keras (หรือเทนเซอร์โฟลว) เพื่อแบ่งพาร์ติชันการฝึกอบรมใน GPU หลาย ๆ ตัวได้อย่างไร สมมติว่าคุณอยู่ในอินสแตนซ์ Amazon ec2 ที่มี 8 GPU และคุณต้องการที่จะใช้ทั้งหมดในการฝึกอบรมได้เร็วขึ้น แต่รหัสของคุณเป็นเพียงสำหรับ CPU หรือ GPU เดียว

5
การเปิดไฟล์ 20GB สำหรับการวิเคราะห์ด้วยแพนด้า
ฉันกำลังพยายามเปิดไฟล์ที่มี pandas และ python เพื่อการเรียนรู้ของเครื่องมันจะเหมาะสำหรับฉันที่จะมีพวกเขาทั้งหมดใน DataFrame ตอนนี้ไฟล์มีขนาดใหญ่ 18GB และ RAM ของฉันคือ 32 GB แต่ฉันยังคงได้รับข้อผิดพลาดของหน่วยความจำ จากประสบการณ์ของคุณเป็นไปได้ไหม ถ้าคุณไม่ทราบวิธีที่ดีกว่าที่จะไปรอบ ๆ นี้? (ตารางรังผึ้งเพิ่มขนาด RAM ของฉันเป็น 64 สร้างฐานข้อมูลและเข้าถึงจากงูหลาม)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.