คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

25
Python เป็นโต๊ะทำงานสถิติ
ผู้คนจำนวนมากใช้เครื่องมือหลักเช่น Excel หรือสเปรดชีตอื่น SPSS, Stata หรือ R สำหรับความต้องการทางสถิติ พวกเขาอาจหันไปใช้แพคเกจเฉพาะสำหรับความต้องการพิเศษมาก แต่หลายสิ่งสามารถทำได้ด้วยสเปรดชีตอย่างง่ายหรือแพคเกจสถิติทั่วไปหรือสภาพแวดล้อมการเขียนโปรแกรมสถิติ ฉันชอบ Python เป็นภาษาการเขียนโปรแกรมเสมอและสำหรับความต้องการง่าย ๆ มันง่ายที่จะเขียนโปรแกรมสั้น ๆ ที่คำนวณสิ่งที่ฉันต้องการ Matplotlib ให้ฉันพล็อตมัน มีใครเปลี่ยนจากพูด R เป็น Python อย่างสมบูรณ์หรือไม่ R (หรือแพ็คเกจสถิติอื่น ๆ ) มีฟังก์ชันการทำงานเฉพาะสำหรับสถิติจำนวนมากและมีโครงสร้างข้อมูลที่ช่วยให้คุณคิดเกี่ยวกับสถิติที่คุณต้องการดำเนินการและน้อยกว่าเกี่ยวกับการแสดงข้อมูลภายในของคุณ Python (หรือภาษาไดนามิกอื่น ๆ ) มีประโยชน์ในการอนุญาตให้ฉันเขียนโปรแกรมในภาษาระดับสูงที่คุ้นเคยและช่วยให้ฉันโต้ตอบกับระบบในโลกแห่งความเป็นจริงซึ่งข้อมูลอยู่หรือที่ฉันสามารถทำการวัดได้ แต่ฉันไม่ได้พบแพ็คเกจ Python ใด ๆ ที่จะอนุญาตให้ฉันแสดงสิ่งต่าง ๆ ด้วย "คำศัพท์เชิงสถิติ" - จากสถิติเชิงพรรณนาอย่างง่ายไปจนถึงวิธีการหลายตัวแปรที่ซับซ้อนมากขึ้น คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Python เป็น "สถิติ workbench" เพื่อแทนที่ …
355 r  spss  stata  python 

4
ขนาดแบทช์ในเครือข่ายประสาทเทียมคืออะไร
ฉันใช้Python Keras packageสำหรับเครือข่ายประสาท นี่คือการเชื่อมโยง มีbatch_sizeเท่ากับจำนวนตัวอย่างทดสอบ? จาก Wikipedia เรามีข้อมูลนี้ : อย่างไรก็ตามในกรณีอื่น ๆ การประเมินผลรวมของการไล่ระดับสีอาจต้องมีการประเมินราคาแพงของการไล่ระดับสีจากฟังก์ชั่นการสรุปทั้งหมด เมื่อชุดฝึกอบรมมีขนาดใหญ่และไม่มีสูตรง่าย ๆ อยู่การประเมินผลรวมของการไล่ระดับสีจะมีราคาแพงมากเนื่องจากการประเมินการไล่ระดับสีนั้นจำเป็นต้องประเมินการไล่ระดับสีของฟังก์ชันสรุปทั้งหมด เพื่อประหยัดค่าใช้จ่ายในการคำนวณทุกการทำซ้ำการไล่ระดับสีแบบสุ่มสุ่มตัวอย่างของฟังก์ชั่นการสรุปในทุกขั้นตอน สิ่งนี้มีประสิทธิภาพมากในกรณีที่เกิดปัญหาการเรียนรู้ของเครื่องขนาดใหญ่ ข้อมูลข้างต้นอธิบายถึงข้อมูลการทดสอบหรือไม่ เหมือนกับbatch_sizeใน keras (จำนวนตัวอย่างต่อการไล่ระดับสี) หรือไม่

2
เลเยอร์การฝังในเครือข่ายประสาทคืออะไร
ในหลายห้องสมุดเครือข่ายประสาทมี 'ชั้นฝัง' เหมือนในKerasหรือลาซัน ฉันไม่แน่ใจว่าฉันเข้าใจฟังก์ชั่นของมันแม้จะอ่านเอกสาร ตัวอย่างเช่นในเอกสาร Keras มันบอกว่า: เปลี่ยนจำนวนเต็มบวก (ดัชนี) เป็นเวกเตอร์ที่มีขนาดคงที่เช่น [[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]] คนที่มีความสามารถสามารถอธิบายสิ่งที่มันทำและเมื่อคุณจะใช้มันได้หรือไม่ แก้ไข: เกี่ยวกับการวางในเอกสารมีไม่มากวางจากเอกสารดังนั้นคำถามของฉัน ฉันไม่เข้าใจการเปลี่ยนแปลงที่เกิดขึ้นหรือทำไมจึงควรใช้ อย่างไรก็ตามนี่คือวิธีอธิบายใน Keras: การฝัง keras.layers.embeddings.Embedding (input_dim, output_dim, init = 'uniform', input_length = None, น้ำหนัก = None, W_regularizer = None, W_constraint = None, mask_zero = False) เปลี่ยนจำนวนเต็มบวก (ดัชนี) , เช่น. [[4], …

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา
พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

1
วิธีการแยกชุดข้อมูลสำหรับการตรวจสอบข้ามการเรียนรู้และการประเมินขั้นสุดท้าย?
กลยุทธ์ที่เหมาะสมสำหรับการแยกชุดข้อมูลคืออะไร? ผมขอให้ความคิดเห็นเกี่ยวกับวิธีการดังต่อไปนี้ (ไม่ได้อยู่ในแต่ละพารามิเตอร์เหมือนtest_sizeหรือn_iterแต่ถ้าผมใช้X, y, X_train, y_train, X_testและy_testเหมาะสมและถ้าลำดับทำให้รู้สึก): (ขยายตัวอย่างนี้จากเอกสาร scikit-Learn) 1. โหลดชุดข้อมูล from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2. แบ่งออกเป็นชุดฝึกอบรมและทดสอบ (เช่น 80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3. เลือกเครื่องมือประมาณ from sklearn.svm import SVC estimator = SVC(kernel='linear') 4. …

5
ฟังก์ชั่นการสูญเสียสำหรับงานการจำแนกประเภทหลายคลาสและหลายฉลากในเครือข่ายประสาทเทียมคืออะไร?
ฉันกำลังฝึกโครงข่ายประสาทเทียมเพื่อจัดกลุ่มวัตถุเป็นคลาส n แต่ละวัตถุสามารถเป็นของหลายคลาสในเวลาเดียวกัน (หลายคลาสหลายป้าย) ฉันอ่านว่าสำหรับปัญหาหลายคลาสแนะนำโดยทั่วไปให้ใช้ softmax และหมวดหมู่ข้ามเอนโทรปีเป็นฟังก์ชั่นการสูญเสียแทน mse และฉันเข้าใจมากขึ้นหรือน้อยลงว่าทำไม สำหรับปัญหาของฉันเกี่ยวกับมัลติ - เลเบลมันไม่สมเหตุสมผลที่จะใช้ซอฟต์แม็กซ์แน่นอนเพราะความน่าจะเป็นในแต่ละชั้นควรเป็นอิสระจากที่อื่น ดังนั้นชั้นสุดท้ายของฉันคือหน่วย sigmoid ที่สควอชใส่ลงในช่วงความน่าจะเป็น 0..1 สำหรับทุกชั้น ตอนนี้ฉันไม่แน่ใจว่าฟังก์ชั่นการสูญเสียที่ฉันควรใช้สำหรับสิ่งนี้ เมื่อพิจารณาถึงคำจำกัดความของ crossentropy ที่เป็นหมวดหมู่ฉันเชื่อว่ามันจะใช้ไม่ได้กับปัญหานี้เพราะมันจะคำนึงถึงผลลัพธ์ของเซลล์ประสาทที่ควรจะเป็น 1 เท่านั้นและไม่สนใจสิ่งอื่น เอนโทรปีของ Binary cross ดูเหมือนว่าจะเหมาะกว่า แต่ฉันเห็นเพียงว่ามันเคยถูกกล่าวถึงสำหรับปัญหาการจำแนกเลขฐานสองด้วยเซลล์ประสาทเอาท์พุทเดี่ยว ฉันใช้ python และ keras เพื่อฝึกฝนในกรณีที่มันสำคัญ

9
R และ Python เติมเต็มซึ่งกันและกันในข้อมูลวิทยาศาสตร์ได้อย่างไร?
ในแบบฝึกหัดหรือคู่มือต่างๆการบรรยายดูเหมือนจะบอกเป็นนัยว่า R และ python อยู่ร่วมกันเป็นองค์ประกอบเสริมของกระบวนการวิเคราะห์ อย่างไรก็ตามสำหรับตาที่ไม่ได้รับการฝึกฝนของฉันดูเหมือนว่าทั้งสองภาษาจะทำสิ่งเดียวกัน ดังนั้นคำถามของฉันคือถ้ามี niches พิเศษสำหรับสองภาษาหรือถ้าเป็นเพียงการตั้งค่าส่วนตัวว่าจะใช้อย่างใดอย่างหนึ่งหรือไม่
54 r  python  software 

10
การเรียนรู้ของเครื่องโดยใช้ Python
ฉันกำลังพิจารณาที่จะใช้ห้องสมุด Python เพื่อทำการทดลองการเรียนรู้ของเครื่อง จนถึงตอนนี้ฉันพึ่ง WEKA แล้ว แต่ก็ไม่พอใจในภาพรวมทั้งหมด นี่เป็นหลักเพราะฉันพบว่า WEKA ไม่ได้รับการสนับสนุนที่ดี (ตัวอย่างน้อยมากเอกสารน้อยมากและการสนับสนุนจากชุมชนน้อยกว่าที่ต้องการในประสบการณ์ของฉัน) และพบว่าตัวเองตกอยู่ในสถานการณ์ที่ลำบากโดยไม่มีความช่วยเหลือ อีกเหตุผลหนึ่งที่ฉันคิดว่าท่านี้เป็นเพราะฉันชอบ Python จริงๆ (ฉันใหม่กับ Python) และไม่ต้องการกลับไปเขียนโปรแกรมใน Java ดังนั้นคำถามของฉันคืออะไรเพิ่มเติม ครอบคลุม ปรับขนาดได้ (คุณสมบัติ 100k, ตัวอย่าง 10k) และ ห้องสมุดที่รองรับการทำ ML ใน Python นั้นดีหรือไม่ ฉันสนใจเป็นพิเศษในการจัดหมวดหมู่ข้อความและต้องการใช้ไลบรารีที่มีตัวแยกประเภทที่ดีวิธีการเลือกคุณสมบัติ (Information Gain, Chi-Sqaured ฯลฯ ) และความสามารถในการประมวลผลข้อความล่วงหน้า (การหยุดการลบคำหยุด , tf-idf เป็นต้น) จากหัวข้ออีเมลที่ผ่านมาที่นี่และที่อื่น ๆ ฉันได้ดู PyML, scikits-learn และ Orange …

7
เครื่องมือวิเคราะห์การอยู่รอดใน Python [ปิด]
ฉันสงสัยว่ามีแพ็กเกจสำหรับไพ ธ อนที่สามารถทำการวิเคราะห์การอยู่รอดได้หรือไม่ ฉันใช้แพ็คเกจการเอาตัวรอดใน R แต่ฉันต้องการย้ายงานของฉันไปที่ python
46 survival  python 

5
เราตีความน้ำหนักของคุณสมบัติ SVM อย่างไร
ฉันกำลังพยายามตีความน้ำหนักของตัวแปรที่กำหนดโดยการปรับ SVM เชิงเส้นให้เหมาะสม (ฉันใช้Scikit เรียนรู้ ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ ฉันไม่พบสิ่งใดในเอกสารที่ระบุวิธีการคำนวณหรือตีความน้ำหนักเหล่านี้โดยเฉพาะ เครื่องหมายของน้ำหนักมีส่วนร่วมกับชั้นเรียนหรือไม่?

2
นุ่น / Statsmodel / Scikit เรียนรู้
Pandas, Statsmodels และ Scikit เรียนรู้การใช้งานที่แตกต่างกันของการเรียนรู้ด้วยเครื่องจักร / การดำเนินการทางสถิติหรือเป็นส่วนเสริมเหล่านี้หรือไม่? ข้อใดต่อไปนี้มีฟังก์ชันการทำงานที่ครอบคลุมที่สุด สิ่งใดที่ได้รับการพัฒนาและ / หรือสนับสนุนอย่างแข็งขัน ฉันต้องใช้การถดถอยโลจิสติก ข้อเสนอแนะใดที่ฉันควรใช้กับสิ่งเหล่านี้?

6
เหตุใดฉันจึงได้รับแผนผังการตัดสินใจที่มีความแม่นยำ 100%
ฉันได้รับความแม่นยำ 100% สำหรับแผนภูมิการตัดสินใจของฉัน ผมทำอะไรผิดหรือเปล่า? นี่คือรหัสของฉัน: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import …

4
ข้อมูลมีสองแนวโน้ม วิธีแยกเส้นแนวโน้มอิสระ
ฉันมีชุดข้อมูลที่ไม่ได้เรียงลำดับ แต่อย่างใดเมื่อมีการวางแผนอย่างชัดเจนมีแนวโน้มที่แตกต่างกันสองอย่าง การถดถอยเชิงเส้นอย่างง่ายจะไม่เพียงพอที่นี่เพราะความแตกต่างที่ชัดเจนระหว่างสองชุด มีวิธีง่าย ๆ ในการรับเส้นแนวโน้มเชิงเส้นที่เป็นอิสระหรือไม่ สำหรับบันทึกที่ฉันใช้ Python และฉันรู้สึกสะดวกสบายกับการเขียนโปรแกรมและการวิเคราะห์ข้อมูลรวมถึงการเรียนรู้ของเครื่อง แต่ยินดีที่จะข้ามไปยัง R หากจำเป็นจริงๆ

1
เชื่อมโยงการตรวจจับความผิดปกติในเครือข่ายชั่วคราว
ฉันมาข้ามบทความนี้ที่ใช้เชื่อมโยงการตรวจสอบความผิดปกติในการทำนายแนวโน้มหัวข้อและผมพบว่ามันไม่น่าเชื่อที่น่าสนใจ: กระดาษ"การค้นพบหัวข้อที่เกิดขึ้นใหม่ในกระแสสังคมผ่านการเชื่อมโยงความผิดปกติของการตรวจสอบ" ฉันชอบที่จะทำซ้ำในชุดข้อมูลอื่น แต่ฉันไม่คุ้นเคยกับวิธีการที่จะรู้วิธีใช้ สมมติว่าฉันมีชุดของภาพรวมของเครือข่ายของโหนดในช่วงหกเดือน โหนมีการกระจายระดับเทลด์เทอร์มินัลโดยส่วนใหญ่มีการเชื่อมต่อเพียงเล็กน้อย แต่บางอันมีจำนวนมาก โหนดใหม่ปรากฏขึ้นภายในช่วงเวลานี้ ฉันจะใช้การคำนวณความน่าจะเป็นสูงสุดปกติแบบลดตามลำดับที่ใช้ในกระดาษเพื่อตรวจจับลิงก์ผิดปกติที่ฉันคิดว่าอาจเป็นตัวตั้งต้นให้เกิดการระเบิดได้อย่างไร มีวิธีการอื่นที่เหมาะสมกว่าหรือไม่ ฉันถามทั้งในทางทฤษฎีและในทางปฏิบัติ หากใครบางคนชี้ให้ฉันเห็นวิธีการใช้สิ่งนี้ใน python หรือ R นั่นจะเป็นประโยชน์อย่างมาก ใคร? ฉันรู้ว่าคุณสมาร์ทคนมีความคิดเริ่มต้นสำหรับคำตอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.