คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

6
โมเดลมาร์คอฟที่ซ่อนอยู่พร้อมอัลกอริทึม Baum-Welch โดยใช้ python
ฉันกำลังมองหาการใช้งานหลาม (ในหลามบริสุทธิ์หรือห่อสิ่งที่มีอยู่) ของ HMM และ Baum-Welch ความคิดบางอย่าง? ฉันเพิ่งค้นหาใน google และฉันพบวัสดุที่น่าสงสารจริง ๆ ที่เกี่ยวกับเทคนิคการเรียนรู้ของเครื่องอื่น ๆ ทำไม?

5
ภาษาการเขียนโปรแกรมใดที่คุณแนะนำให้สร้างต้นแบบปัญหาการเรียนรู้ของเครื่อง?
กำลังทำงานใน Octave แต่เนื่องจากความคืบหน้าของเอกสารไม่ดีช้ามาก ภาษาใดที่ง่ายต่อการเรียนรู้และใช้งานและมีเอกสารที่ดีในการแก้ปัญหาการเรียนรู้ของเครื่อง? ฉันกำลังมองหาต้นแบบบนชุดข้อมูลขนาดเล็ก (ตัวอย่างหลายพันตัวอย่าง) ดังนั้นความเร็วจึงไม่สำคัญ แก้ไข: ฉันกำลังพัฒนาเครื่องมือแนะนำ ดังนั้นฉันสนใจที่จะใช้ Regularized Linear Regression, Neural Nets, SVN หรือ Collaborative Filtering

5
วิธีการคำนวณเคอร์เนล Gaussian ได้อย่างมีประสิทธิภาพในจำนวน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันมีอาร์เรย์ numpy ที่มีคอลัมน์mและnแถวคอลัมน์ที่มีมิติและ datapoints แถว ตอนนี้ฉันต้องคำนวณค่าเคอร์เนลสำหรับการรวมกันของจุดข้อมูล สำหรับเคอร์เนลเชิงเส้นฉันทำได้ง่ายๆK(xi,xj)=⟨xi,xj⟩K(xi,xj)=⟨xi,xj⟩K(\mathbf{x}_i,\mathbf{x}_j) = \langle \mathbf{x}_i,\mathbf{x}_j \rangledot(X,X.T) ฉันจะคำนวณค่าทั้งหมดสำหรับเคอร์เนล Gaussianอย่างมีประสิทธิภาพด้วยs ?K(xi,xj)=exp−∥xi−xj∥22s2K(xi,xj)=exp⁡−‖xi−xj‖22s2K(\mathbf{x}_i,\mathbf{x}_j) = \exp{-\frac{\|\mathbf{x}_i-\mathbf{x}_j\|_2^2}{s^2}}

4
วิธีการ PCA สำหรับข้อมูลมิติสูงมาก?
ในการทำการวิเคราะห์องค์ประกอบหลัก (PCA) คุณต้องลบค่าเฉลี่ยของแต่ละคอลัมน์ออกจากข้อมูลคำนวณเมทริกซ์สัมประสิทธิ์สหสัมพันธ์แล้วหาค่า eigenvectors และค่าลักษณะเฉพาะ ทีนี้, นี่คือสิ่งที่ฉันทำเพื่อนำไปใช้ใน Python, ยกเว้นมันจะทำงานกับเมทริกซ์เล็ก ๆ เท่านั้นเพราะวิธีการหาเมทริกซ์สัมประสิทธิ์สหสัมพันธ์ (corrcoef) ไม่ให้ฉันใช้อาร์เรย์ที่มีมิติสูง เนื่องจากฉันต้องใช้มันสำหรับรูปภาพการใช้งานปัจจุบันของฉันจึงไม่ช่วยฉันจริงๆ ฉันได้อ่านว่ามันเป็นไปได้ที่จะใช้เวลาเพียงแค่ข้อมูลเมทริกซ์ของคุณและคำนวณแทนD ^ \ D ด้านบน / nแต่ที่ไม่ทำงานสำหรับฉัน ดีฉันไม่แน่ใจอย่างแน่นอนว่าฉันเข้าใจความหมายของมันนอกเหนือจากข้อเท็จจริงที่ว่ามันควรจะเป็นเมทริกซ์n \ times nแทนที่จะเป็นp \ times p (ในกรณีของฉันp \ gg n ) ฉันอ่านเกี่ยวกับบทเรียนเหล่านี้ใน eigenfaces แต่ดูเหมือนว่าไม่มีใครอธิบายได้ในแบบที่ฉันจะได้รับD D ⊤ / n D ⊤ D / n n × n P × …
12 pca  python 

1
กราฟแสดงความสัมพันธ์อัตโนมัติ (หมีแพนด้า) คืออะไร
ฉันเป็นผู้เริ่มต้นและฉันพยายามที่จะเข้าใจสิ่งที่กราฟแสดงความสัมพันธ์อัตโนมัติ ฉันได้อ่านคำอธิบายต่าง ๆ จากแหล่งข้อมูลต่าง ๆ เช่นหน้านี้หรือหน้า Wikipedia ที่เกี่ยวข้องซึ่งฉันไม่ได้อ้างถึงที่นี่ ฉันมีรหัสง่ายๆนี้ที่ฉันมีวันที่ในดัชนีของฉันสำหรับปีและค่าจะเพิ่มขึ้นจาก 0 ถึง 365 สำหรับแต่ละดัชนี .. ( 1984-01-01:0, 1984-01-02:1 ... 1984-12-31:365) import numpy as np import pandas as pd from pandas.plotting import autocorrelation_plot import matplotlib.pyplot as plt dr = pd.date_range(start='1984-01-01', end='1984-12-31') df = pd.DataFrame(np.arange(len(dr)), index=dr, columns=["Values"]) autocorrelation_plot(df) plt.show() กราฟที่พิมพ์จะอยู่ที่ใด ฉันสามารถเข้าใจและดูว่าทำไมกราฟเริ่มต้น1.00ตั้งแต่: Autocorrelation ที่มี …

2
การทดสอบ Kolmogorov – Smirnov: ค่า p-value และ ks-test ลดลงเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้น
เหตุใดค่า p และค่า ks-test จึงลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น ใช้รหัส Python นี้เป็นตัวอย่าง: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) ผลลัพธ์ที่ได้คือ: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, …

6
วิธีการใน R หรือ Python เพื่อทำการเลือกคุณสมบัติในการเรียนรู้ที่ไม่มีผู้ดูแล [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา อะไรคือวิธีการ / การนำไปใช้งานใน R / Python เพื่อยกเลิก / เลือกคุณสมบัติที่ไม่สำคัญ / สำคัญในข้อมูล ข้อมูลของฉันไม่มีป้ายกำกับ (ไม่มีการสำรอง) ข้อมูลมีคุณสมบัติประมาณ ~ 100 ชนิดผสม บางตัวเป็นตัวเลขในขณะที่อื่น ๆ เป็นเลขฐานสอง (0/1)

8
การแสดงข้อมูลมิติสูง
ฉันมีตัวอย่างของสองคลาสซึ่งเป็นเวกเตอร์ในพื้นที่มิติสูงและฉันต้องการพล็อตพวกมันใน 2D หรือ 3D ฉันรู้เกี่ยวกับเทคนิคการลดขนาด แต่ฉันต้องการเครื่องมือที่ง่ายและใช้งานง่าย (ใน matlab, python หรือ. exe ที่สร้างไว้ล่วงหน้า) นอกจากนี้ฉันสงสัยว่าการเป็นตัวแทนใน 2D จะเป็น "ความหมาย" หรือไม่? (ตัวอย่างเช่นวิธีที่สองคลาสตัดกันหรือสามารถแยกได้)

1
วิธีการวาดพล็อตหินกรวดในงูหลาม? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังใช้การแยกตัวของเวคเตอร์เอกพจน์บนเมทริกซ์และรับเมทริกซ์ U, S และ Vt ณ จุดนี้ฉันพยายามเลือกเกณฑ์สำหรับจำนวนมิติข้อมูลที่จะเก็บไว้ ฉันแนะนำให้ดูที่แปลงหินกรวด แต่ฉันสงสัยว่าจะไปเกี่ยวกับการวางแผนในจำนวนมาก ขณะนี้ฉันกำลังทำสิ่งต่อไปนี้โดยใช้ไลบรารี numpy และ scipy ใน python: U, S, Vt = svd(A) ข้อเสนอแนะใด ๆ

2
การแสดงข้อมูลหลายมิติ (LSI) ใน 2D
ฉันใช้การจัดทำดัชนีความหมายแฝงเพื่อค้นหาความคล้ายคลึงกันระหว่างเอกสาร ( ขอบคุณ JMS! ) หลังจากการลดขนาดฉันได้ลอง k-หมายถึงการจัดกลุ่มเพื่อจัดกลุ่มเอกสารเป็นกลุ่มซึ่งทำงานได้ดีมาก แต่ฉันอยากจะไปอีกหน่อยและมองภาพเอกสารเป็นชุดของโหนดโดยที่ระยะห่างระหว่างสองโหนดนั้นแปรผกผันกับความคล้ายคลึงกัน (โหนดที่มีความคล้ายคลึงกันมากอยู่ใกล้กัน) มันทำให้ฉันไม่สามารถลดเมทริกซ์ความคล้ายคลึงกันให้เป็นกราฟ 2 มิติได้อย่างแม่นยำเนื่องจากข้อมูลของฉันคือ> 2 มิติ ดังนั้นคำถามแรกของฉัน: มีวิธีมาตรฐานในการทำเช่นนี้? ฉันสามารถลดข้อมูลของฉันให้เหลือสองมิติจากนั้นจึงแปลงเป็นแกน X และ Y และนั่นจะเพียงพอสำหรับกลุ่มของเอกสาร ~ 100-200 หรือไม่ หากนี่เป็นวิธีแก้ปัญหาจะดีกว่าหรือไม่ที่จะลดข้อมูลของฉันลงเป็น 2 มิติจากจุดเริ่มต้นหรือมีวิธีการเลือกสองมิติที่ "ดีที่สุด" จากข้อมูลหลายมิติของฉันหรือไม่ ฉันใช้ Python และไลบรารี gensim หากนั่นสร้างความแตกต่าง

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
การวิเคราะห์องค์ประกอบหลักและการถดถอยในไพ ธ อน
ฉันกำลังพยายามหาวิธีที่จะสร้างผลงานใน Python ที่ฉันทำใน SAS การใช้ชุดข้อมูลนี้ซึ่งมีปัญหาความหลากหลายทางหลายระดับฉันต้องการทำการวิเคราะห์องค์ประกอบหลักใน Python ฉันได้ดู scikit-learn และ statsmodels แต่ฉันไม่แน่ใจว่าจะเอาท์พุทของพวกเขาและแปลงเป็นโครงสร้างผลลัพธ์เดียวกันกับ SAS สำหรับสิ่งหนึ่ง SAS ดูเหมือนว่าจะดำเนินการ PCA บนเมทริกซ์สหสัมพันธ์เมื่อคุณใช้PROC PRINCOMPแต่ส่วนใหญ่ (ทั้งหมด?) ของไลบรารี Python ดูเหมือนจะใช้ SVD ในชุดข้อมูลคอลัมน์แรกคือตัวแปรตอบกลับและอีก 5 รายการถัดไปคือตัวแปรทำนายที่เรียกว่า pred1-pred5 ใน SAS เวิร์กโฟลว์ทั่วไปคือ: /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response …

2
พล็อตขอบเขตการตัดสินใจสำหรับ perceptron
ฉันพยายามพล็อตขอบเขตการตัดสินใจของอัลกอริทึม Perceptron และฉันสับสนมากเกี่ยวกับบางสิ่ง อินสแตนซ์อินพุตของฉันอยู่ในรูปแบบโดยทั่วไปอินสแตนซ์อินพุต 2D ( x 1และx 2 ) และค่าเป้าหมายคลาสไบนารี ( y ) [1 หรือ 0][ ( x1, x2) ,y][(x1,x2),Y][(x_{1},x_{2}), y]x1x1x_{1}x2x2x_{2}YYy เวกเตอร์น้ำหนักของฉันจึงอยู่ในรูปแบบ: ][ w1, w2][W1,W2][w_{1}, w_{2}] ตอนนี้ฉันต้องรวมพารามิเตอร์ bias เพิ่มเติมและด้วยเหตุนี้เวกเตอร์น้ำหนักของฉันกลายเป็นเวกเตอร์3 × 1หรือไม่ มันคือ1 × 3เวกเตอร์ ฉันคิดว่าควรเป็น1 × 3เนื่องจากเวกเตอร์มีเพียง 1 แถวและคอลัมน์ nW0W0w_{0}3 × 13×13 \times 11 ×31×31 \times 31 × 31×31 …

1
ฉันควรเลือกตัวแยกป่าแบบสุ่มหรือตัวแยกประเภทของฟอเรสต์ป่าหรือไม่
ฉันพอดีกับชุดข้อมูลที่มีคลาสเป้าหมายไบนารีโดยฟอเรสต์แบบสุ่ม ในไพ ธ อนฉันสามารถทำได้ทั้งโดย randomforestclassifier หรือ randomforestregressor ฉันสามารถรับการจัดหมวดหมู่ได้โดยตรงจาก randomforestclassifier หรือฉันสามารถเรียกใช้ randomforestregressor ก่อนและรับชุดคะแนนที่ประเมินกลับมา (ค่าต่อเนื่อง) จากนั้นฉันสามารถหาค่า cutoff เพื่อให้ได้คลาสที่ทำนายไว้จากคะแนน ทั้งสองวิธีสามารถบรรลุเป้าหมายเดียวกัน (เช่นทำนายคลาสสำหรับข้อมูลการทดสอบ) นอกจากนี้ฉันสามารถสังเกตได้ว่า randomforestclassifier.predict_proba(X_test)[:,1]) แตกต่างจาก randomforestregressor.predict(X_test) ดังนั้นฉันแค่ต้องการยืนยันว่าทั้งสองวิธีนั้นถูกต้องแล้ววิธีใดดีกว่าในแอปพลิเคชันฟอเรสต์แบบสุ่ม

3
ทำไมฉันถึงได้รับข้อมูลข่าวสารมากกว่า 1
ฉันใช้ฟังก์ชันต่อไปนี้เพื่อคำนวณเอนโทรปี: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum ผลลัพธ์: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.