คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

6
แหล่งข้อมูลสำหรับการเรียนรู้วิธีการใช้วิธีการทั้งมวล
ฉันเข้าใจในทางทฤษฎี (เรียงลำดับ) ว่าพวกเขาจะทำงานอย่างไร แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรโดยใช้วิธีการรวมกลุ่ม (เช่นการออกเสียงลงคะแนนการผสมน้ำหนัก ฯลฯ ) แหล่งข้อมูลที่ดีสำหรับการใช้วิธีการทั้งมวลคืออะไร มีทรัพยากรเฉพาะเกี่ยวกับการนำไปใช้ใน Python หรือไม่? แก้ไข: เพื่อให้ชัดเจนขึ้นจากการอภิปรายในความคิดเห็นฉันไม่ได้มองหาอัลกอริทึมทั้งมวลเช่น randomForest เป็นต้น แต่ฉันสงสัยว่าคุณจะรวมการจำแนกประเภทที่แตกต่างจากอัลกอริทึมที่แตกต่างกันได้อย่างไร ตัวอย่างเช่นสมมติว่ามีคนใช้การถดถอยแบบลอจิสติก SVM และวิธีการอื่นในการทำนายระดับการสังเกตการณ์ เป็นวิธีที่ดีที่สุดในการไปเกี่ยวกับการประเมินที่ดีที่สุดของชั้นเรียนตามการคาดการณ์เหล่านี้คืออะไร?

3
ทับทิมเป็นโต๊ะทำงานสถิติ
และนี่ก็เป็นคำถามที่เกี่ยวข้องอย่างมากกับงูหลามเป็นสถิติที่ปรับแต่งและExcel เป็นสถิติที่ปรับแต่ง ฉันรู้ว่ามีการอภิปรายอย่างมากเกี่ยวกับ Ruby กับ Python แต่นี่ไม่ใช่ประเด็นของคำถามนี้ ฉันคิดว่าทับทิมเร็วกว่าไพ ธ อนและการมีไวยากรณ์ที่เป็นธรรมชาติมาก ๆ อาจเป็นประโยชน์ต่อฉันในการเข้าใจสถิติและอาจเป็นทางเลือกที่ดีสำหรับ R (ซึ่งเป็นที่สนใจของฉันและถูกอ้างถึงในคำถามอื่น ๆ ของฉันที่นี่) ตัวอย่างเช่นหนึ่งในการบรรยายของ Google Tech ที่ฉันเคยเห็น (อ้างถึงคำถามที่เชื่อมโยงที่นี่ผู้สอนบ่นว่า R ช้าในขณะที่สร้างลูปสำหรับ) ด้วย Ruby ยังมี Rails อยู่ด้วยดังนั้นอาจมีความเป็นไปได้ที่จะนำทั้งสองอย่างมารวมกัน (Python มี Django แต่อีกครั้งฉันไม่เข้าใจ) ดังนั้นคำถามก็เหมือนกัน แต่สำหรับฉันใน Ruby: คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Ruby เป็น "สถิติ workbench" เพื่อแทนที่ R, SPSS, Python, Excelฯลฯ สิ่งที่ฉันจะได้รับและสูญเสียขึ้นอยู่กับประสบการณ์ของคุณ? โปรดทราบฉันกำลังพิจารณาคำถามนี้ตามคำถาม Python และ Excel …
13 r  python  software  ruby 

4
มีแบบฝึกหัดใดบ้างเกี่ยวกับทฤษฎีความน่าจะเป็นแบบเบย์หรือแบบจำลองกราฟิกโดยใช้ตัวอย่าง?
ฉันเคยเห็นการอ้างอิงถึงการเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์ใน R และฉันสงสัยว่ามีอะไรมากกว่านี้บางทีใน Python โดยเฉพาะ มุ่งสู่การเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์การอนุมานการประมาณความน่าจะเป็นสูงสุดแบบจำลองกราฟิกและการเรียงลำดับ?

9
กระตุ้นการตัดสินใจต้นไม้ในหลาม? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 เดือนที่ผ่านมา มีห้องสมุดไพ ธ อนที่ดีสำหรับการฝึกอบรมต้นไม้ตัดสินใจหรือไม่
13 python  cart  boosting 

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
ใช้ BIC เพื่อประมาณจำนวน k ใน KMEANS
ขณะนี้ฉันกำลังพยายามคำนวณ BIC สำหรับชุดข้อมูลของเล่นของฉัน (ofc iris (:)) ฉันต้องการสร้างผลลัพธ์ดังที่แสดงที่นี่ (รูปที่ 5) กระดาษนั้นก็เป็นแหล่งของสูตร BIC ด้วย ฉันมี 2 ปัญหากับสิ่งนี้: โน้ต: ninin_i = จำนวนขององค์ประกอบในคลัสเตอร์iii CiCiC_i = พิกัดกลางของคลัสเตอร์iii xjxjx_j = จุดข้อมูลที่กำหนดให้กับคลัสเตอร์iii mmm = จำนวนกลุ่ม 1) ความแปรปรวนตามที่กำหนดไว้ใน Eq (2): ∑i=1ni−m∑j=1ni∥xj−Ci∥2∑i=1ni−m∑j=1ni‖xj−Ci‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 เท่าที่ฉันเห็นมันเป็นปัญหาและไม่ครอบคลุมว่าความแปรปรวนอาจเป็นลบเมื่อมีกลุ่มmmmมากกว่าองค์ประกอบในคลัสเตอร์ ถูกต้องหรือไม่ 2) ฉันไม่สามารถทำให้โค้ดของฉันทำงานเพื่อคำนวณ BIC ที่ถูกต้องได้ หวังว่าจะไม่มีข้อผิดพลาด แต่มันจะได้รับการชื่นชมอย่างมากหากมีใครสามารถตรวจสอบได้ สมการทั้งหมดสามารถพบได้ในสมการ (5) …

2
เป็นไปได้หรือไม่ที่จะประเมิน GLM ใน Python / scikit-learn โดยใช้การแจกแจงแบบปัวซอง, แกมม่าหรือทวีดเป็นครอบครัวสำหรับการแจกแจงข้อผิดพลาด?
พยายามเรียนรู้ Python และ Sklearn แต่สำหรับงานของฉันฉันต้องเรียกใช้ regressions ที่ใช้การแจกแจงข้อผิดพลาดจาก Poisson, Gamma และโดยเฉพาะอย่างยิ่งตระกูล Tweedie ฉันไม่เห็นอะไรเลยในเอกสารเกี่ยวกับพวกเขา แต่พวกเขาอยู่ในหลายส่วนของการกระจาย R ดังนั้นฉันจึงสงสัยว่ามีใครเห็นการใช้งานที่ใดก็ได้สำหรับ Python มันจะเจ๋งมากถ้าคุณสามารถชี้ให้ฉันเห็นการใช้งานการกระจาย Tweedie ของ SGD!

2
จะใช้ตัวกรองคาลมานได้อย่างไร
ฉันมีวิถีของวัตถุในพื้นที่ 2 มิติ (พื้นผิว) วิถีที่ได้รับเป็นลำดับของ(x,y)พิกัด ฉันรู้ว่าการวัดของฉันมีเสียงดังและบางครั้งฉันก็มีค่าผิดปกติชัดเจน ดังนั้นฉันต้องการกรองข้อสังเกตของฉัน เท่าที่ฉันเข้าใจตัวกรองคาลมานมันก็ทำสิ่งที่ฉันต้องการ ฉันก็เลยลองใช้ดู ผมพบว่าการดำเนินงานหลามที่นี่ และนี่คือตัวอย่างที่เอกสารประกอบให้: from pykalman import KalmanFilter import numpy as np kf = KalmanFilter(transition_matrices = [[1, 1], [0, 1]], observation_matrices = [[0.1, 0.5], [-0.3, 0.0]]) measurements = np.asarray([[1,0], [0,0], [0,1]]) # 3 observations kf = kf.em(measurements, n_iter=5) (filtered_state_means, filtered_state_covariances) = kf.filter(measurements) (smoothed_state_means, …

4
จะปรับอัตราการเรียนรู้อย่างเป็นระบบโดยใช้ Gradient Descent เป็นเครื่องมือเพิ่มประสิทธิภาพได้อย่างไร
คนนอกถึงฟิลด์ ML / DL; เริ่มหลักสูตร Udacity Deep Learning ซึ่งมีพื้นฐานจาก Tensorflow; ทำงานที่ได้รับมอบหมาย 3 ปัญหา 4; พยายามปรับอัตราการเรียนรู้ด้วยการกำหนดค่าต่อไปนี้: ชุดขนาด 128 จำนวนขั้นตอน: เพียงพอที่จะเติม 2 epochs ขนาดของเลเยอร์ที่ซ่อนอยู่: 1024, 305, 75 การกำหนดค่าเริ่มต้นน้ำหนัก: ตัดปกติด้วย std ส่วนเบี่ยงเบนของ sqrt (2 / n) โดยที่ n คือขนาดของเลเยอร์ก่อนหน้า ความน่าจะเป็นที่จะออกกลางคัน: 0.75 การทำให้เป็นมาตรฐาน: ไม่ได้ใช้ อัลกอริทึมอัตราการเรียนรู้: การสลายตัวแบบเลขชี้กำลัง เล่นกับพารามิเตอร์อัตราการเรียนรู้; ดูเหมือนว่าพวกเขาจะไม่มีผลในกรณีส่วนใหญ่; รหัสที่นี่ ; ผล: Accuracy learning_rate decay_steps …

1
การถดถอยโลจิสติกอันดับใน Python
ฉันต้องการเรียกใช้การถดถอยแบบลอจิสติกอันดับใน Python สำหรับตัวแปรตอบกลับที่มีสามระดับและมีปัจจัยที่อธิบายน้อย statsmodelsแพคเกจสนับสนุน logit ไบนารีและ logit พหุนาม (MNLogit) รุ่น แต่ไม่ได้รับคำสั่ง logit เนื่องจากคณิตศาสตร์พื้นฐานไม่แตกต่างกันฉันจึงสงสัยว่ามันสามารถนำไปใช้งานได้อย่างง่ายดายโดยใช้สิ่งเหล่านี้หรือไม่ (อีกทางหนึ่งคือแพ็คเกจ Python อื่น ๆ ที่ใช้งานได้)

1
วิธีตีความพล็อตความสัมพันธ์อัตโนมัติใน MCMC
ฉันคุ้นเคยกับสถิติแบบเบย์โดยการอ่านหนังสือDoing Bayesian Data Analysisโดย John K. Kruschke หรือที่เรียกว่า "puppy book" ในบทที่ 9 มีการแนะนำตัวแบบลำดับชั้นด้วยตัวอย่างง่าย ๆ นี้: และการสังเกตของเบอร์นูลีคือ 3 เหรียญต่อการโยน 10 ครั้ง หนึ่งแสดง 9 หัวอื่น ๆ 5 หัวและอีก 1 หัวyjiθjμκ∼Bernoulli(θj)∼Beta(μκ,(1−μ)κ)∼Beta(Aμ,Bμ)∼Gamma(Sκ,Rκ)yji∼Bernoulli(θj)θj∼Beta(μκ,(1−μ)κ)μ∼Beta(Aμ,Bμ)κ∼Gamma(Sκ,Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ทำไมชุดการกระจายสินค้านี้
เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

1
แพคเกจหลามสำหรับการทำงานกับแบบจำลองการผสมแบบเกาส์ (GMMs)
ดูเหมือนจะมีหลายตัวเลือกสำหรับการทำงานกับ Gaussian Mixture Models (GMMs) ใน Python ได้อย่างรวดเร็วก่อนมีอย่างน้อย: PyMix - http://www.pymix.org/pymix/index.phpเครื่องมือสำหรับการสร้างแบบจำลองการผสม PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ซึ่งเป็นส่วนหนึ่งของกล่อง SciPy และดูเหมือนว่าจะมุ่งเน้นไปที่ GMMs ปรับปรุง: ตอนนี้รู้จักกันในนาม sklearn.mixture PyPR - http://pypr.sourceforge.net/การจดจำรูปแบบและเครื่องมือที่เกี่ยวข้องรวมถึง GMM ... และบางทีคนอื่น ๆ พวกเขาดูเหมือนจะให้ความต้องการขั้นพื้นฐานที่สุดสำหรับ GMMs รวมถึงการสร้างและการสุ่มตัวอย่างการประมาณค่าพารามิเตอร์การจัดกลุ่มและอื่น ๆ ความแตกต่างระหว่างพวกเขาคืออะไรและคนเราควรพิจารณาว่าอะไรเหมาะสมที่สุดสำหรับความต้องการเฉพาะ Ref: http://www.scipy.org/Topical_Software

1
Scikit predict_proba การตีความผลลัพธ์
ฉันทำงานกับห้องสมุด scikit เรียนรู้ในหลาม ในโค้ดด้านล่างนี้ฉันกำลังทำนายความน่าจะเป็น แต่ฉันไม่รู้วิธีอ่านเอาต์พุต ข้อมูลการทดสอบ from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) แยกชุดข้อมูล X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) คำนวณความน่าจะเป็น clf = RF() clf.fit(X_train,y_train) pred_pro = clf.predict_proba(X_test) print pred_pro ผลลัพธ์ [[ 1. 0.] [ 1. 0.] [ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.