สถิติและข้อมูลขนาดใหญ่ python

6

แหล่งข้อมูลสำหรับการเรียนรู้วิธีการใช้วิธีการทั้งมวล

ฉันเข้าใจในทางทฤษฎี (เรียงลำดับ) ว่าพวกเขาจะทำงานอย่างไร แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรโดยใช้วิธีการรวมกลุ่ม (เช่นการออกเสียงลงคะแนนการผสมน้ำหนัก ฯลฯ ) แหล่งข้อมูลที่ดีสำหรับการใช้วิธีการทั้งมวลคืออะไร มีทรัพยากรเฉพาะเกี่ยวกับการนำไปใช้ใน Python หรือไม่? แก้ไข: เพื่อให้ชัดเจนขึ้นจากการอภิปรายในความคิดเห็นฉันไม่ได้มองหาอัลกอริทึมทั้งมวลเช่น randomForest เป็นต้น แต่ฉันสงสัยว่าคุณจะรวมการจำแนกประเภทที่แตกต่างจากอัลกอริทึมที่แตกต่างกันได้อย่างไร ตัวอย่างเช่นสมมติว่ามีคนใช้การถดถอยแบบลอจิสติก SVM และวิธีการอื่นในการทำนายระดับการสังเกตการณ์ เป็นวิธีที่ดีที่สุดในการไปเกี่ยวกับการประเมินที่ดีที่สุดของชั้นเรียนตามการคาดการณ์เหล่านี้คืออะไร?

13 machine-learning python ensemble

3

ทับทิมเป็นโต๊ะทำงานสถิติ

และนี่ก็เป็นคำถามที่เกี่ยวข้องอย่างมากกับงูหลามเป็นสถิติที่ปรับแต่งและExcel เป็นสถิติที่ปรับแต่ง ฉันรู้ว่ามีการอภิปรายอย่างมากเกี่ยวกับ Ruby กับ Python แต่นี่ไม่ใช่ประเด็นของคำถามนี้ ฉันคิดว่าทับทิมเร็วกว่าไพ ธ อนและการมีไวยากรณ์ที่เป็นธรรมชาติมาก ๆ อาจเป็นประโยชน์ต่อฉันในการเข้าใจสถิติและอาจเป็นทางเลือกที่ดีสำหรับ R (ซึ่งเป็นที่สนใจของฉันและถูกอ้างถึงในคำถามอื่น ๆ ของฉันที่นี่) ตัวอย่างเช่นหนึ่งในการบรรยายของ Google Tech ที่ฉันเคยเห็น (อ้างถึงคำถามที่เชื่อมโยงที่นี่ผู้สอนบ่นว่า R ช้าในขณะที่สร้างลูปสำหรับ) ด้วย Ruby ยังมี Rails อยู่ด้วยดังนั้นอาจมีความเป็นไปได้ที่จะนำทั้งสองอย่างมารวมกัน (Python มี Django แต่อีกครั้งฉันไม่เข้าใจ) ดังนั้นคำถามก็เหมือนกัน แต่สำหรับฉันใน Ruby: คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Ruby เป็น "สถิติ workbench" เพื่อแทนที่ R, SPSS, Python, Excelฯลฯ สิ่งที่ฉันจะได้รับและสูญเสียขึ้นอยู่กับประสบการณ์ของคุณ? โปรดทราบฉันกำลังพิจารณาคำถามนี้ตามคำถาม Python และ Excel …

13 r python software ruby

4

มีแบบฝึกหัดใดบ้างเกี่ยวกับทฤษฎีความน่าจะเป็นแบบเบย์หรือแบบจำลองกราฟิกโดยใช้ตัวอย่าง?

ฉันเคยเห็นการอ้างอิงถึงการเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์ใน R และฉันสงสัยว่ามีอะไรมากกว่านี้บางทีใน Python โดยเฉพาะ มุ่งสู่การเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์การอนุมานการประมาณความน่าจะเป็นสูงสุดแบบจำลองกราฟิกและการเรียงลำดับ?

13 machine-learning bayesian python graphical-model

9

กระตุ้นการตัดสินใจต้นไม้ในหลาม? [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 เดือนที่ผ่านมา มีห้องสมุดไพ ธ อนที่ดีสำหรับการฝึกอบรมต้นไม้ตัดสินใจหรือไม่

13 python cart boosting

1

แพคเกจ GBM กับ Caret ใช้ GBM

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

ใช้ BIC เพื่อประมาณจำนวน k ใน KMEANS

ขณะนี้ฉันกำลังพยายามคำนวณ BIC สำหรับชุดข้อมูลของเล่นของฉัน (ofc iris (:)) ฉันต้องการสร้างผลลัพธ์ดังที่แสดงที่นี่ (รูปที่ 5) กระดาษนั้นก็เป็นแหล่งของสูตร BIC ด้วย ฉันมี 2 ปัญหากับสิ่งนี้: โน้ต: ninin_i = จำนวนขององค์ประกอบในคลัสเตอร์iii CiCiC_i = พิกัดกลางของคลัสเตอร์iii xjxjx_j = จุดข้อมูลที่กำหนดให้กับคลัสเตอร์iii mmm = จำนวนกลุ่ม 1) ความแปรปรวนตามที่กำหนดไว้ใน Eq (2): ∑i=1ni−m∑j=1ni∥xj−Ci∥2∑i=1ni−m∑j=1ni‖xj−Ci‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 เท่าที่ฉันเห็นมันเป็นปัญหาและไม่ครอบคลุมว่าความแปรปรวนอาจเป็นลบเมื่อมีกลุ่มmmmมากกว่าองค์ประกอบในคลัสเตอร์ ถูกต้องหรือไม่ 2) ฉันไม่สามารถทำให้โค้ดของฉันทำงานเพื่อคำนวณ BIC ที่ถูกต้องได้ หวังว่าจะไม่มีข้อผิดพลาด แต่มันจะได้รับการชื่นชมอย่างมากหากมีใครสามารถตรวจสอบได้ สมการทั้งหมดสามารถพบได้ในสมการ (5) …

13 python k-means scikit-learn bic

2

เป็นไปได้หรือไม่ที่จะประเมิน GLM ใน Python / scikit-learn โดยใช้การแจกแจงแบบปัวซอง, แกมม่าหรือทวีดเป็นครอบครัวสำหรับการแจกแจงข้อผิดพลาด?

พยายามเรียนรู้ Python และ Sklearn แต่สำหรับงานของฉันฉันต้องเรียกใช้ regressions ที่ใช้การแจกแจงข้อผิดพลาดจาก Poisson, Gamma และโดยเฉพาะอย่างยิ่งตระกูล Tweedie ฉันไม่เห็นอะไรเลยในเอกสารเกี่ยวกับพวกเขา แต่พวกเขาอยู่ในหลายส่วนของการกระจาย R ดังนั้นฉันจึงสงสัยว่ามีใครเห็นการใช้งานที่ใดก็ได้สำหรับ Python มันจะเจ๋งมากถ้าคุณสามารถชี้ให้ฉันเห็นการใช้งานการกระจาย Tweedie ของ SGD!

13 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

2

จะใช้ตัวกรองคาลมานได้อย่างไร

ฉันมีวิถีของวัตถุในพื้นที่ 2 มิติ (พื้นผิว) วิถีที่ได้รับเป็นลำดับของ(x,y)พิกัด ฉันรู้ว่าการวัดของฉันมีเสียงดังและบางครั้งฉันก็มีค่าผิดปกติชัดเจน ดังนั้นฉันต้องการกรองข้อสังเกตของฉัน เท่าที่ฉันเข้าใจตัวกรองคาลมานมันก็ทำสิ่งที่ฉันต้องการ ฉันก็เลยลองใช้ดู ผมพบว่าการดำเนินงานหลามที่นี่ และนี่คือตัวอย่างที่เอกสารประกอบให้: from pykalman import KalmanFilter import numpy as np kf = KalmanFilter(transition_matrices = [[1, 1], [0, 1]], observation_matrices = [[0.1, 0.5], [-0.3, 0.0]]) measurements = np.asarray([[1,0], [0,0], [0,1]]) # 3 observations kf = kf.em(measurements, n_iter=5) (filtered_state_means, filtered_state_covariances) = kf.filter(measurements) (smoothed_state_means, …

12 python kalman-filter smoothing

4

จะปรับอัตราการเรียนรู้อย่างเป็นระบบโดยใช้ Gradient Descent เป็นเครื่องมือเพิ่มประสิทธิภาพได้อย่างไร

คนนอกถึงฟิลด์ ML / DL; เริ่มหลักสูตร Udacity Deep Learning ซึ่งมีพื้นฐานจาก Tensorflow; ทำงานที่ได้รับมอบหมาย 3 ปัญหา 4; พยายามปรับอัตราการเรียนรู้ด้วยการกำหนดค่าต่อไปนี้: ชุดขนาด 128 จำนวนขั้นตอน: เพียงพอที่จะเติม 2 epochs ขนาดของเลเยอร์ที่ซ่อนอยู่: 1024, 305, 75 การกำหนดค่าเริ่มต้นน้ำหนัก: ตัดปกติด้วย std ส่วนเบี่ยงเบนของ sqrt (2 / n) โดยที่ n คือขนาดของเลเยอร์ก่อนหน้า ความน่าจะเป็นที่จะออกกลางคัน: 0.75 การทำให้เป็นมาตรฐาน: ไม่ได้ใช้ อัลกอริทึมอัตราการเรียนรู้: การสลายตัวแบบเลขชี้กำลัง เล่นกับพารามิเตอร์อัตราการเรียนรู้; ดูเหมือนว่าพวกเขาจะไม่มีผลในกรณีส่วนใหญ่; รหัสที่นี่ ; ผล: Accuracy learning_rate decay_steps …

12 python machine-learning tensorflow deep-learning

1

การถดถอยโลจิสติกอันดับใน Python

ฉันต้องการเรียกใช้การถดถอยแบบลอจิสติกอันดับใน Python สำหรับตัวแปรตอบกลับที่มีสามระดับและมีปัจจัยที่อธิบายน้อย statsmodelsแพคเกจสนับสนุน logit ไบนารีและ logit พหุนาม (MNLogit) รุ่น แต่ไม่ได้รับคำสั่ง logit เนื่องจากคณิตศาสตร์พื้นฐานไม่แตกต่างกันฉันจึงสงสัยว่ามันสามารถนำไปใช้งานได้อย่างง่ายดายโดยใช้สิ่งเหล่านี้หรือไม่ (อีกทางหนึ่งคือแพ็คเกจ Python อื่น ๆ ที่ใช้งานได้)

12 categorical-data python logit ordered-logit statsmodels

1

วิธีตีความพล็อตความสัมพันธ์อัตโนมัติใน MCMC

ฉันคุ้นเคยกับสถิติแบบเบย์โดยการอ่านหนังสือDoing Bayesian Data Analysisโดย John K. Kruschke หรือที่เรียกว่า "puppy book" ในบทที่ 9 มีการแนะนำตัวแบบลำดับชั้นด้วยตัวอย่างง่าย ๆ นี้: และการสังเกตของเบอร์นูลีคือ 3 เหรียญต่อการโยน 10 ครั้ง หนึ่งแสดง 9 หัวอื่น ๆ 5 หัวและอีก 1 หัวyjiθjμκ∼Bernoulli(θj)∼Beta(μκ,(1−μ)κ)∼Beta(Aμ,Bμ)∼Gamma(Sκ,Rκ)yji∼Bernoulli(θj)θj∼Beta(μκ,(1−μ)κ)μ∼Beta(Aμ,Bμ)κ∼Gamma(Sκ,Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) …

12 bayesian interpretation python mcmc autocorrelation

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

ทำไมชุดการกระจายสินค้านี้

เรากำลังตรวจสอบการทดสอบทางสถิติแบบเบย์และพบกับปรากฏการณ์แปลก ๆ (สำหรับฉันอย่างน้อยที่สุด) พิจารณากรณีต่อไปนี้: เราสนใจที่จะวัดว่าประชากร A หรือ B ใดที่มีอัตราการแปลงสูงกว่า สำหรับการตรวจสอบสติเราตั้งค่านั่นคือความน่าจะเป็นของการแปลงเท่ากันทั้งสองกลุ่ม เราสร้างข้อมูลเทียมโดยใช้แบบจำลองทวินามเช่นpA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) จากนั้นเราพยายามประเมินโดยใช้แบบจำลองเบต้า - ทวินามแบบเบย์เพื่อให้เราได้รับสำหรับแต่ละอัตราการแปลงเช่นpA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) สถิติการทดสอบของเราคำนวณโดยการคำนวณผ่านทาง monte carloS=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) สิ่งที่ทำให้ผมประหลาดใจคือว่าถ้าแล้ว(0,1)} ความคิดของฉันคือว่ามันจะอยู่กึ่งกลางประมาณ 0.5 และยังมาบรรจบกันถึง 0.5 เป็นขนาดตัวอย่าง, , เติบโต pA=pBpA=pBp_A = …

12 hypothesis-testing bayesian binomial python beta-distribution

1

แพคเกจหลามสำหรับการทำงานกับแบบจำลองการผสมแบบเกาส์ (GMMs)

ดูเหมือนจะมีหลายตัวเลือกสำหรับการทำงานกับ Gaussian Mixture Models (GMMs) ใน Python ได้อย่างรวดเร็วก่อนมีอย่างน้อย: PyMix - http://www.pymix.org/pymix/index.phpเครื่องมือสำหรับการสร้างแบบจำลองการผสม PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ซึ่งเป็นส่วนหนึ่งของกล่อง SciPy และดูเหมือนว่าจะมุ่งเน้นไปที่ GMMs ปรับปรุง: ตอนนี้รู้จักกันในนาม sklearn.mixture PyPR - http://pypr.sourceforge.net/การจดจำรูปแบบและเครื่องมือที่เกี่ยวข้องรวมถึง GMM ... และบางทีคนอื่น ๆ พวกเขาดูเหมือนจะให้ความต้องการขั้นพื้นฐานที่สุดสำหรับ GMMs รวมถึงการสร้างและการสุ่มตัวอย่างการประมาณค่าพารามิเตอร์การจัดกลุ่มและอื่น ๆ ความแตกต่างระหว่างพวกเขาคืออะไรและคนเราควรพิจารณาว่าอะไรเหมาะสมที่สุดสำหรับความต้องการเฉพาะ Ref: http://www.scipy.org/Topical_Software

12 normal-distribution python mixture

1

Scikit predict_proba การตีความผลลัพธ์

ฉันทำงานกับห้องสมุด scikit เรียนรู้ในหลาม ในโค้ดด้านล่างนี้ฉันกำลังทำนายความน่าจะเป็น แต่ฉันไม่รู้วิธีอ่านเอาต์พุต ข้อมูลการทดสอบ from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) แยกชุดข้อมูล X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) คำนวณความน่าจะเป็น clf = RF() clf.fit(X_train,y_train) pred_pro = clf.predict_proba(X_test) print pred_pro ผลลัพธ์ [[ 1. 0.] [ 1. 0.] [ …

12 python scikit-learn

คำถามติดแท็ก python