สถิติและข้อมูลขนาดใหญ่ python

2

Tensorflow `tf.train.Optimizer` คำนวณการไล่ระดับสีอย่างไร

ฉันกำลังติดตามบทช่วยสอนผู้ชาญฉลาด Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ) บทช่วยสอนใช้tf.train.Optimizer.minimize(โดยเฉพาะtf.train.GradientDescentOptimizer) ฉันไม่เห็นข้อโต้แย้งใด ๆ ที่ถูกส่งผ่านไปที่ใดก็ได้เพื่อกำหนดการไล่ระดับสี Tensor flow นั้นใช้ความแตกต่างของตัวเลขหรือไม่? มีวิธีผ่านในการไล่ระดับสีอย่างที่คุณสามารถทำได้scipy.optimize.minimizeหรือไม่?

10 python optimization tensorflow

1

การทำนายความน่าจะเป็นป่าแบบสุ่มเทียบกับคะแนนโหวตส่วนใหญ่

Scikit เรียนรู้ดูเหมือนว่าจะใช้การทำนายความน่าจะเป็นแทนการลงคะแนนเสียงข้างมากสำหรับเทคนิคการรวมตัวแบบโดยไม่มีการอธิบายว่าทำไม (1.9.2.1. ป่าสุ่ม) มีคำอธิบายที่ชัดเจนว่าเพราะเหตุใด นอกจากนี้ยังมีบทความหรือบทความทบทวนที่ดีสำหรับเทคนิคการรวมตัวแบบต่างๆที่สามารถนำมาใช้สำหรับการบรรจุถุงแบบฟอเรสต์? ขอบคุณ!

10 random-forest python scikit-learn aggregation bagging

1

ค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียล

ฉันเขียนฟังก์ชันง่าย ๆ ใน Python เพื่อคำนวณค่าเฉลี่ยถ่วงน้ำหนักชี้แจง: def test(): x = [1,2,3,4,5] alpha = 0.98 s_old = x[0] for i in range(1, len(x)): s = alpha * x[i] + (1- alpha) * s_old s_old = s return s อย่างไรก็ตามฉันจะคำนวณ SD ที่เกี่ยวข้องได้อย่างไร

10 standard-deviation python exponential-smoothing

2

PyMC สำหรับการจัดกลุ่มแบบไม่ใช้พารามิเตอร์: กระบวนการ Dirichlet เพื่อประเมินพารามิเตอร์ของส่วนผสมแบบเกาส์ไม่สามารถทำคลัสเตอร์ได้

การตั้งค่าปัญหา หนึ่งในปัญหาของเล่นครั้งแรกที่ฉันต้องการใช้ PyMC กับการจัดกลุ่มแบบไม่ใช้พารามิเตอร์: ให้ข้อมูลบางส่วนสร้างแบบจำลองเป็นแบบเกาส์และเรียนรู้จำนวนของกลุ่มและค่าเฉลี่ยและความแปรปรวนร่วมของแต่ละกลุ่ม สิ่งที่ฉันรู้เกี่ยวกับวิธีนี้ส่วนใหญ่มาจากการบรรยายทางวิดีโอโดย Michael Jordan และ Yee Whye Teh ประมาณปี 2007 (ก่อนที่จะกลายเป็นความโกรธแค้น) และสองสามวันสุดท้ายของการอ่านบทเรียนของดร. Fonnesbeck และ E. Chen [fn1], [ Fn2] แต่ปัญหาคือการศึกษาที่ดีและมีการใช้งานที่น่าเชื่อถือ [fn3] ในปัญหาของเล่นนี้ฉันสร้างสิบดึงจากหนึ่งมิติเกาส์และสี่สิบวาดจาก . อย่างที่คุณเห็นด้านล่างฉันไม่ได้สลับการสุ่มเพื่อให้ง่ายต่อการบอกว่าตัวอย่างใดมาจากส่วนประกอบผสมN ( μ = 4 , σ = 2 )ยังไม่มีข้อความ( μ = 0 , σ= 1 )N(μ=0,σ=1)\mathcal{N}(\mu=0, \sigma=1)ยังไม่มีข้อความ( μ = 4 , σ= …

10 bayesian clustering python pymc nonparametric-bayes

1

ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร

ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

วิธีการคำนวณข้อมูลร่วมกัน?

ฉันสับสนเล็กน้อย บางคนสามารถอธิบายให้ฉันทราบถึงวิธีการคำนวณข้อมูลร่วมกันระหว่างคำสองคำที่ยึดตามเมทริกซ์เอกสารระยะที่เกิดขึ้นกับคำศัพท์ไบนารีเป็นน้ำหนักได้หรือไม่ Document1Document2Document3′Why′111′How′101′When′111′Where′100′Why′′How′′When′′Where′Document11111Document21010Document31110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & 1 \\ Document2 & 1 & 0 & 1 & 0 \\ Document3 & 1 & 1 & 1 & 0 \end{matrix} I(X;Y)=∑y∈Y∑x∈Xp(x,y)log(p(x,y)p(x)p(y))I(X;Y)=∑y∈Y∑x∈Xp(x,y)log⁡(p(x,y)p(x)p(y))I(X;Y)= \sum_{y \in Y} \sum_{x \in X} …

10 python information-theory mutual-information numpy pandas

2

รูปแบบที่เหมาะสมสำหรับการแจกแจงแบบปกติสองครั้งใน PyMC

เนื่องจากฉันเป็นวิศวกรซอฟต์แวร์พยายามที่จะเรียนรู้สถิติเพิ่มเติมคุณจะต้องยกโทษให้ฉันก่อนที่ฉันจะเริ่มนี่เป็นดินแดนใหม่ที่ร้ายแรง ... ฉันได้เรียนรู้PyMCและทำงานผ่านตัวอย่างง่ายๆ (จริง ๆ ) จริงๆ ปัญหาหนึ่งที่ฉันไม่สามารถทำงานได้ (และไม่สามารถหาตัวอย่างที่เกี่ยวข้องได้) คือการปรับโมเดลให้สอดคล้องกับข้อมูลที่สร้างจากการแจกแจงปกติสองแบบ บอกว่าฉันมี 1,000 ค่า 500 สร้างขึ้นจากNormal(mean=100, stddev=20)และอีก 500 Normal(mean=200, stddev=20)สร้างขึ้นจาก ถ้าฉันต้องการให้พอดีกับแบบจำลองพวกเขาเช่นกำหนดสองวิธีและส่วนเบี่ยงเบนมาตรฐานเดียวโดยใช้ PyMC ฉันรู้ว่ามันเป็นสิ่งที่ตามแนว ... mean1 = Uniform('mean1', lower=0.0, upper=200.0) mean2 = Uniform('mean2', lower=0.0, upper=200.0) precision = Gamma('precision', alpha=0.1, beta=0.1) data = read_data_from_file_or_whatever() @deterministic(plot=False) def mean(m1=mean1, m2=mean2): # but what goes here? …

10 modeling python pymc

2

ฉันจะสร้างตัวเลขตามการแจกแจงโซลิตันได้อย่างไร

การแจกแจงโซลิตันเป็นการแจกแจงความน่าจะเป็นแบบแยกส่วนเหนือชุด{ 1 , … , N}{1,...,ยังไม่มีข้อความ}\{1,\dots, N\}ด้วยฟังก์ชันมวลความน่าจะเป็น p ( 1 ) = 1ยังไม่มีข้อความ,p ( k ) = 1k ( k - 1 )สำหรับ k ∈ { 2 , … , N}พี(1)=1ยังไม่มีข้อความ,พี(k)=1k(k-1)สำหรับ k∈{2,...,ยังไม่มีข้อความ} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} ฉันต้องการใช้มันเป็นส่วนหนึ่งของการใช้งานรหัส LTโดยเฉพาะอย่างยิ่งใน Python ที่มีตัวสร้างตัวเลขสุ่มแบบสม่ำเสมอให้บริการ

10 distributions python

4

การกระจายการบันทึกปกติที่เหมาะสมใน R กับ SciPy

ฉันติดตั้งโมเดล lognormal โดยใช้ R พร้อมชุดข้อมูล พารามิเตอร์ผลลัพธ์คือ: meanlog = 4.2991610 sdlog = 0.5511349 ฉันต้องการถ่ายโอนโมเดลนี้ไปยัง Scipy ซึ่งฉันไม่เคยใช้มาก่อน เมื่อใช้ Scipy ฉันสามารถรับรูปร่างและมาตราส่วน 1 และ 3.1626716539637488e + 90 - ตัวเลขที่แตกต่างกันมาก ฉันยังพยายามใช้ exp ของ meanlog และ sdlog แต่ยังคงได้กราฟที่แปลกประหลาด ฉันได้อ่านเอกสารทุกฉบับที่ฉันสามารถทำได้ใน scipy และฉันยังสับสนเกี่ยวกับความหมายของพารามิเตอร์รูปร่างและขนาดในกรณีนี้ มันจะสมเหตุสมผลหรือไม่ที่จะเขียนโค้ดฟังก์ชันเอง ที่ดูเหมือนว่าจะเกิดข้อผิดพลาดในขณะที่ฉันใหม่เพื่อ scipy SCIPY Lognormal (BLUE) กับ R Lognormal (RED): มีความคิดเห็นเกี่ยวกับทิศทางใดที่จะนำไปใช้? ข้อมูลมีความสอดคล้องกับโมเดล R เป็นอย่างดีดังนั้นถ้ามันดูเป็นอย่างอื่นใน Python …

10 r python numpy scipy

3

วิธีการฝึกอบรมข้อมูลที่มีประสิทธิภาพที่สุดโดยใช้หน่วยความจำน้อยที่สุดคืออะไร?

นี่คือข้อมูลการฝึกอบรมของฉัน: 200,000 ตัวอย่าง x 10,000 คุณสมบัติ เมทริกซ์ข้อมูลการฝึกอบรมของฉันคือ - 200,000 x 10,000 ฉันจัดการเพื่อบันทึกสิ่งนี้ในไฟล์ flat โดยไม่ต้องมีปัญหาหน่วยความจำโดยบันทึกทุกชุดข้อมูลหนึ่งโดยหนึ่ง (หนึ่งตัวอย่างหลังจากที่อื่น) ในขณะที่ฉันสร้างคุณสมบัติสำหรับแต่ละตัวอย่าง แต่ตอนนี้เมื่อฉันใช้Milk , SVM lightหรืออัลกอริทึมการเรียนรู้ของเครื่องจักรอื่น ๆ ทุกอย่างพยายามโหลดข้อมูลการฝึกอบรมทั้งหมดลงในหน่วยความจำแทนการฝึกอบรมทีละคน อย่างไรก็ตามฉันเพิ่งมี RAM 8 GB ดังนั้นฉันจึงไม่สามารถดำเนินการต่อได้ คุณรู้หรือไม่ว่าฉันสามารถฝึกอัลกอริทึมหนึ่งชุดข้อมูลโดยหนึ่งชุดข้อมูล? นั่นคือเพื่อที่ทันทีฉันมีเพียงหนึ่งชุดข้อมูลที่โหลดลงในหน่วยความจำในขณะที่การฝึกอบรม

10 machine-learning dataset algorithms python

1

t-SNE พร้อมตัวแปรแบบต่อเนื่องและไบนารีแบบผสม

ฉันกำลังตรวจสอบการสร้างภาพข้อมูลมิติสูงโดยใช้ t-SNE ฉันมีข้อมูลบางส่วนที่มีไบนารีผสมและตัวแปรต่อเนื่องและข้อมูลดูเหมือนว่าจะจัดกลุ่มข้อมูลไบนารีได้อย่างง่ายดายเกินไป แน่นอนว่าสิ่งนี้คาดว่าจะเป็นข้อมูลสเกล (ระหว่าง 0 ถึง 1): ระยะ Euclidian จะยิ่งใหญ่ที่สุด / เล็กที่สุดระหว่างตัวแปรไบนารี เราควรจัดการกับชุดข้อมูลไบนารี / ต่อเนื่องผสมโดยใช้ t-SNE อย่างไร เราควรดร็อปคอลัมน์ไบนารีหรือไม่ มันมีความแตกต่างที่metricเราสามารถใช้? เป็นตัวอย่างให้พิจารณารหัสหลามนี้: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph ดังนั้นข้อมูลดิบของฉันคือ: …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

4

วิธีการพิสูจน์ทางสถิติว่าคอลัมน์มีข้อมูลหมวดหมู่หรือไม่ใช้ Python

ฉันมี data frame ใน python ที่ฉันต้องการค้นหาตัวแปรเด็ดขาดทั้งหมด การตรวจสอบประเภทของคอลัมน์นั้นไม่ได้ผลเสมอไปเพราะintประเภทยังสามารถจัดหมวดหมู่ได้ ดังนั้นฉันจึงขอความช่วยเหลือในการค้นหาวิธีทดสอบสมมติฐานที่ถูกต้องเพื่อระบุว่าคอลัมน์นั้นเป็นหมวดหมู่หรือไม่ ฉันพยายามทดสอบไคสแควร์ด้านล่าง แต่ไม่แน่ใจว่าดีพอหรือไม่ import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) กรุณาแนะนำ

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

2

ดัชนีแรนด์ที่ปรับเทียบกับข้อมูลซึ่งกันและกันที่ปรับแล้ว

ฉันพยายามประเมินประสิทธิภาพการจัดกลุ่ม ผมอ่านเอกสาร skiscit เรียนรู้เกี่ยวกับตัวชี้วัด ฉันไม่เข้าใจความแตกต่างระหว่าง ARI และ AMI สำหรับฉันดูเหมือนว่าพวกเขาทำสิ่งเดียวกันในสองวิธีที่แตกต่างกัน อ้างจากเอกสารประกอบ: เมื่อได้รับความรู้เกี่ยวกับการกำหนดคลาสความจริงพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ดัชนีแรนด์ที่ปรับปรุงแล้วนั้นเป็นฟังก์ชันที่ใช้วัดความคล้ายคลึงกันของการมอบหมายสองอย่างโดยไม่สนใจการเปลี่ยนลำดับ VS เมื่อได้รับความรู้เกี่ยวกับการมอบหมายคลาสความจริงภาคพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ของเราข้อมูลร่วมกันเป็นฟังก์ชั่นที่วัดข้อตกลงของการมอบหมายทั้งสองโดยไม่สนใจการเปลี่ยนลำดับ ... AMI โอกาส. ฉันควรใช้ทั้งสองอย่างในการประเมินการจัดกลุ่มของฉันหรือสิ่งนี้ซ้ำซ้อนหรือไม่

10 clustering python scikit-learn

4

วิธีที่ดีที่สุดในการหว่าน N ตัวสร้างตัวเลขสุ่มแบบอิสระจาก 1 ค่า

ในโปรแกรมของฉันฉันต้องรัน N แยกเธรดแต่ละตัวด้วย RNG ของตัวเองซึ่งใช้เพื่อสุ่มตัวอย่างชุดข้อมูลขนาดใหญ่ ฉันต้องสามารถหว่านกระบวนการทั้งหมดนี้ด้วยค่าเดียวดังนั้นฉันจึงสามารถทำซ้ำผลลัพธ์ได้ มันเพียงพอแล้วหรือไม่ที่จะเพิ่มเมล็ดตามลำดับสำหรับแต่ละดัชนี? ขณะนี้ฉันใช้numpyของRandomStateซึ่งใช้ตัวสร้างตัวเลขสุ่มหลอก Mersenne Twister ตัวอย่างโค้ดด้านล่าง: # If a random number generator seed exists if self.random_generator_seed: # Create a new random number generator for this instance based on its # own index self.random_generator_seed += instance_index self.random_number_generator = RandomState(self.random_generator_seed) โดยพื้นฐานแล้วฉันเริ่มต้นด้วยเมล็ดที่ผู้ใช้ป้อน (ถ้ามี) และสำหรับแต่ละอินสแตนซ์ / เธรดฉันตามลำดับเพิ่มดัชนี (0 ถึง …

10 python monte-carlo random-generation numpy

3

การระบุคุณสมบัติที่กรองหลังจากการเลือกคุณสมบัติด้วย scikit เรียนรู้

นี่คือรหัสของฉันสำหรับวิธีการเลือกคุณสมบัติใน Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) แต่หลังจากได้ X ใหม่ (ตัวแปรตาม - X_new) ใหม่ฉันจะรู้ได้อย่างไรว่าตัวแปรใดที่ถูกลบและตัวแปรใดที่ถูกพิจารณาในตัวแปรที่อัพเดทใหม่นี้ (อันใดอันหนึ่งที่ถูกลบหรือที่สามอยู่ในข้อมูล) เหตุผลในการรับรหัสนี้คือการใช้การกรองแบบเดียวกันกับข้อมูลการทดสอบใหม่

10 feature-selection python scikit-learn

คำถามติดแท็ก python