สถิติและข้อมูลขนาดใหญ่ python

4

มีการใช้งานยอดนิยมของเขตข้อมูลแบบสุ่มในPythonหรือไม่? ฉันดูเหมือนจะไม่พบสิ่งที่ใช้กันอย่างแพร่หลายและเป็นที่นิยม!

32 machine-learning classification python conditional-random-field

2

การถดถอยโลจิสติก: Scikit Learn vs Statsmodels

ฉันพยายามที่จะเข้าใจว่าทำไมผลลัพธ์จากการถดถอยโลจิสติกส์ของห้องสมุดทั้งสองนี้จึงให้ผลลัพธ์ที่แตกต่างกัน ฉันใช้ชุดข้อมูลจาก UCLA Idre กวดวิชาทำนายadmitบนพื้นฐานgre, และgpa ถูกใช้เป็นตัวแปรเด็ดขาดดังนั้นจึงถูกแปลงเป็นตัวแปรดัมมีการดร็อป คอลัมน์ดักจะถูกเพิ่มด้วยrankrankrank_1 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 …

31 regression logistic python scikit-learn statsmodels

3

สร้างตัวเข้ารหัสอัตโนมัติใน Tensorflow เพื่อให้เกิน PCA

Hinton และ Salakhutdinov ในการลดมิติข้อมูลด้วย Neural Networks, Science 2006เสนอ PCA แบบไม่เชิงเส้นผ่านการใช้ autoencoder แบบลึก ฉันพยายามสร้างและฝึกอบรมโปรแกรมสร้างรหัสอัตโนมัติ PCA ด้วย Tensorflow หลายครั้ง แต่ฉันไม่เคยได้รับผลลัพธ์ที่ดีกว่า linear PCA ฉันจะฝึกอบรมตัวเข้ารหัสอัตโนมัติได้อย่างมีประสิทธิภาพได้อย่างไร (แก้ไขในภายหลังโดย @amoeba: เวอร์ชันเดิมของคำถามนี้มีรหัส Python Tensorflow ที่ทำงานไม่ถูกต้องสามารถพบได้ในประวัติการแก้ไข)

31 pca python deep-learning tensorflow autoencoders

7

ทำไมการตรวจสอบความถูกต้องจึงผันผวน

ฉันมีซีเอ็นเอ็นสี่ชั้นเพื่อทำนายการตอบสนองต่อโรคมะเร็งโดยใช้ข้อมูล MRI ฉันใช้การเปิดใช้งาน ReLU เพื่อแนะนำการไม่เชิงเส้น ความแม่นยำและการสูญเสียของขบวนรถไฟเพิ่มขึ้นและลดลงแบบ monotonically ตามลำดับ แต่ความแม่นยำในการทดสอบของฉันเริ่มผันผวนอย่างมาก ฉันลองเปลี่ยนอัตราการเรียนรู้ลดจำนวนเลเยอร์ แต่ก็ไม่ได้หยุดความผันผวน ฉันได้อ่านคำตอบนี้และลองทำตามคำแนะนำในคำตอบนั้น แต่ไม่โชคดี ใครช่วยให้ฉันคิดว่าฉันจะไปไหนผิด

31 machine-learning python deep-learning

2

รูปแบบข้อมูล libsvm [ปิด]

ฉันใช้เครื่องมือ libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) เพื่อรองรับการจำแนกเวกเตอร์ อย่างไรก็ตามฉันสับสนเกี่ยวกับรูปแบบของข้อมูลอินพุต จาก README: รูปแบบของไฟล์ข้อมูลการฝึกอบรมและการทดสอบคือ: <label> <index1>:<value1> <index2>:<value2> ... . . . แต่ละบรรทัดมีอินสแตนซ์และสิ้นสุดด้วยอักขระ '\ n' สำหรับการจัดหมวดหมู่<label>เป็นจำนวนเต็มที่ระบุคลาสป้ายกำกับ (รองรับหลายคลาส) สำหรับการถดถอย<label>คือค่าเป้าหมายซึ่งอาจเป็นจำนวนจริงใด ๆ สำหรับ SVM แบบชั้นเดียวไม่ได้ใช้เพื่อให้เป็นหมายเลขใดก็ได้ ทั้งคู่<index>:<value>ให้ค่าคุณลักษณะ (คุณลักษณะ): <index>เป็นจำนวนเต็มเริ่มต้นจาก 1 และ<value> เป็นจำนวนจริง ข้อยกเว้นเพียงอย่างเดียวคือเคอร์เนลที่คำนวณล่วงหน้าซึ่ง <index>เริ่มต้นจาก 0; ดูส่วนของเมล็ดที่คำนวณล่วงหน้าได้ ดัชนีจะต้องอยู่ในลำดับ ASCENDING ฉลากในไฟล์ทดสอบใช้เพื่อคำนวณความแม่นยำหรือข้อผิดพลาดเท่านั้น หากไม่ทราบให้กรอกตัวเลขใด ๆ ในคอลัมน์แรก ฉันมีคำถามต่อไปนี้: การใช้งาน<index>คืออะไร? มันมีจุดประสงค์อะไร มีความสอดคล้องกันระหว่างค่าดัชนีเดียวกันของอินสแตนซ์ข้อมูลที่ต่างกันหรือไม่? ถ้าฉันพลาด / ข้ามดัชนีระหว่างนั้นล่ะ …

31 machine-learning svm python libsvm c++

2

จะตีความค่า p ของการทดสอบ Kolmogorov-Smirnov (python) ได้อย่างไร?

ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!

30 python

1

ตัวเลขในรายงานการจำแนกประเภทของ sklearn หมายถึงอะไร

ฉันมีตัวอย่างด้านล่างที่ดึงมาจากเอกสาร sklearn.metrics.classification_report ของ sklearn สิ่งที่ฉันไม่เข้าใจคือเหตุผลที่มีค่า f1 คะแนนความแม่นยำและการเรียกคืนค่าสำหรับแต่ละชั้นที่ฉันเชื่อว่าระดับเป็นป้ายตัวทำนาย? ฉันคิดว่าคะแนน f1 บอกคุณถึงความแม่นยำโดยรวมของโมเดล นอกจากนี้คอลัมน์สนับสนุนบอกอะไรเรา ฉันไม่พบข้อมูลใด ๆ print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

29 machine-learning python scikit-learn precision-recall

1

การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer

ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

ทำไม LIK ของ Scikit-Learn LDA จึงทำงานไม่ถูกต้องและมันคำนวณ LDA ผ่าน SVD ได้อย่างไร

ฉันใช้การวิเคราะห์เชิงเส้นตรง (LDA) จากไลบรารี่การscikit-learnเรียนรู้ของเครื่องจักร (Python) สำหรับการลดมิติข้อมูลและอยากรู้เกี่ยวกับผลลัพธ์เล็กน้อย ฉันสงสัยว่าตอนนี้สิ่งที่ LDA scikit-learnกำลังทำอยู่เพื่อให้ผลลัพธ์ดูแตกต่างจากเช่นวิธีการด้วยตนเองหรือ LDA ที่ทำใน R มันจะดีถ้ามีใครให้ข้อมูลเชิงลึกที่นี่ สิ่งที่สำคัญที่สุดคือการscikit-plotแสดงให้เห็นถึงความสัมพันธ์ระหว่างตัวแปรสองตัวที่ควรมีความสัมพันธ์ 0 สำหรับการทดสอบฉันใช้ชุดข้อมูลของ Iris และตัวจำแนกเชิงเส้น 2 ตัวแรกมีลักษณะดังนี้: IMG-1 LDA ผ่าน scikit เรียนรู้ สิ่งนี้สอดคล้องกับผลลัพธ์ที่พบในเอกสาร scikit-Learn ที่นี่ ตอนนี้ฉันผ่าน LDA ทีละขั้นตอนและได้ประมาณการที่แตกต่างกัน ฉันลองวิธีที่แตกต่างกันเพื่อค้นหาว่าเกิดอะไรขึ้น: IMG-2 LDA บนข้อมูลดิบ (ไม่มีการจัดกึ่งกลางไม่มีมาตรฐาน) และนี่คือแนวทางทีละขั้นตอนถ้าฉันสร้างมาตรฐาน (การทำให้เป็นมาตรฐาน z-score; ความแปรปรวนของหน่วย) ข้อมูลก่อน ฉันทำสิ่งเดียวกันโดยมีค่าเฉลี่ยอยู่กึ่งกลางเท่านั้นซึ่งควรนำไปสู่ภาพการฉายภาพแบบเดียวกัน (และสิ่งที่มันทำ) IMG-3 LDA ทีละขั้นตอนหลังจากการกำหนดค่าเฉลี่ยกึ่งกลางหรือกำหนดมาตรฐาน IMG-4 LDA ใน R (การตั้งค่าเริ่มต้น) …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

5

โมดูล Python สำหรับการวิเคราะห์จุดเปลี่ยน

ฉันกำลังมองหาโมดูล Python ที่ทำการวิเคราะห์จุดเปลี่ยนในอนุกรมเวลา มีอัลกอริทึมที่แตกต่างกันจำนวนหนึ่งและฉันต้องการสำรวจประสิทธิภาพของบางอันโดยไม่ต้องหมุนแต่ละอัลกอริทึม เป็นการดีที่ฉันต้องการโมดูลบางอย่างเช่นbcp (Bayesian Change Point) หรือแพ็คเกจstrucchangeใน R ฉันคาดว่าจะพบบางอย่างใน Scipy แต่ฉันไม่สามารถเปิดอะไรได้ ฉันประหลาดใจที่ไม่มีสิ่งอำนวยความสะดวกใน: statsmodels.tsa : เครื่องมือวิเคราะห์ทางสถิติอนุกรมเวลา scikits.timeseries : เครื่องมือการวิเคราะห์อนุกรมเวลาเพื่อขยาย scipy scipy.signal : เครื่องมือประมวลผลสัญญาณใน scipy มีโมดูลใดบ้างที่มีอัลกอริธึมตรวจจับการเปลี่ยนแปลงใน Python หรือไม่?

24 time-series python change-point

1

ที่ผ่านมาอัตราการเรียนรู้ของสิงคโปร์ลดลงเป็นอย่างไร

หากคุณดูเอกสารประกอบhttp://keras.io/optimizers/จะมีพารามิเตอร์ในค่า SGD สำหรับการสลายตัว ฉันรู้ว่าสิ่งนี้ช่วยลดอัตราการเรียนรู้เมื่อเวลาผ่านไป อย่างไรก็ตามฉันไม่สามารถคิดออกว่ามันทำงานอย่างไร มันเป็นค่าที่คูณด้วยอัตราการเรียนรู้เช่นlr = lr * (1 - decay) มันเป็นเลขชี้กำลังหรือไม่? ฉันจะดูได้อย่างไรว่าคะแนนการเรียนรู้ของฉันที่ใช้อยู่ เมื่อฉันพิมพ์model.optimizer.lr.get_value()หลังจากทำงานพอดีกับช่วงเวลาสองสามครั้งมันจะให้อัตราการเรียนรู้ดั้งเดิมแม้ว่าฉันจะตั้งค่าการสลายตัว ฉันต้องตั้งค่า nesterov = True เพื่อใช้โมเมนตัมหรือมีโมเมนตัมสองประเภทที่ฉันสามารถใช้ได้ ตัวอย่างเช่นมีประเด็นในการทำเช่นนี้sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

23 neural-networks python

2

ค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ใน Scikit-Learn [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา เราจะคำนวณค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ของการคาดคะเนของเราโดยใช้ Python และ scikit-Learn ได้อย่างไร จากเอกสารเรามีเพียง 4 ฟังก์ชันเมตริกสำหรับการถดถอยเท่านั้น: metrics.explained_variance_score (y_true, y_pred) metrics.mean_absolute_error (y_true, y_pred) metrics.mean_squared_error (y_true, y_pred) metrics.r2_score (y_true, y_pred)

23 predictive-models python scikit-learn mape

5

ฉันจะทำให้เครือข่ายประสาทของฉันดีขึ้นในการทำนายคลื่นไซน์ได้อย่างไร

ดูที่นี่: คุณสามารถดูได้ว่าข้อมูลการฝึกอบรมสิ้นสุดลงที่ใด การฝึกอบรมข้อมูลไปจากที่จะ1- 1-1-1111 ฉันใช้ Keras และเครือข่ายหนาแน่น 1-100-100-2 ด้วยการเปิดใช้งาน tanh ฉันคำนวณผลลัพธ์จากสองค่าคือ p และ q เป็น p / q ด้วยวิธีนี้ฉันสามารถบรรลุขนาดใดก็ได้โดยใช้ค่าน้อยกว่า 1 ค่า โปรดทราบว่าฉันยังเป็นผู้เริ่มต้นในสาขานี้ดังนั้นไปง่าย ๆ กับฉัน

21 regression neural-networks python keras

2

PCA แบบ numpy และ sklearn ให้ผลลัพธ์ที่ต่างกัน

ฉันเข้าใจผิดบางอย่าง นี่คือรหัสของฉัน ใช้ sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) เอาท์พุท: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], …

21 pca python scikit-learn

4

วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?

หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

คำถามติดแท็ก python