คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '


2
การถดถอยโลจิสติก: Scikit Learn vs Statsmodels
ฉันพยายามที่จะเข้าใจว่าทำไมผลลัพธ์จากการถดถอยโลจิสติกส์ของห้องสมุดทั้งสองนี้จึงให้ผลลัพธ์ที่แตกต่างกัน ฉันใช้ชุดข้อมูลจาก UCLA Idre กวดวิชาทำนายadmitบนพื้นฐานgre, และgpa ถูกใช้เป็นตัวแปรเด็ดขาดดังนั้นจึงถูกแปลงเป็นตัวแปรดัมมีการดร็อป คอลัมน์ดักจะถูกเพิ่มด้วยrankrankrank_1 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 …

3
สร้างตัวเข้ารหัสอัตโนมัติใน Tensorflow เพื่อให้เกิน PCA
Hinton และ Salakhutdinov ในการลดมิติข้อมูลด้วย Neural Networks, Science 2006เสนอ PCA แบบไม่เชิงเส้นผ่านการใช้ autoencoder แบบลึก ฉันพยายามสร้างและฝึกอบรมโปรแกรมสร้างรหัสอัตโนมัติ PCA ด้วย Tensorflow หลายครั้ง แต่ฉันไม่เคยได้รับผลลัพธ์ที่ดีกว่า linear PCA ฉันจะฝึกอบรมตัวเข้ารหัสอัตโนมัติได้อย่างมีประสิทธิภาพได้อย่างไร (แก้ไขในภายหลังโดย @amoeba: เวอร์ชันเดิมของคำถามนี้มีรหัส Python Tensorflow ที่ทำงานไม่ถูกต้องสามารถพบได้ในประวัติการแก้ไข)

7
ทำไมการตรวจสอบความถูกต้องจึงผันผวน
ฉันมีซีเอ็นเอ็นสี่ชั้นเพื่อทำนายการตอบสนองต่อโรคมะเร็งโดยใช้ข้อมูล MRI ฉันใช้การเปิดใช้งาน ReLU เพื่อแนะนำการไม่เชิงเส้น ความแม่นยำและการสูญเสียของขบวนรถไฟเพิ่มขึ้นและลดลงแบบ monotonically ตามลำดับ แต่ความแม่นยำในการทดสอบของฉันเริ่มผันผวนอย่างมาก ฉันลองเปลี่ยนอัตราการเรียนรู้ลดจำนวนเลเยอร์ แต่ก็ไม่ได้หยุดความผันผวน ฉันได้อ่านคำตอบนี้และลองทำตามคำแนะนำในคำตอบนั้น แต่ไม่โชคดี ใครช่วยให้ฉันคิดว่าฉันจะไปไหนผิด

2
รูปแบบข้อมูล libsvm [ปิด]
ฉันใช้เครื่องมือ libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) เพื่อรองรับการจำแนกเวกเตอร์ อย่างไรก็ตามฉันสับสนเกี่ยวกับรูปแบบของข้อมูลอินพุต จาก README: รูปแบบของไฟล์ข้อมูลการฝึกอบรมและการทดสอบคือ: <label> <index1>:<value1> <index2>:<value2> ... . . . แต่ละบรรทัดมีอินสแตนซ์และสิ้นสุดด้วยอักขระ '\ n' สำหรับการจัดหมวดหมู่<label>เป็นจำนวนเต็มที่ระบุคลาสป้ายกำกับ (รองรับหลายคลาส) สำหรับการถดถอย<label>คือค่าเป้าหมายซึ่งอาจเป็นจำนวนจริงใด ๆ สำหรับ SVM แบบชั้นเดียวไม่ได้ใช้เพื่อให้เป็นหมายเลขใดก็ได้ ทั้งคู่<index>:<value>ให้ค่าคุณลักษณะ (คุณลักษณะ): <index>เป็นจำนวนเต็มเริ่มต้นจาก 1 และ<value> เป็นจำนวนจริง ข้อยกเว้นเพียงอย่างเดียวคือเคอร์เนลที่คำนวณล่วงหน้าซึ่ง <index>เริ่มต้นจาก 0; ดูส่วนของเมล็ดที่คำนวณล่วงหน้าได้ ดัชนีจะต้องอยู่ในลำดับ ASCENDING ฉลากในไฟล์ทดสอบใช้เพื่อคำนวณความแม่นยำหรือข้อผิดพลาดเท่านั้น หากไม่ทราบให้กรอกตัวเลขใด ๆ ในคอลัมน์แรก ฉันมีคำถามต่อไปนี้: การใช้งาน<index>คืออะไร? มันมีจุดประสงค์อะไร มีความสอดคล้องกันระหว่างค่าดัชนีเดียวกันของอินสแตนซ์ข้อมูลที่ต่างกันหรือไม่? ถ้าฉันพลาด / ข้ามดัชนีระหว่างนั้นล่ะ …

2
จะตีความค่า p ของการทดสอบ Kolmogorov-Smirnov (python) ได้อย่างไร?
ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!
30 python 

1
ตัวเลขในรายงานการจำแนกประเภทของ sklearn หมายถึงอะไร
ฉันมีตัวอย่างด้านล่างที่ดึงมาจากเอกสาร sklearn.metrics.classification_report ของ sklearn สิ่งที่ฉันไม่เข้าใจคือเหตุผลที่มีค่า f1 คะแนนความแม่นยำและการเรียกคืนค่าสำหรับแต่ละชั้นที่ฉันเชื่อว่าระดับเป็นป้ายตัวทำนาย? ฉันคิดว่าคะแนน f1 บอกคุณถึงความแม่นยำโดยรวมของโมเดล นอกจากนี้คอลัมน์สนับสนุนบอกอะไรเรา ฉันไม่พบข้อมูลใด ๆ print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
ทำไม LIK ของ Scikit-Learn LDA จึงทำงานไม่ถูกต้องและมันคำนวณ LDA ผ่าน SVD ได้อย่างไร
ฉันใช้การวิเคราะห์เชิงเส้นตรง (LDA) จากไลบรารี่การscikit-learnเรียนรู้ของเครื่องจักร (Python) สำหรับการลดมิติข้อมูลและอยากรู้เกี่ยวกับผลลัพธ์เล็กน้อย ฉันสงสัยว่าตอนนี้สิ่งที่ LDA scikit-learnกำลังทำอยู่เพื่อให้ผลลัพธ์ดูแตกต่างจากเช่นวิธีการด้วยตนเองหรือ LDA ที่ทำใน R มันจะดีถ้ามีใครให้ข้อมูลเชิงลึกที่นี่ สิ่งที่สำคัญที่สุดคือการscikit-plotแสดงให้เห็นถึงความสัมพันธ์ระหว่างตัวแปรสองตัวที่ควรมีความสัมพันธ์ 0 สำหรับการทดสอบฉันใช้ชุดข้อมูลของ Iris และตัวจำแนกเชิงเส้น 2 ตัวแรกมีลักษณะดังนี้: IMG-1 LDA ผ่าน scikit เรียนรู้ สิ่งนี้สอดคล้องกับผลลัพธ์ที่พบในเอกสาร scikit-Learn ที่นี่ ตอนนี้ฉันผ่าน LDA ทีละขั้นตอนและได้ประมาณการที่แตกต่างกัน ฉันลองวิธีที่แตกต่างกันเพื่อค้นหาว่าเกิดอะไรขึ้น: IMG-2 LDA บนข้อมูลดิบ (ไม่มีการจัดกึ่งกลางไม่มีมาตรฐาน) และนี่คือแนวทางทีละขั้นตอนถ้าฉันสร้างมาตรฐาน (การทำให้เป็นมาตรฐาน z-score; ความแปรปรวนของหน่วย) ข้อมูลก่อน ฉันทำสิ่งเดียวกันโดยมีค่าเฉลี่ยอยู่กึ่งกลางเท่านั้นซึ่งควรนำไปสู่ภาพการฉายภาพแบบเดียวกัน (และสิ่งที่มันทำ) IMG-3 LDA ทีละขั้นตอนหลังจากการกำหนดค่าเฉลี่ยกึ่งกลางหรือกำหนดมาตรฐาน IMG-4 LDA ใน R (การตั้งค่าเริ่มต้น) …

5
โมดูล Python สำหรับการวิเคราะห์จุดเปลี่ยน
ฉันกำลังมองหาโมดูล Python ที่ทำการวิเคราะห์จุดเปลี่ยนในอนุกรมเวลา มีอัลกอริทึมที่แตกต่างกันจำนวนหนึ่งและฉันต้องการสำรวจประสิทธิภาพของบางอันโดยไม่ต้องหมุนแต่ละอัลกอริทึม เป็นการดีที่ฉันต้องการโมดูลบางอย่างเช่นbcp (Bayesian Change Point) หรือแพ็คเกจstrucchangeใน R ฉันคาดว่าจะพบบางอย่างใน Scipy แต่ฉันไม่สามารถเปิดอะไรได้ ฉันประหลาดใจที่ไม่มีสิ่งอำนวยความสะดวกใน: statsmodels.tsa : เครื่องมือวิเคราะห์ทางสถิติอนุกรมเวลา scikits.timeseries : เครื่องมือการวิเคราะห์อนุกรมเวลาเพื่อขยาย scipy scipy.signal : เครื่องมือประมวลผลสัญญาณใน scipy มีโมดูลใดบ้างที่มีอัลกอริธึมตรวจจับการเปลี่ยนแปลงใน Python หรือไม่?

1
ที่ผ่านมาอัตราการเรียนรู้ของสิงคโปร์ลดลงเป็นอย่างไร
หากคุณดูเอกสารประกอบhttp://keras.io/optimizers/จะมีพารามิเตอร์ในค่า SGD สำหรับการสลายตัว ฉันรู้ว่าสิ่งนี้ช่วยลดอัตราการเรียนรู้เมื่อเวลาผ่านไป อย่างไรก็ตามฉันไม่สามารถคิดออกว่ามันทำงานอย่างไร มันเป็นค่าที่คูณด้วยอัตราการเรียนรู้เช่นlr = lr * (1 - decay) มันเป็นเลขชี้กำลังหรือไม่? ฉันจะดูได้อย่างไรว่าคะแนนการเรียนรู้ของฉันที่ใช้อยู่ เมื่อฉันพิมพ์model.optimizer.lr.get_value()หลังจากทำงานพอดีกับช่วงเวลาสองสามครั้งมันจะให้อัตราการเรียนรู้ดั้งเดิมแม้ว่าฉันจะตั้งค่าการสลายตัว ฉันต้องตั้งค่า nesterov = True เพื่อใช้โมเมนตัมหรือมีโมเมนตัมสองประเภทที่ฉันสามารถใช้ได้ ตัวอย่างเช่นมีประเด็นในการทำเช่นนี้sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

2
ค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ใน Scikit-Learn [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา เราจะคำนวณค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ของการคาดคะเนของเราโดยใช้ Python และ scikit-Learn ได้อย่างไร จากเอกสารเรามีเพียง 4 ฟังก์ชันเมตริกสำหรับการถดถอยเท่านั้น: metrics.explained_variance_score (y_true, y_pred) metrics.mean_absolute_error (y_true, y_pred) metrics.mean_squared_error (y_true, y_pred) metrics.r2_score (y_true, y_pred)

5
ฉันจะทำให้เครือข่ายประสาทของฉันดีขึ้นในการทำนายคลื่นไซน์ได้อย่างไร
ดูที่นี่: คุณสามารถดูได้ว่าข้อมูลการฝึกอบรมสิ้นสุดลงที่ใด การฝึกอบรมข้อมูลไปจากที่จะ1- 1-1-1111 ฉันใช้ Keras และเครือข่ายหนาแน่น 1-100-100-2 ด้วยการเปิดใช้งาน tanh ฉันคำนวณผลลัพธ์จากสองค่าคือ p และ q เป็น p / q ด้วยวิธีนี้ฉันสามารถบรรลุขนาดใดก็ได้โดยใช้ค่าน้อยกว่า 1 ค่า โปรดทราบว่าฉันยังเป็นผู้เริ่มต้นในสาขานี้ดังนั้นไปง่าย ๆ กับฉัน

2
PCA แบบ numpy และ sklearn ให้ผลลัพธ์ที่ต่างกัน
ฉันเข้าใจผิดบางอย่าง นี่คือรหัสของฉัน ใช้ sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) เอาท์พุท: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.