คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

2
การดำเนินการตรวจสอบข้ามซ้อน
ฉันพยายามที่จะเข้าใจว่าความเข้าใจของฉันเกี่ยวกับการตรวจสอบความถูกต้องแบบซ้อนกันดังนั้นฉันจึงเขียนตัวอย่างของเล่นนี้เพื่อดูว่าฉันพูดถูกหรือไม่: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X = boston.data y = boston.target outer_scores = [] # outer cross-validation outer = cross_validation.KFold(len(y), n_folds=3, shuffle=True, …

3
การตรวจจับความผิดปกติของอนุกรมเวลาด้วย Python
ฉันต้องใช้การตรวจจับความผิดปกติกับชุดข้อมูลอนุกรมเวลาหลายชุด ฉันไม่เคยทำแบบนี้มาก่อนและหวังว่าจะได้รับคำแนะนำ ฉันพอใจกับ python ดังนั้นฉันจึงชอบที่จะใช้งานโซลูชันนี้ (ส่วนใหญ่โค้ดของฉันคือ python สำหรับส่วนอื่น ๆ ของงานของฉัน) คำอธิบายของข้อมูล: เป็นข้อมูลอนุกรมเวลารายเดือนที่เพิ่งเริ่มเก็บในช่วง 2 ปีที่ผ่านมาหรือมากกว่านั้น (เช่นช่วงเวลา 24-36 เท่านั้น) โดยพื้นฐานแล้วมีตัวชี้วัดหลายตัวที่ถูกตรวจสอบเป็นรายเดือนสำหรับลูกค้าหลายราย time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... นี่คือสิ่งที่ฉันกำลังคิด: ดึงข้อมูลลงใน dataframe (pandas) จากนั้นคำนวณค่าเฉลี่ย 6 เดือนสำหรับลูกค้า / คู่เมตริกแต่ละราย หากค่าของช่วงเวลาปัจจุบันเกินขีด จำกัด …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
การทดสอบตามฤดูกาลของอนุกรมเวลา
การทดสอบฤดูกาลที่ง่ายที่สุดสำหรับอนุกรมเวลาคืออะไร? เฉพาะเจาะจงมากขึ้นฉันต้องการทดสอบว่าspecific time series the seasonal componentมีความหมายหรือไม่ แพ็คเกจที่แนะนำใน Python / R คืออะไร?

1
เด็ก ๆ สามารถดึงพ่อแม่ของพวกเขามารวมกันในการฉาย PCA ของชุดข้อมูล GWAS ได้อย่างไร
ใช้เวลาประมาณ 20 จุดสุ่มในพื้นที่ 10,000 มิติที่มีพิกัดแต่ละ IID จาก(0,1) แยกออกเป็น 10 คู่ ("คู่รัก") และเพิ่มค่าเฉลี่ยของแต่ละคู่ ("เด็ก") ไปยังชุดข้อมูล จากนั้นทำ PCA บนผลลัพธ์ 30 คะแนนและลงจุด PC1 กับ PC2N(0,1)N(0,1)\mathcal N(0,1) สิ่งที่น่าทึ่งเกิดขึ้น: "ครอบครัว" แต่ละแห่งก่อให้เกิดจุดที่อยู่ใกล้กัน แน่นอนว่าเด็กทุกคนอยู่ใกล้กับผู้ปกครองแต่ละคนในพื้นที่ 10,000 มิติดั้งเดิมดังนั้นใคร ๆ ก็คาดหวังว่ามันจะอยู่ใกล้กับพ่อแม่ในพื้นที่ PCA อย่างไรก็ตามในพื้นที่ PCA ผู้ปกครองแต่ละคู่อยู่ใกล้กันเช่นกันแม้ว่าในพื้นที่ดั้งเดิมพวกเขาเป็นเพียงจุดสุ่ม! เด็ก ๆ จัดการดึงผู้ปกครองมารวมกันในการฉาย PCA ได้อย่างไร \quad\quad\quad\quad บางคนอาจกังวลว่าสิ่งนี้ได้รับอิทธิพลจากความจริงที่ว่าเด็กมีบรรทัดฐานต่ำกว่าพ่อแม่ สิ่งนี้ดูเหมือนจะไม่สำคัญ: ถ้าฉันสร้างเด็กเป็นโดยที่และเป็นจุดของผู้ปกครองพวกเขาจะมีบรรทัดฐานเดียวกันโดยเฉลี่ยกับผู้ปกครอง แต่ฉันยังคงสังเกตเห็นปรากฏการณ์เชิงคุณภาพในพื้นที่ PCA:(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad คำถามนี้ใช้ชุดข้อมูลของเล่น แต่ได้แรงบันดาลใจจากสิ่งที่ฉันสังเกตเห็นในชุดข้อมูลจริงจากการศึกษาความสัมพันธ์จีโนมกว้าง (GWAS) …

1
สร้างตัวเลขสุ่มจาก“ การกระจายตัวแบบลาด” จากทฤษฎีทางคณิตศาสตร์
เพื่อจุดประสงค์บางอย่างฉันต้องสร้างตัวเลขสุ่ม (ข้อมูล) จากการกระจาย "ชุดลาด" "ความชัน" ของการกระจายนี้อาจแตกต่างกันไปในช่วงเวลาที่สมเหตุสมผลแล้วการกระจายของฉันควรเปลี่ยนจากเครื่องแบบเป็นสามเหลี่ยมตามความชัน นี่คือที่มาของฉัน: มาทำให้มันง่ายและสร้างฟอร์มข้อมูล 000 ถึง BBB(สีน้ำเงิน, สีแดงคือการกระจายแบบสม่ำเสมอ) เพื่อให้ได้ฟังก์ชันความหนาแน่นของความน่าจะเป็นของเส้นสีฟ้าฉันต้องการเพียงสมการของเส้นนั้น ดังนั้น: ฉ(x ) = t g( φ ) x + Y(0 )ฉ(x)=เสื้อก.(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) และตั้งแต่ (ภาพ): เสื้อg( φ )Y( 0 )=1 / B - Y( 0 )B / 2=1B- tกรัม( φ )B2เสื้อก.(φ)=1/B-Y(0)B/2Y(0)=1B-เสื้อก.(φ)B2\begin{align} tg(\varphi) &= \frac{1/B …

2
คุณจะเห็นภาพของช่องทางที่แบ่งกลุ่มอย่างไร (และคุณสามารถใช้กับ Python ได้หรือไม่)
ฉันเห็นโพสต์นี้ใน Moz ซึ่งนำเสนอช่องทางการตลาดที่แบ่งกลุ่ม: สิ่งนี้จะมีค่าค่อนข้างน้อยในงานของฉัน สิ่งที่ฉันไม่มีความคิดก็คือทำอย่างไรจึงจะเห็นภาพข้อมูลดิบเพื่อแสดงช่องทางที่แบ่งกลุ่มแบบนี้ แนวคิดคือยอดขายที่นำมาจากแหล่งต่าง ๆ (ซึ่งเราใช้เพื่อแบ่งกลุ่มข้อมูลตาม) และผ่านหลายขั้นตอนตามเวลาที่พวกเขาเปลี่ยนเป็นดีล จากแต่ละขั้นไปยังอีกบางคนย่อหย่อน ความกว้างของแต่ละชิ้นถูกกำหนดโดยจำนวนนำที่แน่นอนในแต่ละชิ้น [ แก้ไข : สังเกตภาพที่ใช้สำหรับการอ้างอิงที่นี่ทำให้เข้าใจผิดเมื่อมันมาถึงตัวเลขที่ระบุทางด้านขวาของแต่ละชิ้น ดูเหมือนจะไม่มีความสัมพันธ์ระหว่างความกว้างของชิ้นและหมายเลข รูปภาพควรถูกใช้เพื่ออ้างอิงถึงการออกแบบช่องทางแบ่งส่วนเท่านั้น] อย่างไรก็ตามความคิดใด ๆ วิธีการเห็นภาพหรือไม่ ถ้าเป็นไปได้ฉันชอบที่จะมีวิธีใน Python นี่คือGoogle เอกสารที่มีข้อมูลหุ่นหากใครต้องการ ... มองไปข้างหน้าเพื่อข้อมูลเชิงลึกของคุณ ขอบคุณ!

1
การจัดกลุ่มสูตรความเฉื่อยใน scikit เรียนรู้
ฉันต้องการรหัสการจัดกลุ่ม kmeans ใน python โดยใช้ pandas และ scikit เรียนรู้ ในการเลือก k ที่ดีฉันต้องการรหัสสถิติ Gap จาก Tibshirani และ al 2001 ( pdf ) ฉันต้องการทราบว่าฉันสามารถใช้ผลเฉื่อยจาก scikit และปรับสูตรสถิติช่องว่างโดยไม่ต้องคำนวณการคำนวณระยะทางทั้งหมดอีกครั้ง ไม่มีใครรู้สูตรความเฉื่อยที่ใช้ใน scikit / รู้วิธีที่ง่ายในการถอดรหัสสถิติช่องว่างโดยใช้ฟังก์ชั่นระยะทางระดับสูง?

2
วิธีปรับให้พอดีกับการถดถอยเช่นใน R?
ฉันมีข้อมูลอนุกรมเวลาที่ตัวแปรที่วัดได้นั้นเป็นจำนวนเต็มบวกแบบไม่ต่อเนื่อง (นับ) ฉันต้องการทดสอบว่ามีแนวโน้มสูงขึ้นเมื่อเวลาผ่านไป (หรือไม่) ตัวแปรอิสระ (x) อยู่ในช่วง 0-500 และตัวแปรที่ขึ้นต่อกัน (y) อยู่ในช่วง 0-8 ฉันคิดว่าฉันตอบคำถามนี้โดยปรับการถดถอยของแบบฟอร์มy = floor(a*x + b)โดยใช้กำลังสองน้อยที่สุดธรรมดา (OLS) ฉันจะทำสิ่งนี้โดยใช้ R (หรือ Python) ได้อย่างไร มีแพ็คเกจที่มีอยู่สำหรับมันหรือฉันดีกว่าที่จะเขียนอัลกอริทึมของตัวเอง? PS: ฉันรู้ว่านี่ไม่ใช่เทคนิคในอุดมคติ แต่ฉันต้องทำการวิเคราะห์ที่ค่อนข้างง่ายที่ฉันสามารถเข้าใจได้จริง - พื้นหลังของฉันคือชีววิทยาไม่ใช่คณิตศาสตร์ ฉันรู้ว่าฉันกำลังละเมิดสมมติฐานเกี่ยวกับข้อผิดพลาดในตัวแปรที่วัดได้และความเป็นอิสระของการวัดเมื่อเวลาผ่านไป
9 r  regression  python 

2
ประเมินค่าสูงสุดของอนุกรมเวลาของข้อมูลสัญญาณมือถือ
ฉันกำลังวัดการมีอยู่ของการตอบสนองในการวัดสัญญาณของเซลล์ สิ่งที่ฉันทำคือการใช้อัลกอริทึมที่ปรับให้เรียบ (Hanning) กับอนุกรมเวลาของข้อมูลจากนั้นตรวจจับจุดสูงสุด สิ่งที่ฉันได้คือ: ถ้าฉันต้องการให้การตรวจจับการตอบสนองมีวัตถุประสงค์มากกว่า "คุณเห็นการลดลงอย่างต่อเนื่อง" อะไรคือวิธีที่ดีที่สุด มันคือการหาระยะทางของยอดเขาจากพื้นฐานที่กำหนดโดยการถดถอยเชิงเส้นหรือไม่? (ฉันเป็นงูใหญ่และไม่มีความเข้าใจในสถิติ) ขอบคุณ

5
คำนวณเปอร์เซ็นต์ไทล์ของการแจกแจงแบบปกติ
ดูหน้า Wikipedia นี้: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti-Coull_Interval ที่จะได้รับอาเกรสติ-Coull ช่วงเวลาหนึ่งความต้องการในการคำนวณเปอร์เซ็นต์ของการกระจายปกติที่เรียกว่าZฉันจะคำนวณเปอร์เซ็นต์ไทล์ได้อย่างไร มีฟังก์ชั่นสำเร็จรูปที่ใช้ใน Wolfram Mathematica และ / หรือ Python / NumPy / SciPy หรือไม่?zzz

1
ความแตกต่างระหว่าง Naive Bayes กับ Recurrent Neural Network (LSTM)
ฉันต้องการที่จะทำการวิเคราะห์ความเชื่อมั่นในข้อความได้ผ่านหลายบทความบางคนกำลังใช้"Naive Bayes"และอื่น ๆ คือ"Recurrent Neural Network (LSTM)"ในทางกลับกันฉันได้เห็นห้องสมุดหลามสำหรับการวิเคราะห์ความเชื่อมั่นว่า คือ nltk มันใช้"Naive Bayes"ทุกคนสามารถอธิบายความแตกต่างระหว่างการใช้สองคนนี้ได้อย่างไร ฉันได้ผ่านโพสต์นี้ไปแล้ว แต่ไม่ชัดเจนเกี่ยวกับพวกเขาทั้งคู่ .. ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและมุ้ง Petri

2
ทำไมชุดข้อมูลนี้จึงไม่มีความแปรปรวนร่วม
ความเข้าใจของฉันเกี่ยวกับความแปรปรวนร่วมในการทำงานคือข้อมูลที่มีความสัมพันธ์ควรมีความแปรปรวนร่วมค่อนข้างสูง ฉันเจอสถานการณ์ที่ข้อมูลของฉันดูมีความสัมพันธ์ (ดังที่แสดงในพล็อตกระจาย) แต่ความแปรปรวนร่วมอยู่ใกล้ศูนย์ ความแปรปรวนร่วมของข้อมูลจะเป็นศูนย์ได้อย่างไรถ้าพวกมันมีความสัมพันธ์กัน? import numpy as np x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788, 0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681, 0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152, 0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536]) x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334, 0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528, 0.03098697, 0.03357531, 0.02808358, 0.03747998, …

1
วิธีการวิเคราะห์ความสัมพันธ์ 'เบียร์และผ้าอ้อม'
ฉันมีข้อมูลที่เทียบเท่ากับ: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... ฉันต้องการทำการวิเคราะห์บางอย่างกับชุดข้อมูลนี้เพื่อรับเมทริกซ์สหสัมพันธ์ที่จะมีความหมายคล้ายกับ: หากคุณซื้อ x คุณมีแนวโน้มที่จะซื้อ y ใช้ไพ ธ อน (หรือบางทีอาจเป็นอะไรก็ได้ยกเว้น MATLAB) ฉันจะทำยังไงต่อไป แนวทางพื้นฐานบางอย่างหรือตัวชี้ไปยังที่ที่ฉันควรดูจะช่วย ขอบคุณ, แก้ไข - สิ่งที่ฉันได้เรียนรู้: ปัญหาเหล่านี้เรียกว่าการค้นพบกฎการเชื่อมโยง Wikipedia มีบทความที่ดีที่ครอบคลุมอัลกอริทึมทั่วไปบางประการที่ควรทำ อัลกอริทึมแบบดั้งเดิมที่ทำเช่นนั้นน่าจะเป็น Apriori เนื่องจาก Agrawal และ อัล นั่นทำให้ฉันเป็นสีส้มแพคเกจหลาม data interconnect สำหรับ Linux วิธีที่ดีที่สุดในการติดตั้งนั้นมาจากแหล่งที่มาโดยใช้ setup.py ที่ให้มา ออเรนจ์โดยค่าเริ่มต้นจะอ่านอินพุตจากไฟล์ซึ่งจัดรูปแบบด้วยวิธีใดวิธีหนึ่งที่รองรับ ในที่สุดการเรียนรู้กฎของ Apriori อย่างง่าย ๆก็เป็นสีส้ม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.