คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

2
วิธีการใช้ฟังก์ชั่นการตรวจสอบความถูกต้องข้ามของ Scikit-Learn กับตัวแยกประเภทหลายฉลาก
ผมทดสอบลักษณนามแตกต่างกันในชุดข้อมูลที่มี 5 ชั้นเรียนและเช่นกันสามารถอยู่ในหนึ่งหรือมากกว่าหนึ่งของการเรียนเหล่านี้ดังนั้นฉันใช้ scikit sklearn.multiclass.OneVsRestClassifierการเรียนรู้ของลักษณนามหลายป้ายโดยเฉพาะ sklearn.cross_validation.StratifiedKFoldตอนนี้ผมต้องการที่จะดำเนินการตรวจสอบข้ามใช้ สิ่งนี้ทำให้เกิดข้อผิดพลาดดังต่อไปนี้: Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, …

2
วิธีตั้งชื่อให้เห็บในกล่องงูเหลือม matplotlib
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ งูหลามmatplotlibมีคำสั่ง Boxplot โดยปกติทุกส่วนของกราฟจะถูกเลือกเป็นตัวเลข ฉันจะเปลี่ยนเห็บเป็นชื่อแทนตำแหน่งได้อย่างไร สำหรับภาพประกอบฉันหมายถึงป้ายกำกับจันทร์อังคารที่เหมือนในกล่องนี้:

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
การจัดกลุ่มเมทริกซ์สหสัมพันธ์
ฉันมีเมทริกซ์สหสัมพันธ์ซึ่งระบุว่ารายการทั้งหมดสัมพันธ์กับรายการอื่นอย่างไร ดังนั้นสำหรับรายการ N ฉันมีเมทริกซ์สหสัมพันธ์ N * N อยู่แล้ว การใช้เมทริกซ์สหสัมพันธ์นี้ฉันจะจัดกลุ่มรายการ N ในถังขยะ M อย่างไรเพื่อให้ฉันสามารถพูดได้ว่ารายการ Nk ในถังขยะ kth ทำงานเหมือนกัน กรุณาช่วยฉันออก ค่ารายการทั้งหมดเป็นหมวดหมู่ ขอบคุณ แจ้งให้เราทราบหากคุณต้องการข้อมูลเพิ่มเติม ฉันต้องการวิธีแก้ปัญหาใน Python แต่ความช่วยเหลือในการผลักดันฉันไปสู่ข้อกำหนดนั้นจะเป็นประโยชน์อย่างมาก

3
ใช้ RNN (LSTM) เพื่อทำนายเวกเตอร์ไทม์ซีรี่ส์ (Theano)
ฉันมีปัญหาง่าย ๆ แต่ฉันไม่สามารถหาเครื่องมือที่เหมาะสมในการแก้ปัญหาได้ ฉันมีลำดับเวกเตอร์บางส่วนที่มีความยาวเท่ากัน ตอนนี้ฉันต้องการในการฝึกอบรม LSTM RNN ตัวอย่างรถไฟของลำดับเหล่านี้แล้วทำให้มันจะทำนายลำดับใหม่ของเวกเตอร์ของความยาวขึ้นอยู่กับหลายรองพื้นเวกเตอร์nnn ฉันไม่พบการใช้งานที่ง่ายซึ่งจะทำเช่นนี้ ภาษาพื้นฐานของฉันคือ Python แต่สิ่งใดก็ตามที่ไม่ได้ติดตั้งไว้นานจะเก็บไว้ ผมพยายามที่จะใช้ลาซานญ่าแต่การดำเนินงานของ RNN ยังไม่พร้อมและจะอยู่ในแพคเกจแยกnntools อย่างไรก็ตามฉันลองอันหลัง แต่ไม่สามารถหาวิธีฝึกได้แล้วนำไปทดสอบโดยเวกเตอร์ทดสอบและปล่อยให้มันทำนายใหม่ บล็อกเป็นปัญหาเดียวกัน - ไม่มีเอกสารประกอบสำหรับ LSTM RNN แม้ว่าจะดูเหมือนว่ามีบางคลาสและฟังก์ชันที่สามารถใช้งานได้ (เช่นblocks.bricks.recurrent) มีการใช้งาน RNN LSTM หลายอย่างใน Theano เช่นGroundHog, และtheano-rnn, theano_lstmสำหรับเอกสารบางส่วน, แต่ไม่ใช่ของเหล่านั้นที่มีการสอนหรือแนะนำวิธีการทำสิ่งที่ฉันต้องการ ทางออกเดียวที่ฉันพบคือใช้ Pybrain แต่น่าเสียดายที่มันขาดคุณสมบัติของ Theano (ส่วนใหญ่เป็นการคำนวณ GPU) และเป็นกำพร้า (ไม่มีคุณสมบัติใหม่และการสนับสนุน) ไม่มีใครรู้ว่าฉันสามารถหาสิ่งที่ฉันขอได้ที่ไหน ใช้งานง่ายกับ RNN LSTM เพื่อทำนายลำดับของเวกเตอร์หรือไม่ แก้ไข: ฉันลอง Keras แบบนี้: …

3
Julia: เก็บสต็อคของวิธีการทำ
โพสต์นี้เกี่ยวข้องกับเหตุการณ์ที่เปลี่ยนแปลงอย่างรวดเร็ว ฉันเจอคำถามปี 2012 ที่มีการอภิปรายที่ดีมากเกี่ยวกับ Julia เป็นทางเลือกแทน R / Python สำหรับงานสถิติประเภทต่างๆ ต่อไปนี้เป็นคำถามเริ่มต้นจากปี 2012 เกี่ยวกับคำสัญญาของจูเลีย น่าเสียดายที่ Julia เป็นคนใหม่มากในตอนนั้น & ชุดเครื่องมือที่จำเป็นสำหรับงานสถิตินั้นค่อนข้างเก่าแก่ ข้อบกพร่องถูกรีดออก การกระจายติดตั้งยาก เป็นต้น บางคนมีความคิดเห็นที่ฉลาดมากสำหรับคำถามนั้น: สิ่งนี้กล่าวว่าจะใช้เวลา 5 ปีก่อนที่คำถามนี้อาจตอบได้ในแบบย้อนหลัง ณ ตอนนี้ Julia ยังขาดประเด็นสำคัญต่อไปนี้ของระบบการเขียนโปรแกรมเชิงสถิติที่สามารถแข่งขันกับ R สำหรับผู้ใช้ประจำวัน: นั่นคือในปี 2012 ตอนนี้มันผ่านไปแล้ว 2015 และสามปีที่ผ่านมาฉันสงสัยว่าคนที่คิดว่าจูเลียทำอะไร? มีร่างกายที่มีประสบการณ์มากขึ้นเกี่ยวกับภาษาและระบบนิเวศของ Julia โดยรวมหรือไม่? ฉันชอบที่จะรู้ โดยเฉพาะ: คุณจะแนะนำผู้ใช้ใหม่ของเครื่องมือทางสถิติเพื่อเรียนรู้ Julia มากกว่า R หรือไม่? สถิติการใช้งานประเภทใดที่คุณจะแนะนำให้ใครบางคนใช้ Julia ใน หาก …
19 r  python  computing  julia 

1
การใช้ตัวทำนายแบบวงกลมในการถดถอยเชิงเส้น
ฉันกำลังพยายามปรับโมเดลให้เหมาะสมโดยใช้ข้อมูลลม (0, 359) และช่วงเวลาของวัน (0, 23) แต่ฉันกังวลว่าพวกเขาจะไม่พอดีกับการถดถอยเชิงเส้นเนื่องจากพวกเขาไม่ใช่พารามิเตอร์เชิงเส้น ฉันต้องการแปลงพวกเขาโดยใช้ Python ฉันได้เห็นการกล่าวถึงการคำนวณค่าเฉลี่ยเวคเตอร์โดยวิธีการทำบาปและ cos ขององศาอย่างน้อยก็ในกรณีลม แต่ไม่มากนัก มีห้องสมุดไพ ธ อนหรือวิธีการที่เกี่ยวข้องที่อาจเป็นประโยชน์หรือไม่?

3
วิธีจำลองข้อมูลให้มีนัยสำคัญทางสถิติได้อย่างไร
ฉันอยู่เกรด 10 และฉันต้องการจำลองข้อมูลสำหรับโครงงานวิทยาศาสตร์การเรียนรู้ของเครื่อง ตัวแบบสุดท้ายจะใช้กับข้อมูลผู้ป่วยและจะทำนายความสัมพันธ์ระหว่างช่วงเวลาของสัปดาห์และผลกระทบที่มีต่อการรับประทานยาอย่างสม่ำเสมอภายในข้อมูลของผู้ป่วยรายเดียว ค่าการยึดมั่นจะเป็นเลขฐานสอง (0 หมายถึงพวกเขาไม่ได้ทานยา 1 หมายถึงพวกเขา) ฉันกำลังมองหาที่จะสร้างรูปแบบการเรียนรู้ของเครื่องซึ่งสามารถเรียนรู้จากความสัมพันธ์ระหว่างเวลาของสัปดาห์และแยกสัปดาห์ออกเป็นช่วงเวลา 21 ช่วงเวลาสามสัปดาห์ในแต่ละวัน (1 คือเช้าวันจันทร์ 2 วันจันทร์เป็นวันจันทร์ ฯลฯ ) ฉันต้องการจำลองข้อมูลผู้ป่วย 1,000 ราย ผู้ป่วยแต่ละรายจะมีข้อมูล 30 สัปดาห์ ฉันต้องการแทรกแนวโน้มบางอย่างที่เกี่ยวข้องกับช่วงเวลาหนึ่งสัปดาห์และยึดมั่น ตัวอย่างเช่น, ในชุดข้อมูลเดียวฉันอาจพูดได้ว่าช่วงเวลา 7 ของสัปดาห์มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติกับการยึดมั่น เพื่อให้ฉันตัดสินใจได้ว่าความสัมพันธ์นั้นมีนัยสำคัญทางสถิติหรือไม่ฉันต้องทำการทดสอบสองตัวอย่าง t-test เปรียบเทียบหนึ่งช่วงเวลากับแต่ละช่วงเวลาอื่น ๆ และให้แน่ใจว่าค่านัยสำคัญน้อยกว่า 0.05 อย่างไรก็ตามแทนที่จะเลียนแบบข้อมูลของฉันเองและตรวจสอบว่าแนวโน้มที่ฉันแทรกมีความสำคัญหรือไม่ฉันจะทำงานไปข้างหลังและอาจใช้โปรแกรมที่ฉันสามารถขอให้กำหนดช่วงเวลาหนึ่งให้กับแนวโน้มที่สำคัญด้วยการยึดมั่นและจะกลับมา ข้อมูลเลขฐานสองที่บรรจุอยู่ในแนวโน้มที่ฉันขอและยังเป็นข้อมูลไบนารีสำหรับช่วงเวลาอื่น ๆ ที่มีเสียงดังบ้าง แต่ไม่ได้สร้างแนวโน้มที่มีนัยสำคัญทางสถิติ มีโปรแกรมใดบ้างที่สามารถช่วยให้ฉันประสบความสำเร็จเช่นนี้ หรือบางทีโมดูลหลาม? ความช่วยเหลือใด ๆ (แม้ความคิดเห็นทั่วไปในโครงการของฉัน) จะได้รับการชื่นชมอย่างมาก !!

3
วิธีการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยโลจิสติก
ฉันใช้ Scikit เรียนรู้ของ Python ในการฝึกอบรมและทดสอบการถดถอยโลจิสติก scikit-Learn จะส่งกลับค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระ แต่ไม่ได้ให้ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ ฉันต้องการข้อผิดพลาดมาตรฐานเหล่านี้เพื่อคำนวณสถิติ Wald สำหรับค่าสัมประสิทธิ์แต่ละค่าและเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้กับแต่ละอื่น ๆ ฉันได้พบคำอธิบายวิธีการคำนวณข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของการถดถอยโลจิสติก ( ที่นี่ ) แต่มันค่อนข้างยากที่จะติดตาม หากคุณรู้วิธีอธิบายง่ายๆเกี่ยวกับการคำนวณข้อผิดพลาดมาตรฐานเหล่านี้และ / หรือสามารถให้ข้อผิดพลาดมาตรฐานกับฉันได้ฉันขอขอบคุณจริงๆ! ฉันไม่ได้หมายถึงรหัสเฉพาะ (แต่โปรดโพสต์รหัสใด ๆ ที่อาจเป็นประโยชน์) แต่เป็นคำอธิบายอัลกอริทึมของขั้นตอนที่เกี่ยวข้อง

3
จะลบตัวแปร collinear ใน Python อย่างเป็นระบบได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ป่านนี้ฉันได้ลบตัวแปร collinear เป็นส่วนหนึ่งของกระบวนการเตรียมข้อมูลโดยดูที่ตารางสหสัมพันธ์และกำจัดตัวแปรที่อยู่เหนือขีด จำกัด ที่แน่นอน มีวิธีที่ยอมรับมากขึ้นในการทำเช่นนี้? นอกจากนี้ฉันทราบว่าการดูความสัมพันธ์ระหว่างตัวแปร 2 ตัวต่อครั้งนั้นไม่เหมาะการวัดเช่น VIF คำนึงถึงความสัมพันธ์ที่อาจเกิดขึ้นกับตัวแปรหลายตัว เราจะเลือกชุดค่าผสมของตัวแปรที่ไม่แสดงความหลากหลายทางชีวภาพได้อย่างไร ฉันมีข้อมูลของฉันภายในกรอบข้อมูลแพนด้าและฉันใช้โมเดลของ sklearn

3
ฉันจะจำลองการพลิกจนกว่าจะประสบความสำเร็จ N ได้อย่างไร
คุณและฉันตัดสินใจที่จะเล่นเกมที่เราผลัดกันพลิกเหรียญ ผู้เล่นคนแรกที่พลิก 10 หัวรวมเป็นผู้ชนะในเกม โดยธรรมชาติมีข้อโต้แย้งว่าใครควรไปก่อน แบบจำลองของเกมนี้แสดงให้เห็นว่าผู้เล่นที่จะโยนครั้งแรกชนะ 6% มากกว่าผู้เล่นที่พลิกที่สอง (ผู้เล่นคนแรกชนะประมาณ 53% ของเวลา) ฉันสนใจในการสร้างแบบจำลองการวิเคราะห์นี้ นี่ไม่ใช่ตัวแปรสุ่มแบบทวินามเนื่องจากไม่มีการทดลองจำนวนคงที่ (พลิกจนกว่าจะมีใครได้รับ 10 หัว) ฉันจะทำแบบนี้ได้อย่างไร มันคือการกระจายตัวแบบทวินามลบหรือไม่ เพื่อที่จะสามารถสร้างผลลัพธ์ของฉันใหม่นี่คือรหัสหลามของฉัน: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += …

3
ในบรรดา Matlab และ Python ภาษาใดดีสำหรับการวิเคราะห์ทางสถิติ
ในบรรดา Matlab และ Python ภาษาใดดีสำหรับการวิเคราะห์ข้อมูลสถิติทั่วไป อะไรคือข้อดีข้อเสียนอกเหนือจากการเข้าถึงสำหรับแต่ละ?
17 matlab  python 

2
เป็นไปได้ไหมที่จะทำการพยากรณ์อนุกรมเวลาโดยอัตโนมัติ
ฉันต้องการสร้างอัลกอริทึมที่สามารถวิเคราะห์อนุกรมเวลาใด ๆ และ "อัตโนมัติ" เลือกวิธีการพยากรณ์แบบดั้งเดิม / สถิติที่ดีที่สุด (และพารามิเตอร์) สำหรับข้อมูลอนุกรมเวลาที่วิเคราะห์ เป็นไปได้ไหมที่จะทำอะไรแบบนี้ ถ้าใช่คุณสามารถให้คำแนะนำกับฉันเกี่ยวกับวิธีการนี้ได้หรือไม่?

1
Jenks Natural Breaks ใน Python: จะหาจำนวนการพักที่เหมาะสมได้อย่างไร
ฉันพบการใช้ PythonของอัลกอริทึมJenks Natural Breaksและฉันสามารถทำให้มันทำงานบนเครื่อง Windows 7 ของฉัน มันค่อนข้างเร็วและพบว่าตัวแบ่งในเวลาไม่กี่พิจารณาขนาดของ geodata ของฉัน ก่อนที่จะใช้อัลกอริทึมการจัดกลุ่มนี้สำหรับข้อมูลของฉันฉันใช้อัลกอริทึมsklearn.clustering.KMeans (ที่นี่) ปัญหาที่ฉันมีกับ KMeans คือการหาพารามิเตอร์ค่า K ที่เหมาะสม แต่ฉัน "แก้ไข" มันเปิดตัวอัลกอริทึมสำหรับค่า K ที่แตกต่างกันและการใช้sklearn.metrics.silhouette_score (ที่นี่)เพื่อค้นหาเคที่ดีที่สุด คำถามของฉันคือ: ถ้าฉันบอกอัลกอริธึมการแบ่งธรรมชาติเพื่อค้นหา 5 คลาส (นั่นคือ K) ฉันจะแน่ใจได้อย่างไรว่านี่เป็นจำนวนคลาสที่ตรงกับข้อมูลของฉันมากที่สุด ฉันจะตรวจสอบว่าฉันเลือกจำนวนการหยุดพักที่ดีที่สุดได้อย่างไร ขอบคุณ!

1
ในการถดถอยเชิงเส้นแบบหลายจุดเหตุใดพล็อตของจุดที่คาดการณ์ไม่ได้อยู่ในแนวเส้นตรง
ฉันใช้การถดถอยเชิงเส้นหลายเส้นเพื่ออธิบายความสัมพันธ์ระหว่าง Y และ X1, X2 จากทฤษฎีฉันเข้าใจว่าการถดถอยหลายครั้งถือว่าความสัมพันธ์เชิงเส้นระหว่าง Y กับแต่ละ X (Y และ X1, Y และ X2) ฉันไม่ได้ใช้การแปลง X ใด ๆ ดังนั้นฉันได้โมเดลที่มี R = 0.45 และ X สำคัญทั้งหมด (P <0.05) จากนั้นฉันวางแผน Y กับ X1 ฉันไม่เข้าใจว่าเพราะเหตุใดวงกลมสีแดงที่เป็นตัวทำนายของแบบจำลองจึงไม่ก่อตัวเป็นเส้น อย่างที่ฉันพูดไปก่อนหน้านี้ฉันคาดว่าแต่ละคู่ของ Y และ X จะถูกต่อด้วยเส้น พล็อตถูกสร้างในไพ ธ อนด้วยวิธีนี้: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.