คำถามติดแท็ก python

Python เป็นภาษาโปรแกรมที่ใช้กันทั่วไปสำหรับการเรียนรู้ของเครื่อง ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (a) เกี่ยวข้องกับ "Python" ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่ * เพียง * เกี่ยวกับวิธีใช้ `Python '

2
การเลือกคุณสมบัติพร้อมป่าสุ่ม
ฉันมีชุดข้อมูลที่มีตัวแปรทางการเงินเป็นส่วนใหญ่ (คุณสมบัติ 120 ตัวอย่าง 4k) ซึ่งส่วนใหญ่มีความสัมพันธ์สูงและมีเสียงดังมาก (ตัวชี้วัดทางเทคนิคเป็นต้น) ดังนั้นฉันต้องการเลือกสูงสุด 20-30 สำหรับใช้ในภายหลังกับการฝึกอบรมแบบจำลอง - เพิ่ม / ลด) ฉันกำลังคิดเกี่ยวกับการใช้ฟอเรสต์แบบสุ่มเพื่อจัดอันดับคุณลักษณะ มันเป็นความคิดที่ดีไหมที่จะใช้มันซ้ำ ๆ ? ตัวอย่างเช่นสมมติว่าในรอบแรกฉันลดระดับที่แย่ที่สุด 20% ที่สองเช่นกันไปเรื่อย ๆ จนกว่าฉันจะได้รับคุณสมบัติตามที่ต้องการ ฉันควรใช้การตรวจสอบข้ามกับ RF หรือไม่ (เป็นเรื่องง่ายสำหรับฉันที่จะไม่ใช้ CV เพราะมันเป็นสิ่งที่ RF ทำอยู่แล้ว) นอกจากนี้ถ้าฉันใช้ฟอเรสต์แบบสุ่มฉันควรใช้มันเป็นตัวแยกประเภทสำหรับไบนารี่หรือรีจิสเตอร์สำหรับการเพิ่ม / ลดจริง ๆ เพื่อรับการนำเข้าคุณลักษณะ? ยังไงก็ตามแบบจำลองที่ฉันต้องการลองหลังจากการเลือกคุณสมบัติคือ: SVM, ตาข่ายประสาท, การถดถอยแบบถ่วงน้ำหนักในพื้นที่และฟอเรสต์แบบสุ่ม ฉันทำงานเป็นหลักใน Python

3
ตัวแปร Collinear ในการฝึกอบรม LDA หลายระดับ
ฉันฝึกอบรมลักษณนามหลายระดับ LDA กับ8 ชั้นเรียนของข้อมูล ขณะทำการฝึกซ้อมฉันได้รับคำเตือนว่า: " Variables are collinear " ฉันได้รับการฝึกอบรมมีความถูกต้องมากกว่า90% ฉันใช้ห้องสมุดscikits-LearnในPythonทำการฝึกอบรมและทดสอบข้อมูลหลายคลาส ฉันได้รับความแม่นยำในการทดสอบที่ดีเช่นกัน (ประมาณ85% -95% ) ฉันไม่เข้าใจว่าข้อผิดพลาด / คำเตือนหมายถึงอะไร กรุณาช่วยฉันออกไป.

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

3
ความแตกต่างระหว่าง statsmodel OLS และ scikit การถดถอยเชิงเส้น
ฉันมีคำถามเกี่ยวกับวิธีการที่แตกต่างกันสองวิธีจากห้องสมุดที่แตกต่างกันซึ่งดูเหมือนจะทำงานเดียวกัน ฉันกำลังพยายามสร้างแบบจำลองการถดถอยเชิงเส้น นี่คือรหัสที่ฉันใช้ห้องสมุด statsmodel กับ OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared เอกสารนี้พิมพ์GFT + Wiki / GT R-squared 0.981434611923 และอันที่สองคือ scikit Learn library วิธีการโมเดลเชิงเส้น: model = LinearRegression() model.fit(X_train, y_train) …

2
ความแตกต่างระหว่างการเลือกคุณสมบัติตาม“ F ถดถอย” และขึ้นอยู่กับค่า ?
การเปรียบเทียบคุณสมบัติต่าง ๆ โดยใช้คุณลักษณะF-regressionเดียวกับการเชื่อมโยงคุณสมบัติกับฉลากแต่ละรายการและการสังเกตค่าหรือไม่R2R2R^2 ฉันมักจะเห็นเพื่อนร่วมงานของฉันใช้F regressionสำหรับการเลือกคุณสมบัติในการเรียนรู้ของเครื่องจากsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` บางคนบอกฉัน - ทำไมมันให้ผลลัพธ์เช่นเดียวกับที่สัมพันธ์กับตัวแปรฉลาก / depedendent? ข้อได้เปรียบของการใช้งานF_regressionในการเลือกคุณสมบัติ ไม่ชัดเจนสำหรับฉัน นี่คือรหัสของฉัน: ฉันใช้mtcarsชุดข้อมูลจากR: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical …

2
แสดงค่าเฉลี่ยแทนค่ามัธยฐานใน boxplot [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 เดือนที่ผ่านมา เมื่อพล็อตพล็อต boxplot ด้วย python matplotblib บรรทัดที่ครึ่งทางของพล็อตคือค่ามัธยฐานของการแจกแจง มีความเป็นไปได้ที่จะมีเส้นตรงแทนค่าเฉลี่ย หรือจะพล็อตติดกับมันในสไตล์ที่แตกต่าง นอกจากนี้เนื่องจากเป็นเรื่องปกติที่บรรทัดจะเป็นค่ามัธยฐานมันจะทำให้ผู้อ่านสับสนหรือไม่ถ้าฉันทำให้มันเป็นค่าเฉลี่ย (นอกหลักสูตรฉันจะเพิ่มข้อความว่าเส้นกลางคืออะไร) หรือไม่

3
การถดถอยโลจิสติก: Scikit Learn vs glmnet
ฉันพยายามทำซ้ำผลลัพธ์จากsklearnไลบรารีถดถอยโลจิสติกโดยใช้glmnetแพคเกจใน R จากเอกสารsklearnการถดถอยโลจิสติกพยายามลดฟังก์ชั่นค่าใช้จ่ายภายใต้บทลงโทษ l2 ขั้นต่ำw , c 1minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw + c ) ) + 1)minw,ค12wTW+คΣผม=1ยังไม่มีข้อความเข้าสู่ระบบ⁡(ประสบการณ์⁡(-Yผม(XผมTW+ค))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) จากสะเปะสะปะของglmnetการดำเนินงานของฟังก์ชั่นช่วยลดค่าใช้จ่ายแตกต่างกันเล็กน้อย นาทีβ, β0- [ 1ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความYผม( β0+ xTผมβ) - บันทึก( 1 + e( β0+ xTผมβ)) ] + λ [ ( α - 1 ) | | β| |22/ …

1
ฉันจะตีความเมทริกซ์ความแปรปรวนร่วมได้อย่างไรจากเส้นโค้งที่พอดี
ฉันไม่ค่อยเก่งเรื่องสถิติดังนั้นขอโทษถ้านี่เป็นคำถามง่าย ๆ ฉันกำลังกระชับโค้งให้ข้อมูลบางส่วนและบางครั้งข้อมูลของฉันพอดีดีที่สุดชี้แจงเชิงลบในรูปแบบ* E ( - ข* x ) + Cและบางครั้งพอดีอยู่ใกล้กับ* E ( - ข* x 2 ) +ค อย่างไรก็ตามบางครั้งทั้งสองล้มเหลวและฉันต้องการที่จะถอยกลับไปเป็นแบบเชิงเส้น คำถามของฉันคือฉันจะทราบได้อย่างไรว่าแบบจำลองใดที่เหมาะกับข้อมูลชุดใดชุดหนึ่งที่ดีที่สุดจากเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมที่ส่งคืนจากa ∗ e( - b ∗ x )+ ca* * * *อี(-ข* * * *x)+คa * e^{(-b * x)} + ca ∗ e( - b ∗ x2)+ ca* …

3
จะลงจุดข้อมูลเอาต์พุตของการทำคลัสเตอร์ได้อย่างไร
ฉันพยายามจัดกลุ่มชุดข้อมูล (ชุดเครื่องหมาย) และมี 2 กลุ่ม ฉันต้องการที่จะเป็นตัวแทนกราฟิก บิตสับสนเกี่ยวกับการเป็นตัวแทนเนื่องจากฉันไม่มีพิกัด (x, y) กำลังมองหาฟังก์ชัน MATLAB / Python สำหรับการทำเช่นนั้น แก้ไข ฉันคิดว่าการโพสต์ข้อมูลทำให้คำถามชัดเจนขึ้น ฉันมีสองกลุ่มที่ฉันทำโดยใช้การจัดกลุ่ม kmeans ใน Python (ไม่ใช้ scipy) พวกเขาเป็น class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, …

3
ทดสอบว่าการกระจายหลายมิติเหมือนกันหรือไม่
ให้บอกว่าฉันมีประชากรตัวอย่างสองตัวหรือมากกว่าของเวกเตอร์ที่มีมูลค่าต่อเนื่องแบบมิติ n มีวิธีที่ไม่ใช้พารามิเตอร์เพื่อทดสอบว่าตัวอย่างเหล่านี้มาจากการแจกแจงแบบเดียวกันหรือไม่? ถ้าเป็นเช่นนั้นจะมีฟังก์ชั่นใน R หรือหลามนี้หรือไม่?

2
การสุ่มตัวอย่างจากการแจกแจง von Mises-Fisher ใน Python?
ฉันกำลังมองหาวิธีง่ายๆในการสุ่มตัวอย่างจากการแจกแจงหลายตัวแปร von Mises-Fisherใน Python ฉันได้ดูในโมดูลสถิติใน scipyและโมดูล numpyแต่พบการกระจาย von Mises univariate เท่านั้น มีรหัสอะไรบ้าง? ฉันยังไม่พบ เห็นได้ชัดว่า Wood (1994) ได้ออกแบบอัลกอริทึมสำหรับการสุ่มตัวอย่างจากการกระจาย vMF ตามลิงค์นี้แต่ฉันไม่พบกระดาษ - แก้ไขเพื่อความแม่นยำฉันสนใจอัลกอริทึมที่หายากในวรรณกรรม (เอกสารส่วนใหญ่เน้นที่ ) บทความ seminal (Wood, 1994) ไม่สามารถพบได้ฟรีสำหรับความรู้ของฉันS2S2S^2

1
การกระจายเบต้าที่เหมาะสมใน Scipy
ตามที่วิกิพีเดียการกระจายเบต้าน่าจะมีสองพารามิเตอร์รูปร่าง: และβαα\alphaββ\beta เมื่อฉันโทรscipy.stats.beta.fit(x)ใน Python xจะมีการคืนค่าจำนวนพวงในช่วง , 4 ค่า สิ่งนี้ทำให้ฉันประหลาด[ 0 , 1 ][0,1][0,1] หลังจาก googling ผมพบว่าหนึ่งในค่าที่ส่งกลับมาจะต้องเป็น 'ตั้ง' เนื่องจากตัวแปรที่สามคือ 0 scipy.stats.beta.fit(x, floc=0)ถ้าผมโทร ไม่มีใครรู้ว่าสิ่งที่ตัวแปรที่สี่คือและถ้าสองคนแรกคือและβ ?αα\alphaββ\beta

1
การวิเคราะห์ความอ่อนไหวในโครงข่ายประสาทลึก
คำถามต่อไปนี้ได้ตอบแล้ว (การดึงความสำคัญของน้ำหนักจากเครือข่ายฟีดไปข้างหน้าหนึ่งชั้น ) ฉันกำลังมองหาการอนุมานเกี่ยวกับความเกี่ยวข้องของอินพุตในเครือข่ายประสาท เมื่อพิจารณาถึงเครือข่ายที่ลึกซึ่งการสร้างความสำคัญของอินพุตใหม่โดยการย้อนกลับผ่านชั้นจากโหนดผลลัพธ์ที่น่าสนใจอาจเป็นเรื่องยากหรือใช้เวลานาน ป้อนข้อมูลและพิจารณาวิธีการที่โหนด ouptut เปลี่ยนแปลงความสนใจ มีวิธีที่ยอมรับได้ของการวิเคราะห์ความไวในเครือข่ายประสาทหรือไม่? ฉันยินดีต้อนรับรหัส Python ให้ทำเช่นนั้นหากมี

1
การใช้ iloc เพื่อตั้งค่า [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บรรทัดนี้ส่งกลับ 4 แถวแรกใน dataframe combinedสำหรับfeature_a combined.iloc[0:4]["feature_a"] ตามที่คาดไว้บรรทัดถัดไปนี้จะส่งคืนแถวที่ 2, 4 และ 16 ใน dataframe สำหรับคอลัมน์feature_a: combined.iloc[[1,3,15]]["feature_a"] บรรทัดนี้กำหนด 4 แถวแรกใน dataframe สำหรับการfeature_a77 combined.iloc[0:4]["feature_a"] = 77 บรรทัดนี้ทำอะไรบางอย่าง การคำนวณบางอย่างเกิดขึ้นเนื่องจากใช้เวลานานขึ้นเมื่อใช้กับรายการที่ยาวขึ้น combined.iloc[[1,3,15]]["feature_a"] = 88 แถวที่ 2, 4 และ 16 ไม่ได้ถูกตั้งค่าเป็น88เมื่อตรวจสอบกับสิ่งนี้: combined.iloc[[1,3,15]]["feature_a"] ฉันจะตั้งค่ารายการแถวของคอลัมน์ในคอลัมน์ใด ๆ ให้เป็นค่าโดยไม่ต้องมีการเข้ารหัสขนาดใหญ่ได้อย่างไร สถานการณ์นี้ดูเหมือนว่าควรตรงไปตรงมาและเป็นเรื่องธรรมดา
13 python  pandas 

2
เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?
ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.