คำถามติดแท็ก pandas

pandas เป็นห้องสมุด python สำหรับการจัดการข้อมูลและการวิเคราะห์แผงข้อมูลเช่นชุดข้อมูลแบบหลายมิติและชุดข้อมูลแบบตัดขวางที่พบได้ทั่วไปในสถิติผลการทดลองทางวิทยาศาสตร์เศรษฐมิติหรือการเงิน

11
ทำไมคนถึงชอบ Pandas ถึง SQL
ฉันใช้ SQL มาตั้งแต่ปี 1996 ดังนั้นฉันอาจจะลำเอียง ฉันใช้ MySQL และ SQLite 3 อย่างกว้างขวาง แต่ก็ใช้ Microsoft SQL Server และ Oracle ด้วย การดำเนินการส่วนใหญ่ที่ฉันเคยทำกับ Pandas นั้นสามารถทำได้ง่ายขึ้นด้วย SQL ซึ่งรวมถึงการกรองชุดข้อมูลการเลือกคอลัมน์เฉพาะสำหรับการแสดงนำฟังก์ชันไปใช้กับค่าและอื่น ๆ SQL มีข้อดีของการมีเครื่องมือเพิ่มประสิทธิภาพและการคงอยู่ของข้อมูล SQL ยังมีข้อความแสดงข้อผิดพลาดที่ชัดเจนและเข้าใจได้ นุ่นมี API ที่ค่อนข้างคลุมเครือซึ่งในบางครั้งก็เหมาะสมที่จะใช้เป็นหนึ่งเดียว[ stuff ]ครั้งอื่น ๆ ที่คุณต้องการและบางครั้งคุณจำเป็นต้องมี[[ stuff ]] .locส่วนหนึ่งของความซับซ้อนของนุ่นเกิดขึ้นจากความจริงที่ว่ามีการบรรทุกเกินพิกัดมากเกินไป ดังนั้นฉันจึงพยายามที่จะเข้าใจว่าทำไมนุ่นถึงได้รับความนิยม
69 pandas  sql 

1
ความแตกต่างระหว่าง isna () และ isnull () ใน pandas
ฉันใช้แพนด้ามานานแล้ว แต่ฉันไม่เข้าใจว่าอะไรคือความแตกต่างระหว่างisna()และisnull()ในนุ่น และที่สำคัญกว่านั้นคืออันไหนที่จะใช้สำหรับการระบุค่าที่หายไปในดาต้าเฟรม ความแตกต่างพื้นฐานพื้นฐานของวิธีการตรวจพบค่าเป็นอย่างใดอย่างหนึ่งnaหรือnullคืออะไร?

7
ValueError: อินพุตมี NaN, อินฟินิตี้หรือค่าใหญ่เกินไปสำหรับ dtype ('float32')
ฉันได้รับ ValueError เมื่อทำนายข้อมูลการทดสอบโดยใช้โมเดล RandomForest รหัสของฉัน: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) ข้อผิดพลาด: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). ฉันจะค้นหาค่าที่ไม่ดีในชุดข้อมูลการทดสอบได้อย่างไร นอกจากนี้ฉันไม่ต้องการลบบันทึกเหล่านี้ฉันสามารถแทนที่พวกเขาด้วยค่าเฉลี่ยหรือค่ามัธยฐาน? ขอบคุณ

3
การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น
ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

5
การเปิดไฟล์ 20GB สำหรับการวิเคราะห์ด้วยแพนด้า
ฉันกำลังพยายามเปิดไฟล์ที่มี pandas และ python เพื่อการเรียนรู้ของเครื่องมันจะเหมาะสำหรับฉันที่จะมีพวกเขาทั้งหมดใน DataFrame ตอนนี้ไฟล์มีขนาดใหญ่ 18GB และ RAM ของฉันคือ 32 GB แต่ฉันยังคงได้รับข้อผิดพลาดของหน่วยความจำ จากประสบการณ์ของคุณเป็นไปได้ไหม ถ้าคุณไม่ทราบวิธีที่ดีกว่าที่จะไปรอบ ๆ นี้? (ตารางรังผึ้งเพิ่มขนาด RAM ของฉันเป็น 64 สร้างฐานข้อมูลและเข้าถึงจากงูหลาม)

5
แปลงรายการของรายการเป็น Pandas Dataframe
ฉันพยายามที่จะแปลงรายการของรายการที่มีลักษณะดังนี้เป็น Pandas Dataframe [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] ฉันพยายามแปลงแต่ละรายการในอาเรย์เป็นกรอบข้อมูลแพนด้าซึ่งมีสี่คอลัมน์ อะไรจะเป็นวิธีที่ดีที่สุดในการทำเช่นนี้เนื่องจาก pd.Dataframe ไม่ได้ให้สิ่งที่ฉันกำลังมองหา
30 pandas 

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
มีวิธีที่ตรงไปตรงมาในการรัน pandas.DataFrame.isin แบบขนานหรือไม่?
ฉันมีโปรแกรมการสร้างแบบจำลองและการให้คะแนนที่ใช้ประโยชน์จากDataFrame.isinฟังก์ชั่นของหมีแพนด้าอย่างหนักโดยค้นหาจากรายการบันทึกของ Facebook "ชอบ" ของผู้ใช้แต่ละคนสำหรับแต่ละหน้าไม่กี่พันหน้า นี่คือส่วนที่ใช้เวลานานที่สุดของโปรแกรมมากกว่าการสร้างแบบจำลองหรือให้คะแนนชิ้นส่วนเพียงเพราะมันทำงานบนแกนเดียวเท่านั้นในขณะที่ส่วนที่เหลือทำงานบนสองสามโหลพร้อมกัน แม้ว่าฉันจะรู้ว่าฉันสามารถแบ่งดาต้าเฟรมออกเป็นชิ้น ๆ และดำเนินการแบบขนานได้เองมีวิธีที่ตรงไปตรงมาในการทำสิ่งนั้นโดยอัตโนมัติหรือไม่? กล่าวอีกนัยหนึ่งมีแพ็คเกจประเภทใดบ้างที่จะรับรู้ว่าฉันกำลังใช้งานที่ได้รับมอบหมายอย่างง่ายดายและแจกจ่ายโดยอัตโนมัติหรือไม่ บางทีนั่นอาจจะขอมากเกินไป แต่ฉันก็รู้สึกประหลาดใจมากพอในอดีตโดยสิ่งที่มีอยู่ใน Python ดังนั้นฉันคิดว่ามันคุ้มค่าที่จะถาม ข้อเสนอแนะอื่น ๆ เกี่ยวกับวิธีการนี้อาจสำเร็จ (แม้ว่าจะไม่ใช่แพ็คเกจยูนิคอร์นเวทมนตร์) ก็จะได้รับการชื่นชมเช่นกัน ส่วนใหญ่เพียงแค่พยายามหาวิธีกำจัด 15-20 นาทีต่อการวิ่งโดยไม่ต้องใช้เวลาพอสมควรในการเข้ารหัสโซลูชัน

5
ฉันจะเปรียบเทียบคอลัมน์ในเฟรมข้อมูลอื่นได้อย่างไร
ฉันต้องการเปรียบเทียบหนึ่งคอลัมน์ของ df กับ df อื่น ๆ คอลัมน์คือชื่อและนามสกุล ฉันต้องการตรวจสอบว่าบุคคลในเฟรมข้อมูลหนึ่งอยู่ในอีกเฟรมหนึ่งหรือไม่
23 pandas  dataframe 

2
วิธีหาผลรวมค่าจัดกลุ่มตามสองคอลัมน์ในนุ่น
ฉันมี Pandas DataFrame เช่นนี้: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 ฉันจะสร้าง DataFrame ใหม่เช่นนี้ได้อย่างไร: Date one …

4
จะเติมค่าที่ขาดหายไปตามคอลัมน์อื่น ๆ ใน Pandas dataframe ได้อย่างไร?
สมมติว่าฉันมีกรอบข้อมูล 5 * 3 ซึ่งคอลัมน์ที่สามมีค่าที่ขาดหายไป 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN ฉันหวังว่าจะสร้างมูลค่าสำหรับกฎตามมูลค่าที่ขาดหายไปซึ่งคอลัมน์ที่สองของผลิตภัณฑ์แรก 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6 30 <-- 5*6 ฉันจะใช้ data frame ได้อย่างไร? ขอบคุณ วิธีเพิ่มเงื่อนไขในการคำนวณมูลค่าที่ขาดหายไปเช่นนี้? if 1st % …
19 pandas 

3
มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?
ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
ตอนนี้แพนด้าเร็วกว่า data.table หรือไม่
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping มาตรฐานที่ data.table ยังไม่ได้รับการปรับปรุงตั้งแต่ปี 2014 ผมได้ยินมาว่าที่ใดที่หนึ่งคือตอนนี้เร็วกว่าPandas data.tableมันเป็นเรื่องจริงเหรอ? มีใครทำเปรียบเทียบบ้างไหม? ฉันไม่เคยใช้ Python มาก่อน แต่จะพิจารณาเปลี่ยนหากpandasสามารถเอาชนะได้data.tableหรือไม่
17 python  r  pandas  data  data.table 

8
จะนับจำนวนของค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร
ฉันจะรับจำนวนค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร ฉันต้องการแบ่งดาต้าไฟล์ให้เป็นดาต้าไฟล์อื่นที่มีจำนวนค่าหายไปเท่ากันในแต่ละแถว ข้อเสนอแนะใด ๆ
17 python  pandas 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.