คำถามติดแท็ก dataframe

1
ความแตกต่างระหว่าง isna () และ isnull () ใน pandas
ฉันใช้แพนด้ามานานแล้ว แต่ฉันไม่เข้าใจว่าอะไรคือความแตกต่างระหว่างisna()และisnull()ในนุ่น และที่สำคัญกว่านั้นคืออันไหนที่จะใช้สำหรับการระบุค่าที่หายไปในดาต้าเฟรม ความแตกต่างพื้นฐานพื้นฐานของวิธีการตรวจพบค่าเป็นอย่างใดอย่างหนึ่งnaหรือnullคืออะไร?

5
ฉันจะเปรียบเทียบคอลัมน์ในเฟรมข้อมูลอื่นได้อย่างไร
ฉันต้องการเปรียบเทียบหนึ่งคอลัมน์ของ df กับ df อื่น ๆ คอลัมน์คือชื่อและนามสกุล ฉันต้องการตรวจสอบว่าบุคคลในเฟรมข้อมูลหนึ่งอยู่ในอีกเฟรมหนึ่งหรือไม่
23 pandas  dataframe 

2
วิธีหาผลรวมค่าจัดกลุ่มตามสองคอลัมน์ในนุ่น
ฉันมี Pandas DataFrame เช่นนี้: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 ฉันจะสร้าง DataFrame ใหม่เช่นนี้ได้อย่างไร: Date one …

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
ค้นหาศูนย์ติดต่อกันใน DataFrame และทำการแทนที่ตามเงื่อนไข
ฉันมีชุดข้อมูลเช่นนี้: ตัวอย่าง Dataframe import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) ฉันต้องการแทนที่บางส่วน0ในcol1และcol2ด้วย1's แต่ไม่แทนที่0' s หากสามหรือมากกว่า0อยู่ติดกันในคอลัมน์เดียวกัน วิธีนี้สามารถทำได้กับแพนด้า ชุดข้อมูลดั้งเดิม: names col1 col2 A 0 0 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.