ฉันมี dataframe df ขนาดใหญ่ (ประมาณ 12M แถว) พร้อมกับพูดว่า:
df.columns = ['word','documents','frequency']
ดังนั้นสิ่งต่อไปนี้จึงดำเนินไปอย่างทันท่วงที:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
อย่างไรก็ตามการดำเนินการนี้ใช้เวลานานโดยไม่คาดคิด:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
ฉันทำอะไรผิดที่นี่? มีวิธีที่ดีกว่าในการนับจำนวนเหตุการณ์ที่เกิดขึ้นในดาต้าเฟรมขนาดใหญ่หรือไม่?
df.word.describe()
ทำงานได้ดีดังนั้นฉันจึงไม่คาดว่าดาต้าเฟรมของ Occurrences_of_Words นี้จะใช้เวลาสร้างนานมาก
ps: หากคำตอบชัดเจนและคุณรู้สึกว่าจำเป็นต้องลงโทษฉันที่ถามคำถามนี้โปรดใส่คำตอบด้วย ขอบคุณ.
df.word.value_counts()['myword']
len(df[df.word == 'myword'])