นับจำนวนอักขระที่เกิดขึ้นในสตริง


954

วิธีที่ง่ายที่สุดในการนับจำนวนที่เกิดขึ้นของตัวละครในสตริงคืออะไร?

เช่นนับจำนวนครั้งที่'a'ปรากฏใน'Mary had a little lamb'

คำตอบ:


1332

str.count (sub [, start [, end]])

กลับจำนวนของการเกิดขึ้นไม่ทับซ้อนกันของอักขระย่อยในช่วงsub [start, end]อาร์กิวเมนต์ที่เป็นทางเลือกstartและendถูกตีความเช่นเดียวกับในเครื่องหมายชิ้น

>>> sentence = 'Mary had a little lamb'
>>> sentence.count('a')
4


112

ในฐานะที่เป็นคำตอบอื่น ๆ กล่าวว่าการใช้วิธีการนับสตริง () น่าจะเป็นง่าย แต่ถ้าคุณกำลังทำเช่นนี้บ่อยตรวจสอบcollections.Counter :

from collections import Counter
my_str = "Mary had a little lamb"
counter = Counter(my_str)
print counter['a']

15
ทำไมจึงดีกว่านี้เมื่อใช้บ่อย ข้อดีคืออะไร
meshy

21
หากคุณต้องการการนับจำนวนตัวอักษรจำนวนมากในสตริงที่กำหนด Counter ให้พวกเขาทั้งหมดในรูปแบบรวบรัดยิ่งขึ้น หากคุณต้องการนับสำหรับตัวอักษรหนึ่งตัวจากสตริงที่แตกต่างกันมากมายตัวนับจะไม่ให้ประโยชน์
Brenden Brown

2
สำหรับอินสแตนซ์นี้โดยเฉพาะอย่างยิ่งการนับอักขระ สำหรับการค้นหาอินสแตนซ์ของสตริงย่อยที่ระบุฉันจะใช้นิพจน์ทั่วไปหรือเมธอด str.count () ฉันยังไม่ได้ทดสอบ แต่อาจมีความแตกต่างด้านประสิทธิภาพเนื่องจากมีค่าใช้จ่ายเล็กน้อยในการนับตัวอักษรทั้งหมดและต่อท้ายพจนานุกรมแทนที่จะนับจำนวนสตริงย่อยเดียวที่เกิดขึ้น ฉันขอแนะนำให้เขียนสคริปต์เพื่อสร้างไฟล์ที่มีความยาวมากเพื่อค้นหาและดำเนินการกำหนดเวลาของแต่ละวิธี
Daniel B.

5
ข้อได้เปรียบเมื่อใช้บ่อยคือตัวนับจะคำนวณการนับทั้งหมดหนึ่งครั้งซึ่งเกือบจะเร็วเท่ากับการทำ mystring.count ('a') ในครั้งเดียว ดังนั้นหากคุณทำเช่นนี้ 20 ครั้งคุณจะประหยัดเวลาในการคำนวณได้ 10 เท่า ตัวนับยังสามารถบอกคุณได้ว่ารายการนั้นอยู่ในสตริงหรือไม่ตัวอย่างเช่นถ้าตัว 'a' ในตัวนับ:
BAMF4bacon

51

อาจจะแสดงออกปกติ?

import re
my_string = "Mary had a little lamb"
len(re.findall("a", my_string))

30
ความคิดที่ดี แต่ overkill ในกรณีนี้ วิธีการสตริง 'count' ทำสิ่งเดียวกันกับโบนัสที่เพิ่มเข้ามาของการเป็นที่ชัดเจนทันทีเกี่ยวกับสิ่งที่มันกำลังทำ
nilamo

18
ทำไมอัตราการลบอาจจะมีคนต้องการรหัสประเภทนี้สำหรับสิ่งที่คล้ายกัน คะแนนของฉันเพิ่มขึ้น
kiltek

12
สิ่งนี้ควรถูกลดระดับลงเนื่องจากเป็นวิธีที่มีประสิทธิภาพน้อยที่สุดในการนับจำนวนอักขระในสตริง หากเป้าหมายเป็นเพียงการนับตัวอักษรตามที่คำถามบ่งชี้ว่ามันยากที่จะหาวิธีที่เลวร้ายกว่าในการทำงาน ในแง่ของหน่วยความจำและโอเวอร์เฮดของโปรเซสเซอร์โซลูชันนี้จะหลีกเลี่ยงได้อย่างแน่นอน ไม่มีใคร "ต้องการ" ที่จะใช้วิธีนี้เพื่อค้นหาจำนวนตัวอักษรในสตริง
Christopher

1
@kiltek แน่นอนตัวอย่างเล็ก ๆ น้อย ๆ นี้มีประโยชน์กับฉันด้วยการแสดงออกปกติซับซ้อนกว่าเล็กน้อย
Speccy

วิธีแก้ปัญหาที่ดีเมื่อไม่มีวิธีการสตริง:len(re.findall('1',bin(10)))
Conor


16

หลาม 3.x:

"aabc".count("a")

str.count (sub [, start [, end]])

ส่งคืนจำนวนการเกิดซับสตริงย่อยที่ไม่ทับซ้อนกันในช่วง [start, end] อาร์กิวเมนต์ที่เป็นตัวเลือกเริ่มต้นและสิ้นสุดถูกตีความเช่นเดียวกับสัญกรณ์ชิ้น


13

str.count(a)เป็นทางออกที่ดีที่สุดในการนับอักขระเดียวในสตริง แต่ถ้าคุณต้องการนับจำนวนตัวอักษรมากขึ้นคุณจะต้องอ่านจำนวนอักขระทั้งหมดที่คุณต้องการนับ

แนวทางที่ดีกว่าสำหรับงานนี้คือ:

from collections import defaultdict

text = 'Mary had a little lamb'
chars = defaultdict(int)

for char in text:
    chars[char] += 1

ดังนั้นคุณจะมีพจน์ที่ส่งคืนจำนวนการเกิดของตัวอักษรทุกตัวในสตริงและ0หากไม่มีอยู่

>>>chars['a']
4
>>>chars['x']
0

สำหรับตัวนับที่ไม่คำนึงถึงขนาดตัวพิมพ์คุณสามารถแทนที่เมธอด mutator และ accessor โดยการทำ subclassing defaultdict( คลาสพื้นฐาน 'เป็นแบบอ่านอย่างเดียว)

class CICounter(defaultdict):
    def __getitem__(self, k):
        return super().__getitem__(k.lower())

    def __setitem__(self, k, v):
        super().__setitem__(k.lower(), v)


chars = CICounter(int)

for char in text:
    chars[char] += 1

>>>chars['a']
4
>>>chars['M']
2
>>>chars['x']
0

โดยทั่วไปคุณกำลังปรับใช้Counterซึ่งเป็นชั้นเรียนcollectionsแล้ว
merv

@erv ไม่ได้จริงๆ Counterเป็นอ้วนมากขึ้นระดับหลามบริสุทธิ์และdefaultdict's __missing__ถูกเขียนใน C สำหรับงานง่าย ๆ เช่นนี้ ( intถูกนำไปใช้ใน C) วิธีการนี้จะช้ากว่าเล็กน้อย
Nuno André

11

ฟังก์ชันที่ง่ายและตรงไปตรงมานี้อาจช่วย:

def check_freq(x):
    freq = {}
    for c in x:
       freq[c] = str.count(c)
    return freq

check_freq("abbabcbdbabdbdbabababcbcbab")
{'a': 7, 'b': 14, 'c': 3, 'd': 3}

3
strคุณกำลังแชโดว์ หากคุณตั้งชื่อตัวแปรให้strไม่ใช่ประเภทในตัวอีกต่อไป นอกจากนี้คุณกำลังนับสิบสี่ของสิบสี่ครั้ง คุณสามารถหลีกเลี่ยงที่เพียงโดยการเปลี่ยนด้วยfor c in text for c in set(text)
Nuno André

10

นิพจน์ทั่วไปนั้นมีประโยชน์มากหากคุณต้องการตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ (และแน่นอนว่าพลังทั้งหมดของ regex)

my_string = "Mary had a little lamb"
# simplest solution, using count, is case-sensitive
my_string.count("m")   # yields 1
import re
# case-sensitive with regex
len(re.findall("m", my_string))
# three ways to get case insensitivity - all yield 2
len(re.findall("(?i)m", my_string))
len(re.findall("m|M", my_string))
len(re.findall(re.compile("m",re.IGNORECASE), my_string))

โปรดทราบว่ารุ่น regex ใช้เวลาในการรันนานสิบเท่าซึ่งน่าจะเป็นปัญหาเฉพาะเมื่อ my_string ยาวมากหรือรหัสอยู่ในลูปลึก


1
Regex เกินความจริงถ้าคุณแค่พยายามแก้ไขความอ่อนไหว my_sting.lower (). count ('m') มีประสิทธิภาพมากกว่าชัดเจนและกระชับยิ่งขึ้น
Ogre Codes



2

ทางเลือกในการรับทั้งหมดนับตัวละครโดยไม่ต้องใช้Counter(), countและ regex

counts_dict = {}
for c in list(sentence):
  if c not in counts_dict:
    counts_dict[c] = 0
  counts_dict[c] += 1

for key, value in counts_dict.items():
    print(key, value)

1

countเป็นวิธีที่รัดกุมและมีประสิทธิภาพมากที่สุดในการนับการเกิดของตัวละครในสตริง แต่ฉันพยายามหาวิธีแก้ปัญหาโดยใช้lambdaสิ่งต่อไปนี้:

sentence = 'Mary had a little lamb'
sum(map(lambda x : 1 if 'a' in x else 0, sentence))

สิ่งนี้จะส่งผลให้:

4

inนอกจากนี้ยังมีข้อได้เปรียบมากขึ้นในการนี้คือถ้าประโยคคือรายการย่อยสตริงที่มีตัวอักษรเดียวกันกับข้างต้นแล้วยังนี้จะช่วยให้ผลที่ถูกต้องเพราะการใช้งานของ ไปดูกัน:

sentence = ['M', 'ar', 'y', 'had', 'a', 'little', 'l', 'am', 'b']
sum(map(lambda x : 1 if 'a' in x else 0, sentence))

สิ่งนี้ยังส่งผลให้:

4

แต่แน่นอนว่าสิ่งนี้จะใช้ได้เฉพาะเมื่อตรวจสอบการเกิดขึ้นของอักขระเดี่ยวเช่น'a'ในกรณีนี้โดยเฉพาะ


0

"โดยไม่ต้องใช้จำนวนเพื่อค้นหาคุณต้องการตัวละครในสตริง" วิธีการ

import re

def count(s, ch):

   pass

def main():

   s = raw_input ("Enter strings what you like, for example, 'welcome': ")  

   ch = raw_input ("Enter you want count characters, but best result to find one character: " )

   print ( len (re.findall ( ch, s ) ) )

main()

7
ทำไมฟังก์ชั่นการนับที่ว่างเปล่า? ทำไมฟังก์ชั่น main ()? ทำไมพื้นที่น่าเกลียดทุกที่? นี่ไม่ใช่คำตอบที่ดี
bugmenot123

0

ฉันเป็นแฟนของห้องสมุดแพนด้าโดยเฉพาะอย่างยิ่งvalue_counts()วิธีการ คุณสามารถใช้มันเพื่อนับการเกิดขึ้นของตัวละครแต่ละตัวในสตริงของคุณ:

>>> import pandas as pd
>>> phrase = "I love the pandas library and its `value_counts()` method"
>>> pd.Series(list(phrase)).value_counts()
     8
a    5
e    4
t    4
o    3
n    3
s    3
d    3
l    3
u    2
i    2
r    2
v    2
`    2
h    2
p    1
b    1
I    1
m    1
(    1
y    1
_    1
)    1
c    1
dtype: int64


-1

Python 3

เธอมีสองวิธีในการบรรลุเป้าหมายนี้:

1) มีฟังก์ชันในตัวนับ ()

sentence = 'Mary had a little lamb'
print(sentence.count('a'))`

2) โดยไม่ต้องใช้ฟังก์ชั่น

sentence = 'Mary had a little lamb'    
count = 0

for i in sentence:
    if i == "a":
        count = count + 1

print(count)

-2

ไม่เกิน IMHO นี้ - คุณสามารถเพิ่มวิธีการบนหรือล่าง

def count_letter_in_str(string,letter):
    return string.count(letter)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.