Python ลบอักขระที่ไม่ใช่ตัวอักษรทั้งหมดออกจากสตริง

Question 1

ฉันกำลังเขียนโปรแกรม python MapReduce จำนวนคำ ปัญหาคือมีตัวอักษรที่ไม่ใช่ตัวอักษรจำนวนมากเกลื่อนอยู่ในข้อมูลฉันพบว่าโพสต์นี้ลอกทุกอย่างยกเว้นตัวอักษรและตัวเลขจากสตริงใน Pythonซึ่งแสดงวิธีแก้ปัญหาที่ดีโดยใช้ regex แต่ฉันไม่แน่ใจว่าจะใช้งานอย่างไร

def mapfn(k, v):
    print v
    import re, string 
    pattern = re.compile('[\W_]+')
    v = pattern.match(v)
    print v
    for w in v.split():
        yield w, 1

ฉันเกรงว่าจะไม่แน่ใจว่าจะใช้ไลบรารีreหรือแม้แต่นิพจน์ทั่วไปในเรื่องนั้นได้อย่างไร ฉันไม่แน่ใจว่าจะใช้รูปแบบนิพจน์ทั่วไปกับสตริงขาเข้า (บรรทัดของหนังสือ) อย่างไรvอย่างถูกต้องเพื่อดึงข้อมูลบรรทัดใหม่โดยไม่มีอักขระที่ไม่ใช่ตัวเลขและตัวอักษร

ข้อเสนอแนะ?

Question 2

ใช้ re.sub

import re

regex = re.compile('[^a-zA-Z]')
#First parameter is the replacement, second parameter is your input string
regex.sub('', 'ab3d*E')
#Out: 'abdE'

หรือหากคุณต้องการลบชุดอักขระบางตัวเท่านั้น (เป็นเครื่องหมายอะพอสทรอฟีในอินพุตของคุณอาจไม่เป็นไร ...

regex = re.compile('[,\.!?]') #etc.

Question 3

หากคุณไม่ต้องการใช้ regex คุณอาจลองใช้

''.join([i for i in s if i.isalpha()])

Question 4

คุณสามารถใช้ฟังก์ชัน re.sub () เพื่อลบอักขระเหล่านี้:

>>> import re
>>> re.sub("[^a-zA-Z]+", "", "ABC12abc345def")
'ABCabcdef'

re.sub (รูปแบบการจับคู่, แทนที่ STRING, STRING เพื่อค้นหา)

"[^a-zA-Z]+" - มองหากลุ่มอักขระที่ไม่ใช่ a-zA-z
"" - แทนที่อักขระที่ตรงกันด้วย ""

Question 5

ลอง:

s = ''.join(filter(str.isalnum, s))

สิ่งนี้จะนำทุกตัวอักษรออกจากสตริงโดยเก็บเฉพาะตัวอักษรและตัวเลขและสร้างสตริงกลับจากสตริง

Question 6

วิธีที่เร็วที่สุดคือ regex

#Try with regex first
t0 = timeit.timeit("""
s = r2.sub('', st)

""", setup = """
import re
r2 = re.compile(r'[^a-zA-Z0-9]', re.MULTILINE)
st = 'abcdefghijklmnopqrstuvwxyz123456789!@#$%^&*()-=_+'
""", number = 1000000)
print(t0)

#Try with join method on filter
t0 = timeit.timeit("""
s = ''.join(filter(str.isalnum, st))

""", setup = """
st = 'abcdefghijklmnopqrstuvwxyz123456789!@#$%^&*()-=_+'
""",
number = 1000000)
print(t0)

#Try with only join
t0 = timeit.timeit("""
s = ''.join(c for c in st if c.isalnum())

""", setup = """
st = 'abcdefghijklmnopqrstuvwxyz123456789!@#$%^&*()-=_+'
""", number = 1000000)
print(t0)


2.6002226710006653 Method 1 Regex
5.739747313000407 Method 2 Filter + Join
6.540099570000166 Method 3 Join

Question 7

ขอแนะนำให้ใช้โมดูล PyPiregexหากคุณวางแผนที่จะจับคู่คลาสคุณสมบัติ Unicode เฉพาะ ไลบรารีนี้ได้รับการพิสูจน์แล้วว่ามีเสถียรภาพมากขึ้นโดยเฉพาะการจัดการข้อความขนาดใหญ่และให้ผลลัพธ์ที่สอดคล้องกันในเวอร์ชัน Python ต่างๆ สิ่งที่คุณต้องทำคืออัปเดตอยู่เสมอ

หากคุณติดตั้ง (โดยใช้pip intall regexหรือpip3 install regex) คุณอาจใช้ไฟล์

import regex
print ( regex.sub(r'\P{L}+', '', 'ABCŁąć1-2!Абв3§4“5def”') )
// => ABCŁąćАбвdef

เพื่อเอาชิ้นทุก 1 หรือมากกว่าตัวละครอื่น ๆ กว่าตัวอักษร Unicode textจาก เห็นการสาธิตหลามออนไลน์ คุณอาจใช้"".join(regex.findall(r'\p{L}+', 'ABCŁąć1-2!Абв3§4“5def”'))เพื่อให้ได้ผลลัพธ์เดียวกัน

ใน Python reเพื่อให้ตรงกับตัวอักษร Unicode ใด ๆ อาจใช้[^\W\d_]โครงสร้าง ( ตรงกับตัวอักษร Unicode ใด ๆ ? )

ดังนั้นหากต้องการลบอักขระที่ไม่ใช่ตัวอักษรทั้งหมดคุณอาจจับคู่ตัวอักษรทั้งหมดและเข้าร่วมผลลัพธ์:

result = "".join(re.findall(r'[^\W\d_]', text))

หรือลบตัวอักษรทั้งหมดนอกเหนือจากที่จับคู่ด้วย [^\W\d_] :

result = re.sub(r'([^\W\d_])|.', r'\1', text, re.DOTALL)

ดูออนไลน์สาธิต regex อย่างไรก็ตามคุณอาจได้รับผลลัพธ์ที่ไม่สอดคล้องกันใน Python เวอร์ชันต่างๆเนื่องจากมาตรฐาน Unicode กำลังพัฒนาและชุดของอักขระที่จับคู่\wจะขึ้นอยู่กับเวอร์ชัน Python regexขอแนะนำให้ใช้ไลบรารีPyPi เพื่อให้ได้ผลลัพธ์ที่สม่ำเสมอ