เนื่องจากไม่มีสิ่งอื่นใดที่ซับซ้อนกว่านี้ฉันจึงอยากแบ่งปันสิ่งนี้เพราะมันช่วยฉันได้
นี่คือสิ่งที่ฉันใช้ในตอนแรก:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python'
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
print("{}".format(r.content))
ผลลัพธ์ที่ไม่ต้องการ:
b'<!DOCTYPE html>\r\n\r\n\r\n <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive">\r\n\r\n <head>\r\n\r\n <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>\r\n <link
นี่คือสิ่งที่ฉันเปลี่ยนเป็น:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python'
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
regex = r'\s+'
print("CNT: {}".format(re.sub(regex, " ", r.content.decode('utf-8'))))
ผลลัพธ์ที่ต้องการ:
<!DOCTYPE html> <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive"> <head> <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>
regex ที่แม่นยำที่ @MattH พูดถึงคือสิ่งที่ใช้ได้ผลสำหรับฉันในการปรับให้เข้ากับรหัสของฉัน ขอบคุณ!
หมายเหตุ: นี่คือ python3