วิธีหลีกเลี่ยงข้อผิดพลาด HTTP 429 (คำขอมากเกินไป) python

Question 1

ฉันพยายามใช้ Python เพื่อเข้าสู่เว็บไซต์และรวบรวมข้อมูลจากหลาย ๆ หน้าเว็บและฉันได้รับข้อผิดพลาดต่อไปนี้:

Traceback (most recent call last):
  File "extract_test.py", line 43, in <module>
    response=br.open(v)
  File "/usr/local/lib/python2.7/dist-packages/mechanize/_mechanize.py", line 203, in open
    return self._mech_open(url, data, timeout=timeout)
  File "/usr/local/lib/python2.7/dist-packages/mechanize/_mechanize.py", line 255, in _mech_open
    raise response
mechanize._response.httperror_seek_wrapper: HTTP Error 429: Unknown Response Code

ฉันใช้time.sleep()แล้วได้ผล แต่ดูเหมือนว่าไม่ฉลาดและไม่น่าเชื่อถือมีวิธีอื่นในการหลีกเลี่ยงข้อผิดพลาดนี้หรือไม่?

นี่คือรหัสของฉัน:

import mechanize
import cookielib
import re
first=("example.com/page1")
second=("example.com/page2")
third=("example.com/page3")
fourth=("example.com/page4")
## I have seven URL's I want to open

urls_list=[first,second,third,fourth]

br = mechanize.Browser()
# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

# Browser options 
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

# Log in credentials
br.open("example.com")
br.select_form(nr=0)
br["username"] = "username"
br["password"] = "password"
br.submit()

for url in urls_list:
        br.open(url)
        print re.findall("Some String")

Question 2

การรับสถานะ 429 ไม่ใช่ข้อผิดพลาดเซิร์ฟเวอร์อื่น "กรุณา" ขอให้คุณหยุดการร้องขอการส่งสแปม เห็นได้ชัดว่าอัตราคำขอของคุณสูงเกินไปและเซิร์ฟเวอร์ไม่เต็มใจที่จะยอมรับสิ่งนี้

คุณไม่ควรพยายาม "หลบเลี่ยง" สิ่งนี้หรือแม้แต่พยายามหลีกเลี่ยงการตั้งค่าความปลอดภัยของเซิร์ฟเวอร์โดยพยายามปลอมแปลง IP ของคุณคุณควรเคารพคำตอบของเซิร์ฟเวอร์โดยไม่ส่งคำขอมากเกินไป

หากตั้งค่าทุกอย่างถูกต้องคุณจะได้รับส่วนหัว "ลองอีกครั้ง" พร้อมกับคำตอบ 429 ส่วนหัวนี้ระบุจำนวนวินาทีที่คุณควรรอก่อนโทรออกอีกครั้ง วิธีที่เหมาะสมในการจัดการกับ "ปัญหา" นี้คือการอ่านส่วนหัวนี้และหยุดกระบวนการของคุณเป็นเวลาหลายวินาที

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับสถานะ 429 ได้ที่นี่: http://tools.ietf.org/html/rfc6585#page-3

Question 3

การเขียนโค้ดชิ้นนี้ช่วยแก้ปัญหาของฉัน:

requests.get(link, headers = {'User-agent': 'your bot 0.1'})

Question 4

ดังที่ MRA กล่าวไว้คุณไม่ควรพยายามหลบ429 Too Many Requestsแต่จัดการตามนั้นแทน คุณมีหลายทางเลือกขึ้นอยู่กับกรณีการใช้งานของคุณ:

1) นอนกระบวนการของคุณ โดยปกติเซิร์ฟเวอร์จะมีRetry-afterส่วนหัวในการตอบกลับพร้อมจำนวนวินาทีที่คุณควรรอก่อนที่จะลองใหม่ โปรดทราบว่าการหยุดทำงานของกระบวนการอาจทำให้เกิดปัญหาเช่นในคิวงานซึ่งคุณควรลองทำงานใหม่ในภายหลังเพื่อเพิ่มพื้นที่ว่างให้คนงานทำสิ่งอื่น ๆ

2) แบ็คออฟแบบเอ็กซ์โปเนนเชียล หากเซิร์ฟเวอร์ไม่แจ้งให้คุณทราบว่าต้องรอนานเท่าใดคุณสามารถลองคำขอของคุณอีกครั้งโดยใช้การหยุดเพิ่มขึ้นระหว่าง ขึ้นฉ่ายคิวงานยอดนิยมมีคุณสมบัตินี้ในตัว

3) ถัง Token เทคนิคนี้มีประโยชน์หากคุณทราบล่วงหน้าว่าคุณสามารถร้องขอได้กี่คำขอในเวลาที่กำหนด ทุกครั้งที่คุณเข้าถึง API คุณจะดึงโทเค็นจากที่เก็บข้อมูลเป็นครั้งแรก ถังจะถูกเติมในอัตราคงที่ หากที่เก็บข้อมูลว่างเปล่าคุณจะต้องรอก่อนที่จะกดปุ่ม API อีกครั้ง โดยปกติที่เก็บข้อมูลโทเค็นจะถูกนำไปใช้ในอีกด้านหนึ่ง (API) แต่คุณยังสามารถใช้เป็นพร็อกซีเพื่อหลีกเลี่ยงการได้รับไฟล์429 Too Many Requests. คุณลักษณะrate_limitของคื่นฉ่ายใช้อัลกอริธึมถังโทเค็น

นี่คือตัวอย่างของแอพ Python / Celery ที่ใช้ backoff แบบเอ็กซ์โปเนนเชียลและที่เก็บข้อมูล จำกัด อัตรา / โทเค็น:

class TooManyRequests(Exception):
"""Too many requests"""

@task(
   rate_limit='10/s',
   autoretry_for=(ConnectTimeout, TooManyRequests,),
   retry_backoff=True)
def api(*args, **kwargs):
  r = requests.get('placeholder-external-api')

  if r.status_code == 429:
    raise TooManyRequests()

Question 5

วิธีแก้ปัญหาอื่นคือการปลอมแปลง IP ของคุณโดยใช้ Public VPN หรือเครือข่าย Tor นี่จะถือว่าเป็นการ จำกัด อัตราบนเซิร์ฟเวอร์ที่ระดับ IP

มีบล็อกโพสต์สั้น ๆ ที่สาธิตวิธีการใช้ tor ร่วมกับ urllib2:

http://blog.flip-edesign.com/?p=119

Question 6

if response.status_code == 429:
  time.sleep(int(response.headers["Retry-After"]))

Question 7

ฉันพบวิธีแก้ปัญหาที่ดีในการบล็อก IPเมื่อคัดลอกไซต์ ช่วยให้คุณสามารถเรียกใช้ Scraper ได้อย่างไม่มีกำหนดโดยเรียกใช้จาก Google App Engine และปรับใช้ใหม่โดยอัตโนมัติเมื่อคุณได้รับ 429

ลองอ่านบทความนี้