นี่เป็นเหตุการณ์ที่เปลี่ยนแปลงอย่างรวดเร็วซึ่งยังไม่มีคำตอบ
โปรดอย่าโพสต์ข้อค้นพบหรือข้อสันนิษฐานของคุณเป็นคำตอบ จองฟิลด์คำตอบเมื่อคุณมีคำตอบจริง
หากคุณมีสิ่งใหม่ที่จะเพิ่มโปรดแก้ไขโดยตรงในคำถาม
ตั้งแต่ต้นปีฉันได้รับปริมาณข้อมูลจำนวนมากกับตัวแทนผู้ใช้:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
บันทึกการเข้าถึงของฉันแสดง 40% - 60% จากตัวแทนผู้ใช้นั้น แปลกเพราะตัวแทนผู้ใช้แจ้ง Firefox เบราว์เซอร์ 3.0.10 (มีใครใช้เบราว์เซอร์นั้นในปี 2012 หรือไม่ 40% -60% ของผู้เยี่ยมชมในเว็บไซต์ปกติ)
นอกจากนี้บันทึกแสดงว่าตัวแทนผู้ใช้นี้ขอเอกสาร HTML เท่านั้นและไม่มีเนื้อหาที่อ้างอิงเช่นรูปภาพ, ไฟล์ css, js
ฉันตรวจสอบ IP ของคำขอเหล่านั้น (กับ UA นั้น) มันมาจากทั่วทุกมุมโลก ฉันยอมรับว่าบางครั้ง IP เหล่านั้นมีตัวแทนผู้ใช้โทรศัพท์มือถือ
ดังนั้นความสงสัยของฉันจึงเป็นแอพมือถือที่ทำ "การร้องขอไปเดอร์" จำนวนมาก มันเป็นการดีที่จะทราบสาเหตุของการรับส่งข้อมูลจากตัวแทนผู้ใช้นั้น
ใครสามารถระบุสาเหตุที่แท้จริงได้
ในสองสามสัปดาห์ที่ผ่านมาเราทราบดีว่าปริมาณการใช้ข้อมูลจาก UA นั้นลดลงและปริมาณการใช้งานอื่น ๆ เพิ่มขึ้น ดูเหมือนว่าบ็อต / ซอฟต์แวร์รวบรวมข้อมูลตอนนี้ใช้ UA ที่ใช้กันทั่วไปมากกว่าดังนั้นจึงเป็นการยากที่จะบล็อก ฉันเห็นคนอื่นพูดว่าในการตอบคำถามนี้ แต่ถูกลบเมื่อเซิร์ฟเวอร์ผิดตัดสินใจที่จะจัดคำถามนี้อีกครั้ง
คำตอบเก่า ๆ เป็นข้อมูลอ้างอิง
อัปเดตจากDee
ฉันเปิดเว็บไซต์ที่มีการดูแลการค้ามนุษย์ค่อนข้างสูงและฉันเห็นสิ่งเดียวกันนี้ในบันทึก apache ของเราเมื่อเดือนที่แล้ว (ฉันยังไม่มีโอกาสตรวจสอบอีกต่อไป) 40% ของคำขอทั้งหมดคือเปอร์เซ็นต์ที่ฉันเห็นซึ่งก็คือถั่วอย่างชัดเจน
และฉันก็สังเกตเห็นคำขอที่มักจะพูดว่าเบราว์เซอร์ที่ร้องขอไม่สนับสนุนการบีบอัด gzip - ส่งผลให้หน้าเว็บทั้งหมดถูกส่งแบบไม่บีบอัดและการใช้แบนด์วิดท์ของเราพุ่งขึ้นไปบนหลังคา!
แต่จนถึงตอนนี้ฉันไม่สามารถระบุได้ว่าเกิดอะไรขึ้นจริง ๆ ทั้งหมดที่ฉันสงสัยจนถึงตอนนี้ก็คือมันอาจเป็นพร็อกซีเซิร์ฟเวอร์หรืออุปกรณ์มือถือที่ส่งสตริงผู้ใช้ปลอม
แก้ไขเพื่อเพิ่ม: เพิ่งทำวิจัยเพิ่มเติมและดูเหมือนว่าอาจเป็นซอฟต์แวร์ป้องกันไวรัส: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
อัปเดตจากjamur21
ใช่เราได้สังเกตเห็นทราฟฟิกที่คล้ายคลึงกันในหลาย ๆ ไซต์
เรายังคงค้นหาสาเหตุที่แท้จริง แต่สิ่งที่เราค้นพบ ได้แก่ :
ถ้ามันเป็นแมงมุมมันทำงานได้ค่อนข้างแย่ ดูเหมือนว่าจะใช้ URL เพียงหนึ่งหรือสองรายการต่อโดเมนชั่วขณะหนึ่ง (อาจใช้เวลาสองสามชั่วโมง) จนกว่าจะย้ายไปยัง URL อื่น แม้ว่าเนื้อหาจะค่อนข้าง "เป็นปัจจุบัน" อยู่เสมอซึ่งให้ความน่าเชื่อถือแก่ Google News ว่าเป็นปัจจัยดังที่ระบุไว้ในลิงก์ที่ดีโพสต์ในคำตอบของเขา / เธอ (เว็บไซต์ทั้งหมดของเราเป็นเว็บไซต์ข่าว)
ในขณะที่ IP นั้นกระจายไปตามพื้นที่ทางภูมิศาสตร์สำหรับพวกเราส่วนใหญ่ดูเหมือนจะอยู่ใกล้กับเว็บไซต์ต้นทาง (เว็บไซต์ส่วนใหญ่ของเราเป็นร้านข่าวท้องถิ่นดังนั้นพวกเขาจึงไม่ได้รับปริมาณการใช้ข้อมูลทั่วประเทศ) เกือบจะไม่มีคำขอมาจากนอกประเทศสหรัฐอเมริกา อีกครั้งสิ่งนี้ให้ความน่าเชื่อถือต่อ URL ที่ได้รับจาก Google News (ฉันคาดเดาว่าคนที่มีรหัสไปรษณีย์ของ Google News เป็นภาษาท้องถิ่นจะเห็นเนื้อหาของเรา)
เวลาส่วนใหญ่คำขอสามารถถูกตัดออกเป็นเสียงรบกวนพื้นหลัง (แม้ว่าจะมีเสียงดังโดยเฉพาะ) แต่เราสองสามครั้งต่อวันเราจะขัดขวางและ UA นี้เพียงอย่างเดียวจะคิดเป็นปริมาณการเข้าชม ~ 100mbps ประมาณ 15-30 นาที
น่าเสียดายที่ในขณะที่ Google News ดูเหมือนจะเป็นเวกเตอร์ที่เป็นไปได้สำหรับ URL เหล่านี้ที่จะค้นพบทุกสิ่งที่เราเห็นนั้นเป็นสถานการณ์ที่สำคัญและเรายังไม่มีปืนสูบบุหรี่
อัปเดตจากBannow Bay
เรามีไซต์ข่าวใหญ่ - เรื่องราวของเราได้รับโดย Google News หลายครั้งต่อสัปดาห์ เราได้รับปริมาณการใช้ข้อมูลจากแหล่งนี้ตั้งแต่ปลายเดือนพฤศจิกายน - และมีการเติบโตทุกสัปดาห์ - อาจมี 30 ล้าน IMPS ในเดือนกุมภาพันธ์
การปรากฏตัวในหน้าแรกของ Google News US เป็นตัวกระตุ้นให้เกิดการรับส่งข้อมูล - ประมาณ 75 เปอร์เซ็นต์อ้างว่ามาจาก IP ของสหรัฐฯ แต่สิ่งที่มันกำลังพยายามอย่างมากที่จะปิดบังตัวเอง และนั่นไม่เป็นมิตร
เราไม่พบปืนสูบบุหรี่ - แต่ผู้ให้บริการรักษาความปลอดภัยรายใหญ่ได้ตกลงที่จะตรวจสอบเพิ่มเติมในนามของเรา
อัปเดตจากArtem Russakovskii
เพิ่งมีสิ่งเดียวกันเกิดขึ้นกับไซต์ข่าว (AndroidPolice.com) เป็นครั้งแรก ประมาณ 10 นาทีของคำร้องขอแบบสุ่มเหล่านี้ที่ได้รับ QPS มากกว่า 5,000% โดยเฉลี่ยของเรา (5,000qps ซึ่งเป็นขีด จำกัด ของ NodeBalancer ของ Linode) ซีพียูเริ่มทำงานเมื่อมีการร้องขอหมด I / O และเครือข่าย - มันเป็น DDOS จริง
ฉันอยากจะไปให้ถึงจุดต่ำสุดของเรื่องนี้ แต่ในขณะนี้ดูเหมือนว่าจะทำให้งงงวยอย่างสมบูรณ์
อัปเดตจากMark
เพียงแค่เพิ่ม +1 เราเห็นพฤติกรรมเดียวกันในเว็บไซต์ของเรา ไม่ใช่ข้อมูลใหม่มากมายที่จะเพิ่มที่นี่ แต่นี่เป็นรูปแบบทั่วไปของการเข้าชมของเรา:
- การจราจรมีการกระจายอย่างมาก การรับส่งข้อมูลมาจาก IP ที่ไม่ซ้ำใครมากกว่า ~ 60k
- การรับส่งข้อมูลส่วนใหญ่มีการกดปุ่มเดียวโดยทั่วไปเป็น URL ล่าสุดที่ปรากฏใน Google News (แม้ว่า Google News จะไม่ปรากฏเป็นเวกเตอร์เสมอไป)
- การรับส่งข้อมูลทั้งหมดนี้มาจากตัวแทนผู้ใช้ Firefox / 3.0.10 เดียวกันตามที่ระบุไว้ในชุดข้อความนี้ถึงแม้ว่าเราจะได้เห็นตัวแทนมือถือแปลก ๆ ที่นี่และที่นั่น
- ทราฟฟิกทั้งหมดที่มาจากเอเจนต์นี้ไม่มีข้อมูลผู้อ้างอิง
- ระเบิดเกิดขึ้นหนึ่งหรือสองครั้งต่อสัปดาห์เป็นเวลา 30-60 นาทีจากนั้นก็หายไป
อัปเดตจากDon Ireland
โพสต์ล่าสุดคือ 13 เมษายน แต่การจราจรยังไม่สิ้นสุด ส่วนที่แปลกที่สุดของเรื่องนี้อาจเป็นความจริงที่ว่าผู้เขียนมัลแวร์ที่มีค่าของเขาสามารถใช้สตริงตัวแทนผู้ใช้จากเบราว์เซอร์ที่ทันสมัยทำให้การป้องกันแบบบล็อกผู้ใช้ไม่มีค่า ข้อเท็จจริงนี้ทำให้ดูเหมือนว่าผู้รวบรวมข่าวที่ 'ไม่เป็นอันตราย' หรือแอปพลิเคชันอื่น ๆ เป็นแหล่งที่มา จนถึงตอนนี้ฉันยังไม่สามารถบรรลุข้อสรุปที่แท้จริงและหวังว่าทุกคนที่มีข้อมูลจะโพสต์ไว้ที่นี่
เราเห็นรูปแบบเดียวกันโดยมีข่าวจาก google news ตามมาด้วยการเข้าชมที่สูงมากที่ร้องขอเรื่องราว (แต่ไม่ใช่ไฟล์อุปกรณ์เสริมเช่นรูปภาพ) ทราฟฟิกการตอบสนองขาออกทำให้เกิด spikes ซึ่งสามารถทำให้เครือข่ายอิ่มตัว (หรือทำจนกระทั่งเราเริ่มตอบกลับด้วยข้อผิดพลาด 503 เท่านั้น) การโจมตีเหล่านี้ (เราจะเรียกมันว่าอะไรได้อีก) โดยเฉลี่ยประมาณ 30 นาที แต่เรื่องราวยอดนิยมอาจมีปริมาณการใช้ข้อมูลสูงเป็นเวลาหนึ่งชั่วโมงหรือมากกว่านั้น (ฉันกำลังพูดถึงการจราจรของ Firefox 3.0.10 แน่นอนว่าการจราจรปกติยังคงอยู่ในระดับสูง เป็นเวลาหนึ่ง, ซักพัก).
ในช่วงเวลาหนึ่งชั่วโมง (สำหรับเซิร์ฟเวอร์เดียวในกลุ่ม load balance) เราเห็น 200,000 คำร้องขอซึ่ง 97,000 คำขอเป็น firefox 3.0.10 ร้องขอเกือบ 50% ของคำขอทั้งหมด และเมื่อคุณพิจารณาว่าโดยปกติแล้วหน้าหนึ่ง ๆ จะสร้างคำขอ 10 ไฟล์ขึ้นไปสำหรับไฟล์หลักและไฟล์เสริม 97,000 looms จะมีขนาดใหญ่กว่ามาก ฉันทราบว่าจาก 97,000 นั้นมีที่อยู่ IP 51,000 ที่ไม่ซ้ำกัน และฉันกำลังพูดถึงชั่วโมงเดียว (อันที่จริงมันใกล้ 45 นาที) อะไรก็ตามที่ทำให้เกิดสิ่งนี้ค่อนข้างแพร่หลาย
ปรับปรุงจากuser119708
เรามีปัญหาเดียวกันบนเว็บไซต์ข่าวไฮเทคฝรั่งเศสขนาดใหญ่
เมื่อใดก็ตามที่มีการเผยแพร่ข่าวและดูได้ในข่าว Google ปริมาณการใช้ข้อมูลจะเพิ่มขึ้นอย่างมากในข่าวที่มีการเข้าชมประมาณ 50 ถึง 100 ครั้งโดย IP และตัวแทนผู้ใช้ "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (. NET CLR 3.5.30729) "
ที่อยู่ IP ทั้งหมดดูเหมือนจะอยู่ในฝรั่งเศสหรือในประเทศฝรั่งเศสและไม่มีผู้อ้างอิง ดูเหมือนว่าจะเป็นบอท แต่ทำไมที่อยู่ระยะไกลเดียวต้องกลับมา 50 หรือ 100 ครั้งในข่าวเดียวกันในเวลาไม่กี่นาที อาจเป็นคอมพิวเตอร์ที่ติดเชื้อหรือไม่ เหตุใดจึงปรากฎเมื่อมีข่าวปรากฏบน Google ข่าวสาร Google รับผิดชอบต่อการรับส่งข้อมูลที่แปลกประหลาดนี้หรือไม่?
หากใครบางคนในหัวข้อนี้พบคำอธิบายฉันคิดว่ามันจะช่วยเว็บไซต์ขนาดกลางหรือใหญ่ในการควบคุมปริมาณการใช้งานของพวกเขา!
แก้ไข: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html หากเป็นคอมพิวเตอร์ที่ติดไวรัสแน่นอนมันเป็นเรื่องที่น่ากังวลมากเนื่องจากมีจำนวนที่อยู่ที่เกี่ยวข้อง เราจะใช้สคริปต์นี้สำหรับ Apache เพื่อป้องกันการรับส่งข้อมูลทั้งหมด:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
อัปเดตจากErnesto
เว็บไซต์ข่าวทั่วไปของสเปนกลางสังเกตเห็นปริมาณการใช้งานสูงในข่าวที่ไม่เกี่ยวข้องตั้งแต่สองสามวัน
ใครก็ตามที่เป็นมันจะโหลด HTML ที่สมบูรณ์ในขณะที่เราสังเกตเห็นเนื่องจากการ "ดูหน้าเว็บ" นับเราเพิ่มขึ้นผ่านการปรับปรุงฐานข้อมูลเมื่อมีการโหลดหน้าเว็บ
เราสังเกตเห็นเพียงหนึ่งหรือสอง URL ที่กำหนดเป้าหมายในแต่ละวัน
คำขอจำนวนมาก (7000-12000) ผ่าน URL เดียวกันในไม่กี่วินาทีกระจายในแต่ละวันจาก IP ที่แตกต่างกัน เป้าหมายอื่น ๆ ในวันถัดไป
ไม่มีผู้อ้างอิง
บทความที่กำหนดเป้าหมายปรากฏใน Google News แต่เราไม่สามารถรับรองได้ว่าเกี่ยวข้อง
Google Analytics ไม่รู้จักว่าเป็นการรับส่งข้อมูลที่ถูกกฎหมาย เรามีบทความที่มีมากกว่า 8000 เพลงและ GA รายงานเพียง 25 หรือมากกว่านั้น (ฉันคิดว่าจาวาสคริปต์นั้นไม่ได้รับการตีความ)
อัปเดตจากOld Pro
การเพิ่มจุดข้อมูลเล็กน้อยสำหรับคุณ
บอทกับเบราว์เซอร์ไม่ถือว่า UA นี้เป็นบอต (ยัง)
ในไซต์ที่มีการดูแลการแสดงโฆษณามากที่สุดที่ฉันมีบันทึกการใช้งานจนถึงเดือนพฤษภาคม 2555 แสดงให้เห็นว่า UA นี้มีปริมาณการเข้าชมน้อยกว่า 1% ส่วนสำคัญของคำขอ UA นั้นปรากฏขึ้นอย่างถูกต้องตามกฎหมาย (ตัวอย่างเช่นโหลดทรัพยากรที่คาดไว้ทั้งหมด) นี่เป็นพื้นฐานเหมือนกับกุมภาพันธ์ 2555
หน้าแรกของเว็บไซต์นี้ไม่ค่อยมีการอัพเดทและเนื้อหาแบบไดนามิกทั้งหมดถูกปิดกั้นโดย robots.txt
นี่น่าจะมาจาก Genieo พวกเขาได้อัปเดตแอปพลิเคชันของพวกเขาเพื่อใช้ตัวแทนผู้ใช้ใหม่: Mozilla / 5.0 + (ใช้งานได้; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ) มันกระทบกับรูปแบบเดียวกันกับตัวแทนผู้ใช้ดั้งเดิม แต่ตอนนี้พวกเขาดูเหมือนจะระบุตัวเอง หากคุณดู URL ในตัวแทนผู้ใช้ของพวกเขาพวกเขายังรับทราบว่าพวกเขาอาจได้รับหรืออาจยังคงสร้างปริมาณการเข้าชมเว็บไซต์บางเว็บไซต์มากเกินไป - dflaw
อัปเดตจากMike Fagan
เราได้ต่อสู้กับสิ่งที่เราคิดว่าเป็นการโจมตี DDOS เป็นเวลาหลายสัปดาห์แล้ว เราเพิ่งเริ่มเห็น Genieo เป็นผู้ใช้สำหรับการโจมตีเหล่านี้ ก่อนหน้านี้เราเห็น "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" และคำขอมากมายจาก " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 " 10k + IP ที่แตกต่าง, มากกว่า 1 ล้านคำขอต่อวันเพียง 3 หรือ 4 หน้าโดยที่ IP เดียวกันกำลังร้องขอหน้า 100+ ครั้งและไม่ดึงเนื้อหาหรือโฆษณาเพิ่มเติมใด ๆ การค้นพบของฉันคือไม่มี IP ใด ๆ เหล่านี้ที่จริงไปที่หน้าอื่น ๆ ในเว็บไซต์ของเรา
ฉันติดต่อ Genieo และนี่คือคำตอบของพวกเขา:
"ขอบคุณที่ติดต่อเรา.
รุ่นเก่าของ Genieo อาจทำให้ปริมาณการใช้งานที่คุณอธิบาย เราขออภัยในความไม่สะดวกที่อาจเกิดขึ้น เราได้เปิดตัวและอัปเดตเมื่อวานนี้ซึ่งแก้ไขปัญหานี้การโหลดข้อมูลจากแอปพลิเคชันของเราจะหายไปใน 24 ชั่วโมงข้างหน้า เราเชื่อว่าเราได้ให้บริการที่ดีกับเว็บไซต์ของคุณโดยแนะนำให้ผู้ใช้ใหม่ทราบ เราไม่ได้ประเมินอย่างถูกต้องว่าเนื่องจากฐานการติดตั้งของเรากำลังเพิ่มขึ้นอาจทำให้เกิดการโอเวอร์โหลดในบางตำแหน่ง
Genieo เป็นหนังสือพิมพ์ส่วนตัวหรือโปรแกรมอ่าน RSS อัจฉริยะ มันเป็นตัวอ่าน RSS ฝั่งไคลเอ็นต์ที่มีการกรองการตั้งค่าส่วนบุคคลแบบความหมายสมาร์ท แอปพลิเคชั่น Genieo ติดตามข้อมูล RSS จากเว็บไซต์โปรดของผู้ใช้“ อ่าน” บทความโดยดำเนินการวิเคราะห์ความหมายและกรองข้อมูลตามส่วนที่ผู้ใช้สนใจ หากบทความตรงกับความสนใจของผู้ใช้แอปพลิเคชันจะแสดงชื่อและตัวอย่างของบทความในหน้าแรกของผู้ใช้ คลิกที่ชื่อจะนำไปสู่เว็บไซต์ของบทความ - เว็บไซต์ของคุณ เอเจนต์ Genieo เป็นแบบอัตโนมัติ (เพื่อเหตุผลด้านความเป็นส่วนตัว); มันทำงานบนเครื่องผู้ใช้ปลายทางนี่คือเหตุผลที่คุณเห็นตัวแทนเข้าถึงเว็บไซต์ของคุณจาก IP ที่แตกต่างกัน
ข้อมูล Genieo ส่วนใหญ่มาจากฟีด RSS ปกติของผู้ใช้ แต่ Genieo ยังเพิ่มเนื้อหาบางส่วนจากเว็บไซต์ข่าวใหม่ที่ไม่ได้ลงทะเบียนโดยผู้ใช้ก่อนหน้านี้ (สำหรับผู้ที่บังเอิญและมีความหลากหลาย) อัลกอริธึม Genieo ค้นหาบทความ "ฮอต" ยอดฮิตบน Twitter, YouTube ที่มีคนดูมากที่สุดและไฮไลท์ข่าวของ Google และตรวจสอบว่าตรงกับความสนใจของผู้ใช้หรือไม่
เราไม่ทราบว่านี่เป็นสาเหตุของปัญหาการโหลดสำหรับบางไซต์ เมื่อสิ่งนี้เกิดขึ้นกับเราเราได้ทำการอัพเดตผู้ใช้ปัจจุบันด้วยเวอร์ชันใหม่ที่ป้องกันไม่ให้โหลดเพิ่มขึ้น
ด้วยความเคารพ,
-Dotan