ตั้งแต่ประมาณกลางเดือนสิงหาคม 2014 เซิร์ฟเวอร์ Google หลายแห่งได้ทำการดาวน์โหลดไฟล์ไบนารี่ขนาดใหญ่ (มาก) ทั้งหมดบนเว็บไซต์ของฉันประมาณสัปดาห์ละครั้ง IP ทั้งหมดแสดงว่า Google เป็นเจ้าของและมีลักษณะดังนี้: google-proxy-66-249-88-199.google.com นี่คือคำขอ GET และพวกเขามีผลต่อปริมาณการใช้งานเซิร์ฟเวอร์ของฉันอย่างมาก
ก่อนหน้านี้ฉันไม่เห็นการรับส่งข้อมูลจาก IP พร็อกซี Google เหล่านี้ดังนั้นนี่จึงเป็นสิ่งที่ค่อนข้างใหม่ ฉันเห็นการรับส่งข้อมูลทุกประเภทจาก IP ของ Google อื่น ๆ ทั้งหมดนั้นขอ Googlebot และ HEAD เท่านั้น
ฉันจะไม่กังวลเกี่ยวกับสิ่งนี้ยกเว้นว่าไฟล์เหล่านี้ทั้งหมดจะถูกดาวน์โหลดโดย Google ทุกสัปดาห์หรือมากกว่านั้น แบนด์วิดท์ที่ใช้เริ่มได้รับมากเกินไป
ฉันคาดการณ์ว่าเนื่องจากไฟล์เหล่านี้หลายไฟล์เป็นไฟล์ปฏิบัติการ Windows บางที Google กำลังดาวน์โหลดไฟล์เหล่านั้นเพื่อสแกนมัลแวร์ แม้ว่ามันจะเป็นเรื่องจริง แต่นั่นต้องเกิดขึ้นจริงทุกสัปดาห์หรือไม่?
ตัวอย่างการรับส่งข้อมูลจาก IP พร็อกซีของ Google ในเดือนพฤศจิกายน:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
อัปเดต # 1:ฉันลืมที่จะพูดถึงว่าไฟล์ที่เป็นปัญหานั้นอยู่ในไฟล์ robots.txt ของเว็บไซต์แล้ว เพื่อให้การกำหนดค่า robots.txt ทำงานอย่างถูกต้องฉันยังใช้เครื่องมือทดสอบ robots.txt ใน Google Webmaster Tools ซึ่งแสดงให้เห็นว่าไฟล์นั้นถูกบล็อกอย่างแน่นอนสำหรับบอทของ Google ทั้งหมดยกเว้น Adsbot-Google ฉันไม่แน่ใจว่าเกี่ยวกับอะไร และฉันค้นหาไฟล์บางไฟล์ของ Google และไฟล์เหล่านั้นไม่ปรากฏในผลการค้นหา
อัปเดต # 2:ตัวอย่าง: ระหว่าง 5:12 น. และ 5:18 น. เวลา PST ในวันที่ 17 พฤศจิกายนประมาณครึ่งโหล IP (google-proxy ทั้งหมด) ได้รับไฟล์ไบนารีทั้งหมดที่มีปัญหาทั้งหมด 27 รายการ ในวันที่ 4 พฤศจิกายนระหว่าง 2:09 น. และ 14:15 น. PST, IP เดียวกันเหล่านั้นทำสิ่งเดียวกัน
อัปเดต # 3:ถึงตอนนี้ดูเหมือนว่าจะเป็น IP ของ Google ที่ถูกต้อง แต่ก็เป็นส่วนหนึ่งของบริการพร็อกซีของ Google และไม่ใช่ส่วนหนึ่งของระบบรวบรวมข้อมูลเว็บของ Google เนื่องจากสิ่งเหล่านี้เป็นที่อยู่พร็อกซีจึงไม่มีวิธีกำหนดว่าคำขอ GET มาจากไหนจริงหรือว่ามาจากที่เดียวหรือหลายแห่ง ขึ้นอยู่กับลักษณะที่เป็นระยะ ๆ ของ GET นั้นไม่ปรากฏว่ามีสิ่งใดที่เลวร้ายเกิดขึ้น เป็นไปได้ว่ามีคนตัดสินใจดาวน์โหลดไบนารีทั้งหมดในขณะที่ใช้บริการพร็อกซีของ Google น่าเสียดายที่บริการนั้นดูเหมือนจะไม่มีเอกสารอย่างสมบูรณ์ซึ่งไม่ได้ช่วยอะไร จากมุมมองของผู้ดูแลไซต์พร็อกซี่ค่อนข้างน่ารำคาญ ฉันไม่ต้องการบล็อกพวกเขาเพราะพวกเขามีการใช้ที่ถูกต้อง แต่พวกเขายังสามารถใช้ในทางที่ผิด