ทำไม Google จึงดาวน์โหลดไบนารีจากเว็บไซต์ของฉันและใช้แบนด์วิดธ์


9

ตั้งแต่ประมาณกลางเดือนสิงหาคม 2014 เซิร์ฟเวอร์ Google หลายแห่งได้ทำการดาวน์โหลดไฟล์ไบนารี่ขนาดใหญ่ (มาก) ทั้งหมดบนเว็บไซต์ของฉันประมาณสัปดาห์ละครั้ง IP ทั้งหมดแสดงว่า Google เป็นเจ้าของและมีลักษณะดังนี้: google-proxy-66-249-88-199.google.com นี่คือคำขอ GET และพวกเขามีผลต่อปริมาณการใช้งานเซิร์ฟเวอร์ของฉันอย่างมาก

ก่อนหน้านี้ฉันไม่เห็นการรับส่งข้อมูลจาก IP พร็อกซี Google เหล่านี้ดังนั้นนี่จึงเป็นสิ่งที่ค่อนข้างใหม่ ฉันเห็นการรับส่งข้อมูลทุกประเภทจาก IP ของ Google อื่น ๆ ทั้งหมดนั้นขอ Googlebot และ HEAD เท่านั้น

ฉันจะไม่กังวลเกี่ยวกับสิ่งนี้ยกเว้นว่าไฟล์เหล่านี้ทั้งหมดจะถูกดาวน์โหลดโดย Google ทุกสัปดาห์หรือมากกว่านั้น แบนด์วิดท์ที่ใช้เริ่มได้รับมากเกินไป

ฉันคาดการณ์ว่าเนื่องจากไฟล์เหล่านี้หลายไฟล์เป็นไฟล์ปฏิบัติการ Windows บางที Google กำลังดาวน์โหลดไฟล์เหล่านั้นเพื่อสแกนมัลแวร์ แม้ว่ามันจะเป็นเรื่องจริง แต่นั่นต้องเกิดขึ้นจริงทุกสัปดาห์หรือไม่?

ตัวอย่างการรับส่งข้อมูลจาก IP พร็อกซีของ Google ในเดือนพฤศจิกายน:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

อัปเดต # 1:ฉันลืมที่จะพูดถึงว่าไฟล์ที่เป็นปัญหานั้นอยู่ในไฟล์ robots.txt ของเว็บไซต์แล้ว เพื่อให้การกำหนดค่า robots.txt ทำงานอย่างถูกต้องฉันยังใช้เครื่องมือทดสอบ robots.txt ใน Google Webmaster Tools ซึ่งแสดงให้เห็นว่าไฟล์นั้นถูกบล็อกอย่างแน่นอนสำหรับบอทของ Google ทั้งหมดยกเว้น Adsbot-Google ฉันไม่แน่ใจว่าเกี่ยวกับอะไร และฉันค้นหาไฟล์บางไฟล์ของ Google และไฟล์เหล่านั้นไม่ปรากฏในผลการค้นหา

อัปเดต # 2:ตัวอย่าง: ระหว่าง 5:12 น. และ 5:18 น. เวลา PST ในวันที่ 17 พฤศจิกายนประมาณครึ่งโหล IP (google-proxy ทั้งหมด) ได้รับไฟล์ไบนารีทั้งหมดที่มีปัญหาทั้งหมด 27 รายการ ในวันที่ 4 พฤศจิกายนระหว่าง 2:09 น. และ 14:15 น. PST, IP เดียวกันเหล่านั้นทำสิ่งเดียวกัน

อัปเดต # 3:ถึงตอนนี้ดูเหมือนว่าจะเป็น IP ของ Google ที่ถูกต้อง แต่ก็เป็นส่วนหนึ่งของบริการพร็อกซีของ Google และไม่ใช่ส่วนหนึ่งของระบบรวบรวมข้อมูลเว็บของ Google เนื่องจากสิ่งเหล่านี้เป็นที่อยู่พร็อกซีจึงไม่มีวิธีกำหนดว่าคำขอ GET มาจากไหนจริงหรือว่ามาจากที่เดียวหรือหลายแห่ง ขึ้นอยู่กับลักษณะที่เป็นระยะ ๆ ของ GET นั้นไม่ปรากฏว่ามีสิ่งใดที่เลวร้ายเกิดขึ้น เป็นไปได้ว่ามีคนตัดสินใจดาวน์โหลดไบนารีทั้งหมดในขณะที่ใช้บริการพร็อกซีของ Google น่าเสียดายที่บริการนั้นดูเหมือนจะไม่มีเอกสารอย่างสมบูรณ์ซึ่งไม่ได้ช่วยอะไร จากมุมมองของผู้ดูแลไซต์พร็อกซี่ค่อนข้างน่ารำคาญ ฉันไม่ต้องการบล็อกพวกเขาเพราะพวกเขามีการใช้ที่ถูกต้อง แต่พวกเขายังสามารถใช้ในทางที่ผิด


คำถามที่ดี. ฉันได้รับการโหวต! คุณจะต้องบล็อกสิ่งเหล่านี้โดยใช้ robots.txt อย่างแน่นอน เหตุใด Google จึงดาวน์โหลดไฟล์ปฏิบัติการต่างจากฉัน ทฤษฏีของคุณดูเหมือนจะเป็นคนดี แต่อย่างใดเพราะฉันไม่แน่ใจ ดูเหมือนจะค่อนข้างแปลก สิ่งเหล่านี้ดูเหมือนจะเป็นที่อยู่ IP ของ Googlebot ที่ถูกต้อง แต่ฉันไม่มี google-proxy-66-102-6-104.google.com ในรายการของฉัน
Closnoc

ฉันลืมที่จะพูดถึงว่าไฟล์ที่เป็นปัญหานั้นอยู่ในไฟล์ robots.txt ของเว็บไซต์แล้ว ดูอัปเดต # 1 ด้านบน
boot13

คุณทำให้ฉันสับสน ฉันคาดว่าจะมีผู้รับเหมาช่วงนาทีนี้ดังนั้นฉันจะต้องคิดเกี่ยวกับเรื่องนี้ Google ทำสิ่งที่ตลกด้วยชื่อโดเมนและการจัดสรรที่อยู่ IP และมีการซ้อนทับกับบริการต่างๆของ Google รวมถึงการโฮสต์และอื่น ๆ ที่บอตประชาชนสามารถปรากฏบนพื้นที่ที่อยู่ IP ของ Google ได้ แต่ฉันไม่เห็นพวกเขาด้วยที่อยู่ IP ของ Googlebot ช่องว่าง ฉันหวังว่า Google จะจัดสรรพื้นที่ว่างสำหรับกระบวนการค้นหาที่หลากหลายโดยไม่มีการเหลื่อมกันเล็กน้อยเพื่อให้ระบบความปลอดภัยสามารถเชื่อถือที่อยู่ IP เหล่านี้ได้
Closnoc

คำตอบ:


3

ฉันค้นคว้าบางส่วนสำหรับคำถามนี้และพบว่ามีสิ่งที่น่าสนใจเช่น:

1. เป็นซอฟต์แวร์รวบรวมข้อมูลปลอมหรือไม่ -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

บทสรุปจากผู้ใช้:

'โปรแกรมรวบรวมข้อมูล' เหล่านี้ไม่ใช่โปรแกรมรวบรวมข้อมูล แต่เป็นส่วนหนึ่งของหน้าตัวอย่างเว็บไซต์สดที่ใช้ในเครื่องมือค้นหาของ Google

ฉันได้ลองสิ่งนี้เพื่อแสดงหนึ่งในเว็บไซต์ของฉันในหน้าตัวอย่างและใช่มีได้รับข้อความไอพีที่ถูกบล็อก

หากคุณต้องการให้ผู้ใช้สามารถดูตัวอย่างเว็บไซต์ของคุณคุณต้องยอมรับ 'โปรแกรมรวบรวมข้อมูล' เหล่านี้

เช่นเดียวกับคนอื่น ๆ กล่าวว่า: "โดเมนรูทของ URL นั้นคือ google.com และไม่สามารถปลอมแปลงได้ง่าย"

สรุป: คุณสามารถเชื่อถือบอทหรือโปรแกรมรวบรวมข้อมูลและใช้เพื่อแสดงตัวอย่างในการค้นหาของ Google

เรารู้ว่าการแสดงตัวอย่างแบบสดไม่ได้ดาวน์โหลดไฟล์ของคุณดังนั้นให้ข้ามไปที่คำถาม 2

2. เป็นส่วนหนึ่งของบริการของ Google หรือไม่ -> พร็อกซี Google นี้เป็นซอฟต์แวร์รวบรวมข้อมูลปลอม: google-proxy-66-249-81-131.google.com หรือไม่

สรุป:

ฉันคิดว่าบางคนใช้บริการของ Google (เช่น Google แปลภาษา, มือถือ Google, ฯลฯ ) สำหรับการเข้าถึงเว็บไซต์ (บล็อก) (ในโรงเรียน ฯลฯ ) แต่สำหรับการโจมตี DOS และกิจกรรมที่คล้ายกัน

การเดาของฉันเกี่ยวกับเรื่องนี้เหมือนกับข้างต้น มีคนพยายามใช้บริการของ Google เพื่อเข้าถึงไฟล์ของคุณเช่นนักแปล

หากตามที่คุณกล่าวว่าไฟล์นั้นถูกบล็อกโดย robots.txt แล้วนี่อาจเป็นเพียงการร้องขอด้วยตนเอง

แก้ไข: เพื่อแก้ไขความคิดเห็น OP อย่างกว้างขวาง:

โปรแกรมรวบรวมข้อมูลสามารถละเว้น robots.txt ได้หรือไม่ ใช่. นี่คือรายการ ฉันไม่คิดว่า Google ทำอย่างนั้นซึ่งหมายความว่ามันสามารถบอทอื่น ๆ โดยใช้พร็อกซี Google

มันเป็นบอตที่ไม่ดีได้หรือไม่? ใช่และสำหรับสิ่งที่ฉันแนะนำ:

.htaccess ห้าม:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

รหัสนี้สามารถแบนของ IP หรือตัวแทนผู้ใช้

หรือใช้กับดักแมงมุมเด่นที่นี่

ฉันให้ความเห็นของฉันว่านี่เป็นคำขอด้วยตนเอง


ฉันเห็นคำตอบเหล่านั้นเช่นกัน แต่พวกเขาดูเหมือนจะไม่จัดการกับปัญหาเฉพาะของฉัน คุณอาจถูกต้องที่ Google Proxy กำลังถูกนำไปใช้ในทางที่ผิดในกรณีนี้ฉันจะปิดกั้นอย่างสมบูรณ์ซึ่งเป็นประเภทที่อ่อนแอ ความเข้าใจของฉันเกี่ยวกับ robots.txt คือซอฟต์แวร์รวบรวมข้อมูลสามารถเลือกที่จะเพิกเฉยได้ บอทที่เป็นมิตรควรจะให้เกียรติและส่วนใหญ่ทำ แต่ผู้รับมอบฉันทะแตกต่างกัน (ฉันเดา)
boot13

1
@ boot13 ระวังให้ดี เหล่านี้เป็นที่อยู่ IP ของ Googlebot ที่ถูกต้อง ดังนั้นหากคุณบล็อกมันให้บล็อคมันสำหรับไฟล์เหล่านี้เท่านั้น สมมติว่าคุณใช้ Apache คุณควรจะสามารถทำได้ด้วย. htaccess แต่นั่นอาจทำให้เกิดปัญหาอื่น ๆ ดังนั้นให้แน่ใจว่าคุณใส่ใจกับ Google Webmaster Tools สำหรับข้อความ
Closnoc

@ boot13 ฉันได้อัปเดตคำตอบของฉันแล้ว คุณสามารถตรวจสอบได้ว่าการเข้าถึงนั้นทำในวัน / ชั่วโมงเดียวกันหรือไม่?
nunorbatista

@nunorbatista: ดูเหมือนสุ่ม ฉันได้อัปเดตคำถามของฉันในบางครั้ง
boot13

@nunorbatista: ดูอัปเดต # 3 ด้านบน ไม่ใช่ Googlebot หรือโปรแกรมรวบรวมข้อมูลอื่น ๆ แต่เป็นบริการพร็อกซีของ Google ไม่เกี่ยวข้องกับหน้าตัวอย่างเว็บไซต์สดของ Google ดูเหมือนว่ามีคนอย่างน้อยหนึ่งคนที่เพิ่งดาวน์โหลดไบนารีผ่าน Google Proxy บางทีเพื่อหลีกเลี่ยงการบล็อกหรือข้อ จำกัด คำแนะนำกับดักแมงมุมนั้นไม่น่าจะช่วยได้เพราะการจราจรไม่ใช่บอท ฉันต้องการบล็อก IP พร็อกซีของ Google ไม่ให้เข้าถึงโฟลเดอร์ที่มีไบนารี ฉันจะลองใช้รหัส htaccess แต่แน่นอนว่าผู้ดาวน์โหลดสามารถเปลี่ยนไปใช้พร็อกซีอื่นได้เสมอดังนั้นจึงอาจไม่มีประโยชน์
boot13
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.