ฉันสังเกตเห็นว่า Google Webmaster Tools กำลังรายงานทรัพยากรที่ถูกบล็อกจำนวนมากในเว็บไซต์ของฉัน ตอนนี้ "ทรัพยากรที่ถูกบล็อก" ทั้งหมดเป็น. css, .js และรูปภาพ (.jpg, .png) ที่ฉันให้บริการจาก Cloudfront CDN
ฉันใช้เวลาทดสอบเป็นจำนวนมากและพยายามหาสาเหตุที่ Google ไม่รวบรวมข้อมูลไฟล์เหล่านี้และรายงานสถานะ "บล็อกทรัพยากร"
ขณะนี้ฉันให้บริการไฟล์เหล่านี้จากชื่อโฮสต์หลายชื่อเช่น: cdn1.example.com, cdn2.example.com, ...
cdn1, cdn2 และอื่น ๆ เป็น CNAME ไปยังชื่อการแจกจ่าย cloudfront
ทดสอบ: ฉันพยายามใช้การกระจายแบบคลาวด์โดยตรง (ไม่มี CNAME) แต่ปัญหายังคงอยู่
ปัจจุบัน robots.txt ของฉันมีลักษณะดังนี้:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
และตัวอย่างของไฟล์ที่ถูกบล็อกในหนึ่งหน้าตัวอย่าง:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
ฉันได้พยายามอนุญาตทุกอย่างใน robots.txt แล้ว แต่ฉันก็มีผลเหมือนกันเสมอ
ฉันได้ดูการตั้งค่า CloudFront ใน Amazon อย่างถี่ถ้วนแล้วและไม่เห็นสิ่งใดที่เกี่ยวข้อง (ฉันไม่ได้ใช้และไม่เคยใช้ตัวเลือก: "จำกัด การเข้าถึง Viewer (ใช้ URL ที่ลงชื่อหรือคุกกี้ที่ลงนามแล้ว)"
ตอนนี้ฉันใช้เวลามากมายในการพิจารณาเรื่องนี้และไม่มีความคิดเพิ่มเติม
บางคนสามารถนึกถึงเหตุผลที่ทำให้ Googlebot ถูกบล็อกจากการรวบรวมข้อมูลไฟล์ที่โฮสต์ใน Amazon CloudFront
*
ที่ส่วนท้ายของ URL "คำนำหน้า" เป็นเช่นเดียวกับ/test*
/test