คำถามติดแท็ก googlebot

Googlebot เป็นซอฟต์แวร์บอทที่ Google ใช้ในการรวบรวมข้อมูลกว่า 20 พันล้านหน้าในแต่ละวันข้อมูลที่ได้รับระหว่างการรวบรวมข้อมูลจะถูกวิเคราะห์และจัดอันดับใน Google Search

1
เหตุใดที่อยู่ IP ของฉันจึงกลายเป็นที่อยู่ IP ของ Google เมื่อใช้ Chrome บนมือถือ
ฉันกำลังติดตามตำแหน่งทางภูมิศาสตร์ของสมาชิกทุกคน (ใช้ db-ip) และทุกอย่างดียกเว้นโทรศัพท์มือถือที่มีเบราว์เซอร์ Chrome พวกเขาให้ผลลัพธ์กับฉันUS Mountain View California ip:66.249.xxx.xxxเสมอ นี่คือ Google ฉันแน่ใจ 100% เกี่ยวกับมัน แต่คนที่เข้าชมเว็บไซต์นั้นเป็นตัวฉันเอง ฉันไม่ได้แม้แต่ในสหรัฐอเมริกา ฉันใช้ GSM ISP ในพื้นที่ เหตุใดที่อยู่ IP ของฉันจึงกลายเป็นหนึ่งในที่อยู่ IP ของ Google เมื่อฉันใช้โทรศัพท์มือถือกับเบราว์เซอร์ Chrome

4
ป้องกันแผนผังไซต์ XML ไม่ให้แสดงในผลการค้นหาของ Google
ฉันจะป้องกันไม่ให้ไฟล์แผนผังไซต์ XML ของฉันแสดงในผลการค้นหาของ Google เช่นผลลัพธ์ของการsite:ค้นหา: ฉันไม่เข้าใจว่าทำไม Google เลือกที่จะแสดงไฟล์แผนผังเว็บไซต์ในผลการค้นหาเพื่อเริ่มต้น ไฟล์เหล่านี้ไม่ได้มีไว้สำหรับการบริโภคของมนุษย์ Google จะต้องสามารถที่จะรวบรวมข้อมูลเพื่อให้สามารถดำเนินการได้ดังนั้นผมจึงไม่สามารถอนุญาตให้ไว้ในrobots.txt ฉันไม่ต้องการให้พวกเขาใส่มันลงในผลการค้นหาหลังจากทำการประมวลผล

3
เป็นไปได้หรือไม่ที่จะชะลอความถี่การรวบรวมข้อมูล Baiduspider
ส่วนมากนั้นทำมาจากความถี่ในการรวบรวมข้อมูลของแมงมุมไป่ตู้ มันเป็นความจริง: "Baiduspider คลานอย่างบ้าคลั่ง" ฉันเคยพบปรากฏการณ์นี้ที่ไซต์ที่ฉันทำงานด้วย อย่างน้อยหนึ่งครั้งฉันพบว่า Baiduspider คลานที่ความถี่เดียวกันกับ Googlebot แม้ว่าข้อเท็จจริงที่ว่า Baidu จะให้การรับส่งข้อมูลมากเท่ากับ. 1% ของ Google ฉันต้องการให้การเข้าชมเหล่านั้นบนเว็บไซต์ของฉันมีน้อยเท่าที่พวกเขาจะ (อาจจะวันหนึ่งพวกเขาจะเติบโต?) แต่ฉันไม่สามารถพิสูจน์ให้อนุญาตให้โหลดจำนวนมากบนเซิร์ฟเวอร์ของฉัน คำตอบที่ได้รับการยอมรับสำหรับคำถามที่ลิงก์ข้างต้นชี้ให้เห็นว่าBaidu Webmaster Toolsเสนอโอกาสในการ จำกัด อัตราการรวบรวมข้อมูล แต่ฉันลังเลที่จะเปิดเผยว่าเวิร์มกระป๋อง (ภาษาจีนเท่านั้น) ใครบ้างมีประสบการณ์ จำกัด อัตราการรวบรวมข้อมูล Baiduspider กับ BWT หรือไม่? มีวิธีอื่นที่จะ จำกัด การโหลดนี้หรือไม่

7
แคชของ Google robots.txt หรือไม่
ฉันเพิ่มไฟล์robots.txtลงในหนึ่งในเว็บไซต์ของฉันเมื่อสัปดาห์ที่แล้วซึ่งควรป้องกันไม่ให้ Googlebot พยายามดึง URL บางอย่าง อย่างไรก็ตามในสุดสัปดาห์นี้ฉันสามารถเห็น Googlebot โหลด URL ที่แน่นอนเหล่านั้น Google cache robots.txtและถ้าเป็นเช่นนั้นควรหรือไม่

3
SEO - เว็บไซต์ที่ตอบสนองและเมนูซ้ำ
เมื่อใดก็ตามที่ฉันสร้างเว็บไซต์ที่ตอบสนองฉันมักจะสร้าง 2 เมนู: 1 ซ่อนและใช้สำหรับมือถือและอื่น ๆ ที่แสดงเป็นเมนูหลักจากนั้นซ่อนเพื่อแสดงเมนูมือถือ เมื่อใดก็ตามที่เกี่ยวข้องกับการทำ SEO และสไปเดอร์การสำรวจเว็บไซต์จะต้องทำเมนูซ้ำซ้อนหรือไม่? มีอะไรที่ฉันสามารถทำได้เพื่อบ่งบอกถึงแมงมุมว่าเมนูนี้มีไว้สำหรับมือถือและนี่คือเมนูหลักหรือไม่? เหตุผลสุดท้ายที่ฉันมี 2 เมนูแตกต่างกันเพราะที่ตั้งโดยปกติเมนูหลักจะอยู่ในแถบบางชนิดภายใต้โลโก้ ฯลฯ แต่เมนูมือถือที่ฉันต้องการอยู่เหนือทุกอย่างเหนือโลโก้เป็นต้น

4
Googlebot รองรับ TLS v1.2 หรือไม่ ถ้าไม่ไซต์ TLS v1.2-only ของฉันจะเป็นอย่างไร
ขณะนี้ฉันเปลี่ยนเส้นทางการเชื่อมต่อที่ไม่ใช่ HTTPS ทั้งหมดไปยัง HTTPS และสนับสนุน TLS v1, TLS v1.1 และ TLS v1.2 ฉันกำหนดค่าเซิร์ฟเวอร์การทดสอบของฉันใหม่เพื่อยอมรับเฉพาะชุดรหัสที่มีความปลอดภัยสูงและ TLSv1.2 เท่านั้น เมื่อใช้การทดสอบ SSL Labsฉันสังเกตเห็นว่าแผนภูมิความเข้ากันได้ของ Bing และซอฟต์แวร์รวบรวมข้อมูลของ Google ไม่รองรับ TLSv1 นี่ยังแม่นยำหรือไม่? ฉันยังไม่ได้สามารถที่จะหาการกล่าวถึงการสนับสนุนโปรโตคอลบอทที่ใดก็ได้ยกเว้นLabs SSL หน้าผลการค้นหา Googlebot สนับสนุน TLS v1 เท่านั้นจริง ๆ หรือไม่ หากฉันรองรับเฉพาะ TLS v1.2 และ Googlebot ไม่สามารถเชื่อมต่อกับเว็บไซต์ของฉัน Google จะพิจารณาสถานะใดให้อยู่ในสถานะนั้น

3
คุณสามารถใช้ความคิดเห็น googleon และ googleoff เพื่อป้องกันไม่ให้ Googlebot จัดทำดัชนีส่วนหนึ่งของหน้าได้หรือไม่?
ฉันเคยเห็นโค้ดต้องการป้องกันไม่ให้ Google ทำดัชนีส่วนหนึ่งของหน้า: <p>This is a paragraph that will be indexed by Google.</p> <!--googleoff: index--> <p>This is a paragraph that will NOT be indexed by Google.</p> <!--googleon: index> มันใช้ได้ไหม?

2
Googlebot ค้นหา URL ที่ปรากฏต่อผู้ใช้ที่ผ่านการตรวจสอบแล้วเท่านั้นได้อย่างไร
นี่คือหนึ่งในลูกค้าของฉันดำเนินการบางอย่างหลังจากลงชื่อเข้าใช้บัญชีของเขา โทเค็นที่ไม่ซ้ำกันนั้นเป็นเพียงรหัสผู้ใช้ + การประทับเวลาที่เข้ารหัส 94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (เข้ากันได้; MSIE 9.0; Windows NT 6.1; ตรีศูล / 5.0) " ตอนนี้Googlebotค้นพบบางอย่างเกี่ยวกับลิงก์ที่ไม่ซ้ำกันนี้และพยายามเข้าถึง URL ที่แน่นอนในอีกหนึ่งสัปดาห์ต่อมา 66.249.71.179 - - [10 / Jul / …

4
Google ไม่ได้รวบรวมข้อมูลไฟล์ CDN
ฉันสังเกตเห็นว่า Google Webmaster Tools กำลังรายงานทรัพยากรที่ถูกบล็อกจำนวนมากในเว็บไซต์ของฉัน ตอนนี้ "ทรัพยากรที่ถูกบล็อก" ทั้งหมดเป็น. css, .js และรูปภาพ (.jpg, .png) ที่ฉันให้บริการจาก Cloudfront CDN ฉันใช้เวลาทดสอบเป็นจำนวนมากและพยายามหาสาเหตุที่ Google ไม่รวบรวมข้อมูลไฟล์เหล่านี้และรายงานสถานะ "บล็อกทรัพยากร" ขณะนี้ฉันให้บริการไฟล์เหล่านี้จากชื่อโฮสต์หลายชื่อเช่น: cdn1.example.com, cdn2.example.com, ... cdn1, cdn2 และอื่น ๆ เป็น CNAME ไปยังชื่อการแจกจ่าย cloudfront ทดสอบ: ฉันพยายามใช้การกระจายแบบคลาวด์โดยตรง (ไม่มี CNAME) แต่ปัญหายังคงอยู่ ปัจจุบัน robots.txt ของฉันมีลักษณะดังนี้: # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image …

2
บอทใดที่ควรค่าแก่การเข้าสู่เว็บไซต์
ต้องเขียนบอทจำนวนหนึ่งและได้เห็นบอทสุ่มจำนวนมากที่เกิดขึ้นกับการรวบรวมข้อมูลในเว็บไซต์ฉันสงสัยว่าในฐานะผู้ดูแลเว็บ ความคิดแรกของฉันคือการอนุญาตให้บอทเข้ามาในเว็บไซต์สามารถนำปริมาณการใช้งานจริงมาใช้ได้ มีเหตุผลใดบ้างที่อนุญาตให้บอทที่ไม่ทราบว่ากำลังส่งปริมาณการใช้งานจริงไปยังไซต์

1
link rel =“ ทางเลือก” หลายภาษาและ URL ตามมาตรฐาน
บริบท: เรามีเว็บไซต์ที่ให้บริการในหลายภาษา อย่างไรก็ตามเนื้อหาเหมือนกัน เว็บไซต์ที่มีการแปลแต่ละเวอร์ชันมีให้บริการในโดเมนย่อยที่ต่างกัน ในบางหน้าเราใช้<link rel="canonical" />เพื่อชี้ไปที่เวอร์ชันมาตรฐานในภาษาเดียวกันของหน้าเดียวกันหากจำเป็น นี่เป็นเพียงสิ่งที่เป็นมาตรฐานในการเรียงลำดับของแท็กในกรณีนี้ ปัญหาคือเราอาจมีหน้าเว็บที่มี<link rel="canonical" />อยู่สำหรับการทำให้เป็นมาตรฐานและมี<link rel="alternate" hreflang="XX"/>แท็กมากมายที่ชี้ไปที่การแปลที่แตกต่างกัน Google ทำอะไรในกรณีเช่นนี้? เราไม่ต้องการถูกลงโทษสำหรับเนื้อหาที่ซ้ำกัน แต่ไม่ต้องการที่จะสูญเสียหน้าภาษาต่าง ๆ ในดัชนีของ Google เราได้ทำการค้นหาจำนวนมากและไม่พบสิ่งใดที่แก้ไขปัญหาของเราและทรัพยากรบางอย่างทำให้เกิดความสับสนเกี่ยวกับหัวข้อนี้

1
“ Noindex:” ใน robots.txt ทำงานอย่างไร
ฉันวิ่งข้ามบทความนี้ในข่าว SEO ของฉันวันนี้ มันดูเหมือนจะบ่งบอกว่าคุณคุณสามารถใช้Noindex:คำสั่งนอกเหนือไปจากมาตรฐานDisallow:สั่งในrobots.txt Disallow: /page-one.html Noindex: /page-two.html ดูเหมือนว่าจะป้องกันไม่ให้เครื่องมือค้นหารวบรวมข้อมูลหน้าหนึ่งและป้องกันไม่ให้เครื่องมือสร้างดัชนีหน้าสอง robots.txtนี้ได้รับการสนับสนุนจาก Google และเครื่องมือค้นหาอื่น ๆ หรือไม่ มันใช้งานได้หรือไม่ มันเป็นเอกสารหรือไม่?

3
Search Engine Spider ส่งฟอร์ม POST หรือไม่
หากฉันมีเนื้อหาอยู่ด้านหลังแบบฟอร์ม POST (ในบางกรณีฉันจะ) Googlebot หรือ Search Engine Spiders อื่น ๆ สามารถรวบรวมข้อมูลเนื้อหาที่อยู่ด้านหลังแบบฟอร์มนั้นได้หรือไม่ ตัวอย่างเช่นหากฉันต้องมีการแปล 4 หน้าในหนึ่งหน้าและการเลือกภาษาเป็นแบบฟอร์ม POST ไปยัง URL เดียวกันซึ่งจากนั้นเปลี่ยนเส้นทางไปยัง URL เฉพาะภาษา Googlebot จะสามารถรวบรวมข้อมูลภาษา "อื่น ๆ " ได้หรือไม่

1
Google จัดการเพื่อรวบรวมข้อมูลหน้าเว็บ 403 ของฉันได้อย่างไร
ฉันมีไฟล์ส่วนตัวสองไฟล์ในไดเรกทอรีในโฟลเดอร์โรงเรียน คุณจะเห็นว่าไฟล์มีอยู่โดยไปที่ myschool.edu/myusername/myfolder แต่พยายามเข้าถึงไฟล์ด้วยตัวเองผ่านทาง myschool.edu/myusername/myfolder/myfile.html จะส่งกลับข้อผิดพลาด 403 และ Google ก็จัดการคว้าเนื้อหาของไฟล์ส่วนตัวเหล่านั้นและเก็บไว้ในแคชได้! เป็นไปได้อย่างไร? [ฉันได้ลบไฟล์เหล่านั้นไปแล้วดังนั้นฉันแค่อยากรู้ว่า Google จัดการกับสิ่งนี้ได้อย่างไร]

2
เราควรปล่อยชุดการรวบรวมข้อมูล AJAX
ดังนั้นตอนนี้Google มี AJAX เลิกรวบรวมข้อมูลโครงการ พวกเขาบอกว่าไม่ต้องกังวลกับการนำไปใช้ในเว็บไซต์ใหม่เพราะไม่ต้องการอีกต่อไปเนื่องจาก Googlebot ไม่มีปัญหาในการดูเนื้อหาแบบไดนามิก เราควรเชื่อคำสั่งนี้ทันทีหรือดีกว่าที่จะปฏิบัติตามมาตรฐานที่คัดค้านมาระยะหนึ่งแล้วหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.