คำถามติดแท็ก robots.txt

Robots.txt เป็นไฟล์ข้อความที่เจ้าของเว็บไซต์ใช้เพื่อให้คำแนะนำเกี่ยวกับไซต์ของตนแก่เว็บโรบ็อต โดยทั่วไปจะบอกหุ่นยนต์ว่าส่วนใดของไซต์เปิดอยู่และส่วนใดที่ปิดอยู่ สิ่งนี้เรียกว่า The Robots excusion Protocol

5
ฉันขอให้ Google ตรวจสอบ robots.txt ของฉันได้ไหม
ฉันอ่านคำตอบในคำถามนี้แล้ว แต่คำถามยังคงเปิดอยู่: Google cache robots.txt หรือไม่ ฉันไม่พบวิธีใน Google เครื่องมือของผู้ดูแลเว็บเพื่อเรียกใช้การดาวน์โหลดrobots.txtของฉันอีกครั้ง ด้วยข้อผิดพลาดบางอย่างrobots.txtของฉันก็ถูกแทนที่ด้วย: User-agent: * Disallow: / และตอนนี้เนื้อหาทั้งหมดของฉันถูกลบออกจากผลการค้นหาของ Google เห็นได้ชัดว่าฉันสนใจที่จะแก้ไขปัญหานี้โดยเร็วที่สุด ฉันแทนที่robots.txtแล้ว แต่ฉันหาวิธีทำให้ Google อัปเดตเวอร์ชันที่เก็บไว้ไม่ได้

3
Google Preview เชื่อฟัง Robots.txt หรือไม่
เพราะแน่นอนว่าดูเหมือนว่ามันจะ สำหรับเว็บไซต์ของฉันเราไม่อนุญาตไดเรกทอรีรูปภาพและตัวอย่างคือรูปภาพที่หายไปทั้งหมดซึ่งทำให้เว็บไซต์ดูสกปรก เป็นกรณีนี้หรือไม่และมีวิธีการอนุญาตให้เฉพาะบอทตัวอย่างเพื่อเข้าถึงรูปภาพโดยใช้ robots.txt หรือไม่ แก้ไข:ดูเหมือนว่าตัวอย่างที่มีการสร้างขึ้นทั้งโดย Google Bot ปกติและโดยในบอทันทีดูตัวอย่างเว็บ Google เป็นที่กล่าวถึง (สั้น ๆ ) บนบล็อกศูนย์กลางผู้ดูแลเว็บ โดยการใช้เว็บไซต์: ค้นหาและซอฟต์แวร์การตรวจสอบของฉันฉันสามารถเห็นเมื่อบอตเข้ามาที่เว็บไซต์ของฉันและเมื่อสิ่งนี้เกิดขึ้นภาพก็ปรากฏขึ้นได้ดีในตัวอย่าง ดังนั้นฉันเดาว่าโปรแกรมรวบรวมข้อมูลทั่วไปจะข้ามภาพต่อ robots.txt แต่โปรแกรมรวบรวมข้อมูลตัวอย่างได้รับรูปภาพอยู่แล้ว การใช้งานนี้ดูเหมือนจะเป็นสิ่งที่เลวร้ายเพราะตัวเลือกของฉันดูเหมือนจะเป็น: อนุญาตให้ Google bot รวบรวมข้อมูลภาพของฉัน (ซึ่งฉันไม่ต้องการ) ใช้แท็ก nosnippet ซึ่งบล็อกการแสดงตัวอย่าง แต่ยังมีตัวอย่าง (ซึ่งฉันไม่ต้องการที่จะทำ) ปล่อยให้ตัวอย่างที่ไม่ชัดเจนปรากฏซึ่งอาจส่งผลเสียต่อการคลิกผ่าน

1
รวมตัวแทนผู้ใช้ใน robots.txt
ตัวแทนผู้ใช้สามารถแสดงรายการร่วมกันตามด้วยกฎทั่วไปเช่นในrobots.txt ได้หรือไม่ User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
ดัชนีแผนผังไซต์สามารถมีดัชนีแผนผังไซต์อื่นได้หรือไม่
ฉันมีเว็บไซต์สองภาษาที่มีดัชนีแผนผังเว็บไซต์สำหรับแต่ละภาษาที่เชื่อมโยงไปยังแผนผังไซต์ที่แตกต่างกันหลายแห่ง (หนึ่งสำหรับวิดีโอหนึ่งแห่งสำหรับเนื้อหาแบบคงที่และอีกหนึ่งสำหรับบทความ) ฉันต้องการแนะนำแผนผังไซต์อื่นที่เชื่อมโยงดัชนีแผนผังไซต์ดังนั้นฉันสามารถเชื่อมโยงแผนผังไซต์นั้นใน robots.txt ในรูทและไม่ต้องมีหนึ่ง robots.txt สำหรับแต่ละภาษา ถูกต้องหรือไม่ หรือมีวิธีแก้ไขปัญหาของฉันที่ง่ายกว่า?

1
“ Noindex:” ใน robots.txt ทำงานอย่างไร
ฉันวิ่งข้ามบทความนี้ในข่าว SEO ของฉันวันนี้ มันดูเหมือนจะบ่งบอกว่าคุณคุณสามารถใช้Noindex:คำสั่งนอกเหนือไปจากมาตรฐานDisallow:สั่งในrobots.txt Disallow: /page-one.html Noindex: /page-two.html ดูเหมือนว่าจะป้องกันไม่ให้เครื่องมือค้นหารวบรวมข้อมูลหน้าหนึ่งและป้องกันไม่ให้เครื่องมือสร้างดัชนีหน้าสอง robots.txtนี้ได้รับการสนับสนุนจาก Google และเครื่องมือค้นหาอื่น ๆ หรือไม่ มันใช้งานได้หรือไม่ มันเป็นเอกสารหรือไม่?

2
อนุญาตเฉพาะ Google และ Bing บอทเพื่อรวบรวมข้อมูลเว็บไซต์
ฉันใช้ไฟล์ robots.txt ต่อไปนี้สำหรับเว็บไซต์: เป้าหมายคืออนุญาตให้ Googlebot และ bingbot เข้าถึงเว็บไซต์ยกเว้นหน้าเว็บ/bedven/bedrijf/*และบล็อกบอทอื่น ๆ จากการรวบรวมข้อมูลเว็บไซต์ User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / กฎข้อสุดท้ายUser-agent: * Disallow: /ไม่อนุญาตให้บอททั้งหมดรวบรวมข้อมูลทุกหน้าในไซต์หรือไม่

3
ฉันจะใช้ robots.txt เพื่อไม่อนุญาตโดเมนย่อยได้อย่างไร
ฐานรหัสของฉันคือการร่วมกันระหว่างหลายสภาพแวดล้อม (ชีวิตการแสดงละคร dev) และโดเมนย่อย ( staging.example, dev.exampleฯลฯ ) และมีเพียงสองควรจะได้รับอนุญาตให้มีการรวบรวมข้อมูล (เช่น. www.exampleและexample) โดยปกติฉันจะแก้ไข/robots.txtและเพิ่มDisallow: /แต่เนื่องจากรหัสฐานที่ใช้ร่วมกันฉันไม่สามารถแก้ไขได้/robots.txtโดยไม่กระทบโดเมน (ย่อย) ทั้งหมด ความคิดใดที่จะไปเกี่ยวกับมันได้หรือไม่

6
วิธีการอย่างถูกต้อง (dis) อนุญาตบอท archive.org หรือไม่ ทุกสิ่งเปลี่ยนไปถ้าเป็นเช่นนั้นเมื่อไหร่?
ฉันมีเว็บไซต์ที่ส่วนใหญ่ฉันไม่ต้องการให้จัดทำดัชนีโดยเครื่องมือค้นหา แต่ฉันต้องการเก็บไว้เป็นนิรันดร์ใน archive.org ดังนั้นการrobots.txtเริ่มต้นของฉันกับสิ่งนี้: User-agent: * Disallow: / วันนี้ตามที่เก็บถาวร.orgฉันต้องเพิ่มสิ่งต่อไปนี้ในของฉันrobots.txtเพื่ออนุญาตบอท: User-agent: ia_archiver Disallow: แต่ฉันได้ทำสิ่งที่พวกเขาระบุเมื่อสองสามปีที่แล้วอย่างน้อยฉันก็เพิ่มสิ่งต่อไปนี้: User-agent: archive.org_bot Disallow: จากนั้นมีแหล่งข้อมูลอื่นที่อ้างว่าคุณต้องเพิ่มสองรายการข้างต้นDisallowรวมถึงอีกหนึ่งรายการ: User-agent: ia_archiver-web.archive.org Disallow: โปรดทราบว่าคุณต้องใส่Disallow: /ถ้าคุณไม่ต้องการให้บอทเก็บเว็บไซต์ของคุณ บอทของ IA มีการเปลี่ยนแปลงหรือไม่? ถ้าเป็นเช่นนั้นเมื่อไหร่? วิธีที่แนะนำคืออะไร? ฉันควรจะอนุญาตทั้งสามตอนนี้และหวังว่า IA จะไม่เปลี่ยนชื่อบอทของพวกเขาอีกในอนาคต?

10
จำเป็นต้องหยุดบอทจากการฆ่าเว็บเซิร์ฟเวอร์ของฉัน
ฉันมีปัญหาบอทมากในบางเว็บไซต์ของฉันภายในบัญชีโฮสติ้งของฉัน บอทใช้ทรัพยากร CPU ของฉันมากกว่า 98% และแบนด์วิดธ์ 99% สำหรับบัญชีโฮสติ้งทั้งหมดของฉัน บอทเหล่านี้สร้างอัตราการเข้าชมมากกว่า1 GB ต่อชั่วโมงสำหรับเว็บไซต์ของฉัน การจราจรของมนุษย์ที่แท้จริงสำหรับทุกเว็บไซต์เหล่านี้จะน้อยกว่า 100 MB / เดือน ฉันได้ทำการค้นคว้าอย่างละเอียดเกี่ยวกับไฟล์ robots.txt และ. htaccess เพื่อป้องกันบอทเหล่านี้ แต่วิธีการทั้งหมดล้มเหลว ฉันได้ใส่รหัสลงในไฟล์ robots.txt เพื่อป้องกันการเข้าถึงไดเรกทอรีสคริปต์ แต่บอท (Google, MS Bing และ Yahoo) เหล่านี้ไม่สนใจกฎและเรียกใช้สคริปต์ต่อไป ฉันไม่ต้องการบล็อกบ็อต Google, MS Bing และ Yahoo อย่างสมบูรณ์ แต่ฉันต้องการ จำกัด อัตราการรวบรวมข้อมูลที่นั่น การเพิ่มคำสั่งการรวบรวมข้อมูลล่าช้าในไฟล์ robots.txt จะไม่ทำให้บ็อตช้าลง robots.txt และรหัส. htacces ปัจจุบันของฉันสำหรับเว็บไซต์ทั้งหมดระบุไว้ด้านล่าง ฉันได้ติดตั้งทั้งเครื่องมือของ …

1
ฉันควรบล็อก Wordpress หน้าถาวรจากเครื่องมือค้นหาหรือไม่
ฉันใช้ WordPress และ/sample-post/URL สำหรับโพสต์และ/yyyy/mm/ที่เก็บถาวร Google ได้จัดทำดัชนีเว็บไซต์อย่างสมบูรณ์ เนื่องจากที่เก็บถาวรแสดงโพสต์แบบเต็มฉันคิดว่าฉันไม่ควรให้ Google จัดทำดัชนีหน้าเก็บถาวรเพราะพวกเขามีโพสต์แบบเต็มและนั่นจะเป็นเนื้อหาที่ซ้ำกัน ดังนั้น robots.txt ของฉันจึงมี: Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /2014/ Disallow: /2015/ คุณคิดว่านี่เป็นวิธีปฏิบัติที่ดีหรือไม่หรือจะเป็นอันตรายต่ออันดับและ / หรือการเข้าถึงของฉัน

4
หุ่นยนต์ที่ถูกปฏิเสธโดยโดเมนยังคงอยู่ในรายการผลการค้นหา
ดังนั้นในเว็บไซต์ทั้งหมดของเราที่ไม่ได้ค้นหาเราได้ใช้ไฟล์ robots.txt (ต่อวิธีการยกเว้นเว็บไซต์จากผลการค้นหาของ Google แบบเรียลไทม์หรือคำถามอื่น ๆ ที่คล้ายกัน) อย่างไรก็ตามหากคำค้นหามีความเจาะจงมากพอตัวโดเมนเองก็สามารถค้นพบได้ผ่านผลลัพธ์ ตัวอย่างนี้สามารถพบได้ที่นี่ ตามที่คุณเห็นจากลิงก์สามารถพบโดเมนได้เอง (เนื้อหาไม่ถูกแคช แต่มีการระบุโดเมนไว้) นอกจากนี้การค้นหาด้วยsite:hyundaidigitalmarketing.comผลลัพธ์ 3 รายการควร การตรวจสอบลิงก์ย้อนกลับก็มีบางอย่างเช่นกัน แต่ฉันไม่สามารถป้องกันได้ (อนุญาตให้เชื่อมโยงในบริบท) หรือควบคุมวิธีจัดการสิ่งเหล่านี้ (ไม่สามารถบอกโฮสต์ให้เพิ่ม nofollow, noindex) ตอนนี้ฉันรู้ว่านี่เป็นกรณีที่รุนแรงอย่างไรก็ตามลูกค้า บริษัท ของฉันกำลังทำสิ่งนี้อยู่ ในความเป็นจริงโดเมนของเราค่อนข้างดีดังนั้นแม้การค้นหาโดยพลการดูเหมือนจะเปิดผลลัพธ์ที่เกี่ยวข้อง ตอนนี้ฉันต้องเขียนรายงานว่าเกิดอะไรขึ้น ดังนั้นฉันจึงหันไปใช้เครือข่าย Stack Exchange ที่ยอดเยี่ยมเพื่อช่วยให้ฉันเข้าใจสิ่งที่ขาดหายไปหรือเข้าใจสิ่งที่เกิดขึ้น ลิงก์ไปยังบทความในอุตสาหกรรมมีประโยชน์อย่างยิ่ง แต่สิ่งที่คุณให้ได้นั้นยอดเยี่ยมมาก ฉันตั้งใจจะเสนอสิ่งที่ดีที่สุดที่ฉันสามารถทำได้เพื่อให้เป็นคำตอบที่จะหันไปหาในอนาคต แก้ไข:ฉันเปิดรับคำถามนี้ด้วยความหวังว่าจะได้รับคำตอบเพิ่ม ฉันได้ให้ผลลัพธ์ของการวิจัยของฉันด้านล่างด้วย
9 seo  robots.txt 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.