เว็บมาสเตอร์ robots.txt

4

ฉันต้องการมีรายการไฟล์ที่ควรมีอยู่ในทุกเว็บไซต์ แนวคิดก็คือทำให้เบราว์เซอร์และบอทส่วนใหญ่พอใจและลดจำนวนข้อความ 404 ข้อความลงในบันทึก จนถึงตอนนี้ฉันมีไฟล์ต่อไปนี้: /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png มีไฟล์อื่น ๆ ที่ได้รับการร้องขอบ่อยและควรอยู่ในทุก ๆ เว็บไซต์หรือไม่

36 robots.txt 404 logging favicon

6

หากฉันไม่ต้องการตั้งค่าลักษณะพิเศษใด ๆ จะเป็นไรไหมถ้าฉันไม่อยากมีไฟล์ robots.txt

หากฉันไม่ต้องการตั้งค่าลักษณะพิเศษใด ๆ จะเป็นไรไหมถ้าฉันไม่อยากมีไฟล์ robots.txt หรือขาดหนึ่งอาจเป็นอันตรายได้?

29 robots.txt

2

robots.txt ว่างเปล่าและ robots.txt ว่างเปล่าต่างกันหรือไม่?

บนเว็บเซิร์ฟเวอร์ตอนนี้ฉันต้องยอมรับฉันสังเกตเห็นว่า robots.txt ว่างเปล่า ฉันสงสัยว่ามีความแตกต่างระหว่าง robots.txt ที่ว่างเปล่าและไม่มีไฟล์เลยหรือไม่ ซอฟต์แวร์รวบรวมข้อมูลมีพฤติกรรมแตกต่างกันในสองกรณีนี้หรือไม่ ดังนั้นปลอดภัยหรือไม่ที่จะลบ robots.txt ที่ว่างเปล่า

28 web-crawlers robots.txt webserver

1

เราสามารถใช้ regex ในไฟล์ robots.txt เพื่อบล็อก URL ได้หรือไม่?

ฉันมี URL ที่สร้างขึ้นแบบไดนามิกบางส่วน ฉันสามารถใช้ regex เพื่อบล็อก URL เหล่านี้ในไฟล์ robots.txt ได้หรือไม่

23 robots.txt regular-expression

2

ฉันจะไม่อนุญาตไดเรกทอรีทั้งหมดด้วย robots.txt ได้อย่างไร

ฉันมีสองไซต์ที่ฉันกำลังทำงานอยู่ซึ่งเป็นตะกร้าสินค้าและนักช้อปอีกคน ทั้งสองอยู่ภายใต้ชื่อโดเมนเดียวกันดังนั้นตัวอย่าง http://example.com/first_url http://example.com/second_url URL ทั้งสองนี้มีจำนวนหน้าต่ำกว่า http://example.com/first_url/product1 http://example.com/first_url/product2 http://example.com/first_url/product3 http://example.com/second_url/product1 http://example.com/second_url/product2 http://example.com/second_url/product3 ฉันจะไม่อนุญาต URL หลัก/first_urlและ/second_urlหน้าย่อยและไดเรกทอรีย่อยทั้งหมดได้อย่างไร ฉันกำลังคิดแบบนี้ แต่ฉันไม่รู้ว่ามันใช้งานได้หรือไม่และมันเป็นไวยากรณ์ที่ถูกต้องหรือไม่ Disallow: /first_url/*/ Disallow: /second_url/*/

19 seo robots.txt

2

เหตุใดผลการค้นหาของ Google จึงมีหน้าเว็บที่ไม่ได้รับอนุญาตใน robots.txt

ฉันมีบางหน้าในเว็บไซต์ของฉันที่ฉันต้องการไม่ให้เสิร์ชเอ็นจิ้นออกไปดังนั้นฉันจึงไม่อนุญาตพวกเขาในrobots.txtไฟล์ของฉันเช่นนี้: User-Agent: * Disallow: /email แต่เมื่อเร็ว ๆ นี้ฉันสังเกตเห็นว่า Google ยังคงส่งคืนลิงก์ไปยังหน้าเหล่านั้นในผลการค้นหา ทำไมสิ่งนี้ถึงเกิดขึ้นและฉันจะหยุดมันได้อย่างไร พื้นหลัง: หลายปีที่ผ่านมาฉันสร้างเว็บไซต์ง่าย ๆ สำหรับสโมสรที่เกี่ยวข้องกับฉันพวกเขาต้องการมีลิงก์อีเมลในหน้าของพวกเขาดังนั้นเพื่อพยายามป้องกันไม่ให้ที่อยู่อีเมลเหล่านั้นมีจำนวนมากเกินไป รายการสแปมแทนที่จะใช้การmailto:เชื่อมโยงโดยตรงฉันทำให้การเชื่อมโยงเหล่านั้นชี้ไปที่สคริปต์ตัวเปลี่ยนเส้นทาง / ที่อยู่ผู้ดักจับที่ทำงานบนไซต์ของฉันเอง สคริปต์นี้จะส่งคืนการเปลี่ยนเส้นทาง 301 ไปยังmailto:URL จริงหรือหากตรวจพบรูปแบบการเข้าถึงที่น่าสงสัยหน้าเว็บที่มีที่อยู่อีเมลสุ่มและลิงก์ไปยังหน้าดังกล่าวจำนวนมากขึ้น เพื่อป้องกันบอทการค้นหาที่ถูกกฎหมายให้พ้นจากกับดักฉันตั้งค่าrobots.txtกฎที่แสดงไว้ด้านบนโดยไม่อนุญาตพื้นที่ทั้งหมดของลิงก์ตัวเปลี่ยนเส้นทางที่ถูกต้องตามกฎหมายและหน้ากับดัก อย่างไรก็ตามเมื่อเร็ว ๆ นี้หนึ่งในคนในคลับค้นหาชื่อของ Google และรู้สึกประหลาดใจมากเมื่อผลลัพธ์หนึ่งในหน้าแรกเป็นลิงค์ไปยังสคริปต์ตัวเปลี่ยนเส้นทางโดยมีชื่อเรื่องประกอบด้วยที่อยู่อีเมลของพวกเขาตาม ด้วยชื่อของฉัน แน่นอนพวกเขาส่งอีเมลถึงฉันทันทีและต้องการทราบวิธีรับที่อยู่จากดัชนีของ Google ฉันรู้สึกประหลาดใจค่อนข้างมากเกินไปเนื่องจากผมมีความคิดที่ว่าดัชนีของ Google หากว่า URL ที่เช่นที่ทุกคนดูเหมือนจะอยู่ในการละเมิดของฉันrobots.txtกฎ ฉันจัดการเพื่อส่งคำขอลบไปยัง Google และดูเหมือนว่าจะได้ผล แต่ฉันต้องการทราบสาเหตุและวิธีที่ Google หลีกเลี่ยงrobots.txtเช่นนั้นและวิธีตรวจสอบให้แน่ใจว่าไม่มีหน้าใด ๆ ที่ไม่ได้รับอนุญาตปรากฏใน ผลการค้นหา. ps ฉันพบคำอธิบายและวิธีแก้ปัญหาที่เป็นไปได้จริงซึ่งฉันจะโพสต์ด้านล่างขณะเตรียมคำถามนี้ แต่ฉันคิดว่าฉันจะถามมันต่อไปในกรณีที่คนอื่นอาจมีปัญหาเดียวกัน โปรดโพสต์คำตอบของคุณเอง ฉันยังสนใจที่จะรู้ว่าเสิร์ชเอ็นจิ้นอื่น …

18 google-search robots.txt

7

แคชของ Google robots.txt หรือไม่

ฉันเพิ่มไฟล์robots.txtลงในหนึ่งในเว็บไซต์ของฉันเมื่อสัปดาห์ที่แล้วซึ่งควรป้องกันไม่ให้ Googlebot พยายามดึง URL บางอย่าง อย่างไรก็ตามในสุดสัปดาห์นี้ฉันสามารถเห็น Googlebot โหลด URL ที่แน่นอนเหล่านั้น Google cache robots.txtและถ้าเป็นเช่นนั้นควรหรือไม่

17 googlebot robots.txt google-cache

3

robots.txt สามารถอยู่ในไดเรกทอรีย่อยของเซิร์ฟเวอร์ได้หรือไม่

ฉันมีไดเรกทอรีย่อยที่ฉันต้องการซ่อนจากซอฟต์แวร์รวบรวมข้อมูลเว็บของเครื่องมือค้นหา วิธีหนึ่งในการทำเช่นนี้คือการใช้robots.txtในไดเรกทอรีรากของเซิร์ฟเวอร์ (วิธีมาตรฐาน) อย่างไรก็ตามทุกคนที่รู้จัก URL ของเว็บไซต์และมีความรู้พื้นฐานเกี่ยวกับเว็บสามารถเข้าถึงเนื้อหา robots.txt และสามารถสังเกตเห็นไดเรกทอรีที่ไม่อนุญาต ฉันคิดวิธีที่จะหลีกเลี่ยงปัญหานี้ แต่ฉันไม่แน่ใจว่าจะทำงานได้หรือไม่ อนุญาตXเป็นชื่อของไดเรกทอรีย่อยที่ฉันต้องการแยกออก วิธีหนึ่งในการหยุดการทำดัชนีเว็บโปรแกรมรวบรวมข้อมูลXไดเรกทอรีและในเวลาเดียวกันเพื่อให้ใครบางคนระบุXไดเรกทอรีจากรูตได้ยากขึ้นrobots.txtคือการเพิ่มลงrobots.txtในXไดเรกทอรีแทนที่จะเป็นไดเรกทอรีหลัก ถ้าฉันทำตามวิธีนี้ฉันมีคำถามต่อไปนี้: โปรแกรมรวบรวมข้อมูลเว็บจะค้นหาrobots.txtในไดเรกทอรีย่อยหรือไม่ (เนื่องจากมีrobots.txtอยู่แล้วและอยู่ในไดเรกทอรีรากด้วย) ถ้าrobots.txtอยู่ในXไดเร็กทอรีย่อยฉันควรใช้พา ธ สัมพัทธ์หรือพา ธ สัมบูรณ์หรือไม่: User-agent: * Disallow: /X/ หรือ User-agent: * Disallow: /

16 web-crawlers robots.txt

4

ไซต์ถูกแฮ็กจำเป็นต้องลบ URL ทั้งหมดที่ขึ้นต้นด้วย + จาก Google ใช้ robots.txt หรือไม่

คุณช่วยบอกให้ฉันทราบวิธีปิดกั้น URL ดังกล่าวจากrobots.txtเพื่อให้ Google บอตหยุดทำดัชนีได้หรือไม่ http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q เว็บไซต์ของฉันถูกแฮ็กซึ่งถูกกู้คืนแล้วในขณะนี้ แต่แฮ็กเกอร์ได้จัดทำดัชนี URL 5,000 รายการใน Google และตอนนี้ฉันได้รับข้อผิดพลาด 404 จากลิงค์ที่สร้างขึ้นแบบสุ่มตามที่กล่าวไว้ข้างต้นทั้งหมดเริ่มต้นด้วย/+ลิงก์ด้านบน ฉันสงสัยว่ามีวิธีที่รวดเร็วกว่าการลบ URL เหล่านี้ออกจาก Google Webmaster Tools หรือไม่ เราสามารถบล็อคสิ่งนี้กับrobots.txtURL ที่ขึ้นต้นด้วย+เครื่องหมายได้หรือไม่?

15 google-search robots.txt url-removal

3

ไฟล์ robots.txt ขั้นต่ำที่ถูกต้องคืออะไร

ฉันไม่ชอบที่ฉันเห็นข้อผิดพลาด 404 มากมายในaccess.logของเว็บเซิร์ฟเวอร์ของฉัน ฉันได้รับข้อผิดพลาดเหล่านี้เนื่องจากซอฟต์แวร์รวบรวมข้อมูลพยายามเปิดไฟล์robots.txtแต่หาไม่พบ ดังนั้นฉันต้องการวางไฟล์robots.txtแบบง่ายที่จะป้องกันข้อผิดพลาด 404 ไม่ให้ปรากฏในไฟล์บันทึกของฉัน ไฟล์robots.txtขั้นต่ำที่ถูกต้องคืออะไรซึ่งจะทำให้ทุกอย่างในไซต์มีการรวบรวมข้อมูล

14 robots.txt

3

Robots.txt - CSS อนุญาตหรือไม่อนุญาต

CSS และเทมเพลตได้รับอนุญาตในrobots.txtหรือไม่ มันควรจะทำให้เกิดปัญหาใด ๆ ใน Joomla, CSS และแม่ไม่ได้รับอนุญาตในrobots.txt โปรดช่วยฉันหาวิธีแก้ไขว่าจะไม่อนุญาตให้ใช้ในหุ่นยนต์สำหรับ CSS, แม่แบบและอื่น ๆ สำหรับเว็บไซต์ที่กำลังจะมาถึงของฉันหรือไม่

12 css robots.txt

3

Robots.txt: ฉันต้องไม่อนุญาตหน้าเว็บที่ไม่ได้เชื่อมโยงกับที่อื่นหรือไม่?

มีบางหน้าในเว็บไซต์ของฉันที่ฉันต้องการให้ผู้ใช้สามารถเข้าชมได้ก็ต่อเมื่อฉันให้ URL แก่เขา / เธอ หากฉันไม่อนุญาตให้มีหน้าเว็บเดียวในหน้าrobots.txtพวกเขาจะมองเห็นได้โดยใครก็ตามที่เข้าไปดู คำถามของฉันคือ: ถ้าฉันไม่เชื่อมโยงพวกเขาจากที่ใดก็ได้หรืออย่างน้อยจากหน้าเว็บที่จัดทำดัชนีใด ๆ พวกเขาจะยังคงเข้าถึงโปรแกรมรวบรวมข้อมูลได้หรือไม่?

12 robots.txt

2

บอทใดที่ควรค่าแก่การเข้าสู่เว็บไซต์

ต้องเขียนบอทจำนวนหนึ่งและได้เห็นบอทสุ่มจำนวนมากที่เกิดขึ้นกับการรวบรวมข้อมูลในเว็บไซต์ฉันสงสัยว่าในฐานะผู้ดูแลเว็บ ความคิดแรกของฉันคือการอนุญาตให้บอทเข้ามาในเว็บไซต์สามารถนำปริมาณการใช้งานจริงมาใช้ได้ มีเหตุผลใดบ้างที่อนุญาตให้บอทที่ไม่ทราบว่ากำลังส่งปริมาณการใช้งานจริงไปยังไซต์

11 seo web-crawlers robots.txt googlebot bingbot

4

ซ่อนโดเมนย่อยจากผลลัพธ์ SEO ของ Google / Search Engine หรือไม่

ฉันมีโดเมนย่อยซึ่งฉันไม่ต้องการให้แสดงไว้ในผลลัพธ์ของเครื่องมือค้นหาใด ๆ สมมติว่าฉันมี: http://www.example.com http://child.example.com ฉันจะซ่อนURL ทั้งหมดของchild.example.comโดเมนที่กำลังแสดงอยู่ในผลลัพธ์ของเครื่องมือค้นหาได้อย่างไร

11 search-engines url robots.txt search noindex

2

Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์

นี่คือrobots.txtของฉัน: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz แต่ Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์: เราพบข้อผิดพลาดขณะพยายามเข้าถึง Sitemap ของคุณ โปรดตรวจสอบแผนผังไซต์ของคุณปฏิบัติตามแนวทางของเราและสามารถเข้าถึงได้ในสถานที่ที่คุณให้แล้วส่งอีกครั้ง: URL ที่ จำกัด โดย robots.txt ฉันอ่านว่า Google เครื่องมือของผู้ดูแลเว็บแคชrobots.txtแต่ไฟล์ได้รับการอัปเดตมากกว่า 36 ชั่วโมงที่แล้ว ปรับปรุง: การกดปุ่ม TEST Sitemap จะไม่ทำให้ Google ดึงแผนผังไซต์ใหม่ แผนผังไซต์ SUBMIT เท่านั้นที่สามารถทำได้ (BTW ฉันไม่เห็นสิ่งที่เป็นจุดใน 'ทดสอบ sitemap' ยกเว้นว่าคุณวาง sitemap ปัจจุบันของคุณในนั้น - ไม่ดึงสำเนา sitemap ใหม่จากที่อยู่ที่ขอให้คุณป้อนก่อนการทดสอบ - …

11 google-search-console robots.txt web-crawlers

คำถามติดแท็ก robots.txt