คำถามติดแท็ก web-crawlers

โปรแกรมคอมพิวเตอร์ที่เข้าถึงหน้าเว็บเพื่อจุดประสงค์ต่าง ๆ (เพื่อขูดเนื้อหาเพื่อให้ข้อมูลเกี่ยวกับไซต์ของคุณเป็นต้น)

1
Bingbot ร้องขอสำหรับ trafficbasedsspsitemap.xml ซึ่งไม่มีอยู่
บันทึกสำหรับเว็บไซต์ที่ฉันจัดการแสดงคำขอสำหรับไฟล์ที่ไม่มีอยู่จริงโดย Bingbot รายละเอียดของคำขอคือ พา ธ : /trafficbasedsspsitemap.xml ผู้ใช้: "Mozilla / 5.0 (ใช้งานได้; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" ที่อยู่ IP: 65.55.213.244 (การค้นหาแบบย้อนกลับแก้ไขเป็นmsnbot-65-55-213-244.search.msn.com ) Bingbot เหตุผลใดที่กำลังมองหาไฟล์นี้ "แผนผังเว็บไซต์ SSP ที่อิงกับการจราจร" หมายความว่าอะไร

2
robots.txt ว่างเปล่าและ robots.txt ว่างเปล่าต่างกันหรือไม่?
บนเว็บเซิร์ฟเวอร์ตอนนี้ฉันต้องยอมรับฉันสังเกตเห็นว่า robots.txt ว่างเปล่า ฉันสงสัยว่ามีความแตกต่างระหว่าง robots.txt ที่ว่างเปล่าและไม่มีไฟล์เลยหรือไม่ ซอฟต์แวร์รวบรวมข้อมูลมีพฤติกรรมแตกต่างกันในสองกรณีนี้หรือไม่ ดังนั้นปลอดภัยหรือไม่ที่จะลบ robots.txt ที่ว่างเปล่า

8
การป้องกันโรบอตไม่ให้รวบรวมข้อมูลบางส่วนของหน้า
ในฐานะผู้ดูแลเว็บของเว็บไซต์เล็ก ๆ ที่มีฟอรัมฉันได้รับการร้องเรียนจากผู้ใช้เป็นประจำว่าทั้งเครื่องมือค้นหาภายในและการค้นหาภายนอก (เช่นเมื่อใช้ Google) นั้นเต็มไปด้วยลายเซ็นของผู้ใช้ของฉัน ลายเซ็นและนั่นเป็นส่วนหนึ่งของประสบการณ์ของฟอรั่มเพราะลายเซ็นมีความหมายอย่างมากในฟอรัมของฉัน) โดยพื้นฐานแล้วฉันเห็นสองตัวเลือก ณ ตอนนี้: การแสดงผลลายเซ็นเป็นภาพและเมื่อผู้ใช้คลิกที่ "ภาพลายเซ็น" มันจะถูกนำไปที่หน้าเว็บที่มีลายเซ็นจริง (พร้อมลิงค์ในลายเซ็น ฯลฯ ) และหน้านั้นถูกตั้งค่าว่าไม่สามารถรวบรวมข้อมูลได้โดยการค้นหา แมงมุมเครื่องยนต์) สิ่งนี้จะใช้แบนด์วิดท์บางส่วนและต้องใช้งานบางอย่าง (เพราะฉันต้องการตัวแสดง HTML ที่สร้างภาพ ฯลฯ ) แต่แน่นอนว่ามันจะแก้ปัญหาได้ ผู้ใช้ แต่ผู้ใช้ของฉันมีความคิดสร้างสรรค์มากกับลายเซ็นของพวกเขาต่อไปโดยใช้แบบอักษรที่กำหนดเอง / สี / ขนาด ฯลฯ ดังนั้นจึงไม่เป็นปัญหามากนัก) ทำเครื่องหมายทุกส่วนของหน้าเว็บที่มีลายเซ็นว่าไม่สามารถรวบรวมข้อมูลได้ อย่างไรก็ตามฉันไม่แน่ใจในภายหลัง: นี่เป็นสิ่งที่สามารถทำได้หรือไม่ คุณสามารถทำเครื่องหมายเฉพาะบางส่วนของหน้าเว็บว่าไม่สามารถรวบรวมข้อมูลได้หรือไม่

4
Yahoo ค้นหาเหมือนกับ Bing Search หรือไม่
เราประสบปัญหาร้ายแรงบางประการกับแมงมุมที่เขียนไม่ดีของ Yahoo ในอดีตและเป็นผลให้เราบล็อกพวกเขา Marco Arment of Tumblr แบ่งปันความผิดหวังของเขากับเราเมื่อวันที่ 8/31/2009 ซึ่งเป็นปัจจัยหนึ่งในการบล็อกพวกเขา [แมงมุมของ Yahoo ได้] ส่งผลให้เรามีคำขอ 70-200 ครั้ง / วินาทีตั้งแต่ประมาณ 5:30 น. EST ฉันไม่เคยเห็นอะไรแบบนี้มาก่อนแม้กระทั่งจากซอฟต์แวร์รวบรวมข้อมูล "ทดลอง" ที่หลอกลวงเราในอดีต Robots.txt แบนไม่เพียงพอ: ฉันต้องบล็อกพวกเขาด้วย IP ที่ระดับตัวโหลดบาลานซ์ เมื่อก่อนพวกเขาเคยใช้ Stack Overflow ในทางที่ผิดฉันคิดว่าคุณอาจต้องการทราบ ดูเหมือนว่าการค้นหาเว็บของ Yahoo คือ "Powered by Bing!" ตอนนี้ นี่เป็นสิ่งที่ดีเพราะเราไม่เคยมีปัญหากับแมงมุมของ Bing (หรือที่รู้จัก MSNBOT) ดังนั้นการค้นหาของ Yahoo เหมือนกับการค้นหา Bing ในตอนนี้หรือเราควรมองหาที่จะยกเลิกการปิดกั้นพวกเขาหากพวกเขาได้รับอย่างใดเทียบกับอัตราต่อรองทั้งหมดหยุดดูดอย่างหนัก?


6
เครื่องมือที่ดีในการรวบรวมข้อมูลเว็บไซต์ของฉันและช่วยฉันหาลิงค์ที่ตายแล้วและไฟล์ที่ไม่ได้เชื่อมโยง [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Webmasters Stack Exchange ปิดให้บริการใน6 ปีที่ผ่านมา ฉันมีเว็บไซต์มรดกที่ยิ่งใหญ่ที่มี PDF จำนวนหลายพันตัวซึ่งบางครั้งก็เป็นบัญชีในฐานข้อมูล แต่มักจะเป็นเพียงลิงก์ในหน้าและจะถูกเก็บไว้ในไดเรกทอรีส่วนใหญ่ทุกไซต์ ฉันได้เขียน php crawler เพื่อติดตามลิงก์ทั้งหมดบนเว็บไซต์ของฉันแล้วฉันเปรียบเทียบมันกับการดัมพ์ของโครงสร้างไดเรกทอรี แต่มีอะไรที่ง่ายกว่านี้ไหม

3
เป็นไปได้หรือไม่ที่จะชะลอความถี่การรวบรวมข้อมูล Baiduspider
ส่วนมากนั้นทำมาจากความถี่ในการรวบรวมข้อมูลของแมงมุมไป่ตู้ มันเป็นความจริง: "Baiduspider คลานอย่างบ้าคลั่ง" ฉันเคยพบปรากฏการณ์นี้ที่ไซต์ที่ฉันทำงานด้วย อย่างน้อยหนึ่งครั้งฉันพบว่า Baiduspider คลานที่ความถี่เดียวกันกับ Googlebot แม้ว่าข้อเท็จจริงที่ว่า Baidu จะให้การรับส่งข้อมูลมากเท่ากับ. 1% ของ Google ฉันต้องการให้การเข้าชมเหล่านั้นบนเว็บไซต์ของฉันมีน้อยเท่าที่พวกเขาจะ (อาจจะวันหนึ่งพวกเขาจะเติบโต?) แต่ฉันไม่สามารถพิสูจน์ให้อนุญาตให้โหลดจำนวนมากบนเซิร์ฟเวอร์ของฉัน คำตอบที่ได้รับการยอมรับสำหรับคำถามที่ลิงก์ข้างต้นชี้ให้เห็นว่าBaidu Webmaster Toolsเสนอโอกาสในการ จำกัด อัตราการรวบรวมข้อมูล แต่ฉันลังเลที่จะเปิดเผยว่าเวิร์มกระป๋อง (ภาษาจีนเท่านั้น) ใครบ้างมีประสบการณ์ จำกัด อัตราการรวบรวมข้อมูล Baiduspider กับ BWT หรือไม่? มีวิธีอื่นที่จะ จำกัด การโหลดนี้หรือไม่

3
ฉันควรตั้งค่าตัวแทนผู้ใช้ใด
มี Ask bot ซึ่งตั้งหัวข้อนี้: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) เมื่อพิจารณาถึงสิ่งนี้ฉันมีคำถามต่อไปนี้: หากฉันกำลังเขียนโปรแกรมรวบรวมข้อมูลเว็บชื่อ Goofy ฉันควรใช้ตัวแทนผู้ใช้ใด ถ้าฉันใส่Mozilla/2.0หรือแตกต่างMozilla/5.0คืออะไร? คำแนะนำอื่น ๆ เกี่ยวกับวิธีการจัดรูปแบบตัวแทนผู้ใช้ของฉันเพื่อให้เป็นไปตามมาตรฐานในปัจจุบันเป็นมากกว่าการต้อนรับ

3
SEO - เว็บไซต์ที่ตอบสนองและเมนูซ้ำ
เมื่อใดก็ตามที่ฉันสร้างเว็บไซต์ที่ตอบสนองฉันมักจะสร้าง 2 เมนู: 1 ซ่อนและใช้สำหรับมือถือและอื่น ๆ ที่แสดงเป็นเมนูหลักจากนั้นซ่อนเพื่อแสดงเมนูมือถือ เมื่อใดก็ตามที่เกี่ยวข้องกับการทำ SEO และสไปเดอร์การสำรวจเว็บไซต์จะต้องทำเมนูซ้ำซ้อนหรือไม่? มีอะไรที่ฉันสามารถทำได้เพื่อบ่งบอกถึงแมงมุมว่าเมนูนี้มีไว้สำหรับมือถือและนี่คือเมนูหลักหรือไม่? เหตุผลสุดท้ายที่ฉันมี 2 เมนูแตกต่างกันเพราะที่ตั้งโดยปกติเมนูหลักจะอยู่ในแถบบางชนิดภายใต้โลโก้ ฯลฯ แต่เมนูมือถือที่ฉันต้องการอยู่เหนือทุกอย่างเหนือโลโก้เป็นต้น

3
robots.txt สามารถอยู่ในไดเรกทอรีย่อยของเซิร์ฟเวอร์ได้หรือไม่
ฉันมีไดเรกทอรีย่อยที่ฉันต้องการซ่อนจากซอฟต์แวร์รวบรวมข้อมูลเว็บของเครื่องมือค้นหา วิธีหนึ่งในการทำเช่นนี้คือการใช้robots.txtในไดเรกทอรีรากของเซิร์ฟเวอร์ (วิธีมาตรฐาน) อย่างไรก็ตามทุกคนที่รู้จัก URL ของเว็บไซต์และมีความรู้พื้นฐานเกี่ยวกับเว็บสามารถเข้าถึงเนื้อหา robots.txt และสามารถสังเกตเห็นไดเรกทอรีที่ไม่อนุญาต ฉันคิดวิธีที่จะหลีกเลี่ยงปัญหานี้ แต่ฉันไม่แน่ใจว่าจะทำงานได้หรือไม่ อนุญาตXเป็นชื่อของไดเรกทอรีย่อยที่ฉันต้องการแยกออก วิธีหนึ่งในการหยุดการทำดัชนีเว็บโปรแกรมรวบรวมข้อมูลXไดเรกทอรีและในเวลาเดียวกันเพื่อให้ใครบางคนระบุXไดเรกทอรีจากรูตได้ยากขึ้นrobots.txtคือการเพิ่มลงrobots.txtในXไดเรกทอรีแทนที่จะเป็นไดเรกทอรีหลัก ถ้าฉันทำตามวิธีนี้ฉันมีคำถามต่อไปนี้: โปรแกรมรวบรวมข้อมูลเว็บจะค้นหาrobots.txtในไดเรกทอรีย่อยหรือไม่ (เนื่องจากมีrobots.txtอยู่แล้วและอยู่ในไดเรกทอรีรากด้วย) ถ้าrobots.txtอยู่ในXไดเร็กทอรีย่อยฉันควรใช้พา ธ สัมพัทธ์หรือพา ธ สัมบูรณ์หรือไม่: User-agent: * Disallow: /X/ หรือ User-agent: * Disallow: /

7
วิธีการบล็อกแมงมุม baidu
การเยี่ยมชมส่วนใหญ่ของฉันมาจากแมงมุม baidu ฉันไม่คิดว่ามันจะช่วยให้เครื่องมือค้นหาเลยดังนั้นฉันจึงคิดว่าจะบล็อกพวกเขาอย่างไร สิ่งนี้สามารถทำได้ผ่าน iptables? ฉันใช้ nginx เป็นเว็บเซิร์ฟเวอร์ของฉัน

3
ป้องกันบอทที่เป็นอันตรายจากการโพสต์สแปม
ฉันจำเว็บไซต์ที่ปิดเนื่องจากการใช้งานในทางที่ผิดและฉันสงสัยว่าบอทมีส่วนร่วมหรือไม่ หากบอทกำลังโพสต์บางสิ่งบางอย่างในเว็บไซต์ของฉันฉันจะต่อสู้กับมันได้อย่างไร ฉันกำลังคิดที่จะตั้งค่าคุกกี้และเปลี่ยนคุกกี้ผ่าน JavaScript + การประทับเวลาและลงชื่อ (ดังนั้นคุกกี้ของเมื่อวานไม่สามารถใช้งานได้ในวันนี้และสัปดาห์หน้า) ฉันแน่ใจว่าคน / บอทส่วนใหญ่จะใช้ไซต์อื่นแทนการเปิดใช้งาน JavaScript ในบอทของพวกเขา ฉันจะทำอะไรได้อีก ฉันกำลังคิดวงเงินโพสต์รายวันและ honeypot สำหรับบอททั่วไปที่เพิ่งโพสต์สแปมแบบสุ่ม

3
Google พบโดเมนที่ไม่มีลิงก์ไปยังได้อย่างไร
ฉันเพิ่งลงทะเบียนโดเมนใหม่ชี้ไปที่เซิร์ฟเวอร์ที่มีอยู่ของฉันและตั้งค่าหน้าเว็บเพียงเล็กน้อยโดยบอกว่า "ทดสอบ" และไม่มีอะไรอื่น ฉันเพิ่งค้นพบคืนนี้ว่าหน้าได้รับการจัดทำดัชนีใน Google แล้ว! ไม่มีลิงก์ไปยังเว็บไซต์ (ฉันยังไม่ได้บอกใครเลยเกี่ยวกับโดเมนเนื่องจากฉันยังไม่ได้ทำอะไรเลย) Google สืบค้นข้อมูล WHOIS หรืออะไรบางอย่าง

4
ไฟล์ robots.txt และ sitemap.xml สามารถเป็นแบบไดนามิกผ่านการเปลี่ยนเส้นทาง. htaccess ได้หรือไม่
ฉันมีเว็บไซต์หลายภาษาและหลายโดเมน มันทำงานผ่านการติดตั้ง CMS ที่ไม่ซ้ำกัน (Drupal) ดังนั้นฉันมีไดเรกทอรีรากเดียว ดังนั้นหากฉันมี robots.txt แบบคงที่ฉันสามารถแสดงไฟล์สำหรับโดเมนเดียวได้เท่าที่ฉันรู้ ฉันขอใส่บรรทัดใน. htaccess ได้ไหม Redirect 301 /robots.txt /robots.php (หรือคำแนะนำที่เทียบเท่าและโปรดระบุว่าได้รับอนุญาตหรือไม่) ดังนั้นจึงเปลี่ยนเส้นทางไปยังไฟล์ php แบบไดนามิกที่ฉันสามารถให้บริการที่แตกต่างกันตาม$_SERVER['HTTP_HOST']? และคำถามเดียวกันสำหรับsitemap.xmlดังนั้นฉันจึงสามารถให้บริการsitemap.phpแบบไดนามิกซึ่งระบุลิงก์ที่แตกต่างกันสำหรับแต่ละโดเมน ปัญหาที่ไม่มีการใช้. txt และ. xml นั้นเป็นไปตามที่กล่าวไว้ว่าโดเมนทั้งหมดใช้ไดเรกทอรีทางกายภาพเดียวในคอมพิวเตอร์เซิร์ฟเวอร์

2
ฉันควรบล็อกบอทจากเว็บไซต์ของฉันและทำไม
บันทึกของฉันเต็มไปด้วยผู้เยี่ยมชมบอทซึ่งมักมาจากยุโรปตะวันออกและจีน บอทถูกระบุว่าเป็น Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou และอื่น ๆ ฉันควรบล็อกบอทเหล่านี้จากเว็บไซต์ของฉันหรือไม่ มีจุดประสงค์ใดที่ถูกต้องตามกฎหมายในการเพิ่มปริมาณการใช้ไซต์ของฉัน หลายคนมี SEO ฉันต้องบอกว่าฉันเห็นทราฟฟิกน้อยลงหากมีสิ่งใดนับตั้งแต่บอทมาถึงเป็นจำนวนมาก มันจะไม่ยากเกินไปที่จะบล็อกสิ่งเหล่านี้เนื่องจากพวกเขายอมรับในตัวแทนผู้ใช้ของพวกเขาว่าพวกเขาเป็นบอท

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.