คำถามติดแท็ก web-crawlers

โปรแกรมคอมพิวเตอร์ที่เข้าถึงหน้าเว็บเพื่อจุดประสงค์ต่าง ๆ (เพื่อขูดเนื้อหาเพื่อให้ข้อมูลเกี่ยวกับไซต์ของคุณเป็นต้น)

1
ทำไม baidu ของฉันตระเวนเว็บไซต์ของฉันอย่างบ้าคลั่ง
เมื่อฉันตรวจสอบบันทึก apache ของฉันฉันจะเห็นว่า baidu รวบรวมข้อมูลเว็บไซต์ของฉันวันละ 10 ครั้งในช่วง 2 สัปดาห์ที่ผ่านมา ไม่ใช่ว่าฉันสนใจมันมาก แต่ฉันอยากรู้ว่าทำไมเขาถึงทำสิ่งนี้ มันเป็นเว็บไซต์หน้าเล็ก ๆ ที่มีลิงค์เข้ามาไม่มาก มีเหตุผลอะไรที่อยู่เบื้องหลัง? 220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)" 123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" …

4
สถานะของ Ajax ที่รวบรวมข้อมูลได้หรือไม่
ฉันเห็นว่า Google มีข้อเสนอ / มาตรฐานที่ดีสำหรับการทำให้แอปพลิเคชัน Ajax สามารถสืบค้นได้ผ่าน #! (แฮชปัง) http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html คำถามของฉันคือ: พวกเขาใช้ "ข้อเสนอ" นี้ในโลกแห่งความเป็นจริงอยู่แล้ว เครื่องมือค้นหาอื่น ๆ - Bing มีการใช้หรือวางแผนการใช้งานเป็นพิเศษหรือไม่

4
Google ไม่ได้รวบรวมข้อมูลไฟล์ CDN
ฉันสังเกตเห็นว่า Google Webmaster Tools กำลังรายงานทรัพยากรที่ถูกบล็อกจำนวนมากในเว็บไซต์ของฉัน ตอนนี้ "ทรัพยากรที่ถูกบล็อก" ทั้งหมดเป็น. css, .js และรูปภาพ (.jpg, .png) ที่ฉันให้บริการจาก Cloudfront CDN ฉันใช้เวลาทดสอบเป็นจำนวนมากและพยายามหาสาเหตุที่ Google ไม่รวบรวมข้อมูลไฟล์เหล่านี้และรายงานสถานะ "บล็อกทรัพยากร" ขณะนี้ฉันให้บริการไฟล์เหล่านี้จากชื่อโฮสต์หลายชื่อเช่น: cdn1.example.com, cdn2.example.com, ... cdn1, cdn2 และอื่น ๆ เป็น CNAME ไปยังชื่อการแจกจ่าย cloudfront ทดสอบ: ฉันพยายามใช้การกระจายแบบคลาวด์โดยตรง (ไม่มี CNAME) แต่ปัญหายังคงอยู่ ปัจจุบัน robots.txt ของฉันมีลักษณะดังนี้: # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image …

2
บอทใดที่ควรค่าแก่การเข้าสู่เว็บไซต์
ต้องเขียนบอทจำนวนหนึ่งและได้เห็นบอทสุ่มจำนวนมากที่เกิดขึ้นกับการรวบรวมข้อมูลในเว็บไซต์ฉันสงสัยว่าในฐานะผู้ดูแลเว็บ ความคิดแรกของฉันคือการอนุญาตให้บอทเข้ามาในเว็บไซต์สามารถนำปริมาณการใช้งานจริงมาใช้ได้ มีเหตุผลใดบ้างที่อนุญาตให้บอทที่ไม่ทราบว่ากำลังส่งปริมาณการใช้งานจริงไปยังไซต์

2
Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์
นี่คือrobots.txtของฉัน: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz แต่ Google Webmaster Tools บอกฉันว่าโรบอตกำลังปิดกั้นการเข้าถึงแผนผังไซต์: เราพบข้อผิดพลาดขณะพยายามเข้าถึง Sitemap ของคุณ โปรดตรวจสอบแผนผังไซต์ของคุณปฏิบัติตามแนวทางของเราและสามารถเข้าถึงได้ในสถานที่ที่คุณให้แล้วส่งอีกครั้ง: URL ที่ จำกัด โดย robots.txt ฉันอ่านว่า Google เครื่องมือของผู้ดูแลเว็บแคชrobots.txtแต่ไฟล์ได้รับการอัปเดตมากกว่า 36 ชั่วโมงที่แล้ว ปรับปรุง: การกดปุ่ม TEST Sitemap จะไม่ทำให้ Google ดึงแผนผังไซต์ใหม่ แผนผังไซต์ SUBMIT เท่านั้นที่สามารถทำได้ (BTW ฉันไม่เห็นสิ่งที่เป็นจุดใน 'ทดสอบ sitemap' ยกเว้นว่าคุณวาง sitemap ปัจจุบันของคุณในนั้น - ไม่ดึงสำเนา sitemap ใหม่จากที่อยู่ที่ขอให้คุณป้อนก่อนการทดสอบ - …

4
บอท Adsense click กำลังคลิกวางระเบิดเว็บไซต์ของฉัน
ฉันมีเว็บไซต์ที่มีจำนวนการดูประมาณ 7,000 - 10,000 หน้าต่อวันในขณะนี้ เริ่มประมาณ 1:00 น. ในวันที่ 7/1/12 ฉันสังเกตเห็นว่า CTR เพิ่มขึ้นอย่างรวดเร็ว การคลิกเหล่านี้จะได้รับเครดิตจากนั้นยกเลิกการเครดิตในไม่ช้า ดังนั้นพวกเขาจึงเห็นได้ชัดว่าเป็นการคลิกที่เป็นการฉ้อโกง ในวันถัดไปฉันมีการคลิกประมาณ 200 ครั้งโดยมีการคลิกหลอกลวงประมาณ 100 ครั้ง ใช้เวลาประมาณ 3 - 8 คลิกต่อชั่วโมงเพื่อกระจายโฆษณาอย่างสม่ำเสมอทั้งสามโฆษณา 24 ชั่วโมงต่อวัน สิ่งนี้ทำให้ฉันเชื่อว่าเป็นบอท Adsense click บางประเภท นอกจากนี้ฉันได้ลบโฆษณาเมื่อเย็นแล้วจึงนำโฆษณากลับมาประมาณตี 3 และการคลิกที่ไม่ถูกต้องเริ่มต้นภายใน 10 นาที ฉันสมัครใช้งานstatcounter.comเพื่อวิเคราะห์ลิงค์ทางออกใน Adsense จากนั้นฉันปิดกั้นโฆษณาตามที่อยู่ IP ของบุคคล / บอทที่ฉันสงสัยว่าทำสิ่งนี้ แต่ฉันคิดว่าบอทมีผู้รับมอบฉันทะหลายอย่างให้เลือกและสามารถรีเฟรชที่อยู่ IP ได้ ฉันได้แจ้งให้ Google ทราบผ่านแบบฟอร์มการคลิก / …

6
วิธีที่ดีที่สุดในการยกเว้นบอทจากการดูคืออะไร
เว็บไซต์ของฉันนับจำนวนการดูของผู้เยี่ยมชมในบางหน้า ฉันสังเกตเห็นว่า Google และบอทอื่น ๆ "คลิก" ไปที่เว็บไซต์ของฉันอย่างบ้าคลั่งและหน้าเว็บบางหน้ามีจำนวนการดูที่ไม่สมจริง (เทียบกับที่ผลิตโดยมนุษย์) ฉันขอวิธีปฏิบัติที่ดีที่สุดเพื่อแยกบอทเหล่านั้นออกจากจำนวนการดูของฉัน เห็นได้ชัดว่า "ตัวแทนผู้ใช้" อย่างง่าย ๆ ประกอบด้วย "bot" จะไม่ทำเช่นนั้น ฉันไม่คิดว่าจะมีกระสุนพิสูจน์วิธีแก้ปัญหาและฉันไม่ต้องการ หมายเหตุ:ฉันใช้ PHP + MySQL

1
รวมตัวแทนผู้ใช้ใน robots.txt
ตัวแทนผู้ใช้สามารถแสดงรายการร่วมกันตามด้วยกฎทั่วไปเช่นในrobots.txt ได้หรือไม่ User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot ส่งคำขอนับพันไปยังที่ตั้งแผนที่ของเราและใช้โควต้า API
เรามีหน้าตัวระบุตำแหน่งร้านค้าบนเว็บไซต์ของลูกค้าของเรา ผู้ใช้ปลายทางป้อนรหัสไปรษณีย์และรัศมีการค้นหาและเราแสดงผลลัพธ์บน Google Map เมื่อเร็ว ๆ นี้เราได้เริ่มสังเกตเห็นว่าไซต์ดังกล่าวมีขีด จำกัด การค้นหาแผนที่ฟรี (ประมาณ 25,000 ต่อ 24 ชั่วโมง) โดยไม่มีการเพิ่มขึ้นของปริมาณการใช้โดยรวม ฉันเปิดการบันทึกเพิ่มเติมเพื่อลองค้นหาว่าปัญหาคืออะไร ปรากฎว่า Googlebot ผลักดันผ่านการค้นหานับพันบนแผนที่นี้ นี่คือตัวอย่างเล็ก ๆ : 2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [กระทู้ 41] Google Maps: การค้นหา G23 ได้รับตกลงจาก 66.249.66.221 2017-07-09 23: 56: 35,469 [7] INFO ShopLanding - [กระทู้ 10] Google Maps: …

1
“ Noindex:” ใน robots.txt ทำงานอย่างไร
ฉันวิ่งข้ามบทความนี้ในข่าว SEO ของฉันวันนี้ มันดูเหมือนจะบ่งบอกว่าคุณคุณสามารถใช้Noindex:คำสั่งนอกเหนือไปจากมาตรฐานDisallow:สั่งในrobots.txt Disallow: /page-one.html Noindex: /page-two.html ดูเหมือนว่าจะป้องกันไม่ให้เครื่องมือค้นหารวบรวมข้อมูลหน้าหนึ่งและป้องกันไม่ให้เครื่องมือสร้างดัชนีหน้าสอง robots.txtนี้ได้รับการสนับสนุนจาก Google และเครื่องมือค้นหาอื่น ๆ หรือไม่ มันใช้งานได้หรือไม่ มันเป็นเอกสารหรือไม่?

2
อนุญาตเฉพาะ Google และ Bing บอทเพื่อรวบรวมข้อมูลเว็บไซต์
ฉันใช้ไฟล์ robots.txt ต่อไปนี้สำหรับเว็บไซต์: เป้าหมายคืออนุญาตให้ Googlebot และ bingbot เข้าถึงเว็บไซต์ยกเว้นหน้าเว็บ/bedven/bedrijf/*และบล็อกบอทอื่น ๆ จากการรวบรวมข้อมูลเว็บไซต์ User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / กฎข้อสุดท้ายUser-agent: * Disallow: /ไม่อนุญาตให้บอททั้งหมดรวบรวมข้อมูลทุกหน้าในไซต์หรือไม่

2
เครื่องหมายบวกด้านหน้า URL ในตัวแทนผู้ใช้
ฉันเรียกใช้โปรแกรมรวบรวมข้อมูลเว็บขนาดเล็กและต้องตัดสินใจเกี่ยวกับตัวแทนผู้ใช้ที่จะใช้ รายการของตัวแทนซอฟต์แวร์รวบรวมข้อมูลรวมถึงWikipediaแนะนำรูปแบบต่อไปนี้: examplebot/1.2 (+http://www.example.com/bot.html) อย่างไรก็ตามบ็อตบางตัวจะไม่ใส่เครื่องหมายบวกด้านหน้า URL และฉันสงสัยว่ามันหมายถึงอะไรในตอนแรก แต่ไม่พบคำอธิบายใด ๆ RFC 2616 พิจารณาทุกอย่างในวงเล็บเป็นความคิดเห็นและไม่ จำกัด รูปแบบ แต่เป็นเรื่องปกติที่เบราว์เซอร์จะมีรายการโทเค็นคั่นด้วยเครื่องหมายอัฒภาคในความคิดเห็นที่โฆษณารุ่นและความสามารถของเบราว์เซอร์ ฉันไม่คิดว่านี่เป็นมาตรฐานในลักษณะอื่นใดนอกเหนือจากเบราว์เซอร์ส่วนใหญ่ที่จัดรูปแบบคล้ายกัน และฉันไม่พบสิ่งใดที่เกี่ยวข้องกับ URL ในความคิดเห็น คำถามของฉันคือ: ทำไมเครื่องหมายบวก? ฉันต้องการมันไหม

1
Google จัดการเพื่อรวบรวมข้อมูลหน้าเว็บ 403 ของฉันได้อย่างไร
ฉันมีไฟล์ส่วนตัวสองไฟล์ในไดเรกทอรีในโฟลเดอร์โรงเรียน คุณจะเห็นว่าไฟล์มีอยู่โดยไปที่ myschool.edu/myusername/myfolder แต่พยายามเข้าถึงไฟล์ด้วยตัวเองผ่านทาง myschool.edu/myusername/myfolder/myfile.html จะส่งกลับข้อผิดพลาด 403 และ Google ก็จัดการคว้าเนื้อหาของไฟล์ส่วนตัวเหล่านั้นและเก็บไว้ในแคชได้! เป็นไปได้อย่างไร? [ฉันได้ลบไฟล์เหล่านั้นไปแล้วดังนั้นฉันแค่อยากรู้ว่า Google จัดการกับสิ่งนี้ได้อย่างไร]

6
วิธีการอย่างถูกต้อง (dis) อนุญาตบอท archive.org หรือไม่ ทุกสิ่งเปลี่ยนไปถ้าเป็นเช่นนั้นเมื่อไหร่?
ฉันมีเว็บไซต์ที่ส่วนใหญ่ฉันไม่ต้องการให้จัดทำดัชนีโดยเครื่องมือค้นหา แต่ฉันต้องการเก็บไว้เป็นนิรันดร์ใน archive.org ดังนั้นการrobots.txtเริ่มต้นของฉันกับสิ่งนี้: User-agent: * Disallow: / วันนี้ตามที่เก็บถาวร.orgฉันต้องเพิ่มสิ่งต่อไปนี้ในของฉันrobots.txtเพื่ออนุญาตบอท: User-agent: ia_archiver Disallow: แต่ฉันได้ทำสิ่งที่พวกเขาระบุเมื่อสองสามปีที่แล้วอย่างน้อยฉันก็เพิ่มสิ่งต่อไปนี้: User-agent: archive.org_bot Disallow: จากนั้นมีแหล่งข้อมูลอื่นที่อ้างว่าคุณต้องเพิ่มสองรายการข้างต้นDisallowรวมถึงอีกหนึ่งรายการ: User-agent: ia_archiver-web.archive.org Disallow: โปรดทราบว่าคุณต้องใส่Disallow: /ถ้าคุณไม่ต้องการให้บอทเก็บเว็บไซต์ของคุณ บอทของ IA มีการเปลี่ยนแปลงหรือไม่? ถ้าเป็นเช่นนั้นเมื่อไหร่? วิธีที่แนะนำคืออะไร? ฉันควรจะอนุญาตทั้งสามตอนนี้และหวังว่า IA จะไม่เปลี่ยนชื่อบอทของพวกเขาอีกในอนาคต?

2
เราควรปล่อยชุดการรวบรวมข้อมูล AJAX
ดังนั้นตอนนี้Google มี AJAX เลิกรวบรวมข้อมูลโครงการ พวกเขาบอกว่าไม่ต้องกังวลกับการนำไปใช้ในเว็บไซต์ใหม่เพราะไม่ต้องการอีกต่อไปเนื่องจาก Googlebot ไม่มีปัญหาในการดูเนื้อหาแบบไดนามิก เราควรเชื่อคำสั่งนี้ทันทีหรือดีกว่าที่จะปฏิบัติตามมาตรฐานที่คัดค้านมาระยะหนึ่งแล้วหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.