คำถามติดแท็ก user-agent

4
Yahoo ค้นหาเหมือนกับ Bing Search หรือไม่
เราประสบปัญหาร้ายแรงบางประการกับแมงมุมที่เขียนไม่ดีของ Yahoo ในอดีตและเป็นผลให้เราบล็อกพวกเขา Marco Arment of Tumblr แบ่งปันความผิดหวังของเขากับเราเมื่อวันที่ 8/31/2009 ซึ่งเป็นปัจจัยหนึ่งในการบล็อกพวกเขา [แมงมุมของ Yahoo ได้] ส่งผลให้เรามีคำขอ 70-200 ครั้ง / วินาทีตั้งแต่ประมาณ 5:30 น. EST ฉันไม่เคยเห็นอะไรแบบนี้มาก่อนแม้กระทั่งจากซอฟต์แวร์รวบรวมข้อมูล "ทดลอง" ที่หลอกลวงเราในอดีต Robots.txt แบนไม่เพียงพอ: ฉันต้องบล็อกพวกเขาด้วย IP ที่ระดับตัวโหลดบาลานซ์ เมื่อก่อนพวกเขาเคยใช้ Stack Overflow ในทางที่ผิดฉันคิดว่าคุณอาจต้องการทราบ ดูเหมือนว่าการค้นหาเว็บของ Yahoo คือ "Powered by Bing!" ตอนนี้ นี่เป็นสิ่งที่ดีเพราะเราไม่เคยมีปัญหากับแมงมุมของ Bing (หรือที่รู้จัก MSNBOT) ดังนั้นการค้นหาของ Yahoo เหมือนกับการค้นหา Bing ในตอนนี้หรือเราควรมองหาที่จะยกเลิกการปิดกั้นพวกเขาหากพวกเขาได้รับอย่างใดเทียบกับอัตราต่อรองทั้งหมดหยุดดูดอย่างหนัก?

3
ฉันควรตั้งค่าตัวแทนผู้ใช้ใด
มี Ask bot ซึ่งตั้งหัวข้อนี้: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) เมื่อพิจารณาถึงสิ่งนี้ฉันมีคำถามต่อไปนี้: หากฉันกำลังเขียนโปรแกรมรวบรวมข้อมูลเว็บชื่อ Goofy ฉันควรใช้ตัวแทนผู้ใช้ใด ถ้าฉันใส่Mozilla/2.0หรือแตกต่างMozilla/5.0คืออะไร? คำแนะนำอื่น ๆ เกี่ยวกับวิธีการจัดรูปแบบตัวแทนผู้ใช้ของฉันเพื่อให้เป็นไปตามมาตรฐานในปัจจุบันเป็นมากกว่าการต้อนรับ

2
ฉันควรบล็อกบอทจากเว็บไซต์ของฉันและทำไม
บันทึกของฉันเต็มไปด้วยผู้เยี่ยมชมบอทซึ่งมักมาจากยุโรปตะวันออกและจีน บอทถูกระบุว่าเป็น Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou และอื่น ๆ ฉันควรบล็อกบอทเหล่านี้จากเว็บไซต์ของฉันหรือไม่ มีจุดประสงค์ใดที่ถูกต้องตามกฎหมายในการเพิ่มปริมาณการใช้ไซต์ของฉัน หลายคนมี SEO ฉันต้องบอกว่าฉันเห็นทราฟฟิกน้อยลงหากมีสิ่งใดนับตั้งแต่บอทมาถึงเป็นจำนวนมาก มันจะไม่ยากเกินไปที่จะบล็อกสิ่งเหล่านี้เนื่องจากพวกเขายอมรับในตัวแทนผู้ใช้ของพวกเขาว่าพวกเขาเป็นบอท

4
การตีความของตัวแทนผู้ใช้ที่ว่างเปล่า
ฉันจะตีความตัวแทนผู้ใช้ว่างได้อย่างไร ฉันมีรหัสการวิเคราะห์ที่กำหนดเองและรหัสนั้นจะต้องวิเคราะห์ปริมาณการใช้งานของมนุษย์เท่านั้น ฉันมีรายชื่อตัวแทนผู้ใช้ที่แสดงถึงปริมาณการใช้งานของมนุษย์และปริมาณการใช้บอต แต่ตัวแทนผู้ใช้ที่ว่างเปล่ากำลังพิสูจน์ว่าเป็นปัญหา และฉันได้รับปริมาณข้อมูลจำนวนมากด้วยตัวแทนผู้ใช้ที่ว่างเปล่าประมาณ 10% นอกจากนี้ฉันได้สร้างทราฟฟิกมนุษย์กับรายการตัวแทนผู้ใช้ทราฟฟิกทบ็อตด้วยการวิเคราะห์บันทึกปัจจุบันของฉัน เช่นนี้ฉันอาจจะพลาดรายการจำนวนมากในนั้น มีรายชื่อตัวแทนผู้ใช้ที่ได้รับการดูแลเป็นอย่างดีซึ่งแสดงถึงทราฟฟิกของ bot หรือตรงกันข้ามรายการของตัวแทนผู้ใช้ที่แสดงถึงทราฟฟิกของมนุษย์?

1
รวมตัวแทนผู้ใช้ใน robots.txt
ตัวแทนผู้ใช้สามารถแสดงรายการร่วมกันตามด้วยกฎทั่วไปเช่นในrobots.txt ได้หรือไม่ User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
ตัวแทนผู้ใช้ในเบราว์เซอร์ปกติมี 'bot' หรือ 'crawl' หรือไม่
ตัวแทนผู้ใช้ในเบราว์เซอร์ปกติมี 'bot' หรือ 'crawl' หรือไม่ ฉันจะตรวจสอบตัวแทนผู้ใช้บนเว็บไซต์ของฉันเพื่อดูว่ามันมาจากบอทหรือไม่ หากเป็นเช่นนั้นฉันสามารถเพิ่มประสิทธิภาพเล็กน้อยได้เนื่องจากไม่ได้ลงชื่อเข้าใช้ (ฉันไม่เปลี่ยนเนื้อหาเลย) หลังจากเพิ่มเช็คสำหรับ 30-40+ บอทฉันเริ่มเบื่อแล้ว ดังนั้นฉันจึงสงสัยว่าการตรวจสอบว่ามันประกอบด้วย 'bot' หรือ 'crawl' หรือไม่ ฉันรู้ว่าจะไม่ได้บอททั้งหมด แต่มันจะได้รับจำนวนมาก แต่ถ้านั่นอาจทำให้เกิดผลบวกปลอม ๆ มันจะทำให้ความสามารถในการสั่งซื้อสั่งซื้อและเข้าสู่ระบบโดยสิ้นเชิง
11 user-agent 

3
ใช้การระบุตัวตนตัวแทนผู้ใช้สำหรับเทคนิคการโจมตีสคริปต์หรือไม่?
รายการบันทึกการเข้าถึง Apache บนไซต์ของฉันมักจะเป็นรายการนี้: 207.46.13.174 - - [31 / Oct / 2016: 10: 18: 55 +0100] "รับ / ติดต่อ HTTP / 1.1" 200 256 "-" "Mozilla / 5.0 (เข้ากันได้; bingbot / 2.0; + http: // www .bing.com / bingbot.htm) "0.607 นางสาว 10.10.36.125:104 0.607 เพื่อให้คุณสามารถเห็นฟิลด์ตัวแทนผู้ใช้ที่นั่น แต่วันนี้ฉันยังพบฟิลด์ตัวแทนผู้ใช้ที่ใช้สิ่งนี้: 62.210.162.42 - - [31 / Oct …

2
เครื่องหมายบวกด้านหน้า URL ในตัวแทนผู้ใช้
ฉันเรียกใช้โปรแกรมรวบรวมข้อมูลเว็บขนาดเล็กและต้องตัดสินใจเกี่ยวกับตัวแทนผู้ใช้ที่จะใช้ รายการของตัวแทนซอฟต์แวร์รวบรวมข้อมูลรวมถึงWikipediaแนะนำรูปแบบต่อไปนี้: examplebot/1.2 (+http://www.example.com/bot.html) อย่างไรก็ตามบ็อตบางตัวจะไม่ใส่เครื่องหมายบวกด้านหน้า URL และฉันสงสัยว่ามันหมายถึงอะไรในตอนแรก แต่ไม่พบคำอธิบายใด ๆ RFC 2616 พิจารณาทุกอย่างในวงเล็บเป็นความคิดเห็นและไม่ จำกัด รูปแบบ แต่เป็นเรื่องปกติที่เบราว์เซอร์จะมีรายการโทเค็นคั่นด้วยเครื่องหมายอัฒภาคในความคิดเห็นที่โฆษณารุ่นและความสามารถของเบราว์เซอร์ ฉันไม่คิดว่านี่เป็นมาตรฐานในลักษณะอื่นใดนอกเหนือจากเบราว์เซอร์ส่วนใหญ่ที่จัดรูปแบบคล้ายกัน และฉันไม่พบสิ่งใดที่เกี่ยวข้องกับ URL ในความคิดเห็น คำถามของฉันคือ: ทำไมเครื่องหมายบวก? ฉันต้องการมันไหม

3
กลยุทธ์สำหรับการรับมือกับหุ่นยนต์ที่ทำงานผิดปกติ
ฉันมีเว็บไซต์ที่ด้วยเหตุผลด้านกฎระเบียบอาจไม่ได้รับการจัดทำดัชนีหรือค้นหาโดยอัตโนมัติ ซึ่งหมายความว่าเราต้องป้องกันไม่ให้หุ่นยนต์ทั้งหมดออกไปและป้องกันไม่ให้มีการแพร่กระจายของไซต์ เห็นได้ชัดว่าเรามีไฟล์ robots.txt ซึ่งไม่สามารถทำได้ตั้งแต่เริ่มต้น อย่างไรก็ตามการสังเกตไฟล์ robots.txt เป็นสิ่งที่โรบอตทำงานได้ดีเท่านั้น เมื่อเร็ว ๆ นี้เรามีปัญหาบางอย่างกับหุ่นยนต์ที่ประพฤติตัวไม่ดี ฉันได้กำหนดค่า Apache ให้ห้ามตัวแทนผู้ใช้สองสามคนแต่มันก็ง่ายที่จะเข้าใจ ดังนั้นคำถามคือมีวิธีการกำหนดค่า Apache (อาจติดตั้งโมดูลบางอย่าง?) เพื่อตรวจสอบพฤติกรรมเหมือนหุ่นยนต์และตอบสนอง? ความคิดอื่น ๆ ? ในขณะนี้สิ่งที่ฉันทำได้คือห้ามที่อยู่ IP ตามการตรวจสอบบันทึกด้วยตนเองและนั่นไม่ใช่กลยุทธ์ระยะยาวที่ใช้งานได้จริง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.