วิศวกรรมซอฟต์แวร์ web-scraping

จะเป็นพลเมืองที่ดีได้อย่างไรเมื่อรวบรวมข้อมูลเว็บไซต์?

ฉันกำลังจะพัฒนาฟังก์ชั่นบางอย่างที่จะรวบรวมข้อมูลเว็บไซต์สาธารณะต่างๆและประมวลผล / รวมข้อมูลกับพวกเขา ไม่มีอะไรที่น่ากลัวเหมือนการค้นหาที่อยู่อีเมล - ในความเป็นจริงมันเป็นสิ่งที่อาจผลักดันการรับส่งข้อมูลเพิ่มเติมไปยังเว็บไซต์ของพวกเขา แต่ฉันเชือนแช นอกเหนือจากการให้เกียรติrobots.txtมีกฎหรือแนวทางปฏิบัติเป็นลายลักษณ์อักษรหรือไม่เป็นลายลักษณ์อักษรที่ฉันควรจะปฏิบัติตามเพื่อ (ก) หลีกเลี่ยงการปรากฏตัวที่เป็นอันตรายและอาจถูกแบนและ (b) ไม่ทำให้เกิดปัญหาใด ๆ สำหรับเจ้าของเว็บไซต์ / เว็บมาสเตอร์ ตัวอย่างบางอย่างที่ฉันสามารถนึกได้ซึ่งอาจจะสำคัญหรือไม่สำคัญ: จำนวนการร้องขอแบบขนาน เวลาระหว่างคำขอ เวลาระหว่างการรวบรวมข้อมูลทั้งหมด หลีกเลี่ยงการเชื่อมโยงที่อาจเป็นอันตราย (ไม่ต้องการเป็นSpider of Doom - แต่ใครจะรู้ว่านี่เป็นประโยชน์จริง ๆ ) นั่นเป็นเพียงการถ่มน้ำลายใส่ลูกบอลจริงๆ มีผู้ใดบ้างที่เคยลองและทดสอบภูมิปัญญามาแล้วซึ่งมีผลบังคับใช้ในวงกว้างสำหรับใครก็ตามที่ต้องการเขียนหรือใช้สไปเดอร์?

83 web-scraping web-crawler

รูปแบบและการปฏิบัติสำหรับ Web Scraping ใน. Net (C #) [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ฉันจะรวบรวมแอปพลิเคชันเพื่อทำให้เว็บไซต์ / แอปพลิเคชันภายนอกทำงานโดยอัตโนมัติ ในบางกรณีฉันจะต้องสำรวจไซต์ตามที่ผู้ใช้ต้องการ (ลิงก์บางอย่างที่ฉันต้องติดตามไม่สามารถคาดเดาได้และต้องแยกวิเคราะห์จากการตอบกลับ) ฉันใช้Html Agility Pack อยู่แล้วและตระหนักดีว่าเป็นระเบียบถ้าจำเป็น มีเทคโนโลยีอื่น ๆ ที่ฉันควรทราบหรือไม่? มีรูปแบบที่แนะนำสำหรับความสามารถในการปรับอย่างรวดเร็วในกรณีที่แอปพลิเคชันเว็บภายนอกเปลี่ยนแปลงหรือไม่ ฉันคาดเดาการห่อหุ้มการตรวจสอบความถูกต้องของการตอบสนองเป็นกลยุทธ์บางประเภทหรือรูปแบบที่คล้ายกันซึ่งสามารถแยก / เสียบได้ง่ายตามความจำเป็น แต่คำแนะนำเฉพาะใด ๆ จะดีมาก

9 c# .net html web-scraping

คำถามติดแท็ก web-scraping