5
การรับข้อมูลจากหน้าเว็บด้วยวิธีที่มั่นคงและมีประสิทธิภาพ
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าการใช้ regex เพื่อแยก HTML ของเว็บไซต์เพื่อรับข้อมูลที่คุณต้องการไม่ใช่วิธีการที่ดีที่สุด ดังนั้นคำถามของฉันง่าย: อะไรคือสิ่งที่ดีที่สุด / มีประสิทธิภาพมากที่สุดและเป็นวิธีที่มีเสถียรภาพโดยทั่วไปในการรับข้อมูลนี้ ฉันควรทราบว่า: ไม่มี API ไม่มีแหล่งข้อมูลอื่นที่ฉันสามารถรับข้อมูลได้ (ไม่มีฐานข้อมูลฟีดและอื่น ๆ ) ไม่สามารถเข้าถึงไฟล์ต้นฉบับได้ (ข้อมูลจากเว็บไซต์สาธารณะ) สมมติว่าข้อมูลเป็นข้อความปกติแสดงในตารางในหน้า html ตอนนี้ฉันใช้ python สำหรับโปรเจคของฉัน แต่ภาษา / การแก้ปัญหา / เคล็ดลับก็ดี เป็นคำถามด้าน: คุณจะไปเกี่ยวกับมันอย่างไรเมื่อหน้าเว็บถูกสร้างโดย Ajax สาย? แก้ไข: ในกรณีของการแยกวิเคราะห์ HTML ฉันรู้ว่าไม่มีวิธีที่มั่นคงในการรับข้อมูล ทันทีที่มีการเปลี่ยนแปลงหน้าตัวแยกวิเคราะห์ของคุณจะทำเพื่อ สิ่งที่ฉันหมายถึงด้วยความเสถียรในกรณีนี้คือ: วิธีที่มีประสิทธิภาพในการแยกวิเคราะห์หน้าเว็บที่ส่งผลลัพธ์เดียวกันให้ฉันเสมอ (สำหรับชุดข้อมูลชุดเดียวกันอย่างชัดเจน) โดยที่หน้าไม่เปลี่ยนแปลง