ฉันจะ 'ดึง' ข้อมูลเฉพาะอย่างรวดเร็วจากหน้าเว็บ (ซอร์สโค้ด) และจัดรูปแบบเป็น XML ได้อย่างไร


0

สิ่งสำคัญ: บริษัท ขนาดเล็กที่ฉันทำงานเพื่อโฆษณาผลิตภัณฑ์ผ่าน Google Merchant เราอัปโหลดผลิตภัณฑ์ในไฟล์ XML ตามข้อกำหนดของ Google

ปัญหา: การจัดรูปแบบผลิตภัณฑ์หลายพันรายการด้วยตนเองใน XML เป็นงานที่ลำบาก สิ่งที่ฉันต้องการคือวิธีที่รวดเร็วในการแปลงข้อมูลที่เกี่ยวข้องในแต่ละหน้าผลิตภัณฑ์เป็นรูปแบบ XML ฉันกำลังมองหาวิธีอัตโนมัติ (กึ่ง) จาก bigHTMLSourceCode - & gt; formattedXML

ถ้าฉันไม่ชัดเจนลองนึกภาพอยากจัดรูปแบบหน้าผลิตภัณฑ์ของ Amazon เป็น XML คุณต้องการค่าใช้จ่ายคำอธิบายน้ำหนัก ฯลฯ จัดเรียงอย่างใดอย่างหนึ่งด้วยแท็ก XML ที่เหมาะสม ฯลฯ และการทำเช่นนั้นกับผลิตภัณฑ์หลายพันรายการนั้นไม่สามารถเชื่อถือได้

ฉัน Googled อย่างกว้างขวาง แต่ก็ยังไม่มีโปรแกรมค้นหาโชคที่สามารถช่วยได้


ดังนั้นเว็บไซต์ต้นทางของคุณเป็นเพียงชุดของไฟล์. html ที่ดูแลรักษาด้วยตนเอง
Der Hochstapler

1
@OliverSalzburg ข้อมูลผลิตภัณฑ์ส่วนใหญ่ได้รับการปรับปรุงด้วยตนเอง แต่ละหน้ายังมีข้อมูลที่สร้างขึ้นโดยอัตโนมัติ แต่ฉันไม่สามารถเข้าถึง 'ส่วนหลัง' ของสิ่งต่าง ๆ ได้และถูกขอให้คิดหาวิธีแก้ปัญหาด้วยสิ่งที่มีอยู่ (และข้อมูลที่จำเป็นทั้งหมดนั้นมีอยู่ในแหล่งวัตถุดิบแน่นอน รหัส).
MrT

คำตอบ:


0

คุณจะพบเรื่องราวความสำเร็จมากมายกับโมดูล Python ซุปที่สวยงาม และขอแนะนำอย่างกว้างขวางสำหรับการขูดเว็บซึ่งฉันจะจัดหมวดหมู่นี้ภายใต้ (หากคุณแนะนำวิธีแก้ปัญหาด้วยนิพจน์ปกติคุณจะได้รับการตำหนิอย่างรวดเร็วจากผู้ใช้ SU และ SO :-) นั่นคือสิ่งที่ฉันจะใช้ในการขูดตัวอย่าง amazon.com ของคุณและฉันได้ใช้มันในบริบทอื่น ๆ

หากคุณมีประสบการณ์ Python ขั้นพื้นฐานคุณสามารถดูตัวอย่างและมีวิธีแก้ปัญหาการทำงาน หากคุณมีนิสัยการเขียนโปรแกรมทั่วไปบางอย่างคุณอาจทำแบบเดียวกันกับเวลาอีกเล็กน้อย

(ฉันไม่ชอบเมื่อมีคนพูดว่า "โอ้มันเป็นเรื่องง่ายจริง ๆ !" เมื่อใช้ในทางปฏิบัติใช้เวลานานสำหรับคนที่ไม่คุ้นเคยกับเครื่องมือ แต่ฉันเชื่อว่า Beautiful Soup และ Python เป็นวิธีที่ง่ายและมีประสิทธิภาพ ค้นหาโซลูชันที่เหมาะกับคุณดีกว่า: ดี :-))


ภาคผนวก: ระบบประเภทใดที่คุณมีทุกหน้าเป็น HTML แบบคงที่? ข้อมูลไม่ถูกจัดเก็บในฐานข้อมูลหรือไม่? ฉันเดาไม่ได้เพราะคำถามของคุณ สิ่งนี้อาจทำให้เกิดปัญหา (สำหรับ ใด โซลูชันอัตโนมัติ) หาก HTML ไม่สอดคล้องกันในทุกหน้าผลิตภัณฑ์


ขอบคุณ! ฉันหวังว่าปัญหานี้ ('การขูดเว็บ' - คำศัพท์ใหม่!) เป็นเรื่องธรรมดาพอที่จะมีโปรแกรมที่อุทิศให้กับงาน ฉันไม่มีประสบการณ์ Python แต่ฉันเรียนที่ C ++ และ Java ข้อมูลสินค้า คือ เก็บไว้ในฐานข้อมูล แต่ฉันไม่สามารถเข้าถึงได้ เจ้านายของฉันขอให้ฉันหาวิธีแก้ปัญหาด้วยสิ่งที่ฉันมีเนื่องจากข้อมูลทั้งหมดที่ต้องการอยู่ในแหล่ง
MrT

0

หาก HTML ของคุณคือ XHTML คุณสามารถใช้ XSLT ?

มีเครื่องมือให้ แปลง HTML เป็น XML

ทางเลือกหลักคือการใช้ ภาษาสคริปต์ ที่มีโมดูลสำหรับ การแยกวิเคราะห์ HTML หรือ เว็บขูด และโมดูลสำหรับ เขียน XML . แต่นั่นหมายถึงการเขียนโปรแกรม / สคริปต์


ขอบคุณ! ฉันจะดูเครื่องมือเหล่านี้ ฉันหวังว่าจะหลีกเลี่ยงการเขียนโปรแกรมและสคริปต์ (ฉันเป็นโปรแกรมเมอร์ baaad) แต่ฉันจะดำดิ่งลงไปถ้าฉันต้องทำ ตัวแปลง HTML- & gt; XML ที่ฉันพบว่ายังไม่เหมาะสม
MrT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.