ฉันกำลังเขียนโปรแกรมรวบรวมข้อมูลใน Ruby (1.9) ซึ่งใช้ HTML จำนวนมากจากไซต์สุ่มจำนวนมาก
เมื่อพยายามแยกลิงก์ฉันตัดสินใจใช้.scan(/href="(.*?)"/i)แทน nokogiri / hpricot (การเร่งความเร็วที่สำคัญ) ปัญหาคือตอนนี้ฉันได้รับinvalid byte sequence in UTF-8ข้อผิดพลาด "" จำนวนมาก
จากสิ่งที่ฉันเข้าใจnet/httpไลบรารีไม่มีตัวเลือกเฉพาะในการเข้ารหัสและสิ่งที่เข้ามานั้นไม่มีแท็กอย่างถูกต้อง
วิธีใดเป็นวิธีที่ดีที่สุดในการทำงานกับข้อมูลที่เข้ามาจริง ฉันลอง.encodeใช้ชุดตัวเลือกการแทนที่และไม่ถูกต้อง แต่ยังไม่ประสบความสำเร็จ ...
'U*'ปลด'C*'?