ฉันกำลังเขียนโปรแกรมรวบรวมข้อมูลใน Ruby (1.9) ซึ่งใช้ HTML จำนวนมากจากไซต์สุ่มจำนวนมาก
เมื่อพยายามแยกลิงก์ฉันตัดสินใจใช้.scan(/href="(.*?)"/i)
แทน nokogiri / hpricot (การเร่งความเร็วที่สำคัญ) ปัญหาคือตอนนี้ฉันได้รับinvalid byte sequence in UTF-8
ข้อผิดพลาด "" จำนวนมาก
จากสิ่งที่ฉันเข้าใจnet/http
ไลบรารีไม่มีตัวเลือกเฉพาะในการเข้ารหัสและสิ่งที่เข้ามานั้นไม่มีแท็กอย่างถูกต้อง
วิธีใดเป็นวิธีที่ดีที่สุดในการทำงานกับข้อมูลที่เข้ามาจริง ฉันลอง.encode
ใช้ชุดตัวเลือกการแทนที่และไม่ถูกต้อง แต่ยังไม่ประสบความสำเร็จ ...
'U*'
ปลด'C*'
?