2
การปรับสเกลข้อมูลอย่างมีจริยธรรมและประหยัดต้นทุน
มีบางสิ่งในชีวิตที่ทำให้ฉันมีความสุขเช่นการขูดข้อมูลที่ไม่มีโครงสร้างและไม่มีโครงสร้างจากอินเทอร์เน็ตและใช้มันในแบบจำลองของฉัน ตัวอย่างเช่นชุด Data Science Toolkit (หรือRDSTKสำหรับโปรแกรมเมอร์ R) ช่วยให้ฉันสามารถดึงข้อมูลตามตำแหน่งที่ดีโดยใช้ IP หรือที่อยู่และแพคเกจtm.webmining.pluginสำหรับ R tmทำให้การคัดลอกข้อมูลทางการเงินและข่าวตรงไปตรงมา เมื่อจะเกิน (กึ่ง) XPathข้อมูลที่มีโครงสร้างเช่นฉันมักจะใช้ อย่างไรก็ตามฉันได้รับปริมาณ จำกัด อย่างต่อเนื่องกับจำนวนข้อความค้นหาที่คุณอนุญาต ฉันคิดว่า Google จำกัด ฉันให้ถึง 50,000 คำขอต่อ 24 ชั่วโมงซึ่งเป็นปัญหาสำหรับ Big Data จากมุมมองทางเทคนิคการเข้าถึงข้อ จำกัด เหล่านี้เป็นเรื่องง่ายเพียงแค่เปลี่ยนที่อยู่ IP และกำจัดตัวระบุอื่น ๆ จากสภาพแวดล้อมของคุณ อย่างไรก็ตามสิ่งนี้นำเสนอทั้งความกังวลด้านจริยธรรมและการเงิน (ฉันคิดว่า?) มีวิธีแก้ปัญหาที่ฉันมองเห็นหรือไม่?