ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ
ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep
/ awk
etc
การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่?
อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ
เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้
ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ