การใช้เครื่องมือการประมวลผลข้อความ / ภาษาธรรมชาติสำหรับเศรษฐมิติ

ฉันไม่แน่ใจว่าคำถามนี้เหมาะสมอย่างยิ่งหรือไม่โปรดลบ

ฉันเป็นนักเรียนที่จบการศึกษาด้านเศรษฐศาสตร์ สำหรับโครงการที่ตรวจสอบปัญหาในการประกันสังคมฉันสามารถเข้าถึงรายงานกรณีการบริหาร (> 200k) จำนวนมากซึ่งจัดการกับการประเมินสิทธิ์ รายงานเหล่านี้อาจเชื่อมโยงกับข้อมูลการดูแลส่วนบุคคล ฉันต้องการดึงข้อมูลจากรายงานเหล่านี้ที่สามารถนำมาใช้ในการวิเคราะห์เชิงปริมาณและการค้นหาคำหลัก / regex ง่าย ๆ โดยใช้grep/ awketc

การประมวลผลภาษาธรรมชาติมีประโยชน์อย่างไรสำหรับสิ่งนี้ อะไรคือวิธีการขุดข้อความที่มีประโยชน์อื่น ๆ จากสิ่งที่ฉันเข้าใจว่านี่เป็นเขตข้อมูลขนาดใหญ่และส่วนใหญ่มีรายงานบางส่วนที่จะต้องถูกเปลี่ยนเป็นใช้เป็นคลังข้อมูล มันคุ้มค่าที่จะลงทุนสักระยะเพื่อทำความคุ้นเคยกับวรรณกรรมและวิธีการหรือไม่? มันจะมีประโยชน์และมีสิ่งที่คล้ายกันเคยทำมาก่อนหรือไม่ มันคุ้มค่าหรือไม่ในแง่ของรางวัลเช่นฉันสามารถดึงข้อมูลที่เป็นประโยชน์โดยใช้ NLP สำหรับการศึกษาเชิงประจักษ์ทางเศรษฐศาสตร์ได้หรือไม่?

อาจมีการระดมทุนเพื่อจ้างคนอ่านและเตรียมรายงานบางส่วน นี่เป็นโครงการขนาดใหญ่และมีความเป็นไปได้ที่จะใช้เงินทุนเพิ่มเติม ฉันสามารถให้รายละเอียดเพิ่มเติมเกี่ยวกับหัวข้อหากจำเป็นอย่างเคร่งครัด ความซับซ้อนที่อาจเกิดขึ้นคือภาษาเยอรมันไม่ใช่ภาษาอังกฤษ

เกี่ยวกับคุณวุฒิส่วนใหญ่ฉันได้รับการฝึกฝนด้านเศรษฐมิติและมีความรู้เกี่ยวกับสถิติการคำนวณในระดับHastie et al หนังสือ ฉันรู้จัก Python, R, Stata และอาจคุ้นเคยกับ Matlab อย่างรวดเร็ว ให้ห้องสมุดฉันคิดว่าหลามเป็นเครื่องมือของการเลือกนี้ ไม่มีการฝึกอบรมในวิธีการเชิงคุณภาพถ้ามันเกี่ยวข้อง แต่ฉันรู้ว่ามีบางคนที่ฉันสามารถติดต่อได้

ฉันดีใจที่ได้รับข้อมูลใด ๆ เกี่ยวกับเรื่องนี้เช่นถ้านี่อาจเป็นประโยชน์ถ้าเป็นเช่นนั้นสถานที่ที่จะเริ่มอ่านและเครื่องมือใดที่ควรให้ความสำคัญเป็นพิเศษ

— ilprincipe
แหล่งที่มา

LASSO, การถดถอยมุมต่ำสุดและการวิเคราะห์โลจิสติกเป็นเครื่องมือที่เกี่ยวข้อง คุณอาจต้องการตรวจสอบว่าฉันเข้าหาปัญหาที่คล้ายกันสำหรับปริญญาเอกของฉันได้อย่างไร วิทยานิพนธ์ที่นี่และโพสต์บล็อกของฉันเกี่ยวกับเครื่องมือ NLP ในทางเศรษฐศาสตร์ที่นี่ หากคุณได้รับสิ่งนี้มันจะเป็นการดีหากได้ยินความก้าวหน้าหรือความท้าทายใด ๆ ที่คุณอาจพบเจอ

— นักเรียนชั้นประถมศึกษาปีที่

ฉันคิดว่ามันจะเป็นประโยชน์สำหรับคุณในการกำหนดข้อมูลที่คุณต้องการแยกออกจากข้อมูล การค้นหาคำหลัก / regex อย่างง่าย ๆ อาจมีประโยชน์มากสำหรับคุณ ฉันทำงานในประกันและเราใช้การขุดข้อความแบบนี้บ่อยครั้ง - มันไร้เดียงสาและไม่สมบูรณ์แน่นอน แต่มันเป็นการเริ่มต้นที่ดี (หรือใกล้เคียง) กับสิ่งที่เราสนใจโดยทั่วไป

แต่ถึงจุดสำคัญของฉันเพื่อที่จะคิดออกว่าวิธีการที่คุณเลือกนั้นเหมาะสมหรือไม่ฉันขอแนะนำให้กำหนดสิ่งที่คุณต้องการแยกออกจากข้อมูลอย่างแน่นอน นั่นเป็นส่วนที่ยากที่สุดในความคิดของฉัน

อาจเป็นเรื่องที่น่าสนใจในการค้นหาคำที่ไม่เหมือนใครในสายอักขระทั้งหมดและทำความถี่ของคำ 1,000 คำแรกหรือมากกว่านั้น สิ่งนี้อาจมีค่าใช้จ่ายในการคำนวณสูง (ขึ้นอยู่กับแรม / โปรเซสเซอร์) แต่มันอาจจะดูน่าสนใจ ถ้าฉันสำรวจข้อมูลโดยที่ไม่รู้มากนี่คือจุดเริ่มต้นของฉัน (คนอื่นอาจเสนอมุมมองที่ต่างออกไป)

หวังว่าจะช่วย

— Francisco Arceo
แหล่งที่มา

ขอบคุณฉันคิดอย่างแน่นอนเกี่ยวกับการเริ่มต้นด้วยสิ่งนี้ ฉันรู้ว่าคำถามของฉันไม่ชัดเจน แต่โดยทั่วไปแล้วฉันสนใจในข้อมูลประเภทใดบ้างที่ฉันสามารถแยกด้วยวิธีอื่น ๆ ฉันยอมรับว่าฉันไม่แน่ใจว่าเป็นไปได้หรือไม่ที่จะตอบคำถามนี้โดยไม่ทราบบริบทที่เฉพาะเจาะจง

— ilprincipe

ฉันคิดว่านั่นเป็นสิ่งที่ท้าทายเสมอสำหรับข้อมูล / งานที่เกี่ยวข้องกับงาน ฉันอาจแนะนำให้ดูที่ข้อมูลของคุณถ้ามีตัวแปรที่มีคำอธิบายเกี่ยวกับข้อมูลหรือเหตุการณ์ประกันภัยอ่านสองสามโหล - รับความรู้สึกสำหรับข้อมูล โปรดจำไว้ว่าสิ่งที่เรากำลังพยายามทำคือเป็นแบบจำลองกระบวนการพื้นฐานของข้อมูลและการทำงานที่ยอดเยี่ยมจริง ๆ ที่คุณต้องรู้ข้อมูล

— Francisco Arceo