Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите.
Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной административной информацией. Я хочу извлечь из этих отчетов информацию, которую можно использовать для количественного анализа, и в идеале это больше, чем простой поиск по ключевым словам / регулярным выражениям с использованием grep
/ awk
и т. Д.
Насколько полезна обработка естественного языка для этого? Каковы другие полезные подходы к анализу текста? Из того, что я понимаю, это большая область, и, скорее всего, некоторые отчеты пришлось бы преобразовать, чтобы использовать в качестве корпуса. Стоит ли тратить время на знакомство с литературой и методиками? Может ли это быть полезным и было ли что-то подобное сделано раньше? Стоит ли это с точки зрения вознаграждений, т.е. могу ли я извлечь потенциально полезную информацию, используя НЛП, для эмпирического исследования в области экономики?
Возможно, есть финансирование, чтобы нанять кого-нибудь, кто бы прочитал и подготовил некоторые отчеты. Это более крупный проект, и есть возможность подать заявку на большее финансирование. Я могу предоставить более подробную информацию о теме, если это строго необходимо. Одним из возможных осложнений является то, что язык немецкий, а не английский.
Что касается квалификаций, я в основном обучаюсь эконометрике и имею некоторые знания о вычислительной статистике на уровне Hastie et al. книга. Я знаю Python, R, Stata и, возможно, смог бы быстро познакомиться с Matlab. Учитывая библиотеки, я предполагаю, что Python является инструментом выбора для этого. Никаких тренировок по качественным методам, если это важно, но я знаю некоторых людей, с которыми я мог бы связаться.
Я рад за любой вклад в этом, то есть, если это потенциально полезно, если так, с чего начать чтение и на каких инструментах сосредоточиться, в частности.