Інтэрв’ю для суполкі з Аляксандрам Аўтаевым, камп’ютэрным лінгвістам
Сябры, для суполкі NLProc.by мы ўзялі інтэрв’ю ў Аляксандра Аўтаева, навукоўцы ва Ўніверсітэце Трэнта (Італія), прыкладнога спецыяліста ў галіне камп’ютэрнай лінгвістыкі.
Добры дзень, Аляксандр. Раскажыце пра Ваш вопыт у галіне камп'ютэрнай лінгвістыкі: калі пачалі цікавіцца і на якім узроўні, дзе слухалі, чыталі лекцыі ці вялі прыктыку, які першы быў праект?
Я бы сказал что по сравнению со многими более серьёзно вовлеченными в область у меня весьма скромный опыт. В основном из-за того, что Natural Language Processing (NLP) я использовал скорее как инструмент для решения своих задач. NLP как область искусственного интеллекта (Artificial Intelligence - AI) меня привлекала достаточно давно, ещё в универcитете, но на уровне любопытства, наравне со многими другими областями AI. Чуть более серьёзно заинтересовался NLP после приглашения в аспирантуру в университет Тренто.
Мои аспирантские исследования начались в области управления знаниями с решения задачи "семантического сопоставления" (semantic matching, извините, не уверен в русской терминологии). После ознакомления с задачей и первых экспериментов довольно быстро стало ясно, что одним из направлений улучшения может быть лучшее понимание используемого в исходных данных языка.
Начал разбираться, в итоге другие направления оставил и написал диссертацию по этой теме. В отношении NLP моя диссертация имеет скорее прикладной, нежели фундаментальный характер и описывает применяемое в метаданных подмножество английского языка. Весьма, кстати, простое - в двух словах эта часть языка является комбинациями именных групп (noun phrases).
Разбирался в основном самостоятельно, ибо мой научный руководитель является специалистом в другой области, хоть и тоже в AI. Когда возникала необходимость - консультировался с коллегами из группы NLP соседского исследовательского института. Ну и началось - учебники, статьи, исследовательская работа.
Самая цікавая задача ці некалькі, над рашэннем якіх працавалі? Трошкі пра магчымасці ўжывання ў жыцці.
Одной из интересных задач была попытка унификации языка метаданных в рамках одной грамматики. Безуспешная :)
В языке метаданных есть два основных направления - с прямым порядком слов и с обратным и свести их вместе у меня пока не получилось.
Две другие интересные, но чисто технические задачи - автоматизация тренировки алгоритмов из OpenNLP на пользовательских форматах данных и доработка библиотеки работы с WordNet возможностью редактирования. В результате получилась extJWNL, которую по мере сил поддерживаю.
Гэта цікава. Дзякую за Вашыя намаганні. Дарэчы, можыце размясціць бібліятэку на гітхабе нашай суполкі, можа з’явяцца зацікалеўныя дапамагчы, і не так даўно мы пачалі працу над ворднэтам для беларускай мовы. Будзем выкарыстоўваць вашую бібліятэку для таго, каб працаваць з варднэтам для англійскай і беларускай моў у будучыні.
Якія найбольш цікавыя трэнды ў галіне бачыце: што развіваецца вельмі хутка? Якія веды будуць карысныя ў бліжэйшыя гады?
Самый интересный на сегодня тренд это "глубокое обучение" (deep learning). Среди главных его особенностей я бы выделил
отказ от ручной разработки признаков (features),
расчёт на большие объёмы доступных данных,
сравнимая с или даже превосходящая традиционные статистические методы с ручным анализом и подбором признаков производительность,
лучшая переносимость в разные языки и домены.
Чрезвычайно активная область. К сожалению, сам слежу одним глазом.
Ещё одно интересное направление (мне интересное, уж не знаю, согласятся ли коллеги) это развитие и использование богатых семантико-лингвистических ресурсов (типа WordNet, Entitypedia, Google Knowledge Graph, Facebook Entity Graph) в NLP.
Одна из сложностей в обработке языка это последние проценты качества: 90->99->100.
Зачастую тут сложно что-то сделать машинным обучением - нужно "просто знать", просто знать "исключения" из правил. Мне кажется эти последние проценты могут быть "дожаты" при помощи богатых семантико-лингвистических ресурсов.
Мне лично было бы очень интересно поработать над слиянием машинного обучения и семантико-лингвистических ресурсов, если появится возможность.
Да, гэта прагрэсіўныя напрамкі.
Магу дадаць наконт Deep Learning, у канцы сакавіка пачаўся добры курс ад Стэнфардскага Ўніверсітэта.
Таксама на свет з’яўляюцца не толькі wordnet’ы, але і іншя карысныя рэсурсы, заснаваныя на той жа ідэі: VerbNet, GeoWordNet, FrameNet. Здаецца, вы таксама мелі вопыт з GeoWordNet.
Наконт апошніх крокаў да 100% - якасці, то да, згодзен з Вамі, такая праблема ў амаль што кожным напрамку камп’ютэрнай лінгвістыкі, нават Крыстафер Маннінг пісаў працу наконт задачы POS-tagging (аўтаматычная разметка часцінамі мовы).
Парайце крыніцы, то бок кнігі, практычныя сшыткі, спасылкі, на Ваш густ;
Область огромная, поэтому совсем субъективная выборка. Две (три) классики:
"Speech and Language Processing" by Dan Jurafsky and Jim Martin
"Foundations of Statistical Natural Language Processing" by Chris Manning and Hinrich Schütze
"Introduction to Information Retrieval" by Christopher D. Manning et al