Доклады и мастер-классы
Тематическая сегментация в информационном поиске
13 октября, 12:30
Room III|III зал
Обсудить доклад
Наша работа посвящена применению текстовой сегментации в сфере информационного поиска. Мы исходим из предположения, что тематическая сегментация позволяет лучше моделировать структуру текста и, как следствие, язык сам по себе, что влияет на качество представления текста в векторном виде. Мы протестировали нашу гипотезу на датасете статей из arXiv и показали, что сегментация действительно в большинстве случаев улучшает качество поиска.
Полина Казакова
Data Scientist, Интегрированные Системы
Закончила НИУ ВШЭ по специальности “Фундаментальная и компьютерная лингвистика”, работала в Международной лаборатории языковой конвергенции при Вышке, где занималась моделированием языковых данных для социолингвистических исследований. Участник российских и международных конференций, соавтор ряда научных публикаций. Сейчас работает Data Scientist в компании Naumen, где занимается как научной деятельностью, так и решением прикладных задач анализа данных.
Никита Никитинский
Руководитель R&D, Интегрированные Системы
Работает в области ML и NLP более 6 лет, имеет большое научно-технологическое портфолио, участник российских и международных конференций, есть российские патенты и научные публикации, индексируемые WoS и Scopus. Сейчас курирует все RnD-проекты департамента.
Геннадий Штех
Lead Data Scientist, Интегрированные Системы
Работает в области software engineering, ML и NLP более 4 лет, участвовал в соревнованиях по машинному обучению, руководил исследованием применения машинного обучения в области компьютерной безопасности. Сейчас его основной проект — разработка системы кросс-язычного информационного поиска.