Наука
1777

Интеграция больших данных и распознавание демотиваторов: В НовГУ говорят о будущем программирования

Интеграция больших данных и распознавание демотиваторов: В НовГУ говорят о будущем программирования

Сегодня в Новгородском университете открылась вторая международная научная конференция по системному программированию «Иванниковские чтения». Она посвящена памяти основателя Института системного программирования РАН Виктора Иванникова. Первая конференция прошла в прошлом году в Ереване.

Участники форума обсуждают инновации в программировании.

— Наш мир меняется с такой скоростью, что, только объединив усилия, можно не догонять технологии, а развиваться, опережая их, — заявил на открытии чтений и.о. ректора НовГУ Юрий Боровиков. — 10 лет назад Институт системного программирования и Новгородский университет приняли решение о размещении в НовГУ лаборатории системного программирования. Эта структура неплохо зарекомендовала себя, в том числе на международном уровне. И сейчас формируется распределённый центр компетенций Института системного программирования.

Директор ИСП РАН Арутюн Аветисян, в свою очередь, сообщил о планах по дальнейшему сотрудничеству с Новгородским университетом.

— За 10 лет мы прошли очень хороший путь. Если в прошлый раз мы приезжали в Великий Новгород просто с туристическим визитом, то сейчас — это международная конференция на базе первоклассной лаборатории. Мы сделаем всё возможное, чтобы в ближайшее десятилетие у нас «выросла вторая нога» в виде анализа данных, — заверил Аветисян.

С пленарными докладами на конференции выступили профессор университета Датского города Оденсе Динес Бьорнер и Асаф Шустер из университета «Технион» в израильской Хайфе.

В рамках работы секций участники «Иванниковских чтений» обсуждают тенденции развития технологий анализа и моделирования программ, управления данными и информационными системами, работы с операционными системами и высокопроизводительными вычислениями.

Учёный из МГУ Владимир Сазонтьев на конференции рассказал о работе над системой материализованной интеграции больших данных. Существующие в настоящее время исследовательские и коммерческие системы имеют ряд недостатков.

— Системы интеграции стремятся объединить большие объёмы данных из разнородных источников. Однако они до сих пор ограничены человеческим ресурсом, необходимым для отбора источников, создания правил, составления схем и выявления общих сущностей данных. Коммерческие системы интеграции хорошо извлекают данные, но плохо автоматизированы в части сопоставления и разрешения конфликтов, особенно больших данных. Исследовательские системы, наоборот, умеют работать с большими данными, хорошо автоматизированы, но обычно их методы не заменяемы и не представляют полного цикла работы с данными, — пояснил Сазонтьев.

Вместе со своим коллегой Сергеем Ступниковым учёный разрабатывает расширяемый подход к интеграции больших данных. Исследователи создали прототип и протестировали его на данных электронных магазинов оптики. Далее ученые планируют его доработать и провести испытания, чтобы доказать возможность использования системы для работы с более масштабными объёмами данных.

Оксана Беляева из Института системного программирования представила систему оптического распознавания текстов изображений, размещаемых в соцсетях. Исследовательница вместе с группой коллег создала нейросеть на базе программы Tesseract OCR. Учёные работали с демотиваторами, сканами документов и их фотографиями. Без предварительной обработки программа распознавала менее 30% символов, с системой распознавания, созданной российскими программистами, в полностью автоматизированном режиме работы — 84,5%. По словам Оксаны Беляевой, целью такого анализа изображений в соцсетях может быть изучение эмоционального окраса постов пользователей, их требований и пожеланий.

«Иванниковские чтения» продолжатся в субботу.