Т. 2, №2, 2016
Двоенко С.Д. , Пшеничный Д.О.Группировка признаков на основе оптимальной последовательности миноров корреляционной матрицы // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.01 При решении задачи группировки возникает проблема содержательной интерпретации полученных факторов и групп признаков. Тем не менее, факторы групп является синтетическими признаками, интерпретация которых может быть затруднена. Поэтому после выделения групп признаков и построения соответствующих им факторов в каждой группе обычно определяется ее представитель, как наиболее сильно коррелирующий с фактором группы признак. Тогда оказывается возможным содержательно интерпретировать результат группировки прямо в терминах исходных признаков.
Предложен новый подход для выбора подмножества признаков, способных адекватно представить скрытые факторы, без определения собственных или центроидных направлений в качестве промежуточных преобразований. Данный подход основан на построении оптимальной последовательности значений главных миноров корреляционной матрицы признаков. В начале такой оптимальной последовательности расположены наименее коррелированные друг с другом и с остальными признаки, а к ее концу выстраиваются все более коррелированные с остальными признаки, выбранные в последнюю очередь.
В работе показано, что предложенный подход позволяет формировать начальное решение для других алгоритмов группировки и также может применяться самостоятельно для оценки числа групп и построения содержательных группировок.
Талипов К.И., Матвеев И.А.Определение области затенения радужки кластеризацией основанной на локальных текстурных признаках // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.02 Решается задача выделения точек затенения области радужки различными объектами. Исходными данными является изображение радужки глаза человека и окружности, аппроксимирующие границы зрачок-радужка и радужка-склера. В качестве метода решения предлагается использовать расчёт локальных текстурных признаков и кластеризацию полученного вектора признаков. Целью работы является построение эффективного алгоритма, выделяющего точки затенения, и исследование возможности сегментации затенений радужки без априорно заданной модели её текстуры. Работа алгоритма проиллюстрирована примерами на данных из баз изображений радужки.
Чигринский В.В., Ефимов Ю.С., Матвеев И.А.Быстрый алгоритм поиска границ зрачка и радужной оболочки глаза // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.03 Решается задача поиска границ зрачка и радужной оболочки на изображении глаза. Определяются параметры аппроксимирующих окружностей, а именно координаты центров и радиусы. Для решения задачи выполняется последовательность шагов: морфологическая обработка и бинаризация входного изображения, определение параметров зрачка, выделение множества граничных точек с помощью оператора Кэнни и определение параметров радужной оболочки с помощью плотности распределения точек по их расстояниям до найденного центра зрачка. Для тестирования алгоритма используется смесь из 2331 изображения радужки.
Янина А.О., Воронцов К.В.Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.04 Разведочный информационный поиск нацелен на приобретение и систематизацию профессиональных знаний, в отличие от поисковых систем, отвечающих на короткие запросы массовых пользователей. Для него характерно отсутствие как точной формулировки запроса, так и единственного правильного ответа. В данной работе предлагается технология тематического разведочного поиска. Рассматривается задача поиска тематически близких документов по текстовому запросу произвольной длины. Применение аддитивной регуляризации тематических моделей (ARTM) позволяет комбинировать требования различности тем и разреженности векторных тематических представлений документов, а также учитывать дополнительные данные об авторах и категориях документов. Для построения тематических моделей используется библиотека с открытым кодом BigARTM. Предлагается методика оценивания точности и полноты тематического поиска на основе оценок асессоров. Эксперименты на данных коллективного блога habraharb.ru показывают, что качество тематического поиска сравнимо с качеством асессорского поиска и даже несколько превосходит его по критерию полноты, при этом асессоры тратят в среднем по 30 минут на каждый тематический запрос, тогда как тематическая поисковая система выдаёт результат практически мгновенно.
Чиркова Н. А, Воронцов К.В.Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.05 Вероятностные тематические модели выявляют семантику текстовых коллекций, описывая каждый документ дискретным распределением вероятностей на множестве тем. Иерархические модели рекурсивно делят темы на подтемы, что упрощает информационный поиск и навигацию по большим мультидисциплинарным коллекциям. В большинстве работ по иерархическому тематическому моделированию применяется байесовский вывод, что затрудняет введение тематических иерархий в тематические модели других видов. Не-байесовская аддитивная регуляризация тематических моделей (ARTM), наоборот, позволяет комбинировать любые тематические модели, если их специфические особенности формализуемы в виде критериев-регуляризаторов. Однако до сих пор иерархические модели не имели такой формализации.
В данной работе предлагаются регуляризаторы тематических иерархий, адаптируемые для широкого класса задач, в частности, для тематизации мультимодальных и мультиязычных данных научных электронных библиотек и социальных сетей.
Рассматриваются иерархии, в которых каждая подтема может иметь несколько родительских, что особенно актуально для междисциплинарных коллекций научных статей. Предлагаемый подход позволяет контролировать разреженность отношения тема-подтема и автоматически определять число подтем каждой темы. При построении модели задаётся только число тем на каждом уровне иерархии. Аддитивная регуляризация не усложняет процесс обучения тематической модели, что делает данный подход масштабируемым на большие текстовые коллекции.
Чувилин К.В.Параметрический подход к построению синтаксических деревьев для частично формализованных текстовых документов // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.06 Данная работа посвящена исследованию возможности автоматического построения логической структуры (абстрактного синтаксического дерева) для текстовых документов, формат которых не является полностью определённым стандартами или другими общими для всех документов правилами. В отличие от синтаксисов описываемой формальными грамматиками, в таких случаях нет возможности в автоматическом режиме построить синтаксический анализатор. Типичными примерами таких форматированных документов с не полностью формализованным синтаксисом разметки являются текстовые файлы в формате LATEX. В данной работе они используются как ресурсы для практической реализации разрабатываемых алгоритмов. Актуальность анализа именно LATEX-документов обусловлена тем, что многие научные издательства и конференции используют систему вёрстки LATEX, и это порождает важные прикладные задачи по автоматизации рубрикации, коррекции, сравнения, сбора статистики, отображения для WEB и т. п.
При синтаксическом анализе документов в формате LATEX требуется дополнительная информация о стилях: символах, командах и окружениях. В данной работе предлагается метод их описания в формате JSON, который позволяет задавать не только информацию, необходимую для синтаксического анализа, но и метаинформацию, упрощающую дальнейший интеллектуальный анализ. Такой подход использован впервые. Описываются разработанные алгоритмы построения синтаксического дерева документа в формате LATEX, использующие такую информацию как внешний параметр.
Полученные результаты успешно применены в задачах сравнения, автоматической коррекции и рубрикации научных статей. Реализация разработанных алгоритмов доступна в виде набора библиотек, распространяемых по лицензии LGPLv3. Ключевыми особенностями предлагаемого подхода являются: гибкость (в рамках рассматриваемой задачи) и простота описания параметров.
Предложенные подходы позволяют решить задачу синтаксического анализа документов в формате LATEX. Но для широкого практического использования разработанных алгоритмов требуется сформировать базу описаний элементов стилей.
Бондур В. Г., Мурынин А.Б., Игнатьев В.Ю..Оптимальный выбор параметров для восстановления
спектров морского волнения по аэрокосмическим изображениям // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.07 В работе рассматривается проблема восстановления спектров морской поверхности по аэрокосмическим изображениям в широком спектральном диапазоне длин волн. В рамках описанной нелинейной модели поля яркости, регистрируемого аппаратурой дистанционного зондирования, предложена модификация восстанавливающего оператора, действующего во всей пространственно-спектральной области. Описан итерационный процесс выбора оптимальных значений параметров модифицированного оператора с использованием подспутниковых измерений для валидации. Представлены результаты проверки работоспособности построенного оператора для различных условий регистрации изображений морской поверхности.
Мурашов Д.М.Применение теоретико-информационного подхода для сегментации изображений // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.08 В статье рассматривается задача разработки метода обеспечения наилучшего качества сегментации цифровых изображений. Метод ориентирован на применение модифицированного суперпиксельного алгоритма сегментации.
В известных работах для оценки качества сегментации использовался "взвешенный показатель недостоверности", вычисляемый через значения нормализованной взаимной информации цветовых каналов входного и сегментированного изображений. Зависимость показателя недостоверности от параметра алгоритма сегментации монотонна, что потребовало обучения алгоритма и разработки итерационной процедуры выбора параметра.
В данной работе в качестве критерия для оптимизации качества сегментации предлагается применять меру избыточности информации. Такой критерий обеспечивает лучший результат с точки зрения визуального восприятия. Показано, что предложенный способ построения меры избыточности позволил получить экстремальные свойства. Эксперимент, проведенный на изображениях из базы Berkeley Segmentation Dataset, подтвердил, что сегментированное изображение, соответствующее минимуму меры избыточности, дает минимальное различие по теоретико-информационной мере при сравнении с исходным изображением. Кроме того, выбранный с помощью предложенного критерия вариант сегментации дает наибольшее сходство с эталонами, имеющимися в базе.
Ефимова В.А., Фильченков А.А., Шалыто А.А.Применение обучения с подкреплением для одновременного выбора модели алгоритма классификации и ее структурных параметров // Машинное обучение и анализ данных, 2016. T. 2. № 2. C. ??-??. doi:10.21469/22233792.2.2.09 Существует множество алгоритмов машинного обучения, однако для эффективного решения задачи интеллектуального анализа данных необходимо не только выбрать один из них, но и настроить его структурные параметры. В настоящей работе ставится задача одновременного автоматического выбора алгоритма классификации и настройки его структурных параметров и предлагается ее решение на основе решения задачи о многоруком бандите. Описываются эксперименты, проведенные на множестве реальных наборов данных. Продемонстрировано, что предложенный подход обеспечивает более высокую точность классификации по сравнению с существующими методами.
Т. 2, №3, 2016
Старожилец В.М., Чехович Ю.В.Комплексирование данных из разнородных источников в задачах моделирования транспортных потоков // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.01 В работе исследуется задача агрегации данных с GPS-треков и дорожных датчиков для построения и решения разностной схемы, соотвествующей выбранной математической модели транспортного потока. В работе отдельно рассматриваются ситуации транспортного потока на самой автомагистрали и потока на въездах и съездах. Для решения обеих задач предложены алгоритмы, а также проведены эксперименты на реальных данных с использованием этих алгоритмов. Для проведения вычислительных экспериментов использованы трековые данные от сервиса Яндекс.Пробки и данные с дорожных датчиков Центра организации дорожного движения. В качестве автомагистрали рассматривалась Московская кольцевая автомобильная дорога.
Остапец А.А.Решающие правила для ансамбля из цепей вероятностных классификаторов при решении задач классификации с пересекающимися классами // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.02 Рассматривается задача классификации с пересекающимися классами. В работе исследовано применение ансамбля из цепей вероятностных классификаторов с использованием основных типов решающих правил для формирования итоговых предсказаний. Схема решения рассматривается с точки зрения алгебраического подхода. Алгебраический подход заключается в представлении алгоритма решения задачи в виде суперпозиции двух алгоритмов. На первом этапе строится первый алгоритм (распознающий оператор), который в качестве ответа выдает вектор оценок принадлежности к каждому из классов. В данной работе в качестве распознающих операторов рассматриваются следующие семейства алгоритмов - линейные классификаторы (базовые классификаторы), цепь вероятностных классификаторов из линейных классификаторов и ансамбль из цепей вероятностных классификаторов. На следующем этапе второй алгоритм (решающее правило) трансформирует этот вектор оценок в финальный ответ. Приведен обзор основных типов решающих правил и исследовано их применение для различных распознающих операторов. Экспериментально показана возможность эффективного использования решающих правил, построенных над результатами прогнозов базовых классификаторов.
Сулимова В.В., Середин О.С., Моттль В.В.Метрики на основе оптимального выравнивания биомолекулярных последовательностей // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.03 Для биомолекулярных последовательностей наиболее адекватным является так называемый беспризнаковый подход, основанный на сравнении последовательностей (измерении их сходства или несходства), минуя явное вычисление векторов их признаков.
С точки зрения передовых методов анализа данных наиболее предпочтительным является использование в качестве способа сравнения меры несходства, обладающей свойствами метрики. С другой стороны, с точки зрения молекулярной биологии важно, чтобы способ сравнения учитывал биологические особенности объектов сравнения. Кроме того, в условиях обработки больших объемов данных, важно, чтобы способ сравнения был эффективен с вычислительной точки зрения и позволял в дальнейшем применять удобные и эффективные методы анализа данных, такие, как SVM.
Известно множество способов сравнения биомолекулярных последовательностей, однако ни один из них не обладает всеми требуемыми свойствами.
В данной работе предлагается достаточно простой способ построения метрик на множестве биомолекулярных последовательностей.
Предлагаемый метод, как и традиционные общепринятые способы сравнения биомолекулярных последовательностей (такие, как алгоритм Нидлмана-Вунша и Смита-Ватермана), основывается на поиске их оптимального парного выравнивания и механизме мутационных замен аминокислот в ходе эволюции, но отличается от них используемым критерием оптимальности, типом оптимизации и способом сравнения элементов последовательностей.
В данной работе приводится доказательство того, что предложенные меры несходства обладают свойствами метрики, что позволяет использовать их в передовых методах анализа данных, сохраняющих вычислительные достоинства SVM, но не требующих введения признаков последовательностей и(или) скалярного произведения. Результаты экспериментов подтверждают адекватность предложенных метрик прикладным задачам на примере классификации мембранных гликопротеинов.
Неделько В.М.Исследование эффективности некоторых линейных методов классификации на модельных распределениях // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.04 В работе рассматривается проблема построения вероятностных моделей, позволяющих выявлять свойства методов построения решающих функций и проводить исследование этих методов. В частности, ставилась задача построения моделей, на которых заданный метод наиболее эффективен среди сравниваемых методов.
Для метода логистической регрессии были построены модели, на которых этот метод эквивалентен методу максимального правдоподобия.
Для метода SVM построена модель, на которой этот метод приближённо эквивалентен методу максимального правдоподобия. Для дискриминанта Фишера подобной модели построить не удалось.
Проведённое исследование демонстрирует перспективность подхода, основанного на построении набора "эталонных" вероятностных моделей для исследования и сравнения методов построения решающих функций. Под эталонной моделью понимается вероятностная модель, на которой наиболее выраженно проявляется некоторое свойство исследуемого метода, например, модель, на которой метод демонстрирует наибольшее превосходство, или модель, на которой проявляется некоторый недостаток метода (например, неустойчивость к "выбросам").
Также в работе выявлены некоторые неочевидные свойства метода SVM и особенности его поведения, учёт которых позволяет более эффективно применять данный метод.
Федотов Н. Г., Сёмов А.А., Моисеев А.В.Новый метод интеллектуального анализа и распознавания 3D изображений: описание и примеры // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.05 В настоящей статье предлагается новый подход к распознаванию 3D объектов. Приведено подробное математическое описание метода, разработанного на основе указанного выше подхода. Описывается техника сканирования гипертрейс-преобразования и обосновывается выбор сканирующего элемента. Анализируются принципы интеллектуального анализа и распознавания 3D изображений, построенные на его основе.
Предлагаемый метод основан на элементах стохастической геометрии и функционального анализа. Гипертрейс-преобразование обладает рядом преимуществ и возможностями интеллектуального анализа данных. Например, одной из интеллектуальных способностей предлагаемого метода является конструирование гипертриплетных признаков разной структуры ("длинные" и "короткие" признаки). Разные типы признаков находят своё применение в принципах интеллектуального анализа и распознавания 3D изображений (верифицируемость и фальсифицируемость изображений).
Ввиду только теоретического и концептуального характера статьи практические результаты не приводятся. Дается описание теоретических примеров построения "длинных" признаков и "коротких" признаков изображений. Обосновывается их различие и особенности практического применения.
Гипертрейс-преобразование имеет уникальную способность, аналогичную возможности человеческой зрительной системы, когда при достаточно беглом взгляде человек может быстро отличить друг от друга два пространственных объекта Данное обстоятельство повышает скорость работы сканирующей системы и надежность всей системы распознавания изображений в целом, улучшая интеллектуальные способности гипертрейс-преобразования.
Владимирова М. Р., Попова М. С.Бэггинг нейронных сетей в задаче анализа биологической активности ядерных рецепторов // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.06 Работа посвящена решению проблемы повышения качества многозадачной классификации с помощью нейросетевой модели. Улучшение модели решения задачи проводится многозадачной моделью двухслойной нейронной сети. Рассматриваются две функции потерь: квадратичная и кросс-энтропийная. Для получения более точного результата в работе рассматривается композиция базовых классификаторов бэггинг нейронных сетей. Сравнение моделей проводится с помощью вычислительного эксперимента на реальных данных, описывающих взаимодействия рецепторов и лиганд.
Одиноких Г. А., Гнатюк В. С., Коробкин М. В., Еремеев В. А.Метод обнаружения позиции век при распознавании по радужной оболочке глаза на мобильном устройстве // Машинное обучение и анализ данных, 2016. T. 2. № 3. C. ??-??. doi:10.21469/22233792.2.3.07 При распознавании человека по радужке информация о положении век на изображении используется для удаления шума от век и ресниц, перекрывающих полезную область радужки, оценки качества изображения и многих других целей. Детектирование век, как правило, производится после вычислительно сложной операции нахождения границ радужки и склеры. В случае использования для распознавания мобильного устройства такой подход не всегда оправдан в виду, в частности, ограниченной производительности устройства, сложностей взаимойдествия пользователя с устройством и сильно изменяющихся внешних условий окружающей среды. В данном случае информация о положении век может быть извлечена сразу после этапа детектирования зрачка и использована для
определения пригодности изображения для последующих более сложных этапов алгоритма распознавания. В работе предложен метод определения положения век на изображении с целью оценки качества изображения и последующего определения границы радужки и века. Производительность метода была оценена в сравнении с несколькими существующими решениями с использованием четырех различных открытых баз данных радужек.
