uzluga.ru
добавить свой файл
1

Применение генетических механизмов при адаптации систем...

М.Л. ГАРАНИНА, К.Я. КУДРЯВЦЕВ

Национальный исследовательский ядерный университет «МИФИ»


ПРИМЕНЕНИЕ ГЕНЕТИЧЕСКИХ МЕХАНИЗМОВ ПРИ АДАПТАЦИИ СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА


Представлено описание теоретических основ применения биологического механизма генов-переключателей при адаптации систем искусственного интеллекта в различных предметных областях. Использование механизма генов-переключателей позволяет создавать базовый генетический код, включающий в себя набор генов-признаков и соответствующих им генов-переключателей. Задача адаптации системы для решения конкретной задачи состоит в нахождении оптимального состояния генов-переключателей, которое и будет определять активные свойства системы.


В современных рыночных условиях все большую актуальность приобретает программное обеспечение, обладающее дополнительной гибкостью и высокой степенью адаптации к изменяющимся условиям. Связано это с тем, что при очень высокой конкуренции приходится постоянно подстраиваться под изменяющийся рынок, и тот из игроков, кто сделает это быстрее остальных, получит дополнительные конкурентные преимущества. Соответственно, для обеспечения эффективной автоматизации бизнес-процессов должно использоваться соответствующее программное обеспечение, обладающее дополнительной гибкостью. Касается это и систем искусственного интеллекта (СИИ), процесс внедрения и промышленного сопровождения которых сам по себе достаточно не простой.

Для обеспечения гибкости и высокой степени адаптации СИИ предлагается рассмотреть применение усовершенствованных генетических алгоритмов. Рассматриваемая в статье методика подразумевает внесение ряда изменений в классические этапы метода генетических алгоритмов, которые позволят применить биологический механизм генов-переключателей для адаптации к новым условиям. Рассмотрим, как этот механизм работает в природе.

После того, как генетика достигла значимых результатов в области расшифровки ДНК живых существ нашей планеты, возникли вопросы: если ДНК всех живых существ так схожи, то откуда тогда такое разнообразие биологических видов? Как объяснить разницу между мышью и человеком, если их геном совпадает на 99 %, или между акулой и человеком, ДНК которых совпадает на 30 %? Каким образом природа из одного и того же материала получает такой разный результат?

В результате проведенных исследований выяснилось, что различие по анатомическим признакам может быть обманчивым: совершенно разные животные обладают сходным набором генов: например, собака, мышь, крыса, человек и шимпанзе имеют очень сходные «генные каталоги». Таким образом, исходный набор строительных материалов во многом одинаков. Большинство белков человека отличаются от белков шимпанзе по одной–двум позициям из нескольких сотен, а 29 % вообще идентичны [1].

В ходе проведенных исследований был найден особый механизм – генетические переключатели, с помощью которых природа и эволюция управляют работой генов-свойств (гены, кодирующие различные признаки), т.е. определяют, где и когда они будут активированы. Первые такие переключатели были обнаружены в 2002 году Рональдом Брейкером и его коллегами из Йельского университета. С тех пор число публикаций, посвященных этому механизму генной регуляции, стремительно растет.

На сегодняшний момент установлено, что в эволюции анатомических особенностей живых существ одну из ключевых ролей играет именно эволюция генов-переключателей, а не генов-свойств. Морфологические различия между видами возникают в ходе эволюции в генах-пере­ключателях, а не в генах-свойствах.

Рассмотрим биологическое устройство и механизм действия генетических переключателей. Как говорилось выше, геном состоит из кодирующей и некодирующей частей, у человека, например, на долю кодирующей части генома приходится всего 1.5 %. Функции большинства некодирующих областей в геноме на текущий момент мало изучены, однако известно, что одной из этих функций является управление экспрессией генов. Экспрессия гена – это транскрипция гена в матричную РНК (мРНК) и последующая трансляция мРНК в белок [2]. Так как клетке не выгодно тратить энергию на синтез ненужных ей мРНК и белков, то многие гены синтезируются только в определенных органах, тканях и клетках. И именно некодирующие участки определяют, где и когда должна произойти транскрипция каждого определенного гена. В данном случае используется принцип переключателя с двумя положениями: «включено» и «выключено». Изменение состояния такого переключателя (энхансера) вызывается действием специальных белков – факторов транскрипции. При их присоединении к энхансерам, положение переключателя переводится в состояние «включено», запускается транскрипция гена, связанного с данным энхансером.

У каждого гена есть один или несколько независимых энхансеров. Каждый из них (независимо от других энхансеров) отвечает за экспрессию данного гена в разных частях тела в разное время жизненного цикла организма. Таким образом, перед нами открывается эффектный метод оптимизации, придуманный самой природой. Благодаря такому подходу один и тот же ген может использоваться в разных местах, что существенно расширяет круг его функций.

В применении к процессу адаптации систем искусственного интеллекта основные положения методики генов-переключателей в целом заключаются во внесении ряда изменений в основные этапы применения генетических алгоритмов (генерация начальной популяции, кроссинговер, селекция, мутация), которые позволят реализовать возможности генов-энхансеров.

Методика предполагает, во-первых, внесение изменений в принцип формирования самого генома, а во-вторых, включение в задачу оптимизации системы ИИ влияния предметной области, в которой она будет работать, и наших знаний о ней. В целом, предлагаемые изменения можно описать следующим образом.

  1. Изучение и параметризация предметной области. Определение факторов транскрипции. Формализованным результатом этапа параметризации предметной области является набор факторов транскрипции: где ri – ранг i-го фактора транскрипции, i  [1, k], k – общее количество факторов транскрипции в предметной области. Под рангом понимается приоритет данного параметра внешней среды. В качестве примера факторов транскрипции можно привести ставку рефинансирования, активное использование определенных мошеннических схем на рынке кредитования, где каждая схема кодируется своим фактором транскрипции [3]. Также целесообразно оставлять резервные факторы транскрипции для параметров внешней среды, которые могут обнаружиться входе обучения СИИ.

  2. Определение свойств СИИ, которые важны для решения поставленных перед ней задач, далее эти отдельные свойства объединяются в набор (геном), который и будет подлежать оптимизации при помощи эволюционных вычислений. Набор этих свойств определяется несколькими факторами:

  • поставленной задачей (найти, идентифицировать, классифицировать, распознать, оценить, спрогнозировать);

  • особенностями внешней среды (параметрами предметной области);

  • заданными условиями работы (бизнес-процессом, в рамках которого работает СИИ).

Задача определения базовой части генома сводится к нахождению в заданных условиях работы СИИ набора генов-признаков, кодирующих свойства СИИ, которые помогают ей решить поставленную задачу, и определению ранга (важности) этих свойств.

Определение ранга для каждого свойства СИИ позволит более эффективно накладывать ограничения на количество свойств, кодируемых в геноме. Каждому свойству xi присваивается ранг rj: rj   N, где N – множество натуральных чисел, j  [1, l]. Чем важнее (нужнее) свойство, тем выше его ранг. Таким образом, в результате мы получаем множество – набор свойств СИИ с присвоенными рангами, l – количество генов-свойств. В качестве примера можно привести набор элементарных стратегий по проверке клиентской информации при выдаче кредита. Каждая стратегия в данном случае – это свойство СИИ.

  1. Создание генома системы ИИ, отражающего связь между внешней средой, поставленной задачей и свойствами системы ИИ через гены-энхансеры. Каждое из свойств кодируется через ген xi , кроме того, для повышения гибкости системы к набору из l генов {x1, x2,…,xl} можно прибавить n-l резервных генов. Таким образом, получается набор из n базовых генов-свойств {x1, x2,…,xl, xl+1, xl+2, …, xn}. Каждому гену-свойству из этого набора присваивается не менее одного гена-переключателя. Для примера с элементарными стратегиями мы можем говорить о том, что для каждой стратегии энхансер определяет, будет ли использоваться стратегия поиска или нет.

В результате объединения генов-свойств и связанных с ними генов-переключателей, мы получаем параметризованный геном СИИ: {z1, z2,…,zn} = {y1*x1, y2*x2, … , yn*xn}, где zi i-й составной ген генома. Энхансер по своей сути является функцией от множества факторов транскрипторов:

yi = gi(t1, t2,…, tj,.., tk),

где yi – энхансер гена-признака xi, i  [1, n], n – количество генов-признаков в геноме; tj j-й фактор транскрипции, j  [1, k], k – количество факторов транскрипции; gi – функция, связывающая множество факторов транскрипции t1, t2,…, tj,..., tk и энхансер yi. В общем случае, gi ≠ gj, i, [1, n]. Для резервных генов-свойств энхансеры могут быть всегда равны нулю и исключены из обучения.

В качестве заданных условий работы, как правило, рассматривают требования к скорости работы, точность результата и к экономичности. Разумеется, в идеале система должна работать быстро, качественно и дешево. В формализованном виде данные параметры можно представить следующим образом:

  • точность результата a  [a1, a2], где a1 и a2 – максимальное и минимальное возможные значения точности;

  • скорость работы v  [v1, v2], где v1 и v2 – максимальное и минимальное возможные значения скорости;

  • затраты на работу c  [c1, c2], где c1 и c2 – максимальное и минимальное возможные значения затрат.

Для рассматриваемой задачи эти параметры являются заданными на указанных интервалах, в ходе работы СИИ их значения могут меняться.

Необходимо отметить, что количество генов-признаков и количество факторов транскрипции (параметры n и k) являются функциями от точности, скорости и затрат:

n = n (a, v, c),

k = k (a, v, c).

Учитывая изложенное выше, задачу по поиску самой эффективной СИИ мы можем сформулировать как нахождение при заданных ограничениях оптимального значения функции F – функции приспособленности (Fitness). В разных задачах вид функции F может быть различным. Если в качестве F используется мера расхождения результата работы СИИ со значением целевой функции, то будет осуществляться поиск минимального значения F. В других задачах, например по поиску каких-то вредоносных объектов в предметной области, будет решаться задача максимизации F. После окончательного определения генома для всех индивидов популяции для каждого из них создается экземпляр СИИ. При необходимости проводятся обучение и настройка параметров системы, имеющих непрерывный характер, например, подстройка весовых коэффициентов. Все экземпляры выполняют одинаковый набор тестовых заданий на одном и том же тестовом стенде. По итогам этого теста для каждого экземпляра рассчитывается значение функции приспособленности. Далее процесс идет по стандартной схеме применения генетических алгоритмов [4].

Изложенный подход применим для достижения более высокой гибкости и степени адаптации СИИ, что позволит упростить процесс их внедрения в промышленную эксплуатацию.


СПИСОК ЛИТЕРАТУРЫ


  1. Sudarsan Narasimhan, Hammond Ming C., Block Kirsten F. et al. // Science. 2006. V. 314. P. 300.

  2. Prud’homme Benjamin, Gompe Nicolas, Carroll Sean В. // Proceedings of the National Academy of Sciences USA. 2007. V. 104. S. 1. P. 206.

  3. Гаранина М.Л. // IX Международная научно-техническая конференция «Проблемы информатики в образовании, управлении, экономике и технике», Пенза, 28-29 октября 2009 г.: сборник статей. Пенза: Приволжский дом знаний, 2009. С. 111.

  4. Николенко C.И., Тулупьев А.Л. Самообучающиеся системы. М.: МЦНМО, 2009.




ISBN 978-5-7262-1280-7. НАУЧНАЯ СЕССИЯ НИЯУ МИФИ-2010. Том V