Top.Mail.Ru

Психические состояния как эмерджентные свойства. От Походки до Сознания. Часть 2 (Главы 2-4)

Авторы:

Круз Холке holk.cruse@uni-bielefeld.de Университет Билефельда, Билефельд, Германия

Шиллинг Мальте malte.schilling@uni-bielefeld.de Университет Билефельда, Билефельд, Германия

Источник: http://open-mind.net/papers/mental-states-as-emergent-properties-from-walking-to-consciousness#

Перевод с английского Шуравин А. П.

Начало Психические состояния как эмерджентные свойства. От Походки до Сознания. Часть 1 (введение)

 

2. Walknet.

ReaCog является расширением системы управления, которая была реализована на нейронной сети. Основная система была названа Walknet. Идея Walknet была вдохновлена биологией, чтобы описать результаты многих поведенческих исследований на примере поведения клейких насекомых (Дюрр др 2004 года;.. Шиллинг и др 2013b). Мы кратко обрисуем свойства сети, настолько подробно, насколько это требуется для понимания основных способностей, рассматриваемых здесь.

В целом, контроллер имеет дело с трудной задачей координации нескольких степеней свободы; в случае насекомого-ходунка тело имеет двадцать две степени свободы. Есть три степени свободы для каждого из шести ножек и дополнительных четырех степеней свободы присутствуют между сегментами тела. Система является избыточной, так как для ориентации своего положения в трехмерном пространстве нужно только шесть степеней свободы. Поэтому контроллер должен иметь дело с шестнадцати дополнительными степенями свободы. Архитектура контроллера Walknet децентрализованная. Каждая нога имеет индивидуальный и более или менее независимый контроллер, который решает, какие действия на выбор (два таких ножных контроллера показаны на рисунке 2, черные прямоугольники в нижней части). Один контроллер ноги состоит из нескольких процедур. На чертеже каждая процедура представлена в виде одного черного ящика. В базовой системе могут выполняться два важных поведения ноги: качание (поворот) и поступательное движение. Сами процедуры реализуются как искусственная RNN (Рекуррентная нейронная сеть). Примерами являются две основные процедуры: «качели-сеть», которая контролирует движение поворота, и «Стойка-сеть», которая контролирует позицию движения ногой. Тут показаны только два из шести контроллеров ног. Эти сети представляют собой процедурную память системы. Процессуальные модули получают прямой сенсорный ввод и на выходе обеспечивают команды управления двигателем. Но есть также модули, которые обеспечивают ввод в другой модуль. Контроллер уровня ног определяет, какую процедуру следует активировать в определенный момент времени в зависимости от текущего состояния ноги (взмах или стойка), также он определяет сенсорный ввод (контакт с поверхностью или позиция). Кроме того, контроллеры соседних ножек могут влиять друг на друга через небольшое число соединений между этими контроллерами. Эти факторы явно получены из экспериментов по координации ног при ходьбе клейких насекомых.

Как было обнаружено у насекомых, во время качающего движения (действия разгибательной мышцы) ноги направлены в сторону фронтальной позиции, недалеко от положения передней ноги. Таким образом, каждая опора имеет так называемую «целевую сеть» для того, чтобы произвести эти целевые движения. Во время движения вперед так называемая «Target_fw-net» («Целевая сеть движения вперед») отвечает за эту цель. Во время движения назад используется «Target_bw-net» («Целевая сеть движения назад»). Оба непосредственно влиять на поворотную сеть. Процедуры, отмеченные как голубые прямоугольники («модели тела», «модель ноги») будет рассмотрены ниже (раздел 3а).

ReaCog расширяется с помощью RNN (рекуррентной нейронной сети), которая состоит из мотивационных модулей (рис 2, отмеченные красным цветом). Эта сеть позволяет системе самостоятельно выбрать один из различных возможных стратегий поведения. Например, система может выбирать между: идти вперед или назад, или стоять. Мотивационный блок представляет собой искусственный нейрон с линейным суммирующим входом и кусочно-линейной функцией активации, показывающей выходные значения от нуля до единицы. Применительно к процедуре, например, поворотной сети, мотивационный блок определяет уровень сигнала на выходе соответствующей процедуры сети (в мультипликационный путь). Как уже упоминалось выше, мотивационный модуль образуют рекуррентную нейросеть и могут влиять друг на друга через возбуждающие или тормозящие связи (как показано на рисунке 2).

Кроме того, есть сенсорные устройства, которые являются частью этой рекуррентной нейросети и могут непосредственно влиять на активацию мотивационных блоков, например, как показано на рисунке 2 для блоков «нижнего уровня»: качание (повороты ноги) и стойка. Так, активный контакт датчика ноги с поверхностью усиливает позиции мотивационного модуля на этом участке. Так как мотивационный сетевой блок может быть произвольно расширен, то это позволяет контролировать сложные формы поведения. Чтобы проиллюстрировать только небольшой группы поведенческих стратегий единицы, мы изобразили только следующие модули «ходить», «FW» (вперед), «BW» (назад), «LEG1» изображены (для других примеров см Шиллинг и др 2013b;. Круз и Венер 2011).

Мотивационная сеть и сенсорные блоки не должны формировать простую, древовидную структуру (см рисунок 2). Они могут представлять собой иерархическую структуру. Мотивационный блок может быть двунаправлено подключен через положительные (наконечники стрел) и отрицательный (Т-образные соединения голов) связи. Как было показано на рисунке, это может привести к циклам. Есть также различные пересекающиеся подсети, например, модуль ноги, а также мотивационный блок для действия «идти» активны в течение ходьбы назад и вперед. Но только один блок, указывающий направление ходьбе может быть активным в любой момент времени, то есть одновременно может работать либо блок «FW» или «BW». Как следствие, существует множество аттракторов состояния, сформированные посредством комбинации возбуждения и торможения связей. Устойчивые «внутренние состояния» стабилизируют поведение системы управления в целом, то есть система не может быть легко нарушена только через неподходящие сенсорные входы. Например, сенсорные входы трактуются по-разному в зависимости от текущего состояния (взмаха или стойки) системы управления, и эти внутренние состояния могут быть дифференцированы на более высоком уровне, например, в ходьбе, стоя, или при кормления (подробнее см Шиллинг . и др. 2013a; Шиллинг и др 2013b).


Рисунок 3. Шаблон шага, возникающий из децентрализованных контроллеров ног, связанных с местными правилами и окружающей средой. По оси абсцисс отложено время; черные полосы указывают движение взмаха; пробелы представляют стойку на этой ноге (сверху вниз):

Передняя левая нога (FL), средняя левая нога (ML), задняя левая нога (HL), соответственно для правой стороны: передняя правая нога (FR), средняя правая нога (MR) и задняя правая нога (HR)). Нижние полоски показывают 500 итераций, соответствующие 5-ти режимам реального времени. Эти «шаблоны падения ног» показывают различные локально или глобально устойчивые модели в зависимости от скорости ходьбы (а: медленно, б: быстро) и исходное положение. В (а) ноги начинают с конфигурации «неудобно» нога, ведущей к шаблону скачком (указывается вертикальными эллипсов), это примерно через шесть шагов изменит глобальный стабильный шаблон, характерный для медленной ходьбы насекомых (см наклонные эллипсы, шаг # 8). (б) показывает, быструю ходьбу, ведущую к треножной походке характеризуемой синхронными маховыми движениями ML, FR, HR и FL, HL, MR (см вертикальные эллипсы).

Для рекуррентных нейронных сетей, поддержание стабильного состояния является нетривиальной задачей, в частности, когда имеются различные нарушения. Чтобы проиллюстрировать адаптируемость и в то же время стабильность поведения контролируемого таким образом блок мотивационной сети, на рисунке 3 показано, два случая походки насекомых. На рисунке 3а показан пример медленной скорости ходьбы, где ноги начинаются от сложной начальной конфигурации (как передние ноги, так и средние ноги и обе задние конечностей начинают с той же позиции, которая противоположна координации, найденной в обычной ходьбе, где противоположные ноги чередуются). Тем не менее, агент может ходить. После некоторых шагов, агент достигает временно стабильного паттерна, соответствующего нормальной ходьбе. Рисунок 3b показывает шаблон шага, соответствующий высокоскоростной ходьбе, его часто называют «трехногой походкой». Хотя обычно рассматривается закономерный паттерн, детальный осмотр показывает, что есть местные временные вариации, однако, общая картина остается стабильной (для видео дальнейших примеров походки см Шиллинга и др. 2013b). Важно отметить, что ни один из этих ступенчатых моделей явно не реализованы, тем не менее, возникают эмерджентные свойства (подробнее см. Шиллинг и др. 2013a). В качестве другого впечатляющего эмерджентного свойства, Bläsing (2006) показал, что с некоторыми незначительными расширений, это ходунки умеет лазить через большие препятствия (которые могут быть более чем в два раза выше нормальной ширины шага).

3 Внутреннее представление

В дополнение к использованному циклу через свое окружение, некоторые формы интернализации (усвоения внешней информации) являются предпосылками для любого вида планирования. Поэтому специфическое внутренне представление необходимо для когнитивной системы. Это хорошо согласуется с воплощенной перспективой, потому что с эволюционной точки зрения внутренних моделей это не то, что отключается от первой очень специфичной функции, и они работают в сервисе определенной стратегии поведения (Glenberg 1997). Внутренние модели, в этом смысле, эволюционируют совместно с поведением. Ранее представление является представлением о собственном теле, и такое представление становиться значимым на ранней стадии, в простом контроле задач, таких как целевые движения или датчик слияния.

3.1 Модель тела

В reaCog мы ввели внутреннюю модель тела. Эта модель реализована как RNN (Шиллинг 2011) и имеет модульную структуру (Шиллинг & Круз 2007; Шиллинг и др. 2012). Полная модель состоит из двух разных уровней. На высшем уровне целое тело и структура насекомого представлены абстрактным способом. Детали заполнены только на более низком уровне. Более низкий уровень состоит из шести сетей управления каждой ногой. Здесь, для каждой ноги захвачена функциональная структура суставов и конечности. Таким образом, этот уровень представления может использоваться для устройства управления двигателем и предоставляет подробную информацию о совместных движениях. На более высоком уровне структура тела и ног представлена в абстрактной форме, т.е., только точки опоры ног появляются на этом уровне. Рисунок 2 показывает различные части модели тела (нарисовано синим). Модель тела модульная. Она включает целостную систему, которая реализована как RNN (рисунок 5, см. Шиллинг 2011; Шиллинг и др. 2012 более подробно).

Модель тела используется при обычной ходьбе, это означает, что система все еще находится в реактивном режиме, при прямой и обратной ходьбе или когда согласуется изгиб траектории. Она координирует движение суставов и обеспечивает соответствующие сигналы управления для сетей, управляющих позицией ног. Как объяснено выше, в целом система является избыточной, с двадцатью двумя степенями свободы во всей структуре тела, и это делает получения последовательных сигналов управления для всех суставов трудной задачей, которая не может быть вычислена непосредственно, а требует применения дополнительных критериев (например, оптимизацию энергопотребления). В нашем подходе, который использует внутреннюю модель тела, мы используем парадигму пассивного движения (Клейста 1810 Мусса-Ивальди др. 1988; Loeb, 2001). Рассмотрим модель тела как симуляцию некой марионетки (рисунок 5), которая вытянута головой в направлении цели (рисунок 5б, pull_fw). Эта информация о целевом направлении может быть предоставлена сенсорным вводом, например, с усиков-антенн или посредством зрения, в виде целевого вектора (рисунок 2, сенсорный ввод). При протягивании в этом направлении, вся модель должна принять это движение, и поэтому отдельные ноги в настоящее время в позиции соответствующим образом должны следовать за движением. Индуцированные изменения в узлах могут быть считаны и применяется как моторные команды для того, чтобы управлять реальными суставами. При обратной или изогнутой ходьбе модель тела только вытягивается в соответствующем направлении (по обратной ходьбе с использованием вектора, связанного с задней частью тела модели, pull_bw (рисунок 5В)). Таким образом, мы получим простое решение для обратной кинематической задачи, где в качестве тела-модели представлены кинематические ограничения тела ходунка. С помощью этих ограничений сдерживается возможные движения отдельных суставов, только позволяя возможные стратегии поведения для ног, стоящих на земле, тем самым обеспечивая координированные движения во всех вовлеченных суставах.

Тело-модель также подключена к датчикам в системе управления ходьбой и интегрирует входящую сенсорную информацию в состояния организма, предположительно принятое в настоящее время, как представление в тела модели. Таким образом, организм-модель способна корректировать шумные или неправильные сенсорные данные (Шилинг & Круз 2012). В целом, главная задача модели тела является завершение паттерна. Она использует современное состояние и входящие сенсорные данные, чтобы прийти к наиболее вероятному состоянию организма, отвечающему закодированным кинематическим ограничениям. Таким образом, модель также может быть использована в качестве передовой модели, это означает, что, с учетом конкретных совместных конфигурации, модель может предсказать трехмерную расположение тела, например положение кончиков ног. Прогностический характер модели очень важен, поскольку это позволяет эксплуатировать модель для планирования будущих действий (см. ниже). Важно отметить, что в то время как мы не утверждаем о существовании такой модели насекомых, но функции внутренних моделей прогнозирования, инверсная функция, датчик слияния могут быть найдены у насекомых.

3.2 Представление окружающей среды

Конечно, внутреннее представление должно также содержать информацию об окружающей среде. Мы начали с акцентом на теле и хотим расширить эту сеть таким образом, чтобы отразить (Гибсон, 1979) что представляет собой среда с телом, то есть, в центре внимания взаимодействие с окружающей средой.

В качестве примера того, как архитектура reaCog может быть расширена, чтобы включить представление значимых частей окружающей среды, мы хотим кратко рассказать о расширении Walknet, которое дало возможность навигации как у насекомых («NaviNet» Круз и Венер 2011; Hoinville др. 2012). NaviNet обеспечивает выход информации, которая будет использоваться в теле-модели, как это объяснено выше, чтобы управлять направлением перемещения. Благодаря сети, агент может принять обоснованное решение о том, какие из знакомых источников пищи он будет посещать (например, источники A, B или C), или идет ли он домой или нет (исходящих, входящих данных, соответственно). Таким образом, выходные данные NaviNet с одной стороны тесно связаны с контролем ходьбы и представлением тела. С другой стороны, NaviNet строится с помощью единиц мотивации таким же образом, что и контроллер ходьбы, и эти мотивационные блоки принимают участие в процессе выбора действия. Важно отметить, что NaviNet (также как пустынные муравьи) показывает способность выборочного внимания, так как это зависит от контекста и реагирует только на знакомые визуальные ориентиры в соответствующем контексте, то есть, когда это связано с текущим активным целевым источником питания. Структура сети мотивационных модулей изображена на рисунке 4. Примеры возможных устойчивых внутренних состояний (Сверление – Забор пищи — источник А — ориентиры, связанные с источником А) или (входящие ориентиры — связанные с забором пищи), например. В качестве интересного свойства, NaviNet не предполагает явную «когнитивную карту». Такое «картоподобное» представление, предполагалось у некоторых других авторов (Круз и Венер 2011). Как возможно изучение позиций источника питания и качества продуктов питания было показано Hoinville и др. (2012).


Рисунок 4: Сеть блок мотивации NaviNet для контроля навигации как у муравьев. Модуль исходящего управления движения от дома к источнику пищи (A, B, C) или, по умолчанию, поиска нового источника (D). Внутренний раздел управления возвратом домой. Элементы памяти (черных ящиков) содержат информацию о местоположении и качестве источников питания (A, B, C), или визуальные ориентиры (сохраненный в памяти ориентир).

4 Планирование будущих действий, познание

Даже если Walknet настроен как фиксированная конструкция, состоящая из жестких проводных соединений на RNN (рекуррентной нейронной сети), он может гибко адаптироваться к нарушениям в окружающей среде, как необходимо, например, пересекая большие трещины (Bläsing 2006). Тем не менее, система, разумеется, может работать в новых ситуациях, которые требуют еще более высокой степени адаптации, и будет также требовать новых форм поведения. В качестве примера, подумаем о ситуации, в которой все ноги кроме правой задней, находятся в передней части рабочего диапазона. Когда правая задняя лапа вынуждена подниматься с земли по мере приближения положение очень далеко назад, вся система будет работать нестабильно, а центр тяжести расположен очень далеко в сторону задней части животного. В этом случае центр тяжести не будет поддерживаться другими ногами, ни правой задней конечностью, которая пытается начать движение поворота. Как следствие, агент будет падать в обратном направлении. Эта проблема может быть обнаружена «проблемными детекторами», например, конкретные сенсорные входы, которые реагирует на конкретное распределения нагрузки (другое решение объясняется в разделе 8). Для того чтобы преодолеть эту проблему, система должна выйти из ее обычной схемы поведенческого отбора и попытаться выбрать из различных поведенческих модулей, которые, как правило, не применимы в данном контексте. Например, возможным решением будет сделать шаг назад с правой средней ноги, так как это обеспечит поддержку для тела и впоследствии позволит вернуться к нормальной ходьбе и последующим колебательным движениям правой задней ноги. Как правило, шаги назад может быть выбраны только в контексте обратной ходьбе.

Рисунок 6 показывает расширение, которое позволяет системе искать решения, не связанные с текущим контекстом. Это расширение называется «контроллер внимания». Введем третий слой блоков (рисунок 6, зеленым), что, по сути является рецидивирующая сеть «победитель получающий все» (WTA-сеть). Для каждого блока мотивации есть соответствующая партнер в этой WTA-сети. В настоящее время активные мотивационные блоки подавляются «победителем, получающим все» (WTA), это показано на Т-образной связью на рисунке 6. Таким образом, случайная активация этой WTA-сети приведет к активации одна модуля, не принадлежащего к активированного в настоящее время контекста. Случайное активации будут индуцироваться другим параллельным слоем, так называемым «Слоем распространения активации» (это не показано на рисунке 6, дальнейшие подробности описаны в Шилинг & Круз). Победивший блок слоя WTA затем активирует соответствующий блок мотивации. Это вызывает подключенное поведение, которое может быть проверено в качестве подручного решения проблем. Сеть следует стратегии проб и ошибок, как это наблюдается, например, у насекомых.

Как было предложено (Шиллинг & Круз 2008), дальнейшее расширение системы, которой, скорее всего, не обладают насекомые, не является тестированием стратегии поведения в реальности, вместо этого применение вновь выбранной стратегии поведения на модели тела и использование модели вместо реального тела. Выход двигателя направляется в модель тела, а не к реальному телу, а реальное тело отделяется от системы управления во время тестирования новых моделей поведения. В связи с прогнозирующей природой модели тела, она может быть использована для прогнозирования возможных последствий, чтобы затем определить решает ли эта стратегия поведения текущую задачу и должна ли быть опробована на реальном теле. Эта процедура называется внутренним моделированием и требует введения переключателей, чтобы перенаправить выходные сигналы двигателя из реального тела на модель (рис 6, переключатель SW). Только после успешного внутреннего моделирования стратегия поведения будет применена к реальному телу. Макфарлэнд & Bösser (1993) определил когнитивную систему как систему, которая обладает способностью планирования будущих действий, т.е., которая способна выполнять внутренние моделирования для прогнозирования возможных результатов поведения. Таким образом, это последнее расширение сделает систему управления когнитивной (подробнее см Круз и Шиллинга 2010b).

Продолжение Психические состояния как эмерджентные свойства. От Походки до Сознания. Часть 3. Главы 5-7.


Comments

So empty here ... leave a comment!

Добавить комментарий

Sidebar