вівторок, 22 жовтня 2013 р.

Абстракція знань та математика

Невеличкий конспект за мотивами статті "Як виростити мозок: статистика, структура та абстракції".
Оскільки я зараз займаюся задачами узагальнення і (трішки) штучного інтелекту у тій області, з якою я раніше стикався досить дотично, то чергова чернетка стосується аналізу відомих підходів до формування знань (бажано б на абстрактному рівні). Що ж ми маємо станом на сьогодні?
Наприклад: діти, у процесі пізнання сприймають невідомі терміни інтуїтивно, а потім можуть з легкістю їх розрізнити, наприклад іграшку від ложки. Яким чином вони це роблять? У пошуках висновків, автори пропонують опиратися не лише на синтаксичні конструкції чи морфологічні правила, але більше на побудову високо-масштабованих систем знань, напр. інтуїтивних фізичних, психологічних чи біологічних теорій або ж навіть системи правил для соціальної структури чи моральної оцінки дій. Навіть у такому випадку, отриманий кінцевий продукт (створення якого буде вимірюватись роками), буде суттєво відрізнятися від проведених спостережень (мабуть мова йде про абстрагування).


У пропонованій статті розглядаються останні дослідження у області моделювання процесу навчання людини та розвитку процесу пізнання. За основу береться Байєсовий або ймовірнісний підхід, який застосовується у дослідженнях штучного інтелекту, напр. для створення штучних нейронних мереж. Останні моделюють процес пізнання (напрямок «конективізму», або дослідження того́, яким чином нейрони об'єднуються між собою). Ці моделі шукають відповіді на такі три питання:
  1. Яким чином абстрактні знання управляють процесом навчання та взаємодією на основі розріджених даних? (що це таке англ., рос.)
  2. Яку форму приймають абстрактні знання у різних областях та задачах?
  3. Яким чином, абстрактні знання отримують дані самі з себе?
Основну увагу при розгляді цих питань зосереджується на двох архетипових індуктивних проблемах: концепціях навчання та причинних зв'язках навчання.

Роль абстрактних знань

Основу багатьох аспектів дослідження пізнання складає статистика Баєса (англ.), теорема якого (англ., укр.) дає відповідь на перше питанняяким чином абстрактні знання управляють взаємодією на основі недостатніх даних? Такі знання знаходять своє відображення у ймовірнісній генеративній моделі (англ., детальніше англ.). Ця модель повинна бути ймовірнісною щоб могти опрацьовувати невизначеність об’єкту навчання, та застосовується для ситуацій, коли потрібно провести узагальнення процесу навчання. Особливістю цієї моделі є те, що вона здатна отримувати величезну кількість інформації про структуру світу, а отже може ефективно узагальнювати на основі різних спостережень.
Такі узагальнення можна проводити за допомогою висновків Баєса (англ., рос.), які описують приховані зміни у генеративних моделях на основі наявних спострежень. Спостереження, що складаються зі структур реального світу, які можуть пояснити отримані дані, кодуються обмеженим набором (простором) гіпотез Η, щоб отримати можливі значення прихованих змінних. При цьому узагальненні знання називаються «апріорною ймовірністю» P(h), та визначають рівень довіри до певної гіпотези h аж до проведення спостережень (або незалежно від них). Відоме правило Баєса оновлює апріорні ймовірності до апостеріорних P(h|d) в залежності від спостережень d:
.
Для того, щоб проілюструвати правило Баєса на практиці, припустимо, що ми спостерігаємо за Гаврилом, який кашляє (d), і у нас існує три гіпотези щодо його кашлю: Гаврило змерз (h1); у Гаврила туберкульоз (h2); у Гаврила гарячка (h3). Інтуїтивно ми відчуваємо, що лише h1є відповідником. Однак правило Баєса пояснює, чому так відбувається. Схожість сприяє зв’язку h1 та h2 на відміну від h3: лише простуда і туберкульоз викликають кашель, а тому посилюють ймовірність появи даних, яка знаходиться вище заданого порогу. Напротивагу цьому, апріорні дані посилюють h1 та h3, послаблюючи вплив h2: простуда та гарячка є більш поширеними захворюваннями ніж  туберкульоз. Правило Баєса зважує гіпотези згідно добутку апріорних даних та схожостей, таким чином залишає в силі такі пояснення (гіпотези) як h1, які мають велике значення у обох областях.
Таким же чином можна пояснити, яким чином дитина, маючи набір однотипних елементів (наприклад синя ручка, червона ручка, фіолетова ручка), засоціює термін «ручка» та узагальнить його на всю множину.

Форма представлення абстрактних знань

Другим питанням, на яке треба дати відповідь: у якій формі абстрактні знання забезпечують суттєві обмеження для навчання? Для багатьох задач неможливо скласти логічний перелік усіх можливих гіпотез. У традиційних моделях, дані навчання організуються у формі великих числових векторів. Такі приклади ми знаходимо у асоціативній пам’яті, вагах нейронних мереж, або параметрах нелінійних функцій високого порядку. На противагу їм, моделі пізнання Баєса є більш успішними для визначення ймовірностей у більш структурованих формах представлення знань, які знаходять своє застосування в області комп’ютерних наук та штучного інтелекту, як от, наприклад графах, граматиках, логіці предикатів, реляційних схемах та функціональних програмах. Для різних областей людської діяльності така форма представлення буде різною. Наприклад:
  • деревовидна структура представлення — використовується для вивчення слів та концепцій. Така структура вважається універсальною;
  • направлені моделі графів — використовуються для опису дій та наслідків. У такій структурі вузли представляють змінні, а направлені краї графу описують випадкові зв’язки;
  • мапи випадковостей — представляють собою простий зразок теорії інтуїції, однак навчання мереж випадковостей (Баєса ?) на обмеженому наборі вхідних даних залежить від обмежень більш абстрактних знань.
Різні форми представлення несуть з собою різні види попереднього розподілу даних, різний опис та різну деталізацію. Для того, щоб встановити певний ліміт на деталізацію, найчастіше обмежують спостерігача у наборі даних (напр. коли чоловіки обирають собі одяг за кольором, то чим менше кольорів, тим легше вибрати).
Приклад. Нехай концепції навчання, які знаходяться в рамках одної області (домену), що складається з n об'єктів, існує 2n підмножини, а отже і 2n  логічно-ймовірних гіпотез, які розширюють початкову ідею. Якщо ці концепції відповідають гілкам бінарного дерева, яке містить у вершинах об'єкти, тоді цей простір можна зменшити до n-1 гіпотез. При навчанні мереж випадковостей, які містять 16 змінних, кількість логічно-ймовірних гіпотез (у направлених ациклічних графах) складає 1046, однак теорія Баєса, обмежуючи кількість гіпотез двостороннім графом симптомів-хвороб (медичний фреймворк, який складається з вузлів хвороб та симптомів, з направленими краями), зменшує вхідний набір до 1023 гіпотез. Якщо ж ми знаємо відповідність симптомів хворобам, ми можемо зменшити цей набір до розмірності 1018.
Як бачимо, невеликий опис, який узагальнює процес роботи невеличкої частинки світу, пропонує найбільш корисну форму обмежень для індуктивного навчання.

Джерела абстрактних знань

Потреба у наявності абстрактних знань та потреба їх правильного отримання приводять нас до третього питання: яким чином учень навчається тому, що йому необхідно для того щоб навчатись? Тобто, яким чином дитина знає, що для деревовидна структура є правильним шляхом для організації гіпотез при вивченні слів? І взагалі, яким чином дізнатись про деревовидну структуру? Відповідь на ці питання дає теорія когнітивного розвитку. Вона стверджує, що діти вивчають слова припускаючи, що вони належать до плоского набору об’єктів, що входять до іменних кластерів; лише потім вони виявляють що категорії слід об'єднувати у деревовидну ієрархічну структуру. Схожим чином розвиток розуміння відбувається і в науці. Наприклад, звичайні алгоритми для некерованого визначення структури використовують структуру припускають, що структура має єдину, фіксовану форму. Такі алгоритми не можуть вивчати декілька структур з різними формами, або ж виявляти нові форми у щойно отриманих даних. У цьому сходяться і нативісти і коннецціоністи.
Часткову відповідь на це дають ієрархічні моделі Баєса (ІМБ), які використовують декілька, а не один рівень гіпотез, які можуть пояснити дані: простір гіпотез простору гіпотез а також апріорні знання апріорних знань. Кожен новий рівень моделі генерує ймовірнісний розподіл для змінних попереднього рівня. Висновки Баєса на різних рівнях дозволяють гіпотезам та апріорним знанням, які потрібні для вивчення специфічної задачі, навчатися на більших або довших проміжках часу. ІМБ, які визначені у графових та граматичних представленнях можуть сформувати структуру подібностей у заданому домені, при цьому структури різних форм (дерева, кластери, кільця тощо) можна представити у вигляді графів, а абстрактні принципи, які лежать в основі кожної форми виражаються у вигляді простих граматичних правил, які масштабують граф такої форми. Також ІМБ дозволяє будувати каркаси для теорій, які мають довільну кількість змінних класів та довільний шаблон зв'язків між ними. Більш того, кількість класів не повинна бути відомою заздалегідь, а визначається за допомогою непараметричної ієрархічної моделі. Отримати за допомогою ІМБ абстракції можна досить швидко із відносно невеликого числа даних, порівняно з тим, яке потрібно для навчання на нижчих рівнях. Така швидкість пояснюється великою кількістю ступенів свободи.
Таким чином лише ІМБ надаються для пояснення двох, найбільш конфліктних властивостей абстрактних знань людини: того, що можна навчитися з досвіду, і того, що можна осягнути у ранньому житті, що формує обмеження для більш специфічних завдань навчання.

Відкриті запитання

ІМБ можуть дати відповідь на окремі питання щодо походження знань, однак відкритим залишається питання: з чого все починається. Однозначного висновку нема, однак науковці сходяться у думці, що більшість абстрактних концепцій, в принципі, піддаються вивченню. Також відкритими залишаються такі питання:
  • яким чином застосувати узагальнену абстрактну концепцію, яку розроблену в рамках структури графів, до аналізу інших абстрактних концепцій чи їх перевірки;
  • встановлення (визначення) ефективних факторів обмеження у випадку наявності гнучких представлень;
  • проведення аналізу багатьох рівнів з метою визначення бажаного рівня даних.
Останній пункт включає в себе аналіз, який проводиться на трьох рівнях:
  • обчислювальному рівню;
  • алгоритмічному рівню;
  • рівню реалізації.
Ключовими запитаннями, на які намагаються знайти відповідь за допомогою ІМБ на алгоритмічному рівні та рівні реалізації є:
  • які алгоритми наближення використовує мозок;
  • як вони пов’язані з інженерною оцінкою ймовірності у штучному інтелекті;
  • як такі алгоритми реалізовано у нейронних мережах.
Більшість моделей посилаються на використання методів Монте-Карло або стохастичних вибіркових методів. З іншої сторони, конекціоністи заперечують твердження про те, що мозок здійснює кодування складних даних, проте таке заперечення руймує загальноприйняту думку, у когнітивній науці та штучному інтелекті, що символи та структури є важливими для розуміння.

Висновок

Дуже багато матеріалу у оглядовій статті вимагає більш детального дослідження. Проте, як на мене, досить цікавий огляд поточного стану у даній області.

Немає коментарів: