«Самая большая вековая проблема, порождённая технологиями – снижение потребности в рабочей силе»
Продолжая публикации, посвящённые современному состоянию работ в области искусственного интеллекта (ИИ), предлагаем вашему вниманию интервью с одним из наиболее компетентных экспертов, Эндрю Ыном (Andrew Ng), который работает над глубинным обучением китайской поисковой машины Baidu.
Эндрю Ын – профессор Стэнфордского университета, в прошлом он возглавлял проект Google Brain, основатель образовательного портала Coursera и в настоящее время руководитель исследовательских работ в Baidu.
Глубинное обучение стало одной из наиболее актуальных из обсуждаемых тем, по большей части благодаря последним десятилетиям работы Джеффри Хинтона (Geoff Hinton), который сейчас работает в Google. Идея заключается в следующем: если загрузить в компьютер множество изображений, скажем, собак, то машина в итоге научится распознавать представителей семейства псовых. И если мы сможем научить этому машины, как надеются и инженеры, и предприниматели, они скоро станут«понимать» язык и изображения. Этот подход применяется для различных целей, от обнаружения опухолей при помощи компьютера, до путеводителей, которые распознают особенности того или иного ресторана.
Чтобы представить масштаб деятельности Ына на нынешней работе, достаточно сказать, что, по его словам, Baidu «интересуют только те технологии, применение которых может повлиять на 100 миллионов пользователей».
— Люди часто путают связи в человеческом мозге и компьютерные нейронные сети. Вы можете объяснить, почему это неверно?
— Один нейрон человеческого мозга — это невероятно сложное устройство, работу которого мы не понимаем и по сей день. Один «нейрон» нейронной сети – невероятно простая математическая функция, которая составляет лишь малую часть сложной структуры биологического нейрона. Проще говоря, искусственная нейронная сеть копирует мозг на поверхностном уровне, но на самом деле она совсем не похожа на человеческий мозг.
— Сегодня машина может распознать, скажем, прыгающую собаку. Но что, если, кто-то будет держать кусок мяса перед собакой. Мы понимаем, что это немного другой концепт – собачий трюк. А кусок мяса — это не просто кусок мяса, а награда – другой лингвистический концепт. Можем ли мы научить компьютер понимать эти концепты?
— Алгоритмы глубинного обучения сейчас хорошо справляются с одной вещью: анализом входящего сигнала и отображением исходящего сигнала. От Х до Y. Обучение концептам будет значительно труднее.
Одна из задач, над которой работала компания Baidu несколько месяцев назад, заключалась в загрузке изображения и получении подписи как результата [машинного] анализа. Мы показали, что этой схеме можно обучить. Еще многое предстоит улучшить, но это уже многообещающий подход к обучению компьютера понимать такие сложные концепты.
— Китайский и английский языки отличаются друг от друга почти во всем. Как отличаются парадигмы понимания этих языков компьютером?
— Боже… технология еще не настолько совершенна, чтобы дать точный ответ. У нас уже есть английский язык. Теперь мы работаем над китайским.
В английском алфавите 26 букв. В китайском приблизительно пять тысяч. Если взять небольшой корпус текстов на английском, то там будет все то, что есть в алфавите. Если взять корпус на китайском, некоторые символы будут встречаться лишь один раз. Так как можно научить распознавать такой символ?
С романскими языками все куда проще. Переход от французского к английскому намного легче, чем от китайского к английскому.
— Если у вас есть картинка с тегом на английском языке, как тег будет переведен на китайский?
— Я думаю, что еще много всего, что стоит попытаться сделать – не все еще изучено.
Одна из таких вещей – обучение многозадачности. Например, у вас есть сеть, распознающая изображения с тегами на английском языке, и вы хотите научить ее распознавать вещи с тегами на китайском. Если вы хотите обучить одну сеть выполнять обе задачи, есть шанс, что результат будет лучше, чем если бы у вас были две сети, каждая из которых работала бы со своим языком.
Конечно, это не такая большая победа, но все же это победа. По той причине, что на начальном уровне [машина] может научиться определять границы изображения, затем находить углы. Это знание одинаково для обоих языков. Когда вы умеете распознавать объект на английском языке, это поможет вам научиться работать и с китайским, потому как вы умеете находить границы и объекты.
— Что насчет слов, которых не существует в одном из языков?
— В английском языке есть одно слово, обозначающее сестру, и одно слово, передающее значение «сестра». В китайском есть два разных слова для старшей и младшей сестры. Это вызывает затруднение при переводе, потому что, когда вы видите слово «сестра», вы не знаете, как перевести его на китайский, ведь вы не знаете, старшая это сестра или младшая. Но я думаю, если вы узнаете свою сестру и выделите ее среди других объектов в комнате, будет проще добавить еще один отличительный признак, нежели если бы вам пришлось учить концепт слова «сестра» с чистого листа.
Обучение становится дороже, если только ваша нейронная сеть не слишком мала.
— Что такое маленькая нейронная сеть?
— Каждый день по-разному(смеётся). Один из показателей, которые мы используем, это количество связей между нейронными сетями. Baidu часто обучает нейронные сети с десятками миллиардов связей.
— Давайте поговорим о распознавании языка. Baidu находит особенные звуки или сочетания букв, например, как th (фонемы) и затем работает с ними?
— Так обстояло дело с распознаванием речи. Все системы распознавания речи работали по этому стандарту: Вы загружали аудиофайл и пытались спрогнозировать фонемы. А другая система переводила фонемы в слова.
Однако недавно состоялась дискуссия о том, являются ли фонемы важной частью языка или они лишь выдумка лингвистов. Многие годы я пытался убедить людей в том, что фонемы были придуманы человеком и не существенны для языка. Они были изобретены для описания языка. Многие лингвисты яростно оспаривали мою точку зрения, иногда публично.
Мы не используем концепцию фонем для системы распознавания речи Baidu. Мы учим его, как если бы это был ребенок: мы даём компьютеру аудиофайл, показываем текст и позволяем ему самому «понять» текст, не вводя искусственное понятие, названное фонема.
Я научился говорить по-английски до того, как кто-то объяснил мне, что такое фонема.
— Что насчет видео? Что вы в Baid uдумаете об этом?
— Мы проделали много работы по глубинному обучению с видео. Но не думаю, что на настоящий момент мы добились успеха в использовании временнОго измерения как основы. Исследователи глубинного обучения дискутируют по этому поводу: насколько важно время для развития интеллекта наших систем?
— Можете поподробнее рассказать об обучении времени?
— Когда вы вертите головой, вы видите, как объекты смещаются. (Суть в том, что вы видите взаимоотношения между объектами во времени.) Какое-то движение впереди, какое-то сзади. Мы не знаем, учатся ли дети выделять объекты, определять расстояния между объектами из-за смещения. Я не знаю. Не думаю, что кто-либо знает.
Возникают различные идеи вокруг некоторых свойств видео, которые кажутся важными, но пока нет никаких результатов. По-моему, никто из нас пока не дошел до правильной мысли, правильного способа думать о времени.
Животные видят мир в движении. Если бы они видели только неподвижные изображения, как бы могло развиваться их зрение? Неврологи проводили эксперименты на кошках в темных помещениях с использованием стробоскопа, чтобы животное могло видеть только застывшую картинку, и у этих кошек действительно не развито зрение. Движение важно, но каков алгоритм? И как [зрительная система] использует его?
Я думаю, что это невероятно важно, но никто из нас не придумал алгоритм, чтобы выяснить это.
— Видите ли вы в ИИ возможную угрозу?
— Я верю, что ИИ сможет сделать жизни сотен миллионов людей лучше. Я бы не работал над всем этим, если бы не верил безоговорочно, что это так. Представьте, если бы мы могли просто разговаривать с компьютерами, а те понимали бы «внеси в расписание встречу с Бобом на следующей неделе, пожалуйста». Или если бы у каждого ребенка был бы свой собственный учитель. Или самоходные машины, которые бы позволяли экономить время, которое мы тратим на вождение.
Я думаю, что страх перед «злыми роботами-убийцами» сильно преувеличен. Существует большая разница между интеллектом и сознанием. Наше программное обеспечение становится более умным, но это не значит, что оно наделяется сознанием.
Самая большая проблема, которую представляют технологии вот уже многие столетия, это снижение необходимости в рабочей силе. Например, в США 3,5 миллиона водителей грузовиков, на чью работу может повлиять возможность создания самоходных автомобилей. Я думаю, что представителям правительства и бизнес-лидерам следует серьезно обсудить этот вопрос, а суматоха вокруг «злых роботов-убийц» — это не то, на что стоит отвлекаться.
Фото (с) medium.com