Необычное шоу ожидает в ближайшее время американских телезрителей. В США идет передача Jeopardy, представляющая собой телевикторину, в которой игроки отвечают на самые разные вопросы по самым разным тематикам. Российским телезрителям такой же проект известен под названием "Своя игра". В отличие от других игр Jeopardy, когда за главный приз в миллион долларов соревнуются трое знатоков, здесь место третьего знатока занял не человек, а машина - суперкомпьютер IBM Watson, представляющий собой уменьшенный вариант суперкомпьютера Blue Gene.
Здесь оборудование разместилось в 10 серверных закрытых шкафах, объединенных между собой высокоскоростными сетевыми соединениями, а внутри Watson разместился объем энциклопедической информации, эквивалентный 200 млн печатных страниц текста. Система Watson была названа в честь основателя корпорации IBM Томаса Уотсона.
Задача компьютера является с одной стороны на удивление простой, а с другой невероятно трудной. Перед инженерами IBM стояла задача создать компьютерную систему, способную на уровне человека отвечать на вопросы, изложенные на естественном языке, причем быстро, точно и достоверно. Формат викторины Jeopardy является для компьютера исключительно трудным, поскольку предлагаемые участникам подсказки вынуждают их анализировать тонкие смысловые оттенки, учитывать иронию, разгадывать загадки и преодолевать другие сложности, т.е. заниматься теми видами деятельности, которые люди традиционно выполняют лучше, чем компьютеры.
Соревновались с системой Watson два самых знаменитых игрока, когда-либо участвовавших в викторине Jeopardy. Кен Дженнингс побил рекорд Jeopardy по максимальному количеству сыгранных друг за другом игр - на протяжении сезонов 2004-2005 г.г. он выиграл 74 игры подряд, что обеспечило ему выигрыш более 2,5 млн. долл. Бред Руттер выиграл максимальное совокупное количество игр для одного участника Jeopardy, что принесло ему 3 255 102 долл. Эта сумма – результат первого появления Руттера в Jeopardy, состоявшееся в 2000 г., плюс три победы в турнирах «Jeopardy»: «Tournament of Champions» (2001 г.), «Million Dollar Masters Tournament» (2002 г.) и «Ultimate Tournament of Champions» (2005 г.).
«Большой приз» состязания составил 1 млн. долл., а призы за второе и третье места – 300 тыс. долл. и 200 тыс. долл., соответственно. Руттер и Дженнингс пожертвуют по 50% своего выигрыша на благотворительные цели, а корпорация IBM полностью пожертвует свой выигрыш на благотворительные цели.
«После четырех лет работы наша научная группа уверена в том, что система Watson готова к этому состязанию. Она способна быстро осознавать, что означает подсказка «Jeopardy», анализировать доступную информацию и быстро находить точные и достоверные ответы, – говорит д-р Дэйвид Ферруччи (David Ferrucci), ученый, возглавляющий группу из IBM Research, которая создала систему Watson».
Прошлой осенью система Watson провела более 50 спарринг-игр против прежних участников турнира «Tournament of Champ Jeopardy» на заключительном этапе подготовки к своему телевизионному дебюту. Кроме того, система Watson успешно прошла тот же тест для претендентов, который проходят люди при первичном отборе на участие в шоу Jeopardy.
На протяжении практически всего соревнования лидировала именно Watson, определяя тон, тематику и смысл вопросов, и давая на них ответы с исключительной скоростью. В рамках соревнования компьютер успешно справился практически со всеми вопросами, не уловив тематики лишь некоторых из них и пропустив других участников викторины вперед. По итогам викторины Watson опередил других участников.
Как рассказали в IBM, компьютер работает под управлением Linux и не имеет выхода в интернет, а его внутренняя база включает в себя сведения из самых разных областей, кроме того здесь есть несколько оцифрованных энциклопедий, словарей, книг, новостные ленты, тексты фильмов и другие источники.
Джон Келли, один из разработчиков машины, говорит, что технологии, использованные в Watson, могут быть использованы и в других сферах, в частности в медицине, когда система на базе автоматического анализа данных может предложить курс лечения для пациентов.
Уотсон (англ. Watson) — суперкомпьютер фирмы IBM, оснащённый системой искусственного интеллекта, который был создан группой исследователей под руководством Дэвида Феруччи. Его создание — часть проекта DeepQA. Основная задача Уотсона — понимать вопросы, сформулированные на естественном языке и находить на них ответы в базе данных. Назван в честь основателя IBM Томаса Уотсона.
Участие в «Jeopardy!»
В феврале 2011 года для проверки возможностей Уотсона он принял участие в телешоу Jeopardy! (российский аналог — Своя игра). Его соперниками были Брэд Раттер — обладатель самого большого выигрыша в программе, и Кен Дженнингс — рекордсмен по длительности беспроигрышной серии. Уотсон одержал победу, получив 1 миллион долларов, в то время, как Дженнингс и Раттер получили, соответственно, по 300 и 200 тысяч.
Платформа
Уотсон состоит из 90 серверов Power7 750, каждый из которых содержит по 4 восьмиядерных процессора POWER7. Суммарная оперативная память Уотсона более 15 терабайт.
Система имела доступ к 200 миллионам страниц структурированной и неструктурированной информации объемом в 4 терабайта, включая полный текст Википедии. Во время игры Уотсон не имел доступа к интернету.
Будущее проекта
IBM совместно с Nuance Communications планирует в ближайшие два года разработать продукт, направленный на помощь в диагностировании и лечении пациентов. Также рассматриваются возможности использования в других сферах, таких как оценка политик страхования или эффективности энергопотребления.
У хорошо известного нашим читателям Анатолия Вассермана, многократного победителя интеллектуальной телевикторины "Своя игра", появился опасный конкурент – суперкомпьютер IBM Watson, специально разработанный для участия в этой игре, которая в оригинальном американском варианте носит название Jeopardy.
Казалось бы, нет никаких проблем в том, чтобы заставить компьютер находить в памяти ответы на поставленные вопросы. Однако не всё так просто. Во-первых, особенность игры Jeopardy – "обратные вопросы", как в кроссвордах: игрок должен ответить, какое слово соответствует хитроумному определению или заданным условиям. При этом придумывается далеко не словарное определение, в котором нередко переплетаются прямые и переносные значения понятий, а ответ требует развитого ассоциативного мышления и широкого кругозора. Во-вторых, вопросы задаются обычным человеческим языком, поэтому машина должна уметь трансформировать его в понятный для себя. В-третьих, как и у игроков, возможности машины ограничены тем, что уже заложено в её памяти, поиск в интернете невозможен. И, наконец, в четвёртых, ответы принимаются в течение нескольких секунд, так что правильное решение должно быть найдено максимально быстро.
История Watson началась в 2006 году, когда Дэвид Феруччи, старший менеджер отделения IBM по семантическому анализу, занялся тестированием одного из самых мощных суперкомпьютеров компании, занимавшего одну из верхних строчек 500 самых производительных машин мира. Феруччи решил попробовать, насколько эффективно машина будет справляться с задачами, поставленными "естественным языком", и предложил ей ответить на 500 вопросов, заданных в уже состоявшихся программах Jeopardy! Результаты оказались катастрофическими: по сравнению с живыми игроками, машина недостаточно быстро "нажимала на кнопку" (то есть была готова к ответу), а в случае, когда она всё-таки могла конкурировать с людьми, количество правильных ответов не превышало 15%
Феруччи заинтересовался причинами такого поведения суперкомпьютера и в итоге в 2007 году смог убедить руководство IBM дать ему команду из 15 человек и от 3 до 5 лет на создание эффективной автоматической системы, способной отвечать на неформализованные вопросы. Такая система пригодилась бы всевозможным колл-центрам, справочным и любым другим службам, обслуживающим клиентов. У IBM уже был успешный опыт создания машины, способной поспорить с интеллектом человека – речь идёт о суперкомпьютере Deep Blue, который в 1997 году победил чемпиона мира по шахматам Гарри Каспарова. Эта победа сделала большую рекламу IBM, но коммерческого применения подобной установке найти так и не удалось. В случае же с системой автоматических ответов на вопросы коммерческий потенциал вполне очевиден.
Принципиальное отличие Watson от Deep Blue заключается в том, что если шахматный автомат имеет дело со строго логическими правилами игры, то машина, распознающая "естественную речь", сталкивается в куда более сложными правилами языка и многочисленными искажениями и отклонениями от них. Но самая большая сложность заключается в том, что люди, сами того не осознавая, общаются в рамках своего культурного и социального контекста. В разговорной речи полно намёков, аллюзий и коннотаций, отсылок к неким общим для конкретной общественной среды фактам, понятиям и явлениям. В их числе и религиозные представления, и политические убеждения, и всевозможные произведения искусства – от книг и картин до кинофильмов и компьютерных игр.
Для эффективной обработки подобной информации используются статистические алгоритмы, позволяющие путём анализа самых разнообразных документов устанавливать связь разных понятий друг с другом. Проще говоря, она определяет, какие слова чаще всего употребляются вместе. К примеру, "Кремль" чаще связан со словами "Россия", "Москва", чуть реже с "Казань", "Нижний Новгород", ещё реже – с "собор", "икона"" и т.п. Хотя эти алгоритмы известны давным-давно, полноценно применять их стало возможно лишь в последнее десятилетие – после кардинального роста производительности вычислительной техники и снижения стоимости накопителей для хранения огромных массивов данных.
Команда Феруччи загружает в память IBM Watson миллионы всевозможных документов – учебники, энциклопедии, справочники, художественную и религиозную литературу. Для анализа вопросов одновременно используется более сотни алгоритмов, предлагающих сотни возможных решений. Затем другие алгоритмы оценивают достоверность потенциальных ответов, отсеивая невозможные в силу объективных причин (например, несоответствия даты события и лет жизни действующих лиц) и маловероятные. Чем больше будет получено одинаковых ответов, тем выше вероятность, что они правильны – в процессе игры, на табло выводится рейтинг из нескольких самых вероятных ответов, помимо чаще всего встречающегося.
К 2008 году IBM Watson переместился из разряда "неудачников" на верхние строчки так называемого "облака победителей", состоящего из людей, в 50% случаев успевающих первыми нажать кнопку, сигнализирующую о готовности к ответу и затем в 85-95% случаев дающих правильный ответ. В IBM даже договорились с продюсерами Jeopardy о проведении осенью 2010 года специальной серии игр с участием Watson и победителей прошлых лет. Для подготовки к этим играм (то есть фактически для совершенствования алгоритмов) был воссоздан примерный интерьер студии викторины и стали проводиться испытания с участием живых игроков и ведущего. При этом, как и полагается, "Ватсон" даёт свои ответы вслух синтезированным компьютерным голосом, чем немало веселит присутствующих.
В ходе "тренировок" выяснился занятный факт: несмотря не весь потенциал Watson, он может не только выигрывать большинство игр, но и проигрывать более половины из них. Причин несколько: от "его величества случая" (возможны ситуации, когда соперник может выиграть, просто повышая ставки, оставив машину банкротом) до специфики правил. Как ни странно, но человек способен быстрее нажать на кнопку, чем машина, и это связано с правилами игры, которые менять нельзя.
Дело в том, что каждый вопрос выводится на экран и зачитывается ведущим, причём нажать на кнопку можно только после окончания чтения вопроса. Watson получает текст вопроса в электронном виде одновременно с его выводом на экран, но даже при этом он не успевает прийти к готовому решению быстрее человека. Пока ведущий читает вопрос, на что уходит шесть-семь секунд, опытный игрок уже может оценить свои шансы дать правильный ответ и готов нажать на кнопку за какие-то десятки миллисекунд. На последующий ответ правила отводят ещё пять секунд.
Нажимая на кнопку, человек рискует: если он не даст правильный ответ на вопрос за 100 единиц, его виртуальный счёт опустеет на ту же сумму. Компьютер не склонен рисковать и выдаёт ответы только после проведения всех расчётов и только в том случае, если у него достаточно сведений для оценки достоверности и вероятности того, что этот ответ правильный. Как это выглядит в процессе игры, можно увидеть на видеролике. Рискуя, живой игрок может выиграть благодаря тому, что вспомнит нужный ответ за имеющиеся в его распоряжении 11-12 секунд.
В чуть более формализованной ситуации, чем телевикторина, алгоритмы Watson способны дать куда более предсказуемые и точные ответы. В частности, глава исследовательского подразделения IBM Джон Келли намерен создать медицинскую версию этого устройства под неофициальным названием Watson M.D. Такая система помогла бы врачам быстро принимать правильные решения с учётом огромного множества данных о пациенте, которые физически невозможно всегда удерживать в памяти. "Ватсон" вполне может заменить живых операционистов в компьютерных и телефонных службах в розничной торговле, в банковской сфере и на транспорте.
Стоимость системы класса IBM Watson на сегодняшний день может составить несколько миллионов долларов, поскольку для её работы требуется по крайней мере один суперкомпьютер IBM за миллион долларов. Келли считает, что в ближайшие десять лет подобная технология может быть реализована на гораздо более дешёвом сервере, а в перспективе такая программа будет работать на компьютере не дороже современного ноутбука.
PS. Знающие английский язык могут сразиться с IBM Watson онлайн на сайте The New York Times. Вы, конечно, проиграете.
Суперкомпьютер IBM Watson уже успел продемонстрировать успехи в медицине и телевикторинах. Его планируют использовать в службах техподдержки вместо живых операторов. Однако все эти задачи связаны скорее с нахождением правильного ответа на запросы пользователей на базе известной информации. В IBM считают, что настоящий искусственный интеллект должен уметь находить творческие решения, создавать и изобретать новое, а не только анализировать старое.
Для развития креативных способностей Ватсона его создатели выбрали кулинарное искусство. Это весьма удобный испытательный полигон: приготовление пищи — очень «человеческий», интуитивный процесс, слабо поддающийся алгоритмизации и стандартизации. А оценить результат способен любой человек с улицы. Миндально-шоколадное печенье в испанском стиле, клубничный десерт по-эквадорски, помидоры гриль на гренках с шафраном — эти и другие блюда, созданные Ватсоном, уже были приготовлены и с удовольствием съедены в ходе экспериментов. А пару недель назад был опубликован препринт статьи с описанием алгоритмов и математических моделей, которые Ватсон использует для создания оригинальных рецептов.
Любое творческое решение должно одновременно удовлетворять двум критериям — быть новым и быть качественным. Новизны добиться относительно легко, просто комбинируя ингредиенты и приёмы обработки. А вот с качеством дело обстоит намного сложнее. Научить компьютер понимать, каким будет вкус, аромат, фактура и внешний вид блюда, чрезвычайно трудно.
Исходными данными для Ватсона послужили несколько миллионов рецептов, собранных в интернете. Он были пропущены через проверенные алгоритмы обработки естественного языка, которые использовались для победы в викторине и для обучения Ватсона медицине. Из Википедии была извлечена информация о типичных ингредиентах и приёмах обработки, характерных для кухонь разных народов мира. Наконец, Ватсон получил основательные знания в химии и физиологии восприятия человеком вкуса и запаха.
Новые рецепты генерировались на основе существующих с помощью генетического алгоритма, в качестве функции приспособленности использовались значения новизны, приятности и сочетаемости.
Математическая модель оценки новизны рецепта основана на теореме Байеса, был использован так называемый подход "байесова удивления", изначально разработанный для моделирования поведения зрителя при просмотре видео. В двух словах суть метода состоит в том, что измеряется различие между априорной и постериорной вероятностью встретить некое сочетание продуктов в пространстве рецептов при добавлении в него нового. Так, сочетания орехов с шоколадом или горчицы с сосисками являются совершенно банальными и не вызывает почти никакого изменения вероятностей разных сочетаний. А вот сосиски в шоколаде повлияют на эти вероятности гораздо более существенно.
Для оценки приятности использовалась в основном химия. Зная химический состав продуктов и порядок их смешивания и обработки, компьютер вычислял, какие вещества будут определять вкус и запах блюда. Интересно, что запах оказался намного более важным, чем вкус блюда. Наше восприятие вкуса очень сильно связано с запахом и ароматом. Человек различает всего несколько базовых вкусов — кислый, сладкий солёный, горький. В разных культурах выделяют ещё несколько базовых вкусов, например терпкий или умами. А вот разнообразие запахов гораздо больше и они не сводятся к простым базовым сочетаниям.
Наконец, оценка сочетаемости продуктов также опиралась на серьёзную научную базу, в частности, на совместное исследование американских и британских учёных "Сети ароматов и принципы сочетания продуктов", в котором было проанализировано около 50 000 рецептов и построены карты сочетаемости продуктов, характерные для кухонь разных регионов.
В результате было создано приложение, в котором можно задать набор продуктов, национальный стиль и разновидность блюда, после чего Ватсон выдавал набор рецептов, которые можно упорядочить по степени новизны, приятности и сочетаемости. Кроме отдельных блюд, Ватсон умеет создавать целые меню, добиваясь разнообразия и правильных сочетаний блюд благодаря использованию тематического моделирования. Это способ построения модели коллекции текстовых документов, который разбивает коллекцию на темы и определяет к какой теме относится каждый документ. Ватсон применяет эту модель к рецептам — в качестве ключевых слов выступают отдельные ингредиенты, в качестве документов — сами рецепты.
По словам Лава Варшни, одного из авторов методики моделирования творческих способностей, компания уже обсуждает вопрос применения Ватсона с несколькими крупными производителями продуктов и парфюмерии.
Независимо от высокого качества и преимуществ какого-либо продукта, он, этот продукт, может потерпеть полный провал на потребительском рынке, если его продавцы отнеслись к маркетингу спустя рукава. В торговых компаниях делом продвижения товаров на потребительский рынок занимаются многочисленные менеджеры, которые являются людьми, уровень мастерства которых может значительно отличаться от идеального. Компания IBM собирается изменить эту ситуацию и предоставить дело представления товаров и продуктов конечному потребителю своему любимому детищу - суперкомпьютеру под названием Watson. Будь это огромный розничный магазин или отдел поддержки небольшой компании, работу системы Watson можно организовать таким образом, что он будет эффективно обрабатывать все запросы потребителей и решать возникающие проблемы.
Фактически Watson - это огромная поисковая система, созданная на основе программного обеспечения DeepQA, разработанного компанией IBM, которая способна находить ответы на заданные вопросы. Для поиска наиболее подходящих ответов система опирается на обширнейшую базу данных, общего назначения, ту, которая использовалась для викторины Jeopardy, медицинскую базу данных и базы данных об продуктах компании, которую представляет собой в данный момент суперкомпьютер. Программное обеспечение DeepQA превращает наборы данных в набор взаимосвязанных фактов, производит аналитические операции и отвечает на заданные вопросы. Благодаря тому, что программное обеспечение DeepQA обладает мощной функцией распознавания естественного языка и искусственного интеллекта, возможности суперкомпьютера Watson в деле маркетинга являются поистине безграничными.
В настоящее время система Watson в состоянии стать рабочим инструментом и помощником для людей, в недалеком будущем такая система, за счет совершенствования программного обеспечения, сможет работать напрямую с покупателями в полностью автоматическом режиме. Единственное, что удерживает эту технологию от начала широкого внедрения - это то, что программное и аппаратное обеспечение системы Watson невероятно дороги. Watson состоит из 10 серверных стоек, заполненных серверами Power 750, количество вычислительных процессорных ядер системы составляет 2880, а общий объем оперативной памяти равен 15 терабайт. Если учесть, что стоимость одного сервера Power 750, имеющего на борту 32 вычислительных ядра, составляет порядка 300 тысяч долларов, а Watson состоит из 90 таких серверов, не говоря о том, что стоимость работ по установке и наладке оборудования составляет 32 миллиона долларов, то не стоит ожидать в самом ближайшем времени массового появления таких суперкомпьютеров в роли продавцов или менеджеров.
Около года назад суперкомпьютер Watson компании IBM победил Кена Дженнингса (Ken Jennings) и Брэда Раттера (Brad Rutter) в телевикторине "Jeopardy!". С того момента специалисты компании IBM постоянно совершенствовали систему искусственного интеллекта суперкомпьютера, улучшая возможности машины к восприятию и общению на естественном языке. Так же мы рассказывали о том, что этот же суперкомпьютер был использован в здравоохранении в качестве эксперта-диагноста и были предприняты попытки использования искусственного интеллекта в качестве менеджера торговой организации. Теперь же суперкомпьютер пробует себя еще в одной новой роли, роли финансиста с Уолл-стрит.
Конечно же суперкомпьютер не будет сам "ворочать" финансовыми потоками, скупать или продавать акции. Он будет выступать в качестве главного консультанта компании Citigroup, одной из самых крупнейших в мире финансовых корпораций. Согласно сообщению представителей Citigroup, суперкомпьютер Watson будет "анализировать текущие потребности покупателей, обрабатывать финансовую и экономическую информацию из различных источников, анализировать данные, поставляемые клиентами, что позволит поднять на совершенно иной качественный уровень область цифровых банковских и финансовых операций".
Вышесказанное, по всей видимости, подразумевает, что суперкомпьютер Watson будет постоянно заниматься анализом миллионов страниц всевозможной и разноплановой информации, предоставляя результаты специалистам компании Citigroup в удобном для восприятия виде. Уже сейчас специалисты Citigroup проводят операции по обучению искусственного интеллекта суперкомпьютера тонкостям финансового дела и специфическому жаргону, используемому на Уолл-стрит.
Суперкомпьютер Watson будет работать на компанию Citigroup в виде удаленного сервиса облачных вычислений, что означает, что сам суперкомпьютер будет находиться на площадке компании IBM, а не в вычислительном центре Citigroup.