logo logo
Сообщество робототехников

Журналисты, которые никогда не спят

Журналисты, которые никогда не спят
Среда, 1 Октября 2014, в 14:49
Искусственный интеллект

Роботы-писатели, которые могут интерпретировать данные и генерировать статьи, уже начали появляться в некоторых секторах бизнеса и СМИ.

 

Автоматизированная технологическая система написания статей Quill может работать на обычном ПК, несмотря на ее высокую производительность. На рассвете 17 марта, жителей Лос-Анджелеса разбудили слабые толчки. Менее, чем через три минуты на сайте Los Angeles Times был опубликован материал на эту тему, который, на первый взгляд, напоминал поспешно составленный текст телеграммы из пресс агентства: «В понедельник утром, было зафиксировано землетрясение не сильной амплитуды в 4,7 балла в пяти милях [8 км] от Вествуд (штат Калифорния). Землетрясение произошло в 6:25 утра по тихоокеанскому времени на глубине 5 миль. По данным Геологической службы США, эпицентр находился в шести милях от Беверли-Хиллз (Калифорния), в семи милях от Юниверсал Сити (Калифорния), в семи милях от Санта-Моники (Калифорния), и 348 милях от Сакраменто (штат Калифорния). За последние 10 дней в этом регионе не было зафиксировано ни одного землетрясения с магнитудой в 3,0 и выше. Информация предоставлена Службой уведомления о землетрясениях Геологической службы США. Этот пост был создан алгоритмом».

Автор данной заметки является сотрудником Times, который совмещает две профессии – журналиста и программиста. В то утро серверы Геологической службы США получили данные из различных сейсмографов, перевели их в цифры и переслали по сети на персональный компьютер журналиста. Затем данные были импортированы с помощью ПО, которое выбрало соответствующую информацию и составило статью на разговорном английском. Журналист, которого разбудили толчки, проснулся, прочитал статью и нажал «отправить». Но на самом деле текст такого рода мог быть опубликован и без человеческого участия. В следующий раз, даже если журналист не встанет с постели, читатели Times смогут узнать новости.

Событие привлекло внимание американских СМИ, потому что в последние годы в связи с финансовыми проблемами в Los Angeles Times были уволены многие сотрудники. Сопоставив все факты, можно подумать, что журналистов заменили машинами. На практике, «роботы-писатели» с разным уровнем сложности и автономии начали незаметно функционировать в нескольких СМИ и других секторах бизнеса, которые генерируют большие объемы письменных документов.

В США автоматизированная технология написания статей была частично разработана специалистами по искусственному интеллекту в Северо-западном университете в Иллинойсе. Профессор Ларри Бирнбаум, один из руководителей Лаборатории интеллектуальной информации, является знаковой фигурой в этой новой дисциплине, так как он еще и преподает в Школе журналистики Медилл при Северо-западном университете.

Он был одним из изобретателей системы Quill, которая, несмотря на ее высокую производительность, может работать на обычном ПК с Linux. Чтобы объяснить, как она функционирует, Бирнбаум проводит различия между четырьмя теоретическими шагами, хотя на практике они накладываются один на другой.

Quill начинает свою работу с импортирования данных (таблицы, списки, графики), структурированные другим ПО. «Сейчас это представляет собой большую часть информации, генерируемой человечеством, от электронных таблиц, содержащих счета компаний, до блогов, описывающих события футбольного матча, – говорит Бирнбаум. – Далее другие интеллектуальные системы преобразовывают данные в различные форматы (например, текстовый), которые можно использовать посредством машины. Таким образом, роботы-писатели потенциально имеют доступ ко всем человеческим знаниям». Следующая задача для Quill заключается в проведении повествовательного анализа. «Данные сортируются и ранжируются при помощи метода, который сосредотачивается исключительно на создании статьи, – добавляет Бирнбаум. – Он выбирает определенные факты, подчеркивает действия и ключевых персонажей».

 

 

Третьим, самым инновационным заданием является создание статьи. «Алгоритмы определяют план согласно списку фактов,  – объясняет Бирнбаум. – Потом, благодаря процессу моделирования, они выбирают соответствующий редакционный подход. На практике результат представляет собой смесь слов, строк текста программы, графиков – представление данных, которое может понять только машина».

На основе этих данных Quill создает материал. «Для создания предложения данная программа имеет библиотеку правил, слов и оборотов речи, взятых из разговорного английского, а также специальную профессиональную терминологию», – говорит Бирнбаум. Этот последний шаг является самым зрелищным и самым удивительным, но это не наиболее сложная часть для профессионалов с искусственным интеллектом. «Компьютеры знали, как писать по-английски в течение многих лет. Причина, по которой  они этого не делали в прошлом, заключается в том, что у них не было что сказать, не было доступа к достаточному объему информации, – добавляет с улыбкой Бирнбаум. – Теперь у них уйма интересных историй, которые можно рассказать людям».

 

 

Чтобы извлечь выгоду из Quill как бизнес-проекта, исследователь Infolab, Крис Хаммонд, создал Narrative Science, фирму со штаб-квартирой в Чикаго. Вопреки распространенному мнению, Хаммонд уверен, что хорошая статья означает гораздо больше, чем лаконичная заметка, потому что человеческий мозг может понять идею тогда, когда она изложена на словах. «Благодаря Quill, – говорит он, – через несколько лет никому не придется тратить время на расшифровку электронных таблиц Excel или интерпретацию графиков с осями x и у... Quill и его преемники будут собирать непрерывный поток данных и преобразовывать его в простой текст».

Недавно Хаммонд оказался в центре внимания, заявив, что к 2025 году 90% сообщений, которые будут читаться широкой общественностью, будут генерироваться с помощью компьютеров. «Это не означает, что роботы на 90% заменят всех журналистов. Просто объем опубликованных материалов будет массово увеличиваться, – объясняет он. – Возьмем, к примеру, малые любительские бейсбольные матчи. Они не интересуют СМИ, но несколько десятков человек следят за каждым из них». Quill собирает данные о тысячи таких игр и может производить тысячи статей почти мгновенно, по одной для каждого матча, в стиле спортивных обозревателей, который легко имитировать. Narrative Science уже имеет клиентов в этой области, в том числе среди веб-сайтов, специализирующихся на местной спортивной тематике или новостях для молодежи.

Quill также представляет собой интерес для финансовой сферы, где статьи часто имеют повторяющийся характер. «На протяжении многих лет журнал Forbes публикует прогнозы прибыли для некоторых фирм прежде, чем появятся окончательные цифры. Теперь, благодаря Quill, он делает это для более 5000 корпораций», – рассказывает Хэммонд. Forbes.com теперь размещает материалы, автором которых является Narrative Science, как правило, с таким текстом: «Уолл-стрит с оптимизмом смотрит на перспективы Kruger Inc., которая готова обнародовать свои показатели за I кв. уже в следующий четверг. Аналитики прогнозируют, что операционные доходы компании на одну акцию будут ровняться $ 1,05, что составляет 92% по сравнению с прошлым годом». Банки, брокеры и рейтинговые агентства, которые предпочитают оставаться анонимными, используют Quill для подготовки многочисленных отчетов, которые требует федеральная администрация и регулирующие органы. «В настоящее время отчеты, подготовленные Quill, проверяются перед отправкой, поскольку все еще находятся на экспериментальной стадии. Но, через несколько месяцев, они будут направляться в администрацию автоматически», – добавляет Хаммонд.

Он убежден, что это только начало развития Quill. Автоматизированное написание материалов покажет свои силы вскоре после объединения  с другим техническим явлением: индивидуальным отслеживанием миллиардов потребителей, благодаря их покупкам, интернет-просмотрам, мобильной связи и пр.

Автоматизированная система может взять на себя выполнение повторяющихся задач, таких, как написание финансовых документов на основе данных.

 

«Однажды президент Обама заявил в СМИ, что если бы американцы следили за состоянием своих шин, они могли бы сэкономит до 7% на топливе. Это утверждение не было услышано, потому что народ не любит делать математические расчеты. Но в будущем, ваш любимый новостной сайт будет объяснять все по-другому: он будет знать, кто вы, какая у вас марка автомобиля, сколько он потребляет топлива, как далеко вы путешествуете каждую неделю, тип топлива, которое вы покупаете и пр. Статья будет создаваться  специально для вас, где будет точно сказано, сколько долларов вы сэкономите, если ваши шины будут накачаны», – говорит Хаммонд. Такой же подход может быть использован в бесчисленном количестве других секторов, от здравоохранения до политики. Когда-нибудь, у каждой статьи будет свой собственный читатель.

 

Narrative Science не единственный игрок на рынке роботов-писателей. Например, компания Automated Insights, со штаб-квартирой в Северной Каролине, продает систему под названием Wordsmith, которая является  «платформой для генерации естественного языка». Адам Смит, вице-президент по продажам и маркетингу, говорит, что компания произвела более 300 млн. текстов в 2013 году и собирается в этом году превысить число в 1 млрд. Они имеют дюжину клиентов на экспериментальной фазе, включая медиа-холдинг Gannett, которая публикует USA Today и Yahoo News.

 

 

Yahoo использует Wordsmith для подготовки текстов для Fantasy Sport – игры, в которой игроки создают футбольные команды своей мечты, используя профессиональные профили реальных спортсменов, и потом соревнуются в вымышленных играх с виртуальными командами, выставленными другими игроками. «Система анализирует эффективность спортсменов в реальных матчах, затем решает, какая виртуальная команда выигрывает. И, конечно, она обеспечивает комментарии во время матча», – объясняет Смит.

Wordsmith также может подготовить рекламу недвижимости и доклады по маркетингу, деловой активности и финансовым результатам. «Основываясь на одних и тех же данных, например, ценах на фондовом рынке, мы можем написать миллионы различных статей, каждая из которых будет фокусироваться на какой-либо отличительной черте», – добавляет Смит.

Между тем, французская компания Yseop, которая также находится в Техасе, разработала систему, которая может использовать английский, французский, испанский, португальский и, очень скоро, японский языки. На сайте компании можно увидеть финансовую статью, которая обновляется автоматически каждый раз, когда вы меняете цифру в боковой панели. Первоначально в статье рассказывается о «существенной позитивной динамике», но если ввести более низкий показатель, то текст меняется, например, на «резкое снижение».

По словам директора, Жана Раушера, Yseop работает для отделов обслуживания клиентов при банках, телекоммуникационных компаниях и новостных сайтах, которыми управляют финансовые компании. Она также предоставляет передовые услуги для агентств, которые следят за сделками на фондовых рынках. «Чтобы узнать больше о директоре компании, наша система будет сканировать около 30 баз данных, включая любые судимости, а потом  автоматически подготовит резюме», – говорит Раушер.

Роботы-писатели скоро станут обычным явлением. Yseop продает версию своей системы для внутреннего использования. В конечном счете, все крупные компании, которые обязаны производить большое количество длинных отчетов по всем аспектам их деятельности, станут потенциальными клиентами. Раушер уже может представить ситуацию, когда офисные сотрудники и роботы эффективно работают вместе. «Yseop создает черновой вариант статьи, содержащий основные данные и точные цифры, – предполагает он. – После этого, сотрудник берет задачу на себя и редактирует черновик, добавляя несколько мнений и оценочных суждений».

Система может также общаться с человеком. «Если алгоритм увидит, что некоторые данные отсутствуют,  он приостановит работу и потребует такие данные. Как только он получит то, что ему нужно, он возвратится к работе», – объясняет Раушер. Поэтому, возможно, офисные работники в скором времени будут интересоваться, сможет ли компьютер дополнить их навыки или, в конкретном случае, лучше все сделать самостоятельно.

Интернет-маркетинг является еще одним полем, в котором роботы-писатели уже активно работают. Опираясь на целый ряд академических исследований, Labsense, небольшой стартап в Париже, создал свой собственный код автоматизированного написания документов. В настоящее время он работает для сайтов онлайн-торговли с большими каталогами, которые содержат  подробную информацию о многочисленных продуктах, листах технических данных, руководствах пользователя и т.д.

Эдуард Де Менибус, один из основателей Labsense, считает, что рынок статей от роботов-писателей имеет огромный потенциал. «Например, почти 300 000 отелей внесены в списки по всему миру на сайтах для путешествий, но многие из них либо не имеют надлежащего вступительного текста, либо имеют такой текст, но который повторяется на всех сайтах, – говорит он. – Наша система разрабатывает разные тексты для каждого отеля и каждого сайта». Если торговый сайт не имеет должным образом структурированных данных, он может предоставить плохо сортированный материал, который есть в наличии (вырезки из газет, брошюры, технические характеристики, инструкции) и Labsense составит небольшую, определенную базу данных.

Компания наняла лингвистов с целью нарастить объем терминологии, соответствующий основным секторам, которые участвуют в онлайн-торговле, включая туризм, бытовую электронику, информационные технологии и развлечения. «Слова распределяются  по семантическим разделам в логической последовательности, – объясняет Де Менибус. – Наша система производит предложения, которые подходят к специфическому контексту».

Приоритетной целью для технологии Labsense являются не люди, а другой код, принадлежащий Google. Чтобы Google выдал ссылки на интернет-сайт, последний должен отображать оригинальные тексты, которые невозможно найди  в другом месте и которые содержат правильные ключевые слова в нужных местах. «Мы автоматизировали этот процесс, – говорит Де Менибус. – Только лишь  для рекламы гостиниц  мы подготовили больше текста, чем человек может написать за несколько жизней».

В скором будущем Де Менибус планирует предоставлять интернет-услуги для широкой аудитории, что позволит каждому получить доступ к роботу-писателю. Кто сказал, что в сети и так уже слишком много контента?

рейтинг

3796

просмотров

0

комментариев

порекомендовать друзьям

комментарии

Нет комментариев

Гость

Дорогие друзья! Помните, что администрация сайта будет удалять:

  • Комментарии с грубой и ненормативной лексикой
  • Прямые или косвенные оскорбления героя поста или читателей
  • Короткие оценочные комментарии ("ужасно", "класс", "отстой")
  • Комментарии, разжигающие национальную и социальную рознь