Datasift «фильтрует базар». (Агрегаторы. Часть 3)
Datasift.net — это агрегатор, позволяющий фильтровать, записывать и анализировать информацию из social media (Myspace, Twitter, Wordpress, Facebook, Digg, Google Buzz и др.) в режиме реального времени. Это настоящий прорыв для всех людей, так или иначе работающих с social media, начиная от маркетологов, политиков, социологов, журналистов, заканчивая продвинутыми церковнослужителями :)
Не смейтесь, пожалуйста (пруфлинк на то, как Datasift может помочь церкви в общении с паствой).
Для выполнения определенных запросов в Datasift необходимо создавать потоки (streams).
Вы можете настраивать свои потоки так, как того желаете, используя все возможности специально разработанного языка CSDL (Curated Stream Definition Language).
Вот несколько примеров того, что вы можете «спросить» у магического шара Datasift:
Вы можете искать наиболее распространенный Twitter-клиент в сети. При этом можете узнать местоположение людей, пользующихся Twitter-клиентами, их гендерное деление, и что они думают о конкретном Twitter-клиенте. Можете использовать эти данные в своем приложении, если хотите.
Например, вы, как эксперт по интеллектуальному анализу данных, можете узнать, что думают люди о конкретной теме, скажем, о нынешнем президенте США. Используя несколько простых строк вы можете узнать не только, кто упоминает президента, но где они находятся и на кого они влияют. Это означает, что вы можете найти ключевых влиятельных фигур, которые могут повлиять на ход выборов.
Другим примером может быть поиск социальных данных о каком-нибудь увлечении или предметной области. Допустим, вы хотите узнать, кто идет кататься на сноуборде и какие брэнды они связывают с этой темой.
Эти и другие примеры использования можно найти в официальном блоге, но суть должна быть уже ясна.
Fast Short Use Case
Задача:
Найти нейтральные и положительные твиты со словом «startup» на английском языке от людей, чей klout > 20.
Создаем свой поток легким нажатием на кнопку «create stream», вводим определение потока и приспуаем к кодингу:)
Наш запрос на CSDL выглядит вот так:
interaction.content contains "startup" // выбираем данные, содержащие «startup»
AND
interaction.type == "twitter" // из источника twitter
AND
language.tag contains_any "en" // на английском языке
AND
klout.score > 20 // людей cо значением klout > 20
AND
salience.content.sentiment >= 0
/* настроение ранжируется по шкале от -100 до +100,
нам нужны неотрицательные твиты, поэтому выбираем значение >= 0 */
Результаты выполнения запроса выводятся в режиме реального времени:
записывать результаты выдачи по расписанию;
использовать эти данные в своем приложении (эта опция уже за деньги);
найти всех тех, кто плохо отзывается о вас, вашей компании, продукте или собачке и кинуть им в лицо перчатку (геолокация детектед)
Сейчас Datasift является закрытой альфа-версией, но есть и хорошие новости:
вы можете бесплатно использовать ее возможности, зарегистрировав на сайте свой интерес.
Публичный запуск сервиса планируется на 3 квартал 2011 года.