КтоТам Сайт «КтоТам» запущен
для открытого бета тестирования. Сейчас идет отладка технических
модулей, проверка интерфейсов «на отказ», доработка поискового
модуля. Немного еще о системе «КтоТам» Что это
«КтоТам» — информационно-поисковая система нового типа. «КтоТам»
позволяет извлекать и объединять знания из массивов открытой
публичной информации. Знания этой системы — это люди,
организации, явления и предметы окружающего нас мира. Основным
отличием от множества других поисковых систем является то, что
результат поиска — это весь объем знаний доступный в одном месте,
а не множество ссылок на разрозненные сайты. Не менее важным, а
порой и более полезным отличием выступает возможность поиска
связей между объектами — связи между людьми, между организациями,
между событиями. Объем информации доступной в Интернете сейчас
таков, что в случае поиска чего-либо, большая часть времени
уходит на просмотр найденных ссылок. Требуется кардинально новый
подход к поиску, который и реализован в поисковой системе
«КтоТам» «КтоТам» автоматически формирует выводы о профессии
человека, его хобби, связях с другими людьми и организациями. Все
выводы системы, все факты, подтверждаются конкретными источниками
— публикациями в СМИ, в лентах новостей, в блогах и т.д. «КтоТам»
автоматически отслеживает упоминания людей и организаций в
потоках информации и формирует свой SmartIndex — индекс,
позволяющий объединять воедино весь накопившийся багаж знаний.
Возможности Поиск людей и организаций. «КтоТам»
ищет по фамилии или имени. «КтоТам» может найти людей по
дополнительным характеристикам — «Иван хоккеист» и «Сидоров
кассир». «КтоТам» позволяет искать только по характеристикам,
помогая найти всех олимпийских чемпионов из Санкт-Петербурга или
всех политиков Краснодара. Поисковая система может найти связи
между людьми, проверяя на практике распространенную теорию шести
рукопожатий. «КтоТам» может найти человека через организацию, в
которой он работал или же его коллег. «КтоТам»позволяет искать и
получать данные даже из бумажных СМИ. Как это
работает
Поисковая машина «КтоТам» обрабатывает
официальную информацию из тысяч открытых источников. Это —
электронные и печатные СМИ, новостные ленты и аналитика,
государственные и корпоративные издания, публично доступная
информация из социальных сетей и блогов. Обработка информации
ведется с учетом лингвистической и логической структуры текста,
на основе уникальных алгоритмов позволяющих понимать строение
текста, сравнивать и классифицировать информацию. Результатом
обработки массива текста является SmartIndex представляющий из
себя многоуровневый набор фактов и атрибутов о каком либо
явлении. Например, для предложения «глава компании Имярек,
Александр Краснов, подписал приказ о назначении Ивана Франко
руководителем отдела аналитики» SmartIndex может выглядеть
следующим образом: [quote]ДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Глава> компании
ИмярекКОМПАНИЯ. НАЗВАНИЕ-Имярек>, Александр КрасновПЕРСОНАЖ.
РОД-МУЖСКОЙ. ИМЯ-Александр. ФАМИЛИЯ-Краснов>, подписалСОБЫТИЕ.
ЗНАЧЕНИЕ-Подписать. ФОРМА-Совершенная> приказ о
назначенииФИЗИЧЕСКИЙ ОБЪЕКТ> Ивана ФранкоПЕРСОНАЖ.
РОД-МУЖСКОЙ. ИМЯ-Иван. ФАМИЛИЯ-Франко> руководителемДОЛЖНОСТЬ.
ЗНАЧЕНИЕ-Руководитель> отдела аналитикиКОМПАНИЯ:ПОДРАЗДЕЛЕНИЕ.
НАИМЕНОВАНИЕ-отдел аналитики. ТИП-отдел> <СВЯЗЬ id3-id2
ТИП=РАБОТА. ДОЛЖНОСТЬ=id1> <СВЯЗЬ id6-id8 ТИП=РАБОТА.
ДОЛЖНОСТЬ=id8> <и так далее> [/quote] Кроме того,
SmartIndex содержит информацию про источник фактов, атрибуты,
дату и множество других дополнительных сведений. Подобные индексы
строятся при каждом упоминании компании Имярек или Александра
Краснова и Ивана Франко. SmartIndex удобен не только возможностью
унифицировать и объединять информацию, переданную разными
словами. Он позволяет в разы сократить объемы хранимых данных. На
основании SmartIndex-а строится мета поиск — позволяющий по
конкретному человеку или организации отражать и объединять
множество фактов, связей и атрибутов, выделенных из разных
источников. Основное направление усилий команды «КтоТам»: —
построение качественных SmartIndex-ов для лингвистически сложных
предложений; — построение качественного метаиндекса для всего
объема обработанной структурированной информации; — объединение
информации про одного и того же человека из разных источников; —
недопущение объединения информации для разных людей (например
однофамильцев или полных тезок). Источники
информации
Любая информация, которой оперирует поисковая
система «КтоТам» находится в открытом доступе. Все выводы
системы, атрибуты, связи между объектами строятся автоматически
на основании обработанных текстов, при этом всегда указывается
первоисточник. Мы обрабатываем несколько тысяч совершенно разных
источников информации — это ленты новостей (Регнум, РИА, ИТАР
ТАСС и т.д.), новостные сайты (Лента.Ру, Вебпланета┘),
аналитические сайты, справочники и т.д. Любой человек может
проверить результаты работы системы, прочитав все необходимые
материалы на сайтах первоисточниках. Источники совершенно разные
и это позволяет системе делать достаточно точные выводы. У нас в
базе содержатся SmartIndex-ы множества публикаций из архивов
недоступных в Интернете — в таком случае мы можем только
процитировать и указать место, из которого выделен факт. А для
проверки всегда можно сходить в библиотеку или связаться с
редакцией. Кто Здесь Добрый час, уважаемый
посетитель! Меня зовут Артем Аствацатуров, я руководитель проекта
«КтоТам». Мне очень приятно представить вам этот проект — плод
упорной работы нашей команды. Постараюсь быть кратким. То, что вы
видите сейчас на сайте — это бета версия поисковой системы нового
типа. Члены нашей команды долгое время работали в проектах
связанных с поиском информации, с мониторингом СМИ, с
лингвистическими и аналитическими моделями обработки текста. Мы
обрабатывали слабоструктурированную информацию и создавали
системы идентификации. За время работы у всех сложилось видение
того, как можно принципиально по-новому подойти к поиску. Систем
подобных нашей еще не создано, но было бы глупо утверждать, что у
нас не было ориентиров. Мы видим, как меняется мир, как меняется
Интернет. Уже не первый год ведутся разговоры, что информации
становится слишком много, что подход к поиску нужно менять. Сэр
Тим Бернерс-Ли совсем недавно озвучил
идею нового этапа развития WWW — GGG
.Это еще больше
подзадорило нас — вот! Именно это мы и делаем! Мы делаем то, о
чем пока еще только говорят столь уважаемые люди! И вот мы
запустили проект в открытое тестирование. Что у нас есть сейчас?
Поиск людей, организаций, событий и связей. А еще у людей есть
атрибуты, цитаты и множество всего. Система только запущена,
поэтому понятно, что наш робот может ошибаться. Мы даже знаем
несколько сложных мест в наших алгоритмах, незначительно
усовершенствовав которые, мы сможем кардинально улучшить качество
поиска. Эти работы ведутся, но уже сейчас мы можем показать вам
предварительные результаты. Ваша помощь и ваше мнение очень
важны! На всех страницах есть форма обратной связи — вы
можете указать на логические неточности или пожаловаться, если вы
не нашли того, кого искали. Я поздравляю всю нашу команду с
запуском тестирования. Я поздравляю всех наших посетителей с
наступающим новым годом. Пусть в новом году каждый из нас найдет
то, что будет искать!