Главная arrow Термины arrow Сетевые технологии arrow ПОИСКОВАЯ СИСТЕМА (в Интернете) [search(ing) system]

ПОИСКОВАЯ СИСТЕМА (в Интернете) [search(ing) system]

Поисковая система - это, Что такое поисковая система, Определение термина поисковая система, Spider, Web-crawler, Indexer, Database, Search Engine, Google, Yandex, Rambler, Aport, AltaVista, Yahoo!, Copernic Agent, MySimon, МрЗ-Wolf, WebSite-Watcher, Audiotex, Пассивный аудиотекст, Интерактивный аудиотекст, Новости из Интернета, Списки рассылки, Телеконференция, Сетевые новости, Справочный сервис в Интернете, Call Center, ICQ, IVR, RSS, LBS, Multi User Dungeon, Object-Oriented MUD, M-banking, Initial public offering, Webzin, M-commerce, Мобильные платежи, Идентификация сервиса, Хостинг

Программно-аппаратный комплекс, предназначенный для производства автоматического поиска информации в Интернете по заданным алгоритмам и критериям. Современные поисковые системы имеют многоуровневую организацию и в основе своей состоят из пяти блоков:
1. Spider —"Паук": производит планомерное обследование Интернета и скачивает адреса всех попавшихся на его пути Web-сайтов, страниц и глобальных ссылок;
2. Crawler, Web-crawler —"Сборщик": перемещается по всем локальным гиперссылкам, найденным на страницах пауком, скачивает страницы и анализирует их в поисках перекрестных ссылок. Его основные задачи: сканирование Интернет-ресурсов в поисках страниц, содержащих заданную информацию, изменений на страницах и определение дальнейшего пути следования по сети. Аналогичное наименование присваивается программам-роботам, которые строят индексы путем последовательного перехода по гиперссылкам с одной Web-стра-ницы на другую. Они позволяют в автоматическом режиме извлекать различные данные с Web-сайтов, в частности, сведения об их адресах, мета-теги, обычный текст со страниц, размеры страниц, даты последнего обновления, списки ссылок, расположенных на Web-страницах и т.д. По своей сути часто такие программы выполняют функции паука, ползателя, а иногда и индексатора.
3. Indexer —"Индексатор": анализирует Web-страницы, скаченные пауком и сборщиком, определяет их тематическую принадлежность, актуальность и популярность у пользователей. Индексатор разбивает страницу на части и анализирует основные ее структурные элементы (заголовки, текст, ссылки и т. п.). После анализа индексирует ресурсы ключевыми словами, структурирует их и строит базы данных в виде, удобном для использования и поиска;
4. Databaseбаза данных, являющаяся хранилищем скаченных и обработанных индексатором страниц, снабженная соответствующим поисковым аппаратом, обеспечивающим доступ к содержащимся в ней данным;
5. SE (Search(ing) Engine), Results engine — "Поисковая машина": принимает запросы пользователей, анализирует их, извлекает результаты поиска из БД с использованием ключевых слов и предоставляет пользователю интерфейс для просмотра этих результатов и уточнения поискового предписания.
Комплексы программного обеспечения поисковых систем имеют разную сложность и назначение, в том числе для "домашнего" использования, а также создания средних и крупных серверов. В них реализуются различные критерии поиска, методы анализа контентов, принципы индексирования и предоставления найденных данных. В частности, в тематически ориентированных поисковых системах может применяться ограниченная глубина индексации, индексация только страниц в пределах сайта или только тех сайтов, которые заданы списком.
В последние годы разработка ползателей-пауков (от профессиональных до бытовых) стала весьма популярной. Так фирма Spidering Hacks предлагает "100 профессиональных советов и инструментов" для создания и управления персональными пауками. Фирмы Google и MSN выпускают свои версии поисковых систем для индивидуального использования. Ими являются —Google Toolbar, Google Desktop Search и MSN Toolbar. Примером российских разработок поисковых систем может служить DROZD 1.2 Server, который разработан в двух вариантах: DROZD 1.2 Personal Server и DROZD 1.2 Enterprise Server. Первый из них —для хранения информации ориентирован на БД MySQL и рассчитан на работу в составе средних и крупных проектов; второй предназначен для работы в составе более крупных проектов (до 600 Гбайт).
Наиболее популярными в России крупными поисковыми службами и системами Интернета являются'.
 - Google - глобальная широкотематическая поисковая система, являющаяся лидером в Интернете. Объем индексного файла отражает более 8 млрд Web-страниц, за сутки обновляется более 5 млн страниц. Индексирует документы, выполненные в виде HTML-файлов и форматах PDF, RTF, PS, DOC и многих других. Поиск производится с использованием логических операторов ("+", "OR" и "-"). По умолчанию все термины в запросе объединяются оператором "AND". Дополнительным платным сервисом сложные запросы обслуживаются не роботом, а человеком (стоимость —$2,5 за ответ). На стадии бета-версии проходит испытания утилита Google Toolbar 3.0, которая должна дополнить имеющиеся возможности поиска средствами, обеспечивающими функции AutoLink, проверки правописания (SpellCheck) в Web-форуах и перевода. AutoLink предназначена для автоматического выделения на Web-страницах названий улиц и номеров домов и обеспечения их связывания с топографическими картами Google Maps. AutoLink должна также производить поиск книг по номерам международного стандарта ISBN (International Standard Book Number), a автомобилей — по их идентификационным номерау (VIN).
В 2005 г. компания Google приобрела фирму Keyhole с ее Web-службой и технологией получения и передачи изображений из космоса. В результате создана Служба Google Earth 3.0, которая объединяет широкомасштабные и детализированные изображения Земли, а также различных ее участков, полученных со спутников, с удобными средствами поиска. Система позволяет пользователя у "перемещаться" в любых направлениях, увеличивать и уменьшать масштаб изображения и рассматривать его под разными угла у и зрения. Сервисные средства системы также обеспечивают следующие возможности: аннотировать каждый участок карты при помощи географической закладки — placemark, аналогичной bookmark; распечатывать и передавать по E-mail любое изображение, полученное с этого сайта; автоматически расчитывать расстояние между пунктами на карте; производить наложение на карту одного из ста прозрачных слоев для отображения сведений о различных географических пунктах, организациях или событиях и т.д. Все указанные услуги предоставляются бесплатно. Для работы с Google Earth 3.0 пользователи должны установить у себя программу клиента Google Earth и иметь сетевое соединение с пропускной способностью не менее 128 кбит/с. Для обмена данными используется открытый, основанный на XML формат KML.
 - Yandex - "Яндекс": лидер российских поисковых служб и систем. Им проиндексированы ~ 1,5 млн российских и зарубежных русскоязычных серверов, учтены >200 млн документов. Актуализация БД производится еженедельно. Индексирование документов выполняется в форматах в HTTP, PDF и DOC. Использует морфологический и семантический анализ терминов при анализе документов и запросов. Максимально детализированный запрос можно создавать с использованием языка запросов, описанного в файле "Синтаксис языка запросов". Сервисные функции включают также передачу новостей, сведений об Интернет-магазинах (включая и книжные), рекламы и т.п.;
 - Rambler —"Рамблер": вторая по популярности в России широкотематическая поисковая система. БД отражает ~ 120 млн страниц. Производительность поискового робота составляет 6,9 млн страниц в сутки. Используется обычная и расширенная формы ввода запроса. Механизмы поиска и выдачи данных учитывают местоположение ключевых слов, популярность ресурсов (по их посещаемости и количеству внешних ссылок на каждую страницу);
 - Aport —"Апорт": единственный профессиональный российский справочник Интернет-ресурсов (в том числе и зарубежных). Имеет многоуровневую иерархическую организацию. Ссылки снабжены аннотациями, отражающими содержание ресурсе, их географическое местоположение, индекс цитирования и др. сведения. БД содержит —70 млн документов. Отличительная особенность Апорта — высокая эффективность поиска МРЗ-файлов, в связи с чем он является популярной поисковой системой аудиозаписей;
 - AltaVista —одна из старейших поисковых систем (в эксплуатации с 1995 г.). В 2002 г. была существенно модернизирована. Объем БД— более 1 млрд страниц. В ней впервые был апробирован и внедрен язык запросов (знаки "+", усечение, "", кавычки для поиска точно по фразе, булевые операторы и оператор расстояния —"NEAR"). Поисковый механизм дополнен интеллектуальным модулем "Prism", облегчающим формулировку запроса. В настоящее время AltaVista приобретена корпорацией Yahoo!, и как самостоятельная система прекратила свое существование.
 - Yahoo! —быстро развивающаяся международная поисковая система, поглотившая в последние годы известные поисковые системы: AltaVista и FastSearch. Является одной из основных конкуренток системы Google. Ее отличительной особенностью является корректное представление данных на 36 языках мира, включая и русский. Объем БД составляет несколько миллиардов документов, описывающих десятки тысяч WEB-узлов. Первый уровень рубрикации Yahoo! состоит из 14 тематических разделов ("директорий"), в каждом из них в среднем содержится 4-5 уровней подразделов. Каждый подраздел снабжен кратким описанием. Предусмотрен также поиск внутри БД по ключевым словам. В случае появления проблем с обработкой запросов Yahoo! автоматически предлагает продолжить поиск в AltaVista.
Наряду с перечисленными поисковиками в Интернете существует более 1000 разнородных поисковых систем, работающих в различных тематических областях. Примерами могут служить:
 - Copernic Agent — метапоисковая система-агент, работающая по методу "опроса свидетелей", которая отправляет запросы одновременно нескольким поисковым системам, выбирая наиболее рейтинговые ссылки, удаляя дубли и выдавая пользователю ранжированные по рейтингу ссылки. Результаты поиска могут быть также отсортированы по доменам, географическим регионам, времени последнего изменения и статусу;
 - MySimon — интеллектуальная система-агент, которая производит быстрый поиск товаров в более, чем 2 тыс. онлайновых магазинов, и сравнивает цены миллионов товаров;
 - МрЗ-Wolf — поисковый агент, производящий сканирование Интернета с целью нахождения заданных музыкальных произведений. В процессе работы он использует различные найденные ранее и содержащиеся в его базе поисковые системы и сайты. Работает в режиме реального времени. Способен находить, сортировать и анализировать десятки тысяч музыкальных файлов в час;
 - WebSite-Watcherпрограмма, предназначенная для отслеживания изменений в сайтах. Поддерживает работу RSS. Имеет гибкие настройки, относится к числу самых мощных программ в своем классе.
Другие сервисные услуги в Интернете
 - Audiotex — "Аудиотекст": вид сервиса, предоставляемого системами голосового ответа. Может быть пассивным и интерактивным.
 - Пассивный аудиотекст [passive audiotex] обеспечивает озвучивание определенных сообщений, например прогноза погоды, ответов автосекретаря, списков услуг, справочных данных и т. п.
 - Интерактивный аудиотекст [interactive audiotex] предполагает возможность выбора ряда опций для получения ответа по интересующему абонента вопросу. При этом ЭВМ осуществляет озвучивание затребованных данных, собирая сообщение из заранее записанных фрагментов, либо синтезирует голосовое сообщение при помощи преобразования текста в речь. Спектр применения этих систем достаточно широк: от простых автоинформаторов до сложных систем, требующих для ответа на запрос пользователей обращения к базе данных.
 - Новости из Интернета [Internet News] — вид сервиса по автоматизированному отбору и передаче пользователям в удобном для них виде новостей по заданной тематике. Для выполнения поиска, загрузки, обновления, хранения и предоставлению пользователям новостей служат программы-агрегаторы: агрегаторы новостей (News agregators) и RSS-агрегаторы (RSS agregators). Первые из них позволяют получить новости практически с любого сайта, вторые — только с сайтов, поддерживающих RSS-формат. Данный вид сервиса быстро развивается и начинает успешно конкурировать с традиционными видами СМИ. Так, по данным агентств Strategy Analytics, Harris Interactive и Online Monitor, 56% европейских пользователей высокоскоростного доступа в Интернет, 80% взрослых американских пользователей и от 60 до 70% пользователей Рунета читают новости, получаемые из сети. Наиболее популярными навигаторами новостей являются: FeedDemon 1.5, ActiveRefresh 2.5.3, GetNews 1.41, NewsPiper 3.3.15 и Abilon 2.5.3.
 - Списки рассылки [Listserv, Mailling List] — вид сервиса, реализованный через электронную почту. Собственно Listserv —это программа, позволяющая автоматически переправлять электронные письма по адресам, находящимся в списке рассылки —Mailling List. Списки рассылки могут быть двух видов: вещательного (announcement type) и дискуссионного (discussion type). В первом случае сообщения только передаются адресатам, во втором, адресаты могут получать сообщения и отправлять ответы всем участникам списка. По этому принципу создаются телеконференции с заранее объявленными темами и соответственно формируемыми списками участников. В зависимости от характера телеконференции состав участников может быть открытым для любого желающего или предопределенным ее создателем и администратором (модератором). В системах телеконференций открытого типа модератор может контролировать сообщения и отклонять те из них, которые, по его мнению, не соответствуют теме.
 - Телеконференция, Конференция [newsgroup] — вид сервиса Интернета, обеспечивающий пересылку и чтение сообщений, сгруппированных по определенному признаку или группе признаков, например, по теме и организатору телеконференции.
 - Сетевые новости [Netnews, USENET, Users Network] — глобальная межсетевая система обмена новостями: разновидность телеконференций, которая позволяет организовать письменные дискуссии в рамках тематических групп участников, которые разделяются по группам новостей —Newsgroups.
 - Справочный сервис в Интернете [Internet reference service] —широко распространенный вид услуг, осуществляемых различными службами в реальном времени и через электронную почту как на бесплатной, так и коммерческой основе.
Одной из крупнейших библиотечных справочных служб является Консорциум AskA ("спроси у..."), созданный в 1996 г. Информационным центром образовательных ресурсов — ERIC (Educational Resources Information Center) Министерства образования США по масштабному проекту VRD (Virtual Reference Desk) для обслуживания в режиме "запрос-ответ" преподавателей, родителей, учеников старших классов, административных и библиотечных работников учебных заведений. Участниками объединенного ("виртуального") справочного пункта являются в настоящее время —23 службы, представляющие — 130 библиотек. С июня 2002 г. в полном объеме функционирует Глобальная справочная сеть — VGN (Global Reference Network), учрежденная Библиотекой Конгресса США в 2000 г. и поддерживаемая крупнейшими библиотеками и библиотечными консорциумами Северной Америки, Европы и Австралии. В России в 2000 г. на базе ЦБС "Киевская" (г. Москва) создана Виртуальная справочно-информационная служба публичных библиотек (ВСИС ПБ или "виртуальная справка"). К январю 2005 г. в ее работе приняло участие более 20 библиотек разных регионов России и Украины. Основным нормативными документами по организации и технологии работы библиотечных справочных служб являются руководство и проект стандарта ИФЛА — IFLA Digital Reference Standards Project (2002 г.).
 - Call Center, Call Center Database —наименование службы обработки телефонных звонков в Интернете. Предоставляет клиентам комплексов услуг, включая: личного секретаря, виртуального офиса, поддержки рекламных или маркетинговых кампаний, "горячей линии", приема заказов, осуществления набора персонала или регистрации, службы клиентской поддержки и т. п. В режиме "виртуальный офис" может производиться круглосуточный прием звонков на многоканальный телефонный номер (в том числе бесплатный — freephone) операторами саН-центра, обзвон клиентов и актуализация баз данных, отправка персонализированных факсимильных сообщении и сообщений по электронной почте, ввод информации в базу данных, перевод/переключение звонков на заказчика, запись разговоров и многое другое. Таким образом обеспечивается возможность сокращения числа сотрудников в реальном офисе. Рынок услуг Call-центров быстро набирает силу.
 - ICQ (произносится как I Seek You) — "Я ищу Тебя": программа и способ интерактивного общения в Интернете, позволяющие находить в сети партнеров по интересам и обмениваться с ними сообщениями. Программный продукт разработан в 1996 г. израильской фирмой Mirabilis; в настоящее время он принадлежит корпорации America Online. ICQ поддерживает телеконференции (сленговый термин "Чат"), доски объявлений и электронную почту в режиме реального времени. В 2002 г. количество пользователей программы ICQ составляло более 40 млн человек. Программа использует собственный высокоэффективный протокол связи, что позволяет работать даже при очень низкой скорости канала передачи данных (от 2,4 Кбит/с). Помимо перечисленных режимов работы поддерживает ряд удобных сервисов, облегчающих общение с абонентами, у которых инсталлирована аналогичная программа. При наличии на компьютере полнодуплексной звуковой карты, достаточной пропускной способности канала (не ниже 19,2 Кбит/с) и соответствующего программного обеспечения, возможна реализация аудиосвязи с абонентами, в том числе в режиме телеконференций. Распространение программы и получение уникального идентификационного номера —UIN (Unique Identification (ICQ) Number) ее пользователя производится бесплатно.
 - IVR (Interactive Voice Response) —"Голосовое меню": вид сервиса, предназначенный для организации системы так называемой "карточной" телефонии в Интернете. Например, IVR фирмы NetUP обеспечивает:
1) поддержку русского языка;
2) полную русификацию (числительные, склонения и т. п.);
3) оптимизированный Td-скрипт, что привело к улучшению производительности системы и уменьшению количества голосовых файлов;
4) поддержку error code биллинговой системы NetUP UTM ("распознаем неверный пинкод, заблокированный счет, нехватку денег и т. п.);
5) запись голосовых файлов в студии с использованием профессиональных актрис;
6) установку IVR и интеграцию с биллингом;
7) создание IVR по требованиям пользователей;
8) запись голосовых файлов;
9) перекодирование голосовых файлов для совместимости с системой пользователя.
 - RSS (Really Simple Syndication) —"Действительно простая синдикация": автоматический метод распространения через Интернет по заданному списку адресов сведений о новых публикациях на сайте —так называемых RSS-рассылок. Разработан в конце 1990-х гг. По мере развития метода аббревиатура RSS расшифровывалась разным способом: под RSS 0.9 подразумевалась Rich Site Summary, т. е. "Обогащенная сводка сайта"; после выхода версии RSS 1.0 — RDF Site Summary. Для пользователей Рунета в качестве перевода полного наименования может быть использован вариант: "Действительно простое приобретение информации". Метод поддерживается протоколом передачи/приема оперативных рассылок новостей. RSS-рассылка представляет собой документ или группу документов, которые написаны на RSS-диалекте языка XML и размещены на сервере Web-узла. Как правило, они содержат сведения, дополненные гиперссылками, о последних изменениях на сайте. В RSS-рассылке могут содержаться заголовки новых статей, выдержки из последних публикаций или весь новый материал. При сборе свежих материалов для Web-журнала может быть использован RSS-агрегаторы (RSS agregator), который обеспечивает автоматический прием RSS-передач с выбранных Web-узлов в том числе: новостных страниц, порталов, розничных Интернет-магазинов, Web-журналов и др., поддерживающих RSS. RSS-агрегаторы читают не все новости, а в соответствии с настройками, произведенными пользователями.
Приоритет разработки языка разметки RSS принадлежит компании Netscape. Большая популярность, которую он приобрел в последнее время, объясняется тем, что пользователь может с его помощью прочитать и передать всю обновленную информацию в любое время и очень быстро —практически "мгновенно" после ее публикации.
 - LBS (Location-Based Services) — "Географически привязанные сервисы": вид сервисов для пользователей мобильных ПК, которые предоставляются в среде беспроводных сетей связи (WLAN, PWLAN и др.). Обеспечивают идентификацию точки доступа ПК и передачу пользователям сведений, связанных с местом их пребывания (например, прогнозов погоды, данных о достопримечательностях, движении транспорта, магазинах и пунктах питания, карт местности и т. п.).
 - HUD (Multi User Dungeon) —"Многопользовательская игра": вид развлекательного сервиса Интернета.
 - MOO (Object-Oriented MUD) — "Объектно-ориентированная многопользовательская игра": вид развлекательного сервиса Интернета.
 - Internet-banking — "Интернет-банкинг": выполнение широкого круга банковских операций по обслуживанию частных клиентов через Интернет. Появился во второй половине 1990-х гг Производится как специально созданными "онлайн-банками", так и в виде отдельного сервиса, проводимого обычными банками. Несмотря на определенный риск этой деятельности как для банков, так и их клиентов, в начале 2000-х гг. наметился значительный рост популярности Интернет-бан-кинга: в 2003 г. число его пользователей в США и Европе достигло соответственно 60 и 25 млн человек. В России, по данным ififin.ru, услуги Интернет-банкинга предоставляют более 300 банков и их филиалов. Обслуживание стационарных и мобильных клиентов банков через Интенет производится специально созданным программным обеспечением по протоколам HTTP и WAP.
 - m-banking —"Мобильный банкинг": вид банковских операций, которые предоставляются пользователям мобильных устройств. К ним относятся: оплата счетов, управление инвестициями, игра на бирже и др. Идентификация пользователей этого вида услуг осуществляется с использованием разного рода дополнительных средств, которыми снабжаются ПК и сотовые телефоны, например, — специальными SIM-картами.
 - IPO (Initial public offering) — "Первоначальное публичное предложение": общее обозначение электронной коммерции в Интернете.
 - Webzin (WEBmagaZINE) — онлайновый постоянно обновляемый обзорный журнал (сленговый термин "вебзин"), в котором может оставить свою статью каждый посетитель серверов, поддерживающих "вебзины". Например, в поисковой системе Yahoo! некоторые материалы обновляются несколько раз за день. Вебзины обычно содержат разделы о спорте, бирже и бизнесе, новостях Интернета, инструкции для начинающих, карты географические и автодорог, сведения о погоде, страницы для детей, служба поиска знакомых в Интернет и пр.
 - m-commerce — "Мобильная коммерция": безналичная оплата различных товаров и услуг при помощи мобильных устройств. В отличие от m-banking клиенту не обязательно открывать счет в определенном банке. Для этого используются другие механизмы ("мобильный кошелей, разные виды "виртуальных денег", банковских карт и т.д.). Кроме того, для этого вида услуг не обязательно оснащать мобильные устройства специальными средствами идентификации. Одним из наиболее распространенных и считающихся перспективными видами услуг этого вида являются так называемые микроплатежи —платежи за недорогие товары и услуги (как правило в пределах $5-10).
 - Мобильные платежи — разновидность мобильной коммерции для безналичных расчетов за товары и услуги, разработанная создателями электронной платежной системы WebMoney Transfer. Ее отличительной особенностью является реализуемая возможность производить расчеты с использованием "электронных денег" (WebMoney) со специальных предоплаченных карт через мобильный телефон или ПК без подключения к Интернету и установления голосовой связи с банком. В Москве существует сеть их продажи, насчитывающая более 500 точек. Указанный вид сервиса, получивший наименование Telepat, опирается на техническое решение—GSM Keeper, являющееся Java-приложением, установленным в телефон и позволяющим владельцу осуществлять манипуляции с электронными деньгами.
 - Калькуляция [accounting, calculation, determination of price, estimate] — вид сервиса в Интернете, построенный на предоставлении пользователям возможностей самостоятельно в режиме онлайн производить расчеты стоимостных показателей наборов услуг или продукции, а также оценивать различные варианты решений, например, связанных с пенсией, надежностью банков, страховых компаний и т.д. Для этого и привлечения к своим организациям внимания пользователей на многих серверах (преимущественно коммерческих) созданы сайты или Web-страницы-калькуляторы [calculators], позволяющие производить определенные расчеты по имеющимся на сервере данным.
 - Идентификация сервиса [SID, Service Identification]— автоматизированное определение вида сервисных услуг, предоставляемых пользователям.
 - Хостинг, Web-хостинг [hosting, Web-hosting] —наименование вида деятельности и услуг, связанных с предоставлением серверов для установки на них Web-сайтов клиентов и поддержки их работы на правах аренды. Организации и фирмы, предоставляющие хостинг, располагают мощными серверами, подключенными к Интернету по высокоскоростным каналам связи. Наряду с коммерческим хостингом, существует бесплатный хостинг для размещения сайтов как частных граждан, так и организаций. Бесплатные хостинги могут содержать ограничения по объему размещаемой информации и использованию различных приложений. Компенсацией за бесплатное предоставление хостинговых услуг может служить размещение рекламных баннеров на страницах сайта. В некоторых случаях на хостинговой площадке размещается не только сайт, но и сервер клиента.