Глоссарий по парсингу сайтов
Глоссарий по парсингу сайтов
-
Парсинг (Scraping)
Процесс автоматического извлечения данных с веб-страниц с использованием программного обеспечения. -
Парсер (Scraper)
Программа или скрипт, выполняющий процесс парсинга веб-страниц. -
HTML (HyperText Markup Language)
Язык разметки, используемый для создания структуры веб-страниц. Основной источник данных для парсинга. -
CSS (Cascading Style Sheets)
Язык, который определяет внешний вид веб-страниц. Часто используется для навигации по элементам страницы при парсинге. -
XPath
Язык запросов для навигации по структуре XML и HTML документов. Широко используется для извлечения данных из HTML-страниц. -
Beautiful Soup
Библиотека на Python для анализа HTML и XML, упрощающая поиск и извлечение данных. -
Selenium
Инструмент для автоматизации веб-браузеров. Часто используется для парсинга динамических сайтов, которые загружают контент через JavaScript. -
API (Application Programming Interface)
Интерфейс программирования приложений, предоставляющий доступ к данным сайта через заранее определенные методы, что часто является альтернативой парсингу. -
HTTP-запросы (GET, POST)
Запросы, которые отправляются на сервер для получения или отправки данных. Используются в процессе парсинга для получения HTML-кода страницы. -
Headers (Заголовки)
Метаданные, отправляемые в HTTP-запросе, содержащие информацию о клиенте, такие как user-agent, cookies и прочее. Часто модифицируются для обхода ограничений. -
User-Agent
Поле в HTTP-заголовке, идентифицирующее клиента (например, браузер). Используется для имитации запросов от реальных пользователей. -
CAPTCHA
Механизм защиты сайтов от автоматических запросов. Может блокировать парсинг, если его не обойти. -
Robots.txt
Файл на сервере, указывающий, какие страницы или секции сайта запрещены для сканирования роботами. -
Селектор (Selector)
Элемент кода, определяющий часть веб-страницы (CSS-селекторы или XPath), который используется для извлечения данных. -
DDoS (Distributed Denial of Service)
Атака, при которой отправляется слишком много запросов на сервер, что может случайно произойти при некорректной реализации парсинга. -
Обход блокировок (Anti-bot measures bypassing)
Методы для предотвращения обнаружения и блокировки парсинга, такие как ротация IP-адресов, задержки между запросами и использование прокси-серверов. -
Прокси-сервер (Proxy Server)
Сервер, который выступает посредником между клиентом и целевым сервером, позволяя скрыть исходный IP-адрес. -
AJAX (Asynchronous JavaScript and XML)
Технология для загрузки данных без перезагрузки страницы. Парсинг таких данных требует работы с динамическим контентом. -
JSON (JavaScript Object Notation)
Формат передачи данных, часто используемый для взаимодействия с API. -
Скоринг (Rate Limiting)
Ограничение количества запросов к серверу за определенное время, введенное для предотвращения перегрузки или блокировки. -
Скрапинг в реальном времени (Real-time Scraping)
Процесс извлечения данных с сайта "на лету", без сохранения локальных копий страниц. -
Парсинг изображений (Image Scraping)
Процесс извлечения ссылок или загрузки изображений с веб-страниц. -
Этика парсинга
Правила и рекомендации по законному и уважительному парсингу, включая соблюдение robots.txt и условий использования сайта. -
Ротация IP-адресов
Метод смены IP-адреса для обхода блокировок при частых запросах. -
Парсинг в обход JavaScript (JavaScript Rendering)
Извлечение данных с сайтов, где контент генерируется с использованием JavaScript, часто с помощью Selenium или Puppeteer.