Глоссарий по парсингу сайтов

Глоссарий по парсингу сайтов

  1. Парсинг (Scraping)
    Процесс автоматического извлечения данных с веб-страниц с использованием программного обеспечения.

  2. Парсер (Scraper)
    Программа или скрипт, выполняющий процесс парсинга веб-страниц.

  3. HTML (HyperText Markup Language)
    Язык разметки, используемый для создания структуры веб-страниц. Основной источник данных для парсинга.

  4. CSS (Cascading Style Sheets)
    Язык, который определяет внешний вид веб-страниц. Часто используется для навигации по элементам страницы при парсинге.

  5. XPath
    Язык запросов для навигации по структуре XML и HTML документов. Широко используется для извлечения данных из HTML-страниц.

  6. Beautiful Soup
    Библиотека на Python для анализа HTML и XML, упрощающая поиск и извлечение данных.

  7. Selenium
    Инструмент для автоматизации веб-браузеров. Часто используется для парсинга динамических сайтов, которые загружают контент через JavaScript.

  8. API (Application Programming Interface)
    Интерфейс программирования приложений, предоставляющий доступ к данным сайта через заранее определенные методы, что часто является альтернативой парсингу.

  9. HTTP-запросы (GET, POST)
    Запросы, которые отправляются на сервер для получения или отправки данных. Используются в процессе парсинга для получения HTML-кода страницы.

  10. Headers (Заголовки)
    Метаданные, отправляемые в HTTP-запросе, содержащие информацию о клиенте, такие как user-agent, cookies и прочее. Часто модифицируются для обхода ограничений.

  11. User-Agent
    Поле в HTTP-заголовке, идентифицирующее клиента (например, браузер). Используется для имитации запросов от реальных пользователей.

  12. CAPTCHA
    Механизм защиты сайтов от автоматических запросов. Может блокировать парсинг, если его не обойти.

  13. Robots.txt
    Файл на сервере, указывающий, какие страницы или секции сайта запрещены для сканирования роботами.

  14. Селектор (Selector)
    Элемент кода, определяющий часть веб-страницы (CSS-селекторы или XPath), который используется для извлечения данных.

  15. DDoS (Distributed Denial of Service)
    Атака, при которой отправляется слишком много запросов на сервер, что может случайно произойти при некорректной реализации парсинга.

  16. Обход блокировок (Anti-bot measures bypassing)
    Методы для предотвращения обнаружения и блокировки парсинга, такие как ротация IP-адресов, задержки между запросами и использование прокси-серверов.

  17. Прокси-сервер (Proxy Server)
    Сервер, который выступает посредником между клиентом и целевым сервером, позволяя скрыть исходный IP-адрес.

  18. AJAX (Asynchronous JavaScript and XML)
    Технология для загрузки данных без перезагрузки страницы. Парсинг таких данных требует работы с динамическим контентом.

  19. JSON (JavaScript Object Notation)
    Формат передачи данных, часто используемый для взаимодействия с API.

  20. Скоринг (Rate Limiting)
    Ограничение количества запросов к серверу за определенное время, введенное для предотвращения перегрузки или блокировки.

  21. Скрапинг в реальном времени (Real-time Scraping)
    Процесс извлечения данных с сайта "на лету", без сохранения локальных копий страниц.

  22. Парсинг изображений (Image Scraping)
    Процесс извлечения ссылок или загрузки изображений с веб-страниц.

  23. Этика парсинга
    Правила и рекомендации по законному и уважительному парсингу, включая соблюдение robots.txt и условий использования сайта.

  24. Ротация IP-адресов
    Метод смены IP-адреса для обхода блокировок при частых запросах.

  25. Парсинг в обход JavaScript (JavaScript Rendering)
    Извлечение данных с сайтов, где контент генерируется с использованием JavaScript, часто с помощью Selenium или Puppeteer.