Про scraping в Ruby

Scraping в Ruby - це процес витягування даних з веб-сайтів. У Ruby існують різні бібліотеки та інструменти для здійснення таких операцій, включаючи Nokogiri, Mechanize, Watir, і інші.

Наприклад, Nokogiri є дуже популярною бібліотекою для парсингу HTML та XML даних у Ruby. Вона дозволяє здійснювати пошук, фільтрацію та витягування різних елементів з веб-сторінок, таких як заголовки, тексти, посилання, таблиці тощо.

Наприклад, код для витягування заголовків з веб-сторінки за допомогою Nokogiri може виглядати приблизно так:

require 'nokogiri'
require 'open-uri'

url = 'https://www.example.com'
html = open(url)
doc = Nokogiri::HTML(html)

# Знаходимо всі заголовки <h1> на сторінці
doc.css('h1').each do |header|
  puts header.text
end

Цей код здійснює GET-запит до вказаного URL, завантажує HTML-сторінку, потім використовує Nokogiri для парсингу HTML та витягування всіх елементів <h1> зі сторінки, виводячи їхній текст на екран.

За допомогою інших бібліотек інструментів, таких як Mechanize або Watir, також можна автоматизувати взаємодію з веб-сайтами, включаючи заповнення форм, клікання посилань тощо.