Очистка веб-сайтов с помощью Python и BeautifulSoup

В Интернете более чем достаточно информации о том, как правильно обрабатывать сайты и блоги. Нам нужен не только доступ к этим данным, но и масштабируемые способы их сбора, анализа и организации. Python и BeautifulSoup - два изумительных инструмента для очистки веб-сайтов и извлечения данных. При просмотре веб-страниц данные могут быть легко извлечены и представлены в нужном вам формате. Если вы заядлый инвестор, который ценит свое время и деньги, вам определенно необходимо ускорить процесс очистки веб-страниц и сделать его как можно более оптимизированным.

Начиная

Мы собираемся использовать и Python, и BeautifulSoup в качестве основного языка очистки.

  • 1. Для пользователей Mac Python предустановлен в OS X. Им просто нужно открыть Terminal и ввести python –version . Таким образом, они смогут увидеть версию Python 2.7.
  • 2. Для пользователей Windows мы рекомендуем установить Python через его официальный сайт.
  • 3. Далее вы должны получить доступ к библиотеке BeautifulSoup с помощью pip. Этот инструмент управления пакетами был создан специально для Python.

В терминале необходимо вставить следующий код:

easy_install pip

pip install BeautifulSoup4

Правила выскабливания:

Основные правила очистки, о которых вы должны позаботиться:

  • 1. Вы должны проверить правила и положения сайта, прежде чем приступить к его просмотру. Так что будь очень осторожен!
  • 2. Не следует запрашивать данные с сайтов слишком агрессивно. Убедитесь, что используемый вами инструмент ведет себя разумно. В противном случае вы можете взломать сайт.
  • 3. Один запрос в секунду - правильная практика.
  • 4. Макет блога или сайта может быть изменен в любое время, и вам, возможно, придется вернуться на этот сайт и переписать свой собственный код при необходимости.

Осмотреть страницу

Наведите курсор на страницу «Цена», чтобы понять, что нужно сделать. Прочитайте текст, относящийся как к HTML, так и к Python, и по результатам вы увидите цены внутри тегов HTML.

Экспорт в Excel CSV

После того, как вы извлекли данные, следующий шаг - сохранить их в автономном режиме. Формат Excel с запятыми - лучший выбор в этом отношении, и вы можете легко открыть его в своем листе Excel. Но сначала вам нужно будет импортировать модули Python CSV и модули даты и времени для правильной записи ваших данных. Следующий код можно вставить в раздел импорта:

импорт CSV

с даты и времени импорта до даты и времени

Продвинутые методы очистки

BeautifulSoup - один из самых простых и всеобъемлющих инструментов для веб-скребков. Однако, если вам нужно собрать большие объемы данных, рассмотрите некоторые другие альтернативы:

  • 1. Scrapy - это мощная и удивительная среда очистки Python.
  • 2. Вы также можете интегрировать код с публичным API. Эффективность ваших данных будет важна. Например, вы можете попробовать API Graph Facebook, который помогает скрыть данные и не отображать их на страницах Facebook.
  • 3. Кроме того, вы можете использовать бэкэнд-программы, такие как MySQL, и хранить данные в большом количестве с большой точностью.
  • 4. СУХОЙ означает «Не повторяй себя», и вы можете попытаться автоматизировать обычные задачи, используя эту технику.

mass gmail