Перейти к содержимому













Фотография
Нужна помощь

Как обойти парсинг сайта?



  • Авторизуйтесь для ответа в теме
Сообщений в теме: 5

#1 doca

doca
  • Platinum
  • Сообщений: 346
  • Регистрация: 16.08.2016
  • Заработано: 40 руб.
Репутация: 66

Награды: 20

  
  
  
  
  
  
  
  

Отправлено 02 Март 2018 - 02:22

Думаю многие здесь парсили сайты и не раз. 

Но вопрос с другой стороны. Сайт(база) ложится из-за хорошего парсинга под 350 уников. Ограничить никак нельзя, так как формат парсинга - зашли одновременно 350 человек, запустили по странице на скачку и замолкли на 5 минут. И парсят-то по сути не самую важную информацию. Вопрос- как от этого можно избавиться и защититься, ибо запустив одновременно по большой базе скачку, база мягко говоря умирает.

 

Что кто посоветует?


  • 0

#2 akir

akir
  • Модератор
  • Сообщений: 1 328
  • Регистрация: 04.05.2014
  • Заработано: 104 руб.
Репутация: 755

Награды: 27

  
  
  
  
  
  
  
  

Отправлено 02 Март 2018 - 02:34

- Выдай данные базы в экселе на главной странице, парсить будет не нужно)

- Бан по ip(не поможет)

- Посмотри с какого ip парсят, мб там сайты висят. Найди программиста и попроси парсить потише)

- Постоянно меняй верстку страницы и рендерь ее на фронтенде. Мб им надоест.

- Динамическая генерация токенов на js, для обращения к бд.

- Попробуй найти общее в запросах парсинга и или отключай их(быстро найдут обход) или через раз выдавай левые данные.


  • 1

#3 GamiD

GamiD
  • Сливапер LVL 1
  • Сообщений: 8
  • Регистрация: 21.09.2017
  • Заработано: 0 руб.
Репутация: 3

Награды: 6

  
  
  
  
  
  

Отправлено 02 Март 2018 - 08:58


- Постоянно меняй верстку страницы и рендерь ее на фронтенде. Мб им надоест.

Ставь рандомные названия элементов только эти варианты и то врятли поможет антиботы можно ставить но все это бесполезно=)

если бы можно было избавиться от парсеров это получилось бы у соц сетей мессенджеров таких как twitter facebook vk telegram whatsapp и т.д.


  • 0

#4 NOS

NOS
  • Модератор
  • Сообщений: 2 603
  • Регистрация: 05.05.2014
  • Заработано: 513 руб.
Репутация: 868

Награды: 26

  
  
  
  
  
  
  
  

Отправлено 02 Март 2018 - 09:50

Бороться с парсингом?? Переходите на нормальный хостинг, пользуйтесь мемкешем и будет вам счастье. А площадки, на которых 350 соединений кладут шаред, обходите стороной.


  • 0

#5 doca

doca
  • Platinum
  • Сообщений: 346
  • Регистрация: 16.08.2016
  • Заработано: 40 руб.
Репутация: 66

Награды: 20

  
  
  
  
  
  
  
  

Отправлено 02 Март 2018 - 10:30

Бороться с парсингом?? Переходите на нормальный хостинг, пользуйтесь мемкешем и будет вам счастье. А площадки, на которых 350 соединений кладут шаред, обходите стороной.

 

Не шаред. База 20гигов. Не успевает запрос сделаться корректно. Все это настроено.


  • 0

#6 akir

akir
  • Модератор
  • Сообщений: 1 328
  • Регистрация: 04.05.2014
  • Заработано: 104 руб.
Репутация: 755

Награды: 27

  
  
  
  
  
  
  
  

Отправлено 02 Март 2018 - 12:52

doca, можно на время выводить данные картинкой, если сео не важно.

Если продолжат парсить, с использованием ocr к примеру, то им действительно очень нужно и проще отдать данные/договориться или обвешаться разными капчами после 2го запроса к базе.

 

Также поможет индексация и денормализация базы.


  • 0



Похожие темы Collapse

Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных

×

Зарегистрируйся моментально!