Requests VS Aiohttp | Ускоряем HTTP запросы на максимум

2024 ж. 3 Мам.
30 655 Рет қаралды

⭐ Какие прокси я использую: asocks.com/ru
⬆️ Промокод на первые 5 GB бесплатно: GTHDSQ1
⭐ Курс ООП и Приват канал: www.zproger-school.com/?...
⭐ Телеграм канал: t.me/codeblog8
⭐ Исходный код: t.me/codeblog8/169
В данном видео мы напишем парсер изображений с сайта Nvidia и сделаем синхронную и асинхронную версию с использованием прокси. Наша задача сделать парсинг данных с сайта и сохранить итоговые изображения.
Мы сделаем тесты производительности обычных requests запросов и асинхронной версии, с использованием: aiohttp, asyncio и aiofiles.
Также узнаем, почему синхронность работает медленней асинхронности, и узнаем как ускорить все эти процессы на максимум.
Асинхронный парсинг сайтов, позволяет в разы ускорить запросы Python и завершить процесс намного быстрее.
📁 Github: github.com/Zproger
📁 Все плейлисты с уроками: bit.ly/39GaY89
📁 Связаться со мной: zproger777@gmail.com
📁 Поддержать канал: github.com/Zproger/donate
Тайм-коды:
0:00 - Делать ли видео о aiofiles?
0:48 - Извлекаем запросы из сайта Nvidia
2:12 - Какие прокси будем использовать?
2:39 - Генерируем названия файлов через время Unix
3:18 - Извлекаем расширение файла из content-type
4:08 - Сохраняем изображения в папку images
4:35 - Скорость синхронной версии без прокси
4:52 - Скорость синхронной версии с прокси
5:20 - Почему синхронность медленней асинхронности?
5:57 - Запускаем асинхронные задания параллельно
7:07 - Делаем запросы полностью асинхронными
7:23 - Делаем запись в файл асинхронно, с помощью aiofiles и chunks
8:07 - Скорость асинхронной версии (прирост в 8 раз)
8:17 - Скорость асинхронной версии с прокси (прирост в 2 раза)
8:30 - 1000 лайков == видео с aiofiles
8:45 - Исходный код в описании. Полезные видео в подсказках

Пікірлер
  • Давайте наберем 1000 лайков и я сделаю видео о aiofiles. Возможно покажу похожие модули и их функционал.

    @zproger@zproger Жыл бұрын
    • 1000 👍

      @aleksandr7043@aleksandr7043 Жыл бұрын
  • Стоит заметить, что тут не совсем корректное использование библиотеки aiohttp. Из документации: Don’t create a session per request. Most likely you need a session per application which performs all requests altogether. ... Anyway making a session for every request is a very bad idea. Создавая каждый раз новую ClientSession в функции download_image ты каждый раз создаешь connection pool и прочие связанные с сессией ресурсы. Это довольно накладно. Корректнее в main'e создать контекст сессии и уже саму сессию передавать в download_image. async def main(): async with aiohttp.ClientSession() as session: image_tasks = [] for image_num in range(IMAGES_COUNT): image_tasks.append(asyncio.create_task(download_image(session, image_num))) # ...... # и поправить download_image async def download_image(session, image_num): async with session.get(SITE, proxy=None) as response: # ...... Ну и в синхронном варианте стоит сделать подобное, requests также дает сессию как контекст мэнеджер. Просто это уже не одну строчку, поэтому и док-ии не на самом видном месте. Н-р: with requests.Session() as session: response = session.get('some.site')

    @papoaandr8402@papoaandr8402 Жыл бұрын
  • Очень хорошое видео) Делайте почаще такие видео) Однозначно лайк! ❤

    @temur4ik4@temur4ik4 Жыл бұрын
  • Только этим вечером сидел, изучал асинхронность и тут вижу в недавних это видео) Спасибо за ролик!

    @kekandosik@kekandosik Жыл бұрын
  • ХА, мой палец вверх был тысячным! Ждем видос про aiofiles)

    @as-master8458@as-master8458 Жыл бұрын
  • Спасибо за видео. Отличная подача материала. Хотелось бы больше про асинхронное программирование

    @Alexey.np88@Alexey.np88 Жыл бұрын
  • Вот это мы смотрим, вот это мы лайкаем :D

    @wordpreslabs@wordpreslabs Жыл бұрын
  • Можно ли считать ддосом, если я в функции пишу цикл, в цикле делаю requests на сайт, а после, несколько десятков потоков этой функции врубаю. Считается?

    @yellowdollar3558@yellowdollar35589 ай бұрын
  • Недавно писал асинхронный парсер с многозадачностью.. По началу та ещё головная боль 😅 Но вышло неплохо) Сделал автопарсинг нескольких сайтов за минуты (синхронно это бы заняло немало дней, а может и недель..) Самое сложное было сделать баланс между кол-вом процессов для многозадачности и объёмом данных на задачу, как хорошо что в asyncio уже всё для этого есть) Правда я поздновато узнал про asyncio queue 😅, но в принципе без него получилось тоже хорошо (процессы просто заполняли список и после всей работы включая каждый распараллеленый запрос всё записывал в csv)

    @blackcatdevel0per@blackcatdevel0per Жыл бұрын
    • ну да, прям таки дней) если асинхронно несколько минут, то без асинхронности максимум +15 минут. И то, больше шанс, что забанят за большое количество запросов.

      @InojjHacker@InojjHacker Жыл бұрын
  • А можно видос про парсинг для cms например на.. php? Просто часто бывает что в проектах приходится работать с ajax (например автоимпорт csv каждое n-е время) и др. фреймворками с которыми уже непросто работать обычными способами 😅 Или можете подсказать как отобразить некоторые запросы ajax которые невидно в инспекторе? (Сохранение лога пробовал..)

    @blackcatdevel0per@blackcatdevel0per Жыл бұрын
  • Zproger на какой ОС ты сидишь?

    @slayer5883@slayer5883 Жыл бұрын
  • As a Mexican dev I don't know how I ended here but I'll sub hahaha

    @DoctorSoulis@DoctorSoulis Жыл бұрын
    • :D

      @zproger@zproger Жыл бұрын
  • Скажите пожалуйста сколько времени вы тратите на изучение нового фреймворка? Как проходит обычно этот процес? Вам надо поработать, быт, полистать соцсети о новых технологиях, время на ютуб канал. Я иногда ахреневаю от количества информации и подтем когда читаю статью по фреймворку, смотрю видео, читаю документацию.

    @user-wd8vb4mx7j@user-wd8vb4mx7j Жыл бұрын
    • На самом деле у меня намного больше задач, не учитывая те, которые вы перечислили. Если дело касается библиотеки, то как правило на то, чтобы понять как она работает, может уйти от одного дня, до нескольких дней. Бывает такое что сразу понимаю как она работает и просто по документации делаю нужные мне действия. Если речь о фреймворках, то тут как правило нужно много времени. Я просто изучаю и прорабатываю по несколько тем в день, и так спустя какое-то время удается его до конца посмотреть. Стоит добавить, что чем больше вы программируете, тем быстрее проходит процесс обучения.

      @zproger@zproger Жыл бұрын
    • @@zproger Расскажи про rootkit для Python

      @f-16fightingfalcon99@f-16fightingfalcon99 Жыл бұрын
  • Asyncio вообще рулит. Но иногда приходится подключать multiprocessing...

    @m0Ray79@m0Ray79 Жыл бұрын
  • Я сделал телеграмм бота используя aiogram, этот бот использует апи чатгпт. Была бы разница если бы я написал этого бота на telebot?

    @decider4u986@decider4u986 Жыл бұрын
  • А если сделать все тоже в пачке тредов результат будет тот же, ну по скорости? Например, я не знаю какой список URL нужно проверить. То есть знаю 1-5 штук, потом мне из очереди приходит еще куча URL-ов. Мне нужен типа воркер, что будет добавлять столько тредов, сколько нужно, то есть иногда 1 качается файл иногда 50 одновременно. Может проще обернуть requests в Thread и тогда уже делать это просто созданием новых Thread?

    @user-ot1eq6qf7n@user-ot1eq6qf7n Жыл бұрын
    • Можно создать отдельную функцию которая будет создавать асинхронные задания. Потоки блокируются и это будет медленно, если уже делать подобное, то с multiprocessing.

      @zproger@zproger Жыл бұрын
    • @@zproger Но multiprocessing будет тормозить если у меня задач 100 отдовременно, а ядер 8. Я думал, что эти все io модули, что ты показываешь, внутри реализованы типа как ThreadPool. Только использовать их удобнее, так как они сделаны типа как лямбда функция, оно не именованое, вешаешь коллбек на то, что делать по завершении скачивания/выгрузки и т.д. А если у меня система более сложная, например есть куча разных задач, одни скачивают файлы другие делают иной ввод/вывод, но именно эти задачи лучше всего делать в отдельных Thread как ты в видео про Thread и говорил. Так вот, если у меныя один обработчик очереди задач которые должны запускаться в треде, типа как оболочка и он получает входные данные и стартует треды со стандартными либами внутри типа requests, то есть чтобы я не парился однопоточная либа или нет, чтобы оболочка решала помещать ее в отдельный процесс или тред, чтобы выполнить асинхронно или вообще синхронно выполнить. Или в другом прикол, что пайтон не может перехватить управление использования тредов, так как либа сишная и если она использует поток то один свой собственный и если пайтон пытаться треды создавать то она(ну к примеру requests) их просто будет лепить в какую-то очередь внутри своего какого-то потока и все? То есть проблема самой либы. Я не мойму просто почему ты рекомендуешь это делать отдельным процессом, если такой тип задач io может выполняться в тредах и даст прирост для количества тредов большего чем оптимальное кличество процессов для multiprocessing? Или может можно, но надо использовать слово asynk правильно, хз...

      @user-ot1eq6qf7n@user-ot1eq6qf7n Жыл бұрын
  • а что насчет httpx?

    @Borzoff@Borzoff Жыл бұрын
  • Круто. Есть даже ответ по прокси в асинхронном подходе. А если прокси socks5 ? А если прокси с авторизацией? А если это ipv6 и с ротвцией? - точно была с этим проблема, сервис дал на вход прокси вида ipv4 и их добавлять в скрипт, все работало с протоколом http, а вот на socks5 полная беда и только ошибки. Если нужно, укажу сервис и примеры какие были прокси, очень дешего и доступно.

    @karandalliik@karandalliik Жыл бұрын
    • socks5 нужно по-другому подключать, возможно сделаю статью в телеграмм канале, либо полноценное видео

      @zproger@zproger Жыл бұрын
    • @@zproger И socks5 для ipv6 очень нужно, с ротацией. Иногда можно экономить на этом чуть ли не в 10 раз.

      @karandalliik@karandalliik Жыл бұрын
    • Далеко не все сайты поддерживают IPv6

      @zproger@zproger Жыл бұрын
    • @@zproger Их мало. Очень мало. Но была задача, именно ipv6 с ротацией по ссылке спасли. Очень дёшево вышло. Да и вопрос к selenium прокси с авторизацией - какие только гайды не смотрел - однозначно работающего решения нет. Все с косяками.

      @karandalliik@karandalliik Жыл бұрын
  • ВОПРОС. Зачем вы импортируете perf_counter из модуля time (0:50), если раньше вы уже импортировали весь модуль time?

    @dWn2T@dWn2T Жыл бұрын
    • ой, не заметил

      @zproger@zproger Жыл бұрын
  • ууу я первый

    @redsky_west@redsky_west Жыл бұрын
    • =)

      @zproger@zproger Жыл бұрын
    • Лайк ставь ск

      @beloussemen2778@beloussemen2778 Жыл бұрын
  • что за тема в vscode?

    @luckytima2315@luckytima2315 Жыл бұрын
  • Сделай видео о post-запросах, их мало на Ютубе

    @Player-og6br@Player-og6br Жыл бұрын
    • в качестве payload'а обычный словарь с нужными данными, а потом requests.post(url, data=payload)

      @InojjHacker@InojjHacker Жыл бұрын
  • Повторил весь код, с асинхронной версией и у меня приложение скачивает 50 одинаковых картинок. Что я сделал не так?

    @titov_ev@titov_ev Жыл бұрын
  • я если че не хейчу.)) просто отмечаю что на мой взгляд было бы тоже полезно знать. с уважением.)) у асинхронности есть огромные недостатки, как и у синхронности. лучше сразу определиться где что надо а не брать ибо оно быстрее. отстрелите не только ноги но и голову по итогу..😂 не стоит везде пихать асинхронность, ибо это ошибка!!! я бы сюда добавил еще видос о проблемах асинхронности чтоб потом новички и не только не по отстреливали себе все и вся.🤣 асинхронность не всегда быстрее!!! оно все под разные задачи! не путайте горячее с холодным.)) горячее не лучше холодного. оно лучше в определенны момент. так и тут. за видео спасибо!)

    @galandec2000@galandec20009 ай бұрын
  • меня одного смутило что тут не показано сколько занимает времени в среднем скачивание для 1 картинки? Ведь по идее тут должен выигрывать синхронный подход тк не нужно создавать корутину.

    @user-fp2co9lb4d@user-fp2co9lb4d3 ай бұрын
  • А как бы ты делал, если надо было всё в один файл писать?

    @Sytyy00@Sytyy00 Жыл бұрын
    • Классы. И внутри методы запуска.

      @zproger@zproger Жыл бұрын
  • Материал супер! НО текст программы и так мало умещается в IDE, так и IDE еще не на полный экран развернута. Читать не очень удобно. По факту где то 30-40% текст программы, и остальное это IDE, рабочий стол и панель управления, что по факту мало участвует в теме урока.

    @titov_ev@titov_ev Жыл бұрын
  • with aiofiles - это псевдо асинхронность? не существует асинхронной записи в файл?

    @markkogan6551@markkogan6551 Жыл бұрын
    • В любой нормальной ОС имеется асинхронная запись в файл.

      @juliap.5375@juliap.537510 ай бұрын
  • Видео хорошее, но выпрашивание лайков не нравится. Человек не будет нажимать лайк и ждать пока выйдет другое видео, проще на другом канале найти нужную инфу. Так не проще сделать сразу качественны контент без прибенения, чтобы люди сразу находили его?

    @zamaev@zamaev Жыл бұрын
  • зачем прокси использовать?

    @hulitolku@hulitolku7 ай бұрын
  • Можно сравнить Qrequests с Aiohttp? Изменено: я второй

    @Eragod@Eragod Жыл бұрын
    • Думаю да, возможно сделаю видео

      @zproger@zproger Жыл бұрын
  • в чем проблема запустить на отдельном потоке?

    @CAHCrawlAdaptHide@CAHCrawlAdaptHide10 ай бұрын
    • в Python от потоков толку 0, если запустить 100 потоков, это будет выполняться медленней, чем на 1 потоке

      @zproger@zproger10 ай бұрын
    • GIL

      @andrewbondaryuk@andrewbondaryuk10 ай бұрын
  • седьмой

    @damirasanov8993@damirasanov8993 Жыл бұрын
    • 😎

      @zproger@zproger Жыл бұрын
  • Тыща лайков есть, а проды нет :(

    @mega_mango@mega_mango10 ай бұрын
    • Там с этой либой появилось много подводных камней, до сих пор не придумал как их решить и заснять это видео

      @zproger@zproger10 ай бұрын
  • Зачем это видео было снято, если есть grequests?

    @user-in1vj4lo6q@user-in1vj4lo6q Жыл бұрын
    • Да, я снимал раньше о grequests, но стоит признаться что эти инструменты совершенно разные, и в зависимости от задачи нужно выбирать определенный инструмент, иногда лучше grequests, а иногда aiohttp.

      @zproger@zproger Жыл бұрын
    • Можно пример кейса когда grequests лучше?

      @kutsokon@kutsokon Жыл бұрын
  • Что за дестрибутив у тебя?

    @nilanser@nilanser Жыл бұрын
    • ZorinOS

      @zproger@zproger Жыл бұрын
  • Ты уже делал урок по grequest, и там так же обсирал синхронный код. И даже есть курс целлых по параллейному программированию! Почему бы не сравнить, схожие технологии, aiohttp, grequest, multiproccesing, treading!? Ну и сразу рассказать о подводных камнях что не было в прошлых видео.

    @titov_ev@titov_ev Жыл бұрын
    • C каких пор асинхронность стала приравниваться к потокам?!

      @andrewbondaryuk@andrewbondaryuk10 ай бұрын
  • 927

    @supercar5220@supercar5220 Жыл бұрын
    • 928

      @zproger@zproger Жыл бұрын
  • было видео токо и слышу хрень ету... не чего не понятно , я вшоке..начало смотрю интересно .а дальше слышу было видео и т д ..

    @tarantinPipka@tarantinPipka11 ай бұрын
  • Уважаемый автор, было преступно не вспомнить за grequests, а использовать только requests. Хотя бы просто сказали за такую либу.

    @ChantOfSpirit@ChantOfSpirit Жыл бұрын
    • про него будет отдельное видео, потом сравним aiohttp и grequests

      @zproger@zproger Жыл бұрын
    • @@zproger nice

      @ChantOfSpirit@ChantOfSpirit Жыл бұрын
  • Ensure_future, юзай для асинцио. Ускорит

    @darksniper407@darksniper407 Жыл бұрын
KZhead