Curl — cURL


Содержание

Команда curl. Синтаксис. Примеры использования

Сurl – утилита командной строки для скачивания и загрузки данных. Она выросла из проекта шведского программиста Даниэля Стенберга. Изначально в середине 90-х, на заре развития Интернета, он разрабатывал бота, который должен был загружать с веб-страницы курсы валют и сообщать пользователям IRC эквивалент шведских крон в долларах США. Со временем проект развивался, появлялась поддержка различных протоколов и новые функции. Теперь curl используется для передачи любых данных и ряда других полезных задач. Рассмотрим основные моменты работы с этим инструментом.

Синтаксис и опции curl

Синтаксис команды следующий:

В качестве аргумента задается, как правило, URL скачиваемого файла. Основные опции перечислены ниже

-# — отображать простой прогресс-бар во время загрузки;
-0 — использовать протокол http 1.0;
-1 — использовать протокол шифрования tlsv1;
-2 — использовать sslv2;
-3 — использовать sslv3;
-4 — использовать ipv4;
-6 — использовать ipv6;
-A — указать свой USER_AGENT;
-b — сохранить Cookie в файл;
-c — отправить Cookie на сервер из файла;
-C — продолжить загрузку файла с места разрыва или указанного смещения;
-m — максимальное время ожидания ответа от сервера;
-d — отправить данные методом POST;
-D — сохранить заголовки, возвращенные сервером в файл;
-e — задать поле Referer-uri, указывает с какого сайта пришел пользователь;
-E — использовать внешний сертификат SSL;
-f — не выводить сообщения об ошибках;
-F — отправить данные в виде формы;
-G — если эта опция включена, то все данные, указанные в опции -d будут передаваться методом GET;
-H — передать заголовки на сервер;
-I — получать только HTTP заголовок, а все содержимое страницы игнорировать;
-j — прочитать и отправить cookie из файла;
-J — удалить заголовок из запроса;
-L — принимать и обрабатывать перенаправления;
-s — максимальное количество перенаправлений с помощью Location;
-o — выводить контент страницы в файл;
-O — сохранять контент в файл с именем страницы или файла на сервере;
-p — использовать прокси;
—proto — указать протокол, который нужно использовать;
-R — сохранять время последнего изменения удаленного файла;
-s — выводить минимум информации об ошибках;
-S — выводить сообщения об ошибках;
-T — загрузить файл на сервер;
-v — максимально подробный вывод;
-y — минимальная скорость загрузки;
-Y — максимальная скорость загрузки;
-z — скачать файл, только если он был модифицирован позже указанного времени;
-V — вывести версию.

Основные опции мы рассмотрим на простых примерах.

Просмотр версии curl

Опция -V или —version выводит не только версию curl, но и краткую информацию о поддерживаемых протоколах и функциях:

Скачивание файла

Если вам требуется скачать файл, запустите curl с опцией –O или –o. Первая из них сохраняет файл в текущей рабочей директории под тем же именем, что и в удаленном месторасположении. Вторая опция позволяет вам указать другое имя и/или место для скачивания.

Cохранение файла под исходным именем (yourfile) в текущей рабочей директории.

Cохранение файла под именем newfile в директории /tmp/examplе/.

Возобновление прерванной загрузки

Если скачивание по какой-то причине было прервано (например, пользователь нажал Ctrl+C), вы легко можете возобновить его с момента остановки при помощи опции -C – (дефис, С, тире):

Скачивание нескольких файлов

Следующая команда позволит вам скачать info.html с http://yoursite.com и about.html c http://mysite.com в один прием:

Если использовать curl вместе с командой xargs, можно скачивать файлы в соответствии со списком URL, заданном в файле (в данном примере listurls.txt):

Использование прокси-сервера

Если вы подключены через прокси-сервер, нужно указать его команде curl при помощи следующих опций (в данном примере имя сервера proxy.yourdomain.com, порт 8080, имя пользователя user, пароль qwerty1234):

Если ваш прокси-сервер не требует аутентификации, опцию -U user:qwerty1234 указывать не нужно.

Запрос HTTP-заголовков

HTTP-заголовки позволяют удаленному веб-серверу помимо ответа на сам запрос отправлять дополнительную информацию. Она предоставляет клиенту данные о том, как обрабатывать ответ:

Для запроса HTTP-заголовков веб-сайта выполните команду с опцией -I:

$ curl -I https://itproffi.ru

Также эту информацию можно получить, воспользовавшись функциями браузера для разработчиков.

cURL POST-запросы с параметрами

Следующая команда отправит на https://yourdomain.com/info.php параметры firstName и lastName с соответствующими значениями:

Этим приемом можно пользоваться для симуляции работы обычных веб-форм.

Следующая команда скачивает в текущую рабочую директорию файл yourfile с удаленного FTP-сервера ftp://yourftpserver (имя пользователя user, пароль qwerty1234):

Если FTP-сервер поддерживает анонимный вход, параметр –u с именем пользователя и пароля указывать не нужно.

Загрузка файлов на FTP-сервер

Для загрузки локального файла mylocalfile.tar.gz воспользуйтесь следующей командой:

Указание агента пользователя

Агент пользователя – часть информации HTTP-запроса. Она показывает, каким браузером пользуется клиент. Можно посмотреть, что имеющаяся версия curl передает по умолчанию и установить новое значение:

Хотите посмотреть, какие файлы cookie скачиваются на ваш компьютер, когда вы заходите на определенный сайт? Опция —cookie-jar сохраняет их список в файл, который в дальнейшем можно просмотреть при помощи команды cat.

Полученные в предыдущем примере файлы cookie можно использовать в дальнейших запросах к тому же самому сайту:

Изменение разрешения имен

Если вы веб-разработчик и хотите протестировать локальную версию сайта, прежде чем загружать его на сервер, при помощи опции —resolve можно указать curl выполнять разрешение имени вашего сайта на адрес локального узла, например:

Таким образом, при запросе на http://www.yourdomain.com curl будет запрашивать сайт с локального узла, а не использовать DNS или файл /etc/hosts.

Ограничение скорости скачивания

Чтобы curl не занимал всю пропускную способность канала, можно ограничить скорость скачивания при помощи опции —limit-rate:

Заключение

Мы рассмотрели краткую историю появления curl и наиболее характерные примеры применения этой команды. Для более подробной информации можно обратиться к соответствующей man-странице.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

5 основных примеров команды Curl

cURL может быть использован самыми различными и интересными способами. С помощью этого инструмента вы можете скачать, загрузить файлы и управлять ими, проверить свой адрес электронной почты, или даже обновлять свой статус на некоторых веб – сайтах социальных медиа или проверить погоду на улице. В этой статье мы рассмотрим пять наиболее полезных и основных видов использования инструмента cURL на любой Linux VPS.

1. Проверьте URL

Одним из наиболее распространенных и простейших применений cURL печатает саму команду, а затем URL, который вы хотите проверить


Эта команда будет отображать содержимое URL на вашем терминале

2. Сохраните вывод URL в файл

Выход команды cURL может легко сохранить в файл, добавив опцию -o в команде, как показано ниже

В этом примере, вывод будет сохранен в файл с именем ‘website’ в текущем рабочем каталоге.

3. Загрузка файлов с помощью Curl

Вы можете скачивать файлы при помощи Curl, путем добавления опции -o к команде. Он используется для сохранения файлов на локальном сервере с теми же именами, как и на удаленном сервере

В этом примере архив ‘file.zip’ будет загружен в текущий рабочий каталог.

Вы также можете загрузить файл с другим именем, добавив опцию -o к cURL.

Таким образом, архив ‘file.zip’ будет загружен и сохранен как ‘Archive.zip’.

cURL может быть также использован для загрузки нескольких файлов одновременно, как показано в приведенном ниже примере

Curl также можно использовать для загрузки файлов надежно через SSH с помощью следующей команды

Обратите внимание, что вы должны использовать полный путь к файлу, который требуется загрузить

4. Взять информацию из заголовка HTTP веб-сайта

Вы можете легко получить информацию заголовка HTTP из любого веб-сайта, добавив опцию -I (‘i’) к cURL.

5. Доступ к FTP-серверу

Чтобы получить доступ к FTP-серверу с помощью Curl, надо использовать следующую команду

Curl будет подключаться к FTP-серверу и выведет список всех файлов и каталогов в домашнем каталоге пользователя

Вы можете скачать файл с помощью FTP

и загрузить файл на сервер FTP

Вы можете проверить страницу Curl вручную, чтобы увидеть все доступные опции cURL и его функциональные возможности

PS. Если вам понравился этот пост, пожалуйста поделитесь им с друзьями в социальных сетях с помощью кнопок ниже или просто оставьте комментарий. Благодарю.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

curl_setopt — Устанавливает параметр для сеанса CURL

(PHP 4 >= 4.0.2, PHP 5, PHP 7)

curl_setopt — Устанавливает параметр для сеанса CURL

Описание

Устанавливает параметр для указанного сеанса cURL.

Список параметров

Дескриптор cURL, полученный из curl_init() .

Устанавливаемый параметр CURLOPT_XXX.

Значение параметра option .

Для следующих значений параметра option , параметр value должен быть типа bool :

TRUE для отмены индикатора прогресса при передачах cURL.

PHP автоматически устанавливает этот параметр в TRUE , меняйте его только для отладочных целей.

Параметр Устанавливаемое значение value Замечания
CURLOPT_AUTOREFERER TRUE для автоматической установки поля Referer: в запросах, перенаправленных заголовком Location:.
CURLOPT_BINARYTRANSFER TRUE для возврата необработанного ответа при использовании константы CURLOPT_RETURNTRANSFER . С PHP 5.1.3 эта опция больше не требуется: необработанный вывод всегда возвращается при использовании опции CURLOPT_RETURNTRANSFER .
CURLOPT_COOKIESESSION TRUE для указания текущему сеансу начать новую «сессию» cookies. Это заставит libcurl проигнорировать все «сессионные» cookies, которые она должна была бы загрузить, полученные из предыдущей сессии. По умолчанию, libcurl всегда сохраняет и загружает все cookies, вне зависимости от того, являются ли они «сессионными» или нет. «Сессионные» cookies — это cookies без срока истечения, которые должны существовать только для текущей «сессии».
CURLOPT_CERTINFO TRUE для вывода информации о сертификате SSL в поток STDERR при безопасных соединениях. Добавлена в cURL 7.19.1. Доступна, начиная с версии PHP 5.3.2. Для корректной работы требует включенной опции CURLOPT_VERBOSE .
CURLOPT_CONNECT_ONLY TRUE сообщает библиотеке, чтобы она провела необходимые аутентификацию прокси и настройку соединения, но не передавала данные. Эта опция реализована для HTTP, SMTP и POP3. Добавлена в 7.15.2. Доступна с версии PHP 5.5.0.
CURLOPT_CRLF TRUE для преобразования концов строк Unix в CRLF.
CURLOPT_DNS_USE_GLOBAL_CACHE TRUE для использования глобального кэша DNS. Этот параметр не является потокобезопасным и по умолчанию включен.
CURLOPT_FAILONERROR TRUE для подробного отчета при неудаче, если полученный HTTP-код больше или равен 400. Поведение по умолчанию возвращает страницу как обычно, игнорируя код.
CURLOPT_FILETIME TRUE для попытки получения даты модификации удаленного документа. Это значение может быть получено с помощью параметра CURLINFO_FILETIME из функции curl_getinfo() .
CURLOPT_FOLLOWLOCATION TRUE для следования любому заголовку «Location: «, отправленному сервером в своем ответе (учтите, что это происходит рекурсивно, PHP будет следовать за всеми посылаемыми заголовками «Location: «, за исключением случая, когда установлена константа CURLOPT_MAXREDIRS ).
CURLOPT_FORBID_REUSE TRUE для принудительного закрытия соединения после завершения его обработки так, чтобы его нельзя было использовать повторно.
CURLOPT_FRESH_CONNECT TRUE для принудительного использования нового соединения вместо закэшированного.
CURLOPT_FTP_USE_EPRT TRUE для использования EPRT (и LPRT) при активных FTP загрузках. Используйте FALSE для того, чтобы отключить EPRT и LPRT и использовать только PORT.
CURLOPT_FTP_USE_EPSV TRUE для первоначальной пробы команды EPSV при FTP передачах. Если команда не удалась, будет произведен обратный откат к PASV. Установите в FALSE для отключения EPSV.
CURLOPT_FTP_CREATE_MISSING_DIRS TRUE для создания отсутствующих директорий, если FTP-операция обнаруживает несуществующий путь.
CURLOPT_FTPAPPEND TRUE для записи удаленного файла в конец, вместо перезаписывания его поверх существующего файла.
CURLOPT_TCP_NODELAY Задает на постоянной основе должна ли опция TCP_NODELAY установлена или очищена (1 = установлена, 0 = очищена). По умолчанию опция очищается. Доступна с версии PHP 5.2.1 для версий собранных с libcurl 7.11.2 или новее.
CURLOPT_FTPASCII Псевдоним CURLOPT_TRANSFERTEXT . Используйте его вместо этого.
CURLOPT_FTPLISTONLY TRUE для возврата только списка имен из FTP директории.
CURLOPT_HEADER TRUE для включения заголовков в вывод.
CURLINFO_HEADER_OUT TRUE для отслеживания строки запроса дескриптора. Доступен, начиная с версии PHP 5.1.3. Префикс CURLINFO_ употреблен специально.
CURLOPT_HTTPGET TRUE для сброса метода HTTP-запроса в метод GET. Так как GET используется по умолчанию, этот параметр необходим только в случае, если метод запроса был ранее изменен.
CURLOPT_HTTPPROXYTUNNEL TRUE для туннелирования через указанный HTTP-прокси.
CURLOPT_MUTE TRUE для полного отключения сообщений функций cURL. Удалена в cURL 7.15.5 (Можно использовать опцию CURLOPT_RETURNTRANSFER)
CURLOPT_NETRC TRUE для считывания файла

/.netrc на предмет логина и пароля для удаленного сайта, с которым устанавливается соединение.

CURLOPT_NOBODY TRUE для исключения тела ответа из вывода. Метод запроса устанавливается в HEAD. Смена этого параметра в FALSE не меняет его обратно в GET.
CURLOPT_NOPROGRESS
CURLOPT_NOSIGNAL TRUE для игнорирования любой функции cURL, посылающей сигналы PHP процессу. Этот параметр включен по умолчанию в многопоточных SAPIs для корректной работы таймаут параметров. Добавлен в версии cURL 7.10.
CURLOPT_POST TRUE для использования обычного HTTP POST. Данный метод POST использует обычный application/x-www-form-urlencoded, обычно используемый в HTML-формах.
CURLOPT_PUT TRUE для загрузки файла методом HTTP PUT. Используемый файл должен быть установлен с помощью параметров CURLOPT_INFILE и CURLOPT_INFILESIZE .
CURLOPT_RETURNTRANSFER TRUE для возврата результата передачи в качестве строки из curl_exec() вместо прямого вывода в браузер.
CURLOPT_SAFE_UPLOAD TRUE для отключения поддержки префикса @ для загружаемых файлов в CURLOPT_POSTFIELDS , который означает, что значения, переданные с @ могут безопасно передаваться в виде полей. Вместо префикса можно использовать опцию CURLFiled. Добавлена в PHP 5.5.0 со значением по умолчанию FALSE . В PHP 5.6.0 стала по умолчанию равна TRUE .
CURLOPT_SSL_VERIFYPEER FALSE для остановки cURL от проверки сертификата узла сети. Альтернативные сверяемые сертификаты могут быть указаны с помощью параметра CURLOPT_CAINFO или директории с сертификатами, указываемой параметром CURLOPT_CAPATH . По умолчанию равно TRUE начиная с версии cURL 7.10. Дистрибутив по умолчанию устанавливается начиная с версии cURL 7.10.
CURLOPT_TRANSFERTEXT TRUE для использования ASCII режима при FTP передачах. При использовании LDAP данные возвращаются простым текстом вместо HTML. В Windows системах поток STDOUT не устанавливается в бинарный режим.
CURLOPT_UNRESTRICTED_AUTH TRUE для продолжения посылки логина и пароля при редиректах (при использовании CURLOPT_FOLLOWLOCATION ), даже при изменении имени хоста.
CURLOPT_UPLOAD TRUE для подготовки к загрузке файла на сервер.
CURLOPT_VERBOSE TRUE для вывода дополнительной информации. Записывает вывод в поток STDERR, или файл, указанный параметром CURLOPT_STDERR .

Для следующих значений параметра option , параметр value должен быть типа integer :

Битовая маска из значений CURLPROTO_* . Данная маска ограничивает используемые libcurl протоколы. Это позволяет иметь libcurl, работающую с большим количеством протоколов, и ограничивать работу определенных передач только для некоторого их набора. По умолчанию, libcurl использует все поддерживаемые протоколы. Смотрите также параметр CURLOPT_REDIR_PROTOCOLS .

Корректные значения протоколов: CURLPROTO_HTTP , CURLPROTO_HTTPS , CURLPROTO_FTP , CURLPROTO_FTPS , CURLPROTO_SCP , CURLPROTO_SFTP , CURLPROTO_TELNET , CURLPROTO_LDAP , CURLPROTO_LDAPS , CURLPROTO_DICT , CURLPROTO_FILE , CURLPROTO_TFTP , CURLPROTO_ALL

Параметр Устанавливаемое значение value Замечания
CURLOPT_BUFFERSIZE Размер буфера, используемого при каждом чтении. Однако, нет никакой гарантии что данный запрос будет завершен. Добавлен в версии cURL 7.10.
CURLOPT_CLOSEPOLICY Одна из констант CURLCLOSEPOLICY_* .

Эта опция устарела, так как никогда не была реализована в cURL и не работала.

Удалена в PHP 5.6.0.
CURLOPT_CONNECTTIMEOUT Количество секунд ожидания при попытке соединения. Используйте 0 для бесконечного ожидания.
CURLOPT_CONNECTTIMEOUT_MS Количество миллисекунд ожидания при попытке соединения. Используйте 0 для бесконечного ожидания. Если библиотека libcurl скомпилирована с использованием стандартного системного преобразователя имен, то соединение будет по-прежнему использовать полносекундное ожидание в качестве тайм-аута с минимально допустимым тайм-аутом в 1 секунду. Добавлен в версии cURL 7.16.2. Доступно, начиная с версии PHP 5.2.3.
CURLOPT_DNS_CACHE_TIMEOUT Количество секунд, в течение которых в памяти хранятся DNS-записи. По умолчанию этот параметр равен 120 (2 минуты).
CURLOPT_FTPSSLAUTH Метод FTP аутентификации (в активном режиме): CURLFTPAUTH_SSL (сначала проверяется SSL), CURLFTPAUTH_TLS (сначала проверяется TLS) или CURLFTPAUTH_DEFAULT (cURL решает сама). Добавлен в версии cURL 7.12.2.
CURLOPT_HTTP_VERSION CURL_HTTP_VERSION_NONE (по умолчанию, CURL сама выбирает используемую версию), CURL_HTTP_VERSION_1_0 (принудительное использование HTTP/1.0), or CURL_HTTP_VERSION_1_1 (принудительное использование HTTP/1.1).
CURLOPT_HTTPAUTH

Используемые HTTP методы авторизации. Используемые параметры: CURLAUTH_BASIC , CURLAUTH_DIGEST , CURLAUTH_GSSNEGOTIATE , CURLAUTH_NTLM , CURLAUTH_ANY , and CURLAUTH_ANYSAFE .

Можно использовать побитовый оператор | (или) для комбинации нескольких методов вместе. В этом случае cURL опросит сервер на предмет поддерживаемых методов авторизации и выберет лучший из них.

CURLAUTH_ANY — это псевдоним CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM.

CURLAUTH_ANYSAFE — это псевдоним CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM.

CURLOPT_INFILESIZE Ожидаемый размер файла, в байтах, при загрузке файла на удаленный сервер. Учтите, что использование этой опции не остановит дальнейшую посылку данных, превышающих это значение, так как посылаемые данные зависят от результата CURLOPT_READFUNCTION .
CURLOPT_LOW_SPEED_LIMIT Верхний порог скорости передачи данных, в байтах в секунду. Проверка происходит в течение CURLOPT_LOW_SPEED_TIME секунд, после чего PHP считает передачу слишком медленной и прерывает ее.
CURLOPT_LOW_SPEED_TIME Максимальное количество секунд, в течение которых скорость передачи не должна превышать CURLOPT_LOW_SPEED_LIMIT , иначе PHP пометит передачу как слишком медленную и прекратит ее.
CURLOPT_MAXCONNECTS Максимальное количество постоянных соединений. При достижении лимита для определения закрываемого соединения используется параметр CURLOPT_CLOSEPOLICY .
CURLOPT_MAXREDIRS Максимальное количество принимаемых редиректов. Используйте этот параметр вместе с параметром CURLOPT_FOLLOWLOCATION .
CURLOPT_PORT Альтернативный порт соединения.
CURLOPT_POSTREDIR Битовая маска, содержащая 1 (301 Moved Permanently), 2 (302 Found) и 4 (303 See Other), чтобы задавать должен ли метод HTTP POST обрабатываться при включенной опции CURLOPT_FOLLOWLOCATION , если произошел указанный тип перенаправления. Добавлено в cURL 7.19.1. Доступно с PHP 5.3.2.
CURLOPT_PROTOCOLS Добавлен в версии cURL 7.19.4.
CURLOPT_PROXYAUTH Методы авторизации HTTP, используемые при соединении с прокси-сервером. Используйте те же самые битовые маски, которые были описаны у параметра CURLOPT_HTTPAUTH . В данный момент для авторизации прокси поддерживаются только CURLAUTH_BASIC и CURLAUTH_NTLM . Добавлен в версии cURL 7.10.7.
CURLOPT_PROXYPORT Номер порта прокси-сервера, к которому осуществляется соединение. Этот номер также может быть установлен с помощью параметра CURLOPT_PROXY .
CURLOPT_PROXYTYPE Либо CURLPROXY_HTTP (по умолчанию), либо CURLPROXY_SOCKS5 . Добавлен в версии cURL 7.10.
CURLOPT_REDIR_PROTOCOLS Битовая маска из значений CURLPROTO_* . Данная битовая масска ограничивает протоколы используемые libcurl при редиректе (при включенном параметре CURLOPT_FOLLOWLOCATION ). Это позволяет ограничить набор используемых протоколов при редиректах для некоторых передач. По умолчанию, libcurl поддерживает все протоколы, кроме FILE и SCP. В версиях, предшествовавших 7.19.4, перенаправление использовалось для всех протоколов без исключения. Смотрите также описание параметра CURLOPT_PROTOCOLS для списка констант со значениями протоколов. Добавлен в версии cURL 7.19.4.
CURLOPT_RESUME_FROM Смещение начала передачи, в байтах.
CURLOPT_SSL_VERIFYHOST Используйте 1 для проверки существования общего имени в сертификате SSL. Используйте 2 для проверки существования общего имени и также его совпадения с указанным хостом. В боевом окружении значение этого параметра должно быть 2 (установлено по умолчанию). Поддержка значения 1 убрана в cURL 7.28.1
CURLOPT_SSLVERSION Одна из констант CURL_SSLVERSION_DEFAULT (0), CURL_SSLVERSION_TLSv1 (1), CURL_SSLVERSION_SSLv2 (2), CURL_SSLVERSION_SSLv3 (3), CURL_SSLVERSION_TLSv1_0 (4), CURL_SSLVERSION_TLSv1_1 (5) или CURL_SSLVERSION_TLSv1_2 (6).

Рекомендуется не устанавливать эту опцию и оставить значение по умолчанию. Установка в 2 или 3 опасно и допускает применение известных уязвимостей в SSLv2 и SSLv3.

CURLOPT_TIMECONDITION Способ трактовки параметра CURLOPT_TIMEVALUE . Используйте CURL_TIMECOND_IFMODSINCE для возвращения страницы, только если она была изменена со времени, указанного в параметре CURLOPT_TIMEVALUE . Если страница не была изменена, вернется заголовок «304 Not Modified», подразумевая, что параметр CURLOPT_HEADER установлен в TRUE . Используйте CURL_TIMECOND_IFUNMODSINCE для обратного эффекта. По умолчанию используется CURL_TIMECOND_IFMODSINCE .
CURLOPT_TIMEOUT Максимально позволенное количество секунд для выполнения cURL-функций.
CURLOPT_TIMEOUT_MS Максимально позволенное количество миллисекунд для выполнения cURL-функций. Если libcurl собрана с использованием обычного системного распознавателя имен, то этот промежуток соединения все еще будет использовать секундное округление таймаутов, с минимально разрешенным таймаутом в одну секунду. Добавлен в версии cURL 7.16.2. Доступен, начиная с версии PHP 5.2.3.
CURLOPT_TIMEVALUE Количество секунд, начиная с 1 января 1970 года. Это время будет использовано параметром CURLOPT_TIMECONDITION . По умолчанию, используется параметр CURL_TIMECOND_IFMODSINCE .
CURLOPT_MAX_RECV_SPEED_LARGE Если скорость скачки превысит это значение (указанное в байтах в секунду) в среднем в течение всей передачи, то скачка будет приостановлена для поддержания средней скорости меньше либо равной данному параметру. По умолчанию скорость не ограничивается. Добавлен в версии cURL 7.15.5. Доступен, начиная с версии PHP 5.4.0.
CURLOPT_MAX_SEND_SPEED_LARGE Если загрузка на сервер превысит это значение (указанное в байтах в секунду) в среднем в течение всей передачи, то загрузка будет приостановлена для поддержания средней скорости меньше либо равной данному параметру. По умолчанию скорость не ограничивается. Добавлен в версии cURL 7.15.5. Доступен, начиная с версии PHP 5.4.0.
CURLOPT_SSH_AUTH_TYPES Битовая маска, состоящая из одной или более констант: CURLSSH_AUTH_PUBLICKEY , CURLSSH_AUTH_PASSWORD , CURLSSH_AUTH_HOST , CURLSSH_AUTH_KEYBOARD . Установите CURLSSH_AUTH_ANY для того, чтобы libcurl выбрал одну из них самостоятельно. Добавлено в cURL 7.16.1.
CURLOPT_IPRESOLVE Позволяет приложению выбрать вид IP адреса, с которым определяется имя хоста. Это необходимо, если используется имя хоста, которое получается с использованием более одной версии IP адреса. Возможными значениями могут быть CURL_IPRESOLVE_WHATEVER , CURL_IPRESOLVE_V4 , CURL_IPRESOLVE_V6 , и по умолчанию CURL_IPRESOLVE_WHATEVER . Добавлено в cURL 7.10.8.

Для следующих значений параметра option , параметр value должен быть типа string :


Собственный метод запроса, используемый вместо «GET» или «HEAD» при выполнении HTTP-запроса. Это полезно при запросах «DELETE» или других, более редких HTTP-запросах. Корректными значениями будут слова наподобие «GET», «POST», «CONNECT» и так далее; т.е. не вводите здесь всю строку с HTTP-запросом. Например, указание «GET /index.html HTTP/1.0\r\n\r\n» будет неправильным.

Не используйте эту возможность пока не убедитесь, что сервер поддерживает данный тип запроса.

Тайный пароль, необходимый для использования закрытого ключа SSL, указанного параметром CURLOPT_SSLKEY .

Так как этот параметр содержит ценный пароль, помните, что данный PHP-скрипт нужно хранить в безопасном месте.

Параметр Устанавливаемое значение value Замечания
CURLOPT_CAINFO Имя файла, содержащего один или более сертификатов, с которыми будут сверяться узлы. Этот параметр имеет смысл только при использовании совместно с CURLOPT_SSL_VERIFYPEER . Требует абсолютный путь.
CURLOPT_CAPATH Директория, содержащая несколько CA сертификатов. Используйте этот параметр совместно с CURLOPT_SSL_VERIFYPEER .
CURLOPT_COOKIE Содержимое заголовка «Cookie: «, используемого в HTTP-запросе. Обратите внимание, что несколько cookies разделяются точкой с запятой с последующим пробелом (например, «fruit=apple; colour=red«)
CURLOPT_COOKIEFILE Имя файла, содержащего cookies. Данный файл должен быть в формате Netscape или просто заголовками HTTP, записанными в файл. Если в качестве имени файла передана пустая строка, то cookies сохраняться не будут, но их обработка все еще будет включена.
CURLOPT_COOKIEJAR Имя файла, в котором будут сохранены все внутренние cookies текущей передачи после закрытия дескриптора, например, после вызова curl_close.
CURLOPT_CUSTOMREQUEST
CURLOPT_EGDSOCKET Наподобие CURLOPT_RANDOM_FILE , за исключением того, что имя файла устанавливается в сокет Entropy Gathering Daemon.
CURLOPT_ENCODING Содержимое заголовка «Accept-Encoding: «. Это позволяет декодировать запрос. Поддерживаемыми кодировками являются «identity», «deflate» и «gzip». Если передана пустая строка, «», посылается заголовок, содержащий все поддерживаемые типы кодировок. Добавлен в версии cURL 7.10.
CURLOPT_FTPPORT Значение, которое будет использоваться для определения IP-адреса для команды «PORT» FTP-протокола. Команда «PORT» сообщает серверу, с каким IP-адресом он должен устанавливать соединение. Это может быть IP-адрес, имя хоста, имя сетевого интерфейса (под Unix), или просто ‘-‘ для использования системного IP-адреса по умолчанию.
CURLOPT_INTERFACE Имя используемого сетевого интерфейса. Может быть именем интерфейса, IP адресом или именем хоста.
CURLOPT_KEYPASSWD Пароль, который требуется для использования приватного ключа CURLOPT_SSLKEY или CURLOPT_SSH_PRIVATE_KEYFILE . Добавлено в cURL 7.16.1.
CURLOPT_KRB4LEVEL Уровень безопасности KRB4 (Kerberos 4). Любое из следующих значений (в порядке от слабого к самому сильному) корректно: «clear», «safe», «confidential», «private».. Если указанная строка отличается от данных значений, будет использовано значение «private». Установка этого параметра в NULL полностью отключит безопасность KRB4. На данный момент безопасность KRB4 работает только с FTP транзакциями.
CURLOPT_POSTFIELDS Все данные, передаваемые в HTTP POST-запросе. Для передачи файла, укажите перед именем файла @, а также используйте полный путь к файлу. Тип файла также может быть указан с помощью формата ‘;type=mimetype‘, следующим за именем файла. Этот параметр может быть передан как в качестве url-закодированной строки, наподобие ‘para1=val1&para2=val2&. ‘, так и в виде массива, ключами которого будут имена полей, а значениями — их содержимое. Если value является массивом, заголовок Content-Type будет установлен в значение multipart/form-data. Начиная с версии PHP 5.2.0, при передаче файлов с префиксом @, value должен быть массивом. С версии PHP 5.5.0, префикс @ устарел и файлы можно отправлять с помощью CURLFile. Префикс @ можно отключить, чтобы можно было передавать значения, начинающиеся с @, задав опцию CURLOPT_SAFE_UPLOAD в значение TRUE .
CURLOPT_PROXY HTTP-прокси, через который будут направляться запросы.
CURLOPT_PROXYUSERPWD Логин и пароль, записанные в виде «[username]:[password]», используемые при соединении через прокси.
CURLOPT_RANDOM_FILE Имя файла, используемого для инициализации генератора случайных чисел для SSL.
CURLOPT_RANGE Диапазон данных, которые нужно загрузить, в формате «X-Y», причем либо X, либо Y могут быть опущены. Протокол HTTP также поддерживает передачу нескольких диапазонов, разделенных запятыми, они задаются в формате «X-Y,N-M».
CURLOPT_REFERER Содержимое заголовка «Referer: «, который будет использован в HTTP-запросе.
CURLOPT_SSH_HOST_PUBLIC_KEY_MD5 Строка, содержащая 32 шестнадцатеричных цифры. Строка должна являться контрольной суммой по алгоритму MD5 публичного ключа удаленного компьютера и libcurl будет сбрасывать соединение к удаленному хосту до тех пор, пока контрольная сумма не будет соответствовать публичному ключу. Эта опция предназначена только для передачи данных с помощью SCP и SFTP. Добавлено в cURL 7.17.1.
CURLOPT_SSH_PUBLIC_KEYFILE Имя файла для вашего публичного ключа. Если не задано, то libcurl использует по умолчанию файл $HOME/.ssh/id_dsa.pub, если переменная окружения HOME установлена и файл «id_dsa.pub» в текущей директории, если переменная HOME не установлена. Добавлено в cURL 7.16.1.
CURLOPT_SSH_PRIVATE_KEYFILE Имя файла для вашего приватного ключа. Если не задано, то libcurl использует по умолчанию файл $HOME/.ssh/id_dsa, если переменная окружения HOME установлена и файл «id_dsa» в текущей директории, если переменная HOME не установлена. Если файл защищен паролем, установите пароль с помощью CURLOPT_KEYPASSWD . Добавлено в cURL 7.16.1.
CURLOPT_SSL_CIPHER_LIST Список шифров, используемый в SSL-передачах. Например, RC4-SHA и TLSv1 являются корректными списками шифров.
CURLOPT_SSLCERT Имя файла с корректно отформатированным PEM-сертификатом.
CURLOPT_SSLCERTPASSWD Пароль, необходимый для использования сертификата CURLOPT_SSLCERT .
CURLOPT_SSLCERTTYPE Формат сертификата. Поддерживаются форматы «PEM» (по умолчанию), «DER» и «ENG». Добавлен в версии cURL 7.9.3.
CURLOPT_SSLENGINE Идентификатор механизма шифрования для закрытого ключа SSL, указанного в параметре CURLOPT_SSLKEY .
CURLOPT_SSLENGINE_DEFAULT Идентификатор механизма шифрования, используемого для ассиметричных операций шифрования.
CURLOPT_SSLKEY Имя файла с закрытым ключом SSL.
CURLOPT_SSLKEYPASSWD
CURLOPT_SSLKEYTYPE Тип закрытого ключа SSL, указанного в параметре CURLOPT_SSLKEY . Поддерживаются следующие типы ключей: «PEM» (по умолчанию), «DER» и «ENG».
CURLOPT_URL Загружаемый URL. Данный параметр может быть также установлен при инициализации сеанса с помощью curl_init() .
CURLOPT_USERAGENT Содержимое заголовка «User-Agent: «, посылаемого в HTTP-запросе.
CURLOPT_USERPWD Логин и пароль, используемые при соединении, указанные в формате «[username]:[password]».

Для следующих значений параметра option , параметр value должен быть массивом:

Параметр Устанавливаемое значение value Замечания
CURLOPT_HTTP200ALIASES Массив HTTP 200 ответов, которые будут трактоваться корректными ответами, а не ошибочными. Добавлен в версии cURL 7.10.3.
CURLOPT_HTTPHEADER Массив устанавливаемых HTTP-заголовков, в формате array(‘Content-type: text/plain’, ‘Content-length: 100’)
CURLOPT_POSTQUOTE Массив FTP-команд, выполняемых на сервере, после выполнения FTP-запроса.
CURLOPT_QUOTE Массив FTP-команд, выполняемых на сервере, перед выполнением FTP-запроса.

Для следующих значений параметра option , параметр value должен быть потоковым дескриптором (возвращаемым, например, функцией fopen() ):

Параметр Устанавливаемое значение value
CURLOPT_FILE Файл, в который будет записан результат передачи. По умолчанию используется поток вывода STDOUT (окно браузера).
CURLOPT_INFILE Файл, из которого должно идти чтение данных, при загрузке на сервер.
CURLOPT_STDERR Альтернативное файл для вывода ошибок, используемый вместо потока ошибок STDERR.
CURLOPT_WRITEHEADER Файл, в который будут записаны заголовки текущей операции.

Для следующих значений параметра option , параметр value должен быть правильным именем функции или замыканием:

Callback-функция принимает пять параметров. Первый является декскриптором cURL, второй — общим количеством байт, которое ожидается загрузить с сервера, третий — количество уже загруженных байт, четвертый — общее количество байт, которое ожидается отправить на сервер, и пятый — количество уже отправленных байт.

Callback-функция вызывается только, если опция CURLOPT_NOPROGRESS установлена в значение FALSE .

Можно вернуть ненулевое значение, чтобы отменить передачу. В этом случае будет выставлена ошибка CURLE_ABORTED_BY_CALLBACK .

Параметр Устанавливаемое значение value
CURLOPT_HEADERFUNCTION Callback-функция принимает два параметра. Первым параметром является дескриптор cURL, вторым параметром является строка с записываемыми заголовками. Заголовки должны быть записаны с помощью данной callback-функции. Должна возвратить количество записанных байт.
CURLOPT_PASSWDFUNCTION Callback-функция принимает три параметра. Первым параметром является дескриптор cURL, вторым параметром является строка с запросом пароля, третьим параметром является максимальная длина пароля. Должна возвратить строку, содержащую пароль.
CURLOPT_PROGRESSFUNCTION
CURLOPT_READFUNCTION Callback-функция принимает три параметра. Первым параметром является дескриптор cURL, вторым параметром является ресурс потока, переданный cURL через опцию CURLOPT_INFILE , а третьим параметром является максимально разрешенное количество данных для чтения. Callback-функция должна возвратить строку, с длиной не превышающей запрошенного количества данных, обычно с помощью чтения из переданного потокового ресурса. Должна возвратить пустую строку для сигнала о конце файла EOF.
CURLOPT_WRITEFUNCTION Callback-функция принимает два параметра. Первым параметром является дескриптор cURL, а вторым параметром является строка с записываемыми данными. Данные должны быть сохранены с помощью данной функции. Она должна возвратить точное количество записанных байт, иначе закачка будет прервана с ошибкой.

Другие значения:

Параметр Устанавливаемое значение value
CURLOPT_SHARE Результат выполнения функции curl_share_init() . Позволяет обработчику cURL использовать данные из общего обработчика.

Возвращаемые значения

Возвращает TRUE в случае успешного завершения или FALSE в случае возникновения ошибки.

Список изменений

Версия Описание
5.6.0 Опция CURL_SAFE_UPLOAD теперь имеет значение по умолчанию равное TRUE .
5.6.0 Удалена опция CURLOPT_CLOSEPOLICY и связанные с ней значения.
5.5.0 Ресурс cURL добавлен первым аргументом в callback-функцию CURLOPT_PROGRESSFUNCTION .
5.5.0 Добавлена опция CURLOPT_SHARE .
5.3.0 Добавлена опция CURLOPT_PROGRESSFUNCTION .
5.2.10 Добавлены параметры CURLOPT_PROTOCOLS и CURLOPT_REDIR_PROTOCOLS .
5.1.0 Добавлены параметры CURLOPT_AUTOREFERER , CURLOPT_BINARYTRANSFER , CURLOPT_FTPSSLAUTH , CURLOPT_PROXYAUTH и CURLOPT_TIMECONDITION .
5.0.0 Добавлены параметры CURLOPT_FTP_USE_EPRT , CURLOPT_NOSIGNAL , CURLOPT_UNRESTRICTED_AUTH , CURLOPT_BUFFERSIZE , CURLOPT_HTTPAUTH , CURLOPT_PROXYPORT , CURLOPT_PROXYTYPE , CURLOPT_SSLCERTTYPE и CURLOPT_HTTP200ALIASES .

Примеры

Пример #1 Инициализация сеанса CURL и загрузка web-страницы

// создание нового ресурса cURL
$ch = curl_init ();

// установка URL и других необходимых параметров
curl_setopt ( $ch , CURLOPT_URL , «http://www.example.com/» );
curl_setopt ( $ch , CURLOPT_HEADER , false );

// загрузка страницы и выдача её браузеру
curl_exec ( $ch );

// завершение сеанса и освобождение ресурсов
curl_close ( $ch );
?>

Пример #2 Закачка файла

$data = array( ‘name’ => ‘Foo’ , ‘file’ => ‘@/home/user/test.png’ );

curl_setopt ( $ch , CURLOPT_URL , ‘http://localhost/upload.php’ );
curl_setopt ( $ch , CURLOPT_POST , 1 );
curl_setopt ( $ch , CURLOPT_POSTFIELDS , $data );

Результат выполнения данного примера:

Примечания

Передача массива в CURLOPT_POSTFIELDS закодирует данные в виде multipart/form-data, тогда как передача URL-кодированной строки закодирует данные в виде application/x-www-form-urlencoded.

Смотрите также

  • curl_setopt_array() — Устанавливает несколько параметров для сеанса cURL

Примеры использования cURL в PHP

GET запрос

POST запрос

file_get_contents() так же умеет отправлять POST запросы:

PUT запрос

DELETE запрос

HTTP-метод DELETE используется в REST API для удаления объектов.

Отправка файлов на другой сервер

Отправка файлов осуществляется методом POST :

С PHP 5.5 такой метод загрузки файлов вызывает ошибку, поэтому следует применять CURLFile.

Также через curl можно отправить сразу несколько файлов:

Еще файлы можно отправить методом PUT , например так загружаются файлы в REST API Яндекс Диска.

Скачивание файлов

Curl позволяет сохранить результат сразу в файл, указав указатель на открытый файл в параметре CURLOPT_FILE .

Чтобы CURL сохранял куки в файле достаточно прописать его путь в параметрах CURLOPT_COOKIEFILE и CURLOPT_COOKIEJAR .

Передать значение кук можно принудительно через параметр CURLOPT_COOKIE .


Имитация браузера

На многих сайтах есть защита от парсинга. Она основана на том что браузер передает серверу user agent , referer , cookie . Сервер проверяет эти данные и возвращает нормальную страницу. При подключение через curl эти данные не передаются и сервер отдает ошибку 404 или 500. Чтобы имитировать браузер нужно добавить заголовки:

HTTP авторизация

Если на сервере настроена HTTP авторизация, например с помощью .htpasswd, подключится к нему можно с помощью параметра CURLOPT_USERPWD .

Утилита командной строки CURL

CURL — утилита командной строки для Linux или Windows, поддерживает работу с протоколами: FTP, FTPS, HTTP, HTTPS, TFTP, SCP, SFTP, Telnet, DICT, LDAP, POP3, IMAP и SMTP. Она отлично подходит для имитации действий пользователя на страницах сайтов и других операций с URL адресами. Поддержка CURL добавлена в множество различных языков программирования и платформ.

Для начала скачаем саму утилиту, для этого переходим на официальный сай утилиты, в раздел Download. После скачивания архива для своей платформы (у меня это Windows 64 bit), распаковываем архив. Чтобы иметь возможность работать с HTTPS и FTPS, устанавливаем сертификат безопасности url-ca-bundle.crt , который находится в папке curl/bin .

Запускаем командную строку, переходим в директорию curl/bin и пытаемся скачать главную страницу Google:

Опция -X позволяет задать тип HTTP-запроса вместо используемого по умолчанию GET. Дополнительные запросы могут быть POST, PUT и DELETE или связанные с WebDAV — PROPFIND, COPY, MOVE и т.п.

Следовать за редиректами

Сервер Google сообщил нам, что страница google.com перемещена (301 Moved Permanently), и теперь надо запрашивать страницу www.google.com . С помощью опции -L укажем CURL следовать редиректам:

Сохранить вывод в файл

Чтобы сохранить вывод в файл, надо использовать опции -o или -O :

  • -o ( o нижнего регистра) — результат будет сохранён в файле, заданном в командной строке;
  • -O ( O верхнего регистра) — имя файла будет взято из URL и будет использовано для сохранения полученных данных.

Сохраняем страницу Google в файл google.html :

Сохраняем документ gettext.html в файл gettext.html :

Загрузить файл, только если он изменён

Опция -z позволяет получить файлы, только если они были изменены после определённого времени. Это будет работать и для FTP и для HTTP. Например, файл archive.zip будет получен, если он изменялся после 20 августа 2020 года:

Команда ниже загрузит файл archive.zip , если он изменялся до 20 августа 2020 года:

Прохождение аутентификации HTTP

Опция -u позволяет указать данные пользователя (имя и пароль) для прохождения базовой аутентификаци (Basic HTTP Authentication):

Cookie используются сайтами для хранения некой информации на стороне пользователя. Сервер сохраняет cookie на стороне клиента (т.е. в браузере), отправляя заголовки:

А браузер, в свою очередь, отправляет полученные cookie обратно на сервер при каждом запросе. Разумеется, тоже в заголовках:

Передать cookie на сервер, как будто они были ранее получены от сервера:

Чтобы сохранить полученные сookie в файл:

Затем можно отправить сохраненные в файле cookie обратно:

Файл cookie.txt имеет вид:

Получение и отправка заголовков

По умолчанию, заголовки ответа сервера не показываются. Но это можно исправить:

Если содержимое страницы не нужно, а интересны только заголовки (будет отправлен HEAD запрос):

Посмотреть, какие заголовки отправляет CURL при запросе, можно с помощью опции -v , которая выводит более подробную информацию:

  • Строка, начинающаяся с > означает заголовок, отправленный серверу
  • Строка, начинающаяся с означает заголовок, полученный от сервера
  • Строка, начинающаяся с * означает дополнительные данные от CURL

А вот так можно отправить свой заголовок:

Отправка данных методом POST

Команда ниже отправляет POST запрос на сервер аналогично тому, как пользователь, заполнив HTML форму, нажал бы кнопку «Отправить». Данные будут отправлены в формате application/x-www-form-urlencoded .

Параметр —data аналогичен —data-ascii , для отправки двоичных данных необходимо использовать параметр —data-binary . Для URL-кодирования полей формы нужно использовать —data-urlencode .

Если значение опции —data начинается с @ , то после него должно быть имя файла с данными (или дефис — тогда будут использованы данные из стандартного ввода). Пример получения данных из файла для отправки POST-запроса:

Содержимое файла data.txt :

Массив $_POST , который будет содержать данные этого запроса:

Пример URL-кодирования данных из файла перед отправкой POST-запроса:

Содержимое файла username.txt :

Массив $_POST , который будет содержать данные этого запроса:

Загрузка файлов методом POST

Для HTTP запроса типа POST существует два варианта передачи полей из HTML форм, а именно, используя алгоритм application/x-www-form-urlencoded и multipart/form-data . Алгоритм первого типа создавался давным-давно, когда в языке HTML еще не предусматривали возможность передачи файлов через HTML формы.

Со временем возникла необходимость через формы отсылать еще и файлы. Тогда консорциум W3C взялся за доработку формата POST запроса, в результате чего появился документ RFC 1867. Форма, которая позволяет пользователю загрузить файл, используя алгоритм multipart/form-data , выглядит примерно так:

Чтобы отправить на сервер данные такой формы:

Скрипт upload.php , который принимает данные формы:


Работа по протоколу FTP

Скачать файл с FTP-сервера:

Если заданный FTP путь является директорией, то по умолчанию будет выведен список файлов в ней:

Многопоточное скачивание в cURL на PHP

В данном топике представлена на мой взгляд удобная и функциональная реализация многопоточного скачивания на cURL для PHP. Возможно кому-то она будет полезна, а мне принесёт инвайт ;)

Скачиванием через cURL не пользовался пусть даже из интереса только ленивый. Будь-то из консоли, либо реализуя код на каком-либо ЯП. Решения блокирующего скачивания одной ссылки валяются на каждом углу сети, к примеру на php.net. Однако, если рассматривать реализации на PHP, то такой подход подчас не подходит ввиду высоких временных затрат на вспомогательные операции ( dns lookup, request waiting и подобные ). Для скачивания большого числа страниц последовательный вариант не приемлем. Если устраивает — дальше можно не читать :)

В Perl, к примеру, можно применять fork() либо нити (use threads) для распараллеливания однопоточных скачиваний. Это не считая богатых возможностей библиотек данного языка. Я лично применял нити и LWP. Однако, речь идёт о PHP, и тут с распараллеливанием большие проблемы ввиду отсутствия данной возможности в принципе. Если кто знает, как создавать нити, сообщите, но я не нашел пока достойных решений. Да, в cURL есть функции curl_multi_*, но вот примеры реализаций на их основе меня не устроили. И, в итоге, решил собрать свой велосипед.

Первоначально отсылаю к простейшему примеру из офф. справочника. Позволю себе привести его тут :)
// create both cURL resources
$ch1 = curl_init ();
$ch2 = curl_init ();

// set URL and other appropriate options

curl_setopt ( $ch1 , CURLOPT_URL , «www.example.com» );
curl_setopt ( $ch1 , CURLOPT_HEADER , 0 );
curl_setopt ( $ch2 , CURLOPT_URL , «www.php.net» );

curl_setopt ( $ch2 , CURLOPT_HEADER , 0 );

//create the multiple cURL handle
$mh = curl_multi_init ();

//add the two handles
curl_multi_add_handle ( $mh , $ch1 );
curl_multi_add_handle ( $mh , $ch2 );

$running = null ;
//execute the handles
do <
curl_multi_exec ( $mh , $running );
> while ( $running > 0 );

//close the handles
curl_multi_remove_handle ( $mh , $ch1 );
curl_multi_remove_handle ( $mh , $ch2 );
curl_multi_close ( $mh );

?>

Код отличается от однопоточного подхода более сложной организацией взаимодействия прикладного кода с библиотекой:
1) Для каждого соединения выполняется свой curl_init() и задаются параметры через curl_setopt(). Тут всё стандартно, привожу без объяснений.
2) Для общего управления скачиванием вызовом curl_multi_init() создается отдельный дескриптор, через который и будет производиться вся дальнейшая работа.
3) К данному дескриптору вызовом curl_multi_add_handle() цепляются созданные в начале отдельный соединения.
Подготовительный этап завершен, теперь непосредственно скачивание:
4) Скачивание библиотекой выполняется автоматически, явного вызова как было с curl_exec() теперь нет. Его заменяет многократный вызов curl_multi_exec(). Несмотря на схожее название, данная функция выполняет несколько другую роль — она блокирующе информирует об изменении числа активных потоков (ну и возникших ошибок). Второй параметр при вызове — ссылка на числовую переменную, в которую сохраняется число активных в данный момент соединений. Количество изменилось — значит какой-то поток завершил работу. Вот по этой причине цикл скачивания и реализован через
do <
curl_multi_exec ( $mh , $running );
> while ( $running > 0 );

5) Ну и наконец после скачивания выполняется освобождение ресурсов. Важно! Хоть соединения, созданные curl_init() и «цепляются» к основному дескриптору, он их автоматически не закрывает, это нужно делать вручную вызовом curl_multi_remove_handle() в добавление к curl_close().

Кому-то может хватить и такой реализации, и они могут дальше не читать. Я же пойду дальше.
Что в данной реализации плохого? Пара наиболее явных моментов:

  1. жёсткое ограничение на скачивание 2х ссылок, заданное прямо в коде
  2. получаемые страницы выводятся прямо в STDOUT

Это лишь часть, остальное обсуждается далее.

Исправляю указанные недостатки и получаю, к примеру, следующее:
= array( «www.example.com» , «www.php.net» );

foreach ( $urls as $url ) <
$chs [] = ( $ch = curl_init () );
curl_setopt ( $ch , CURLOPT_URL , $url );

curl_setopt ( $ch , CURLOPT_HEADER , 0 );
// CURLOPT_RETURNTRANSFER — возвращать значение как результат функции, а не выводить в stdout

curl_setopt ( $ch , CURLOPT_RETURNTRANSFER , 1 );
curl_multi_add_handle ( $mh , $ch );
>

$prev_running = $running = null ;

do <
curl_multi_exec ( $mh , $running );

if ( $running != $prev_running ) <
// получаю информацию о текущих соединениях

$info = curl_multi_info_read ( $mh );

if ( is_array ( $info ) && ( $ch = $info [ ‘handle’ ] ) ) <

// получаю содержимое загруженной страницы
$content = curl_multi_getcontent ( $ch );

// тут какая-то обработка текста страницы

// пока пусть будет как и в оригинале — вывод в STDOUT
echo $content ;
>

// обновляю кешируемое число текущих активных соединений
$prev_running = $running ;
>

> while ( $running > 0 );

foreach ( $chs as $ch ) <
curl_multi_remove_handle ( $mh , $ch );
curl_close ( $ch );

Далее, вряд ли в большинстве случаев будет достаточно просто выводить страницы в STDOUT. Тем более это происходит в произвольном порядке в зависимости от порядка реального скачивания (а не задания вызовами curl_multi_add_handle() ). Также, если скачивается большой объем, то нет смысла дожидаться получения всех страниц — можно уже начинать обрабатывать их по мере получения. Но и вариант с получением всех скопом также не стоит снимать со счетов.
Для этого: 1) реализую всё в виде функции, 2) введу параметр, задающий callback-функцию, которая будет вызываться для каждого полученного файла. Если callback не задан — применяется вариант с получением всех страниц сразу. Вот пример:
// пример простейшего callback’а. практически dummy-func.
function my_callback ( $url , $content , $curl_status , $ch ) <

echo «Скачивание страницы [$url] » ;
if ( ! $curl_status ) <
echo «было успешным. текст страницы:\n$content\n» ;

>
else <
echo «выполнилось с ошибкой #$curl_status: » . curl_error ( $ch ). «\n» ;
>

function http_load ( $urls , $callback = false ) <
$mh = curl_multi_init ();

$chs = array();
foreach ( $urls as $url ) <
$chs [] = ( $ch = curl_init () );

curl_setopt ( $ch , CURLOPT_URL , $url );
curl_setopt ( $ch , CURLOPT_HEADER , 0 );
// CURLOPT_RETURNTRANSFER — возвращать значение как результат функции, а не выводить в stdout

curl_setopt ( $ch , CURLOPT_RETURNTRANSFER , 1 );
curl_multi_add_handle ( $mh , $ch );
>

// если $callback задан как false, то функция должна не вызывать $callback, а выдать страницы как результат работы

if ( $callback === false ) <
$results = array();
>

$prev_running = $running = null ;

do <
curl_multi_exec ( $mh , $running );

if ( $running != $prev_running ) <
// получаю информацию о текущих соединениях

$info = curl_multi_info_read ( $ghandler );

if ( is_array ( $info ) && ( $ch = $info [ ‘handle’ ] ) ) <

// получаю содержимое загруженной страницы
$content = curl_multi_getcontent ( $ch );

// скаченная ссылка
$url = curl_getinfo ( $ch , CURLINFO_EFFECTIVE_URL );

if ( $callback !== false ) <
// вызов callback-обработчика
$callback ( $url , $content , $info [ ‘result’ ], $ch );

>
else <
// добавление в хеш результатов
$results [ $url ] = array( ‘content’ => $content , ‘status’ => $info [ ‘result’ ], ‘status_text’ => curl_error ( $ch ) );

// обновляю кешируемое число текущих активных соединений
$prev_running = $running ;
>


> while ( $running > 0 );

foreach ( $chs as $ch ) <
curl_multi_remove_handle ( $mh , $ch );

curl_close ( $ch );
>
curl_multi_close ( $mh );

// результаты
return ( $callback !== false ) ? true : $results ;

// вариант простой выдачи
print_r ( http_load ( $urls ) );

// вариант с callback
var_export ( http_load ( $urls , my_callback ) );

?>

Вот уже гораздо интереснее. Важный момент: при callback 4ый параметр — дескриптор соединения $ch, а при выдаче результатов хешем — просто строковое описание возникшей ошибки (ну или пустая строка, если всё нормально). Почему? Потому что curl_error() требует передачи дескриптора, который закрывается в конце работы функции. Так что в callback он еще существует и мы можем его использовать, а вот в хеше он уже ничего ценного дать не может. Как вариант, строковые описания кодов ошибок можно взять тут.

Итак, идём дальше. Хочется вызывать функцию не только для массива ссылок, но и иметь возможность скачать ей единственную страницу. Для этого нужно добавить всего-то одну строчку:
function http_load ( $urls , $callback = false ) <

// даже если передан единственный параметр — считаю его элементом массива

// это аналог: $urls = is_array( $urls ) ? $urls : array( $urls );
$urls = (array) $urls ;

. ?>

Вот теперь можно качать ссылки по одной: http_load( ‘google.com’ ). Этакий возврат к истокам.

Потом мне потребовалось задавать много больше передаваемых заголовков для соединений. Указывать их по одному через curl_setopt() не практично. Лучше воспользоваться функцией curl_setopt_array. Переделываю и получаю (часть кода):
< // общие для всех соединений заголовки
$ext_headers = array(
‘Expect:’ ,
‘Accept: text/html,application/xhtml+xml,application/xml;q=0.9’ ,

‘Accept-Language: ru,en-us;q=0.7,en;q=0.7’ ,
//’Accept-Encoding: gzip,deflate’, // нужно потом распаковывать. ну его пока…
‘Accept-Charset: utf-8,windows-1251;q=0.7,*;q=0.5’ ,
);
$curl_options = array(

CURLOPT_PORT => 80 ,
CURLOPT_RETURNTRANSFER => 1 , // возвращать значение как результат функции, а не выводить в stdout

CURLOPT_BINARYTRANSFER => 1 , // передавать в binary-safe
CURLOPT_CONNECTTIMEOUT => 10 , // таймаут соединения ( lookup + connect )

CURLOPT_TIMEOUT => 30 , // таймаут на получение данных
CURLOPT_USERAGENT => ‘Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.1.1) Gecko/20090716 Ubuntu/9.04 (jaunty) Shiretoko/3.5.1’ ,

CURLOPT_VERBOSE => 2 , // уровень информирования
CURLOPT_HEADER => 0 , // заголовок не получается
CURLOPT_FOLLOWLOCATION => 1 , // следовать редиректам

CURLOPT_MAXREDIRS => 7 , // максимальное число редиректов
CURLOPT_AUTOREFERER => 1 , // при редиректе подставлять в «Referer:» значение из «Location:»

// CURLOPT_FRESH_CONNECT => 0, // каждый раз использовать новое соединение
CURLOPT_HTTPHEADER => $ext_headers ,
);
>

function http_load ( $urls , $callback = false ) <
global $curl_options ;

if ( $mh === false ) return false ;

$urls = (array) $urls ;

foreach ( $urls as $url ) <
$chs [] = ( $ch = curl_init () );

curl_setopt_array ( $ch , $curl_options ); // задаю заголовки скопом
curl_setopt ( $ch , CURLOPT_URL , $url );

Прикидываемся Огнелисом. Заголовки я прокомментировал. За подробным объяснением отправляю сюда.
И в догонку к этим заголовкам добавляется третий параметр в функцию:

в котором можно указывать свои заголовки, которые будут дополнительно преданы в соединения при их инициализации. Таким образом можно успешно отправлять POST запросы с параметрами либо указывать свои рефералы и формат передаваемых данных (при компрессии к примеру).

foreach ( $urls as $ind => $url ) <
$chs [] = ( $ch = curl_init () );

curl_setopt_array ( $ch , $curl_options ); // задаю заголовки скопом
curl_setopt ( $ch , CURLOPT_URL , $url );

// есть дополнительные параметры для инициализации данного соединения?
if ( isset( $urls_params [ $ind ] ) && is_array ( $urls_params [ $ind ] ) ) <

curl_setopt_array ( $ch , $urls_params [ $ind ] );
>

curl_multi_add_handle ( $mh , $ch );

Вот такая функция. Еще можно было бы написать про работу с куками и POST-запросами, но это уж если получу инвайт. И так понаписал много, многие ли осилили? ;)

Урок по cURL: основы использования и пара полезных трюков (часть первая)

Pirnazar

Well-known member

Для чего нужна cURL

  • cURL отлично подходит для имитации действий пользователя в браузере.

Реальный практический пример: вам нужно перезагрузить роутер (модем) для смены IP адреса. Для этого нужно: авторизоваться в роутере, перейти к странице обслуживания и нажать кнопку «Перезагрузка». Если это действие нужно выполнить несколько раз, то процедуру нужно повторить. Согласитесь, делать каждый раз в ручную эту рутину не хочется. cURL позволяет автоматизировать всё это. Буквально несколькими командами cURL можно добиться авторизации и выполнения задания на роутере.

  • cURL удобен для получения данных с веб-сайтов в командной строке.

Ещё один практический пример: мы хотим реализовать показ общей статистики для нескольких сайтов. Если использовать cURL, то это становится вполне тривиальной задачей: с помощью cURL мы проходим аутентификацию на сервисе сбора статистики (если это требуется), затем (опять же командами cURL) получаем необходимые страницы, парсим нужные нам данные; процедура повторяется для всех наших сайтов, затем мы складываем и выводим конечный результат.

Т.е. случаи использования cURL вполне реальные, хотя, в большинстве, cURL нужна программистам, которые используют её для своих программ.

cURL поддерживает множество протоколов и способов авторизации, умеет передавать файлы, правильно работает с кукиз, поддерживает SSL сертификаты, прокси и очень многое другое.

cURL в PHP и командной строке

Мы можем использовать cURL двумя основными способами: в скриптах PHP и в командной строке.

Чтобы включить cURL в PHP на сервере, необходимо в файле php.ini раскомментировать строку

А затем перезагрузить сервер.

На Linux необходимо установить пакет curl.

На Debian, Ubuntu или Linux Mint:

Чтобы наглядно было видно разницу в использовании в PHP и в командной строке, будем одни и те же задачи выполнять дважды: сначала в скрипте PHP, а затем в командной строке. Постараемся при этом не запутаться.

Получение данных при помощи cURL

Получение данных при помощи cURL в PHP

Всё очень просто:
$target_url — адрес сайта, который нас интересует. После адреса сайта можно поставить двоеточие и добавить адрес порта (если порт отличается от стандартного).

curl_init — инициализирует новый сеанс и возвращает дискриптор, который в нашем примере присваивается переменной $ch.

Затем мы выполняем запрос cURL функцией curl_exec, которой в качестве параметра передаётся дискриптор.

Всё очень логично, но при выполнении этого скрипта, на нашей странице отобразиться содержимое сайта. А что если мы не хотим отображать содержимое, а хотим записать его в переменную (для последующей обработки или парсинга).


Чуть дополним наш скрипт:

У нас появилась строчка curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);.

curl_setopt — задаёт опции. Полный список опций можно найти на этой странице:

Теперь значение скрипта присваивается переменной $response_data, с которой можно проводить дальнейшие операции. Например, можно вывести её содержимое.

служат для отладки, на случай возникновения ошибок.

Получение данных при помощи cURL в командной строке

В командной строке достаточно набрать

где вместо mi-al.ru — адрес вашего сайта.

Если нужно скопировать данные в переменную, а не выводить полученный результат на экран, то делаем так:

Чтобы они не выводились, добавляем ключ -s:

Взаимодействие через Интернет с помощью CURL и libcurl

Применение libcurl с языками C и Python

Разрабатывать приложения, опирающиеся на протоколы уровня приложений, такие как HTTP и FTP, не очень трудно, но и не тривиально. К тому же такая разработка не находится в центре внимания, поскольку в большинстве случаев гораздо важнее то, что лежит выше этих протоколов. Libcurl как раз и интересен тем, что делает акцент на приложение, а не на преходящий аспект разработки. Отметим, что не многие приложения имеют свой собственный стек TCP/IP – ведь повторное использование всего, что только можно, минимизирует нагрузку на программиста и повышает надежность приложения.

Эта статья начинается с краткого введения в протоколы прикладного уровня, а затем переходит к изучению cURL, libcurl и их применению.

Web-протоколы

Разработка современных приложений существенно отличается от того, что было в недавнем прошлом. Сегодня приложения должны поддерживать связь через сеть или Интернет, предоставляя в распоряжение пользователей сетевой API или интерфейс, а также обеспечивать гибкость посредством пользовательских сценариев. Как правило, современные приложения экспортируют Web-интерфейс с помощью HTTP и передают уведомления о нештатных ситуациях посредством Simple Mail Transport Protocol (SMTP). Эти протоколы позволяют передавать Web-браузеру, работающему в устройстве, конфигурацию или статус и принимать от устройств стандартные сообщения на стандартный клиент электронной почты (соответственно через HTTP и SMTP).

Эти Web-сервисы, как правило, построены поверх уровня сокетов стека сетевых протоколов (рисунок 1). Уровень сокетов реализует API, который восходит к операционной системе Berkeley Software Distribution (BSD) и изолирует детали нижележащих протоколов транспортного и сетевого уровней.

Рисунок 1. Стек сетевых протоколов и libcurl

Web-сервисы обеспечивают взаимодействие между протоколами клиента и сервера. В контексте HTTP сервер – это оконечное устройство, а клиент – браузер в удаленной точке. Для SMTP сервер – это почтовый шлюз или удаленный пользователь, а клиент – оконечное устройство. В некоторых случаях взаимодействие протоколов происходит в два этапа (запрос и ответ), а в других для поддержания связи требуется гораздо больше трафика. Такое взаимодействие может создать значительные трудности, которые преодолеваются с помощью API, таких как libcurl.

Введение в cURL

Происхождение и содержание cURL

cURL предложил Даниель Штенберг, но вклад в разработку внесли свыше 600 программистов. Бесспорно, это полезная технология с широкой областью применения.

Первоначально cURL разработан как средство перемещения файлов между конечными точками с использованием различных протоколов, таких как FTP, HTTP, SCP и другие. Сначала это была утилита командной строки, но теперь это также библиотека с привязками более чем к 30 языкам. Так что теперь, вместо того чтобы использовать cURL из командной строки, можно создавать приложения, которые включают в себя эти важные функции. Библиотека libcurl также переносима и поддерживает Linux®, IBM® AIX®, BSD, Solaris и многие другие варианты UNIX®.

Получение и установка cURL/libcurl

Получить и установить libcurl легко, но процесс зависит от дистрибутива Linux. На Ubuntu эти пакеты можно установить с помощью утилиты apt-get . Две следующие строки показывают, как установить libcurl и Python-привязки для libcurl:

Утилита apt-get гарантирует соблюдение всех зависимостей в процессе установки.

cURL в командной строке

cURL начинался как инструмент командной строки для передачи данных с использованием синтаксиса Uniform Resource Locator (URL). Ввиду популярности этой функции в форме командной строки была создана библиотека для ее интеграции в приложения. Сегодня cURL для командной строки служит оболочкой библиотеки cURL. Эта статья начинается с изучения cURL в командной строке, а затем углубляется в использование этой утилиты в качестве библиотеки.

Две типичных области применения cURL – это передача файлов с использованием протоколов HTTP и FTP. cURL предоставляет простой интерфейс к этим и другим протоколам. Чтобы извлечь файл из Web-сайта с помощью HTTP, достаточно указать cURL имя локального файла, в который нужно записать Web-страницу, а также URL Web-сайта и файл для передачи. Слишком много слов для той простой командной строки, которая приведена в листинге 1.

Листинг 1. Пример использования cURL для извлечения файла с Web-сайта

Обратите внимание: я указал домен, а не файл, так что получу корневой файл (index.html). Чтобы передать этот файл на сайт FTP с использованием cURL, нужно указать файл для загрузки с опцией -T , а затем ввести URL FTP-сайта и путь к файлу (листинг 2).

Листинг 2. Пример использования cURL для загрузки файла на FTP-сайт

Бывает ли проще? Достаточно освоить несколько простых моделей, и cURL окажется предельно простым в применении. Но многообразие имеющихся опций очень велико – запрос помощи из командной строки cURL ( —help ) выводит 129 строк. Большое число опций позволяет управлять всем – от многословия до безопасности и различных зависящих от протокола настраиваемых элементов.

С точки зрения разработчика, это не самый приятный аспект cURL. Углубимся в библиотеку cURL и посмотрим, как добавить эти протоколы передачи файлов в свое приложение.

cURL как библиотека

Если вы наблюдали за языками сценариев на протяжении последних 10 лет, то заметили явные изменения в их составе. Такие языки сценариев, как Python, Ruby, Perl и многие другие включают не только уровень сокетов, как C или C++, но и интерфейсы протокола прикладного уровня. Эти языки сценариев содержат высокоуровневые функции, которые делают тривиальным, например, создание сервера или клиента HTTP. Библиотека libcurl добавляет функциональность, схожую с такими языками, как C и C++, но таким образом, что можно работать с множеством языков. Libcurl примерно одинаково ведет себя во всех языках, которые поддерживает, хотя, так как эти языки могут значительно различаться (C и Scheme), могут различаться и способы обеспечения этого поведения.

Библиотека libcurl включает в себя функции, которые иллюстрируются в листингах 1 и 2, в форме API, поэтому ее можно использовать в высокоуровневых языках (на сегодняшний день более 30). В этой статье представлены два примера применения libcurl. Первый исследует простой клиент HTTP на языке C (подходит для создания Web-пауков), а второй представляет собой простой клиент HTTP на Python.

HTTP-клиент на языке С

API для C обеспечивает два API поверх функциональности libcurl. Простой интерфейс – это простой синхронный API (т. е. при обращении к libcurl с запросом она выполняет его до конца или до сообщения об ошибке). Мультиинтерфейс обеспечивает контроль над libcurl, позволяя приложению выполнять несколько одновременных передач и управлять тем, куда и когда libcurl переносит данные.

В этом примере используется простой интерфейс. Этот API все же предоставляет некоторый контроль над процессом перемещения данных (с использованием функций обратного вызова), но при этом соответствует своему названию. В листинге 3 приводится пример на языке С для HTTP.

Листинг 3. Клиент HTTP на языке С с использованием простого интерфейса libcurl

В верхней части расположены необходимые файлы include , в том числе корневой файл cURL. Далее я определил пару переменных для передачи. Первая, wr_buf , представляет собой буфер, в который будут записываться входные данные. wr_index отражает индекс текущей записи буфера.

Опустимся к функции main , которая выполняет установку с помощью простого API. Все вызовы cURL проходят через указатель, который хранит состояние конкретного запроса. Он определен как CURL pointer reference. Этот пример создает также специальный возвратный код, называемый CURLcode . Перед использованием любых функций libcurl нужно вызывать curl_easy_init , чтобы получить указатель CURL . Далее обратите внимание на несколько вызовов функции curl_easy_setopt . Это настройки указателей для конкретной операции. Для этих вызовов вводится указатель, команда и опция. Сначала в этом примере применяется оператор CURLOPT_URL для задания URL извлекаемых данных. Затем следует CURL_WRITEDATA для создания контекстной переменной (в нашем случае это внутренняя переменная записи ошибок). Наконец, CURLOPT_WRITEFUNCTION определяет функцию, которую нужно вызвать при наличии данных. API вызовет эту функцию один или несколько раз с данными, считанными им после сигнала запуска.

Чтобы начать передачу, вызовите функцию curl_easy_perform . Ее задача заключается в выполнении передачи с учетом предварительно заданной конфигурации. При вызове этой функции она возвращает результат только после успешной передачи или ошибки. Последние элементы main предназначены для передачи возвращаемых статусов, запуска чтения страницы и, наконец, для очистки с помощью функции curl_easy_cleanup (по завершении операции).

Теперь рассмотрим функцию write_data . Эта функция обратного вызова, которая вызывается, когда данные по конкретной операции получены. Обратите внимание, что когда данные считываются с Web-сайта, они записываются к вам ( write_data ). Обратный вызов содержит буфер (с готовыми данными), число элементов и их размер (их произведение дает общий объем данных в буфере), а также указатель контекста. Первая задача заключается в том, чтобы обеспечить достаточную емкость буфера ( wr_buf ) для записи данных. В противном случае он устанавливает указатель контекста и возвращает ноль, что указывает на наличие проблемы. Иначе, он копирует данные из буфера cURL в ваш буфер и наращивает индекс, указывая на следующее место для записи. В этом примере строка завершается, так что впоследствии к нему можно применить printf . Наконец, он возвращает в libcurl количество обработанных байтов. Это говорит libcurl о том, что данные приняты, и их можно удалить. Вот и все – не правда ли, простой способ считать файл с Web-сайта в память?

HTTP-клиент на Python

В этом разделе приводится пример, подобный HTTP-клиенту на языке С, но на этот раз написанный на Python. Python – это полезный объектно-ориентированный язык сценариев, который отлично подходит для создания прототипов и коммерческого программного обеспечения. В примере предполагается, что вы немного знакомы с Python, но он используется очень мало, так что глубокие знания не потребуются.

Код простого HTTP-клиента, написанный на языке Python с использованием pycurl , приведен в листинге 4.

Листинг 4. HTTP-клиент на Python с использованием интерфейса pycurl из libcurl
Создание прототипа на Python


Здесь иллюстрируется одно из преимуществ языка Python при создании прототипов. Довольно широкая функциональность достигается при небольшом количестве кода. На С можно получить более высокую производительность, но если вашей целью является быстрое создание кода для проверки идеи, лучше воспользоваться высокоуровневыми языками сценариев, такими как Python.

Этот код значительно проще, чем версия на C. Он начинается с импортирования необходимых модулей (стандартного системного модуля sys и модуля pycurl ). Далее определяется буфер записи ( wr_buf ). Как и в программе на C, я декларирую функцию write_data . Обратите внимание, что эта функция принимает один аргумент: буфер данных, считанных с сервера HTTP. Я просто взял этот буфер и добавил его к глобальному буферу записи. Функция main начинает с создания указателя Curl , затем использует для записи методы setopt для определения URL и WRITEFUNCTION . Она вызывает метод perform для запуска передачи и закрывает указатель. Наконец, она вызывает функцию main и передает буфер записи в stdout . Обратите внимание, что в данном случае указатель ошибки контекста не нужен, поскольку используется конкатенация строк Python, а значит, не нужно использовать строку со статически заданным размером.

Что дальше

Эта статья лишь «скребет по поверхности» libcurl, учитывая огромное количество протоколов и языков, поддерживаемых библиотекой. Но, надеюсь, она демонстрирует, как легко создавать приложения, использующие протоколы уровня приложений, такие как HTTP. Web-сайт libcurl (см. раздел Ресурсы) содержит большое количество примеров и значительный объем полезной документации. Поэтому в следующий раз при разработке Web-браузера, спайдера или другого приложения, которому требуется протокол уровня приложения, попробуйте libcurl. Это наверняка ускорит процесс разработки, и вы получите от него удовольствие.

Ресурсы для скачивания

Похожие темы

  • Оригинал статьи (EN).
  • cURL – инструмент на основе командной строки с библиотекой, реализующий многочисленные клиентские протоколы. Поддерживает более 12 протоколов, включая FTP, HTTP, Telnet, а также их защищенные варианты. cURL работает на нескольких платформах, включая Linux, AIX, BSD и Solaris, поддерживая более 30 языков.
  • PycURL – тонкая прослойка поверх libcurl API. Как тонкая прослойка, PycURL работает очень быстро. С помощью PycURL можно разрабатывать приложения на Python, использующие библиотеку libcurl.
  • Что касается гибкости приложений, то дополнительные сведения об интеграции возможностей сценариев в приложения можно почерпнуть в руководстве Scripting with Guile .
  • Следите за developerWorks в Твиттере.

Комментарии

Войдите или зарегистрируйтесь для того чтобы оставлять комментарии или подписаться на них.

Заметки, идеи и скрипты

Как сделать мир лучше с помощью компьютера

Архив метки: curl

Примеры curl запросов из командной строки

Для быстрого тестирования запросов к web сервисам очень удобно использовать curl запросы из командной строки. Простой GET запрос легко ввести прямиком в браузере, но вот с POST уже будет сложнее. Разумеется есть множество программ с удобным интерфейсом, но часто бывает что они не всегда под рукой, не установлены или надо написать универсальную инструкцию. В таком случае гораздо быстрее открыть терминал, ввести команду и сразу получить результат. Для установки curl на linux достаточно выполнить команду

Здесь я приведу несколько наиболее типичных примеров CURL запросов.

Пример CURL POST запроса и CURL GET запроса
curl -X POST http://127.0.0.1/page
curl -X GET http://127.0.0.1/page

Пример отправки данных постом
вариант 1: curl -X POST -d «data1=1&data2=2″ http://127.0.0.1/page
вариант 2: curl -X POST -d ‘<«data1″: «1″, «data2″: «2″>’ http://127.0.0.1/page
О том как программно загружать файлы с помощью curl смотрите в статье о загрузке файлов курлом

Пример отправки файла
curl -i -X POST —form datafile=@/path/to/file.pdf http://127.0.0.1/page
Обратите внимание на параметр -i, определяющий получение от сервера только заголовка. Параметр не обязательный, но ведь обычно достаточно только знать загрузился файл или нет.

Пример CURL запроса с авторизацией
curl -u username:password http://127.0.0.1/page -XPOST -d « > О полезном параметре -v ниже.

Пример CURL JSON запроса
curl -X POST http://127.0.0.1/page -d ‘<«id»: «123″>’ -H «Content-Type:application/json»
Некоторые сервисы бракуют запросы без указания content-type, поэтому в случае json запроса — лучше всегда отправлять хэдер json.

Из полезных параметров стоит рассмотреть команду -v (verbose) чтобы получить максимум информации по запросу.
О том как работать с curl запросом через прокси смотрите в данной статье.

Приведённых примеров должно хватить для использования в 95% , если понадобятся более тонкие запросы, то используйте

3 способа загрузки файла на сервер с помощью curl

Продемонстрируем curl запрос на примере, с учетом следующих ограничений.
1. Файл надо загрузить методом POST
2. Необходима авторизация
3. На сервере установлен сертификат ssl

Способ 1, командная строка: Загрузка файла непосредственно через командную строку выглядит так:

Разберем подробнее:
-X — указываем метод POST
-u — логин и пароль пользователя
—insecure — при работе по https часто приходится тестировать в тестовом окружении где не стоит проверенный сертификат. Этой опцией отказываемся от проверки.
Чтобы ещё более подробно узнать о тонкостях команды, используйте curl —help

Способ 2, PHP: Продемонстрируем как загрузить файл

Практически всё прокомментировано в коде, однако отмечу функцию curl_file_create , один сервер постоянно ругался что файл как-то не так указан или отсутсвует. Это вылечилось добавлением мим типа, т.е. функция curl_file_create создает дополнительные заголовки для корректной отправки файла.

Способ 3, Python : Наконец дошли до python, здесь воспользуемя отличной библиотекой requests

В указанном примере открываем файл в режиме бинарного чтения, и дальше сразу делаем запроc. В запросе указаны параметры авторизации, метод, страница и файл. Если файлов несколько — просто расширьте словарь files.
Всё просто, удачи с curl!

Пример использования curl для работы через proxy сервер

Достаточно часто при написании пауков стоит задача получения контента сайта не напрямую, а через прокси сервера. Поэтому приведу здесь пример простой функции на php для получения html кода страницы используя библиотеку curl.
В первую очередь надо убедиться curl установлен и что в php.ini раскомментирована строка, подключающая библиотеку curl. Далее функция:

Примерно такой функцией приходится пользоваться разработчикам, у которых выход в интернет доступен только через proxy. Можно попробовать использовать функцию stream_get_contents, но все же curl предлагает более мощный инструмент.

ez code

Просто о сложном.

Продвинутое использование cURL в PHP

cURL — это инструмент, позволяющий взаимодействовать с различными серверами и поддерживающий множество протоколов: HTTP, FTP, TELNET и др. Изначально cURL — это служебная программа для командной строки. Но, к счастью для нас, PHP поддерживает работу с библиотекой cURL. В этой статье мы рассмотрим нетривиальные примеры работы с cURL.

Почему cURL?

На самом деле, есть много других способов отправить запрос на другой сервер чтобы, например, получить содержимое страницы. Многие, в основном из-за лени, используют простые PHP функции, вместо cURL:

Однако они не позволяют эффективно обрабатывать ошибки. Также есть ряд задач, которые им вовсе не под силу — например, работа с cookies, авторизация, post запросы, загрузка файлов.

cUrl — мощный инструмент, который поддерживает множество протоколов и предоставляет полную информацию о запросе.

Основы cUrl

Прежде чем перейти к сложным примерам, рассмотрим базовую структуру cURL запроса в PHP. Для выполнения cURL запроса в PHP необходимо сделать 4 основных шага:

  1. Инициализация.
  2. Установка опций.
  3. Выполнение запроса.
  4. Очистка ресурсов.


В основном в этой статье мы будем рассматривать шаг №2, так как там происходит основная магия. Список cURL опций очень большой, поэтому все опции рассматривать сегодня мы не будем, а используем те, которые пригодятся для решения конкретных задач.

Отслеживание ошибок

При необходимости, вы можете добавить следующие строки для отслеживания ошибок:

Обратите внимание, мы используем «===» вместо «==», т.к. надо отличать пустой ответ сервера от булевского значения FALSE, которое возвращается в случае ошибки.

Получение информации о запросе

Другой необязательный шаг — получение информации о cURL запросе, после его выполнения.

В результате вы получите массив со следующей информацией:

  • «url»
  • «content_type»
  • «http_code»
  • «header_size»
  • «request_size»
  • «filetime»
  • «ssl_verify_result»
  • «redirect_count»
  • «total_time»
  • «namelookup_time»
  • «connect_time»
  • «pretransfer_time»
  • «size_upload»
  • «size_download»
  • «speed_download»
  • «speed_upload»
  • «download_content_length»
  • «upload_content_length»
  • «starttransfer_time»
  • «redirect_time»

Отслеживание редиректов, в зависимости от браузера

В этом примере мы напишем скрипт, который будет определять перенаправления в зависимости от разных настроек браузера. Например, некоторые сайты перенаправляют посетителей с мобильных устройств, посетителей из других стран.

Мы будем использовать опцию CURLOPT_HTTPHEADER для установки наших собственных заголовков, включая User-Agent и язык и посмотрим, куда перенаправляют нас сайты.

В цикле проверяем браузеры для каждого урла. Сперва мы устанавливаем опции для нашего запроса: URL и тестируемый браузер и язык.

Т.к. мы установили специальную опцию, результат выполнения запроса будет содержать только HTTP заголовки. С помощью простого регулярного выражения мы можем проверить содержит ли ответ строку «Location:».

Результат выполнения скрипта:

Отправляем POST запросы

При выполнении GET запросов данные можно передавать в строке запроса. Например, когда вы ищете в гугле, ваш запрос передается в URL:

Чтобы получить результат этого запроса, вам даже не понадобится cURL, вы можете быть ленивым и использовать «file_get_contents()».

Но некоторые HTML формы используют метод POST. В таком случае данные отправляются в теле сообщения запроса, а не в самом URL.

Напишем скрипт, который будет отправлять POST запросы. Для начала создадим простой PHP файл, который будет принимать эти запросы и возвращать отправленные ему данные. Назовем его post_output.php :

Далее напишем PHP скрипт, который отправит cURL запрос:

Данный скрипт выведет:

Данный скрипт отправил POST запрос файлу post_output.php. который вывел содержимое массива $_POST и мы получили этот ответ с помощью cURL.

Загрузка файлов

Загрузка файлов очень похожа на предыдущий скрипт, т.к. загрузка файлов всегда выполняется с помощью POST запросов.

Так же как и в предыдущем примере, создадим файл, который будет принимать запросы, upload_output.php :

И сам скрипт, загружающий файлы:

Если вы хотите загрузить файл, все что необходимо — это передать путь к нему, так же как обычный параметр POST запроса, поставив вначале «@». Результат работы скрипта:

Multi cURL

Одна из продвинутых возможностей cURL в PHP — это возможность выполнения нескольких запросов одновременно и асинхронно.

В обычных условиях скрипт останавливается и ждет выполнения запроса. И если вам надо выполнить много запросов, то это может занять много времени, т.к. вы будете выполнять последовательно. Это ограничение можно обойти:

Идея состоит в том, что вы можете создать множество cURL дескрипторов, объединить их под одним мульти-дескриптором и выполнять их асинхронно.

Сначала все как и с обычным cURL запросом — создается дескриптор (curl_init()), задаются параметры (curl_setopt()). Далее создается мульти-дескриптор (curl_multi_init()) и добавляются ранее созданные обычные дескрипторы (curl_multi_add_handle()). Вместо обычного вызова curl_exec() мы будем многократно вызывать curl_multi_exec() данная функция информирует нас о количестве активных соединений с помощью второго параметра — $running. Поэтому цикл работает пока $running не станет равным 0. И, конечно, после окончания работы необходимо освободить ресурсы.

В данном примере мы просто выводим результат запросов в STDOUT. Рассмотрим нетривиальный случай применения multi cURL.

Проверка внешних ссылок в WordPress

Представьте себе блог с большим количеством постов, содержащих ссылки на внешние сайты. Некоторые из этих ссылок могут быть не рабочими.

Напишем скрипт, который найдет все нерабочие ссылки и покажет их нам.

Для начала нам необходимо вытащить все внешние ссылки из базы данных:

В этой части скрипта мы просто вытаскиваем из базы все внешние ссылки. Проверим их:

Рассмотрим код подробнее (нумерация соответствует комментариям в коде):

  1. Добавляем начальное количество дескрипторов, чтобы не перегружать систему потоками. Количество регулируется переменной $max_connections.
  2. В переменной $curRunning хранится количество работающих потоков, в $running — предыдущее значение, если они станут не равными, то один из потоков завершил работу.
  3. Получаем информацию о выполненном запросе.
  4. Если нет ответа сервера — ссылка не рабочая.
  5. Ответ сервера — 404.
  6. Иначе ссылка работает.
  7. Запрос выполнен, освобождаем ресурсы.
  8. Добавим новый урл к мульти дескриптору.
  9. Функция add_url_to_multi_handle() добавляет новый дескриптор с заданным урлом к мульти-дескриптору.

Проверка заняла около 2 секунд. Запуская одновременно по 10 потоков производительность возрастает в 10 раз, по сравнению с обычными cURL запросами. Чтобы получить содержимое ответа сервера используйте функцию curl_multi_getcontent($ch), где $ch — дескриптор, полученный из curl_multi_info_read().

Другие возможности cURL в PHP

HTTP аутентификация

Если HTTP запрос требует аутентификацию, используйте следующий код:

Загрузка по FTP

В PHP есть своя библиотека для работы с FTP, но можно использовать и cURL:

Использование прокси

Запросы можно выполнять через определенный proxy:

Колбэки (callback functions)

Есть возможность использовать колбэки во время выполнения запроса, не дожидаясь его завершения. Например, во время того как ответ сервера загружается мы можем использовать уже полученные данные, не дожидаясь полной загрузки.

Колбэк функция должна возвращать длину строки для правильной работы запроса.

Каждый раз, когда будет получена очередная часть ответа сервера, будет вызван колбэк.

Заключение

В этой статье мы рассмотрели продвинутые возможности cURL в PHP. В следующий раз, когда вам понадобится делать URL запросы — используйте cURL.

Цукерберг рекомендует:  Отличное портфолио на HTML5
Понравилась статья? Поделиться с друзьями:
Все языки программирования для начинающих