Клиент Goutte как сохранить и повторно использовать $ crawler?

#php #web-scraping #serialization #recaptcha #goutte

#php #очистка веб-страниц #сериализация #recaptcha #goutte

Вопрос:

Мой код похож

         <?php
    require_once 'vendor/autoload.php';
    use GoutteClient;
    use SymfonyComponentHttpClientHttpClient;
    //generate random string
    function generateRandomString($length = 10)
    {
        $characters = '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
        $charactersLength = strlen($characters);
        $randomString = '';
        for ($i = 0; $i < $length; $i  ) {
            $randomString .= $characters[rand(0, $charactersLength - 1)];
        }
        return $randomString;
    }
    //creating Goutte Client
    $client = new Client(HttpClient::create(array(
        'headers' => array(
            'Accept' => 'text/html,application/xhtml xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language' => 'en-US,en;q=0.5',
            'Connection' => 'keep-alive',
        ),
    )));
    //Request
    $crawler = $client->request('GET', 'example.com/login');
    $session_id = generateRandomString(15);
    
    //For write php object in the text file...
    $objData = serialize($crawler);
    $filePath = getcwd() . DIRECTORY_SEPARATOR . "sessions" . DIRECTORY_SEPARATOR . "obj" . $session_id . ".txt";
    $fp = fopen($filePath, "w");
    fwrite($fp, $objData);
    fclose($fp);
    
    //To read the text file to get the object
    $crawler_new = file_get_contents(getcwd() . DIRECTORY_SEPARATOR . "sessions" . DIRECTORY_SEPARATOR . "obj" . $session_id . ".txt");
    $obj = unserialize($crawler_new);
    
    print_r($obj);
    die();
  

приведенный выше код приводит к следующему

     Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
    
    Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
    
    Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
           
    Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
                    
    Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
    .
    .
    . 
    Warning:  print_r(): Invalid State Error in C:xampphtdocsverisysindex.php on line 80
    
            SymfonyComponentDomCrawlerCrawler Object
    (
    [uri:protected] => example.com/login/
    [defaultNamespacePrefix:SymfonyComponentDomCrawlerCrawler:private] => default
    [namespaces:SymfonyComponentDomCrawlerCrawler:private] => Array
    (
    )
    
    [baseHref:SymfonyComponentDomCrawlerCrawler:private] => example.com/login/
    [document:SymfonyComponentDomCrawlerCrawler:private] => DOMDocument Object
    (
    [implementation] => (object value omitted)
    [strictErrorChecking] =>
    [config] =>
    [formatOutput] =>
    [validateOnParse] =>
    [resolveExternals] =>
    [preserveWhiteSpace] =>
    [recover] =>
    [substituteEntities] =>
    )
    
    [nodes:SymfonyComponentDomCrawlerCrawler:private] => Array
    (
    [0] => DOMElement Object
    (
    [schemaTypeInfo] =>
    )
    
    )
    
    [isHtml:SymfonyComponentDomCrawlerCrawler:private] => 1
    [html5Parser:SymfonyComponentDomCrawlerCrawler:private] =>
    )
  

кто-нибудь может помочь мне сохранить объект $ crawler в файле??
в основном хочу попросить клиента поместить reCAPTCHA человеком.
Я работаю над проектом, в котором я хочу выполнить весь процесс через сервер, используя Goutte, и для этого на странице входа в систему применяется reCAPTCHA, который я хочу заполнить на стороне клиента, а затем продолжить другой процесс.

Ответ №1:

Просто создайте тот же клиент снова:

 $cokie = "JSESSIONID=0000H_WHw_eFPKVUDGxUei7v3PH:1db7cfi4s";
$client = new Client(HttpClient::create(array(
    'headers' => array(
        'Accept' => 'text/html,application/xhtml xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language' => 'en-US,en;q=0.5',
        'Connection' => 'keep-alive',
        'Host' => 'verification.nadra.gov.pk',
        "Cookie" => $cokie,
        'User-Agent' => 'Mozilla/5.0 (Windows NT x.y; Win64; x64; rv:10.0) Gecko/20100101 Firefox/10.0'
    ),
)));
$cookie = new Cookie("JSESSIONID", $cokie, null, "/service", "https://example.com/", true, true);
$client->getCookieJar()->set($cookie);
$client->setServerParameter('HTTP_USER_AGENT', 'Mozilla/5.0 (Windows NT x.y; Win64; x64; rv:10.0) Gecko/20100101 Firefox/10.0');
$client->followRedirects(true);
$crawler = $client->request('GET', 'https://example.com/service/botdetectcaptcha?get=imageamp;amp;c=exampleCaptchaamp;amp;t=508c5eaf74fd4858b0c9debafc319d67');