首页　>　文章列表　>　如何使用 PHP 爬虫获取网页截图

如何使用 PHP 爬虫获取网页截图

php 爬虫截图
361 2023-06-14

在当今互联网时代，爬虫（Crawler）也逐渐成为了一种非常重要的互联网工具，无论是进行行业数据信息爬取、价格监测、SEO优化、网络安全检测等各种应用场景都离不开爬虫技术的实现。在此，我们将针对如何使用PHP爬虫技术获取网页截图展开讨论。

一、准备工作

安装 PHP

首先，我们需要确保真机或服务器已经安装了 PHP。有关安装 PHP 的详细过程，我们就不再累述了，读者可在PHP官网上查看相关内容。

安装Composer

Composer 是 PHP 的一个依赖管理工具。我们可以通过 Composer 来快速的实现安装、管理 Linux 系统中的 PHP 应用程序以及相关依赖包和 PHP 性能分析等工具。有关 Composer 的安装方法，我们可以通过 Composer 的官网查看相关文档和下载Composer。

下载并安装必要的组件

接下来，我们需要下载 Chrome DevTools Protocol。这是 Chrome 开发者工具的组件，用于管理、调试和远程控制 Google Chrome 和其他 Chromium-based 浏览器。

命令如下：

composer require chrome-devtools-protocol

二、爬虫获取网页截图流程

连接至目标网站

我们可以通过使用 Guzzle HTTP 客户端库来实现编写爬虫，连接至目标网站。

示例代码片段如下：

<?php
use GuzzleHttpClient;

$client = new Client([
    // Base URI is used with relative requests
    'base_uri' => 'https://www.example.com/',
    // You can set any number of default request options.
    'timeout'  => 2.0,
]);

创建并配置 Chrome DevTools 协议

在我们获取网页截图之前，我们需要通过 Chrome DevTools 协议来控制一个可以打开目标网站的浏览器，并将其设置为 headless 模式（即隐身模式）。

示例代码片段如下：

<?php
use GuzzleHttpClient;
use HeadlessChromiumBrowserFactory;

$client = new Client([
    // Base URI is used with relative requests
    'base_uri' => 'https://www.example.com/',
    // You can set any number of default request options.
    'timeout'  => 2.0,
]);

// Create the BrowserFactory instance
$browserFactory = new BrowserFactory();

// Start the browser and create a new page
$browser = $browserFactory->createBrowser([
    'headless' => true
]);
$page = $browser->createPage();

载入要截图的网页

我们可以通过以下代码来设置要打开的网页：

<?php
use GuzzleHttpClient;
use HeadlessChromiumBrowserFactory;

$client = new Client([
    // Base URI is used with relative requests
    'base_uri' => 'https://www.example.com/',
    // You can set any number of default request options.
    'timeout'  => 2.0,
]);

// Create the BrowserFactory instance
$browserFactory = new BrowserFactory();

// Start the browser and create a new page
$browser = $browserFactory->createBrowser([
    'headless' => true
]);

// Set the URL of the webpage to be captured
$page = $browser->createPage();
$page->navigate('https://www.example.com')->waitForNavigation();

对网页进行截图

接下来，我们可以通过以下代码段截图：

<?php
use GuzzleHttpClient;
use HeadlessChromiumBrowserFactory;
use HeadlessChromiumExceptionCommunicationException;

$client = new Client([
    // Base URI is used with relative requests
    'base_uri' => 'https://www.example.com/',
    // You can set any number of default request options.
    'timeout'  => 2.0,
]);

// Create the BrowserFactory instance
$browserFactory = new BrowserFactory();

// Start the browser and create a new page
$browser = $browserFactory->createBrowser([
    'headless' => true
]);

// Set the URL of the webpage to be captured
$page = $browser->createPage();
$page->navigate('https://www.example.com')->waitForNavigation();


try {
    // Set the viewport size and aspect ratio
    $page->setDeviceMetricsOverride([
        'width' => 1200,
        'height' => 800,
        'deviceScaleFactor' => 1,
        'mobile' => false,
        'fitWindow' => false
    ]);

    // Capture the screenshot
    $screenshot = $page->screenshot();

} catch (CommunicationException $exception) {
    echo 'An error occurred while capturing the screenshot: ' . $exception->getMessage();
    die();
}

// Save the screenshot to a file
file_put_contents('example.com.png', $screenshot);

完整代码

最终的完整代码如下所示：

<?php

require __DIR__ . '/vendor/autoload.php';

use GuzzleHttpClient;
use HeadlessChromiumBrowserFactory;
use HeadlessChromiumExceptionCommunicationException;

$client = new Client([
    // Base URI is used with relative requests
    'base_uri' => 'https://www.example.com/',
    // You can set any number of default request options.
    'timeout'  => 2.0,
]);

// Create the BrowserFactory instance
$browserFactory = new BrowserFactory();

// Start the browser and create a new page
$browser = $browserFactory->createBrowser([
    'headless' => true
]);

// Set the URL of the webpage to be captured
$page = $browser->createPage();
$page->navigate('https://www.example.com')->waitForNavigation();

try {
    // Set the viewport size and aspect ratio
    $page->setDeviceMetricsOverride([
        'width' => 1200,
        'height' => 800,
        'deviceScaleFactor' => 1,
        'mobile' => false,
        'fitWindow' => false
    ]);

    // Capture the screenshot
    $screenshot = $page->screenshot();

} catch (CommunicationException $exception) {
    echo 'An error occurred while capturing the screenshot: ' . $exception->getMessage();
    die();
}

// Save the screenshot to a file
file_put_contents('example.com.png', $screenshot);

// Close the browser when finished
$browser->close();

至此，我们就通过PHP代码块实现了使用爬虫技术获取网页截图的全过程。需要注意的是，在使用Chrome DevTools 协议截图时，我们可以通过修改代码中的参数来自定义截图大小、截图模式等，具体可以根据自己的实际需求来设置。

上一篇　MySQL中的数据触发技巧下一篇　PHP开发：如何使用 Phing 自动化构建工具