安装 Guzzle
这里我使用的是 composer
进行安装1
composer require guzzlehttp/guzzle
下来我们就创建 index.php
文件
1 | # file index.php |
使用 php index.php
执行查看结果,或者搭建 web
服务器,使用浏览器查看结果。
分析html元素
上面这个例子就是简单的一个网页抓取程序,但是我们实际开发中,往往不会这么简单,我们会对抓取的信息进行处理
我将采用 php 来分析 html 信息,便于我们获取到自己所需要的信息
采用开源库 symfony/dom-crawler
,这是一个用 XPath
来分析 html 元素的库,下载地址
1 | composer require symfony/dom-crawler |
下来我们将进一步优化上面的程序,来抓取网页中特定的元素信息
1 | # file index.php |
生成 Xpath 的库
推荐使用 symfony/css_selector
安装1
composer require symfony/css_selector
使用方法1
2
3
4use Symfony\Component\CssSelector\CssSelectorConverter;
$converter = new CssSelectorConverter();
var_dump($converter->toXPath('div.item > h4 > a'));
©版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 & 作者信息。
End