京东-优惠雷达
新人页面
精选商品
首月0月租体验,领12个月京东PLUS
自营热卖

利用八爪鱼实现拉取网站文章并推送到数据库(免费版本),适合小白

庸人自扰梦 1月前   阅读数 62 0

尝试过火车头,太过于复杂,对新手不太友好,试过八爪鱼后感觉还不错,比较适合新手

1.下载安装八爪鱼,注册账号,登录

下载链接:

https://www.bazhuayu.com/

登录进去是这样:

在开始采集处输入要拉文章的链接

我这里以如下网站为例

https://mp.ofweek.com/ctrade/fiber/

 点击开始采集,左边为流程图,右侧为网页,点击网页内的链接按照右上角的提示提取文章标题和链接(点击时会提示选中相同元素,如果需要批量下载就点击)

 这时我发现文章的标题很多,需要翻页不断加载,如果只提取这几个显然不够用,需要添加翻页循环操作,点击这里,选择循环

 

 点击 循环列表右上角的设置,设置循环翻页,点击应用,最后记得把刚才设置提取文章标题的循环拖动到循环翻页的内部

 这时已经设置好了循环翻页提取文章标题和链接了,下面提取文章内容,点击右侧采集下一集网

选择从采集的字段里跳转到文章内容里,依次点击标题,采集;时间,采集;正文,采集

(这里要注意,如果要一次性选中全文内容的话需要点击正文后选择一下右下角最右边的DIV,然后点击提取该元素)

 再点击左上角,采集,启动本地采集(定时和云都是要付费的) ,下面 是采集结果,点击导入,导入到mysql中即可,注意字符编码是UTF-8,文章的字符类型设定为longtxt,导入即可       

 

有问题可以联系我沟通下~ 

 

 

 

 

 

 


注意:本文归作者所有,未经作者允许,不得转载

全部评论: 0

    我有话说: