欢迎访问发表云网!为您提供杂志订阅、期刊咨询服务!

网络爬虫的用户信息提取方法

时间:2023-03-21 09:37:41

绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的1篇网络爬虫的用户信息提取方法范文,希望它们能为您的写作提供参考和启发。

网络爬虫的用户信息提取方法

网络中有海量的数据,要想快速而精准获取相应数据,才能对其中的数据进行详细的分析,数据的获取需要使用一定的方法。目前获取数据比较有效的方式当属网络爬虫。也可以称网络爬虫为网络蜘蛛,抑或网络信息采集器。网络爬虫是一种计算机程序或者自动化的脚本,可以给它制定一种规则,让其自动的抓取或者下载指定页面的数据或内容。秦雅琴[1]等人详细介绍了什么是网络爬虫技术,也阐述了其基本内容,总结了各类交通信息获取方法的研究,从不同方面综述了国内外应用网络爬虫技术解决交通信息获取问题的研究历史和现状。张立鉴[2]认为现有的适合处理结构化数据的应用程序很难直接使用网页上的数据。可以手动收集数据,并且可以根据预定义的格式对从互联网收集的各种信息进行分类和转换。刘多林[3]等人利用网页爬虫技术,协助浏览器抓取网络页面,统计访问模式和网页浏览内容,获取历史行为数据,挖掘用户感兴趣的关联大数据。陈小彪[4]等人对网络爬虫技术原理及其运用进行分解,可以分为数据抓取行为、数据储存行为、信息提取行为、信息使用行为与信息删除行为,借助此分类以探讨各行为的法律性质其刑法适用。郭嘉[5]等人提出新的大数据下面向网络用户资源的资源信息提取方法。对用户历史行为进行分析,求用户间相似度,获取资源信息提取列表。邱云飞[6]等人提出一种基于Web挖掘技术以网上评论文本为挖掘对象,对用户个人信息进行自动提取以自动分析用户行为的改进方法。

1网络爬虫工具介绍

利用网络爬虫可以快速抓取网页数据,但在抓取数据的时候,不能过多向网页发送请求,因为频繁的抓取数据会给提供数据的服务器造成不良影响[7]。还需要注意,获取到的数据在使用的时候是否涉及商业利益和法律问题。当下使用最多的当属八爪鱼采集器和WebScraper。

1.1八爪鱼采集器

八爪鱼采集器[8]是一款基于网页数据的采集软件,在使用上简单易懂,实现的功能也很强大。利用八爪鱼采集器可以方便将网页中的数据按照一定规则转化为结构化数据,可以以Excel、CSV、HTML、JSON等文件的格式导出,也可以将其导出到数据库中。八爪鱼采集器中可以使用智能模式操作获取数据,主要的做法是将网址输入到对应的位置,设置完相应的参数,即可实现全自动的获取数据操作。它也是目前中国国内第一个一键方便快速获取大数据的采集平台。八爪鱼采集器主要利用了人类的思维模式去配置相应的流程,在操作习惯上也是能满足用户的需求。它主要提供自定义模式、向导模式、智能模式、简易模式四种操作模式,如图1所示,可以满足不同用户的不同需求。很多用户都喜欢其中的简易模式,因为操作者只需要选择对应的模板去设置相应的参数,即可方便快捷获取想要的数据,大大提高了获取数据的效率。本文对数据的获取采用的即是简易模式。

1.2WebScraper

WebScraper[9]是一个轻量级的谷歌浏览器的爬虫插件,对其他浏览器暂不适用。主要用来抓取谷歌浏览器中的网络页面中的数据,并实现动态的获取。用户可以对WebScraper进行相应的参数配置,实现运行,将抓取到的数据以XML或CSV等格式保存下来。WebScraper可以实现对一般数据的爬取需求,也能满足用户的操作习惯,因此被广大用户所喜爱和使用[10]。

2利用网络爬虫获取数据

2.1利用八爪鱼采集器获取用户数据

本文主要利用八爪鱼采集器的简易模式进行操作,采集新浪微博中的用户信息,为网络中用户分类分析打下基础。首先要下载八爪鱼APP并注册个人信息,然后利用注册的信息进行登录。进入登录界面后,在首页即可清楚的看到热门采集模板,如天猫、京东、淘宝、今日头条、微博网页等。在这里选择微博网页选项,打开后看到内置了如微博头条、微博超话、微博热搜榜、微博博文评论等13条规则,想要的数据信息基本涵盖。本文获取的是微博用户信息,因此选择“微博搜索博主”规则。“微博搜索博主”页面包括了模板介绍、采集字段预览、采集参数预览、示例数据信息,方便用户简单快速上手。“采集字段预览”里面包含了获取的数据字段信息,如用户名、用户ID、标签、简介、微博数等信息。设置完任务名、任务组、关键词、翻页次数等信息即可保存并启动微博搜索博主规则。启动本地采集后,网页会按照设定的规则进行数据的采集,中间可以随时单击“停止采集”按钮以完成数据的采集。最后,在采集结束后,可以单击“导出数据”按钮将获取到的数据按照指定格式导出到本地。具体操作流程图和抓取到的数据

2.2利用WebScraper获取用户数据

2.2.1WebScraper使用步骤

由于要用到谷歌浏览器,因此电脑的运行内存要足够大,且网速要足够好。在电脑上下载并安装好谷歌浏览器,如果网络足够好可以到谷歌浏览器的网上应用商店下载WebScraper,如果网络状况不够好,也可以到网络上搜索并下载。下载之后要保存有一个.crx的文件。打开谷歌浏览器,在右上角找到三个点,打开找到更多工具里面的扩展程序,将页面中右上角的开发者模式按钮打开,将下载并解压好的WebScraper文件直接拖拽到页面中,即可完成插件的部署和安装。

2.2.2WebScraper获取数据过程

打开需要获取数据的页面,单击鼠标右键,在弹出的对话框中选择“检查”选项,打开调试窗口,为便于后续的抓取操作和查看,将调试工具栏放在窗口的最下方。单击菜单的最后一项“WebScraper”,显示三个子菜单,分别为Sitemaps、Sitemap、Createnewsitemap。单击第三个子菜单Createnewsitemap,选择CreateSitemap,创建一个新网站地图,将要获取的页面地址URL输入到对应位置,并设置一个英文名称。未添加节点的网站地图只有一个根节点,因此要为其添加新的选择器,并给该选择器取好名称,因为要抓取的是元素节点,因此要将Type设置为“Element”,由于根节点下还有元素、元素属性、文本等节点的类型,因此设置完其他选项,在页面中框选的是一整个条目,里面包含多个元素。接下来再在选择器里面添加元素,设置相应的属性,框选相应的位置,即可完成抓取设置。在添加的元素中属于文本类型的可以进行预览,查看获取到的数据。对于完成的选择器可以再次进行编辑和删除操作,也可以进行抓取数据的预览。最后将抓取的数据以.xlsx的格式导出并保存到本地。具体操作流程及抓取到的数据。

3利用Excel对获取的数据进行整理并分析

以上两种方式获取到的数据都可以以.xlsx的格式导出到本地,对得到的数据预先用人工筛选的方式进行整理,删除掉无用或者重复的数据,对剩余较完整的数据统一保存到一个文档中,可对相应数据进行分析。本文利用整理好的1300条数据,对微博用户关注情况、粉丝情况及微博数量进行分析,经过对以上图表进行分析可以得知,微博中跟关键词“美食”有关的大多数用户关注了较少的人,拥有的粉丝数也较少,发布的微博数量也不多。

4结束语

当下互联网技术的发展速度飞快,分析网络中的大量数据对各行各业的运转产生一定的积极作用,因此利用搜索引擎技术收集网络中的数据显得尤为重要。本文利用了当下最热门的网络爬虫工具八爪鱼采集器和WebScraper详细介绍了抓取微博中用户信息的过程,为后续分析和研究用户的行为打下基础,也为其他行业做好网络信息安全提供技术支持。

参考文献:

[1]秦雅琴,马玲玲.网络爬虫技术在交通信息获取中的应用综述[J].武汉理工大学学报(交通科学与工程版),2020,44(03):456-461.

[2]张立鉴.浅谈网络爬虫的网站信息采集技术[J].信息记录材料,2021,22(07):199-200.

[3]刘多林,吕苗.基于网络爬虫结合关联大数据的用户信息提取[J].计算机仿真,2021,38(08):482-486.

[4]陈小彪,储虎.论网络爬虫行为的刑法应对[J].河南警察学院学报,2020,29(05):83-92.

[5]郭嘉,郭晓峰,沈建京.关于大数据中用户资源信息提取仿真研究[J].计算机仿真,2018,35(07):414-417.

[6]邱云飞,王雪,刘大有,等.基于Web评论的用户个人信息提取方法研究[J].计算机应用与软件,2012,29(05):44-47+72.

[7]吴虎.基于网络爬虫技术的企业社交媒体情报获取分析[D].黑龙江大学,2017.

[8]吴涛.巧用八爪鱼采集器开展政务公开审计[J].审计月刊,2019(11):32-33.

[9]魏少鹏.基于Chrome浏览器插件的爬虫系统[D].东华大学,2016.

[10]KOVIAZINMIKHAIL.可视化网络爬虫发展的开发[D].哈尔滨工业大学,2020.

作者:李新焕 单位:江西开放大学江西工程职业学院

友情链接