网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

数据爬虫技术实例:大快在线爬虫安装教程-创新互联

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

在常山等地区,都构建了全面的区域性战略布局,加强发展的系统性、市场前瞻性、产品创新能力,以专注、极致的服务理念,为客户提供成都网站设计、网站制作、外贸营销网站建设 网站设计制作按需网站设计,公司网站建设,企业网站建设,成都品牌网站建设,全网营销推广,成都外贸网站制作,常山网站建设费用合理。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

数据爬虫技术实例:大快在线爬虫安装教程

数据爬虫技术实例:大快在线爬虫安装教程

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

数据爬虫技术实例:大快在线爬虫安装教程

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

数据爬虫技术实例:大快在线爬虫安装教程

Redis相关配置看如下界面:

数据爬虫技术实例:大快在线爬虫安装教程

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

数据爬虫技术实例:大快在线爬虫安装教程

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

数据爬虫技术实例:大快在线爬虫安装教程

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

数据爬虫技术实例:大快在线爬虫安装教程

使用cd  crawler  命令进入  crawler 文件夹下

数据爬虫技术实例:大快在线爬虫安装教程

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

数据爬虫技术实例:大快在线爬虫安装教程

5、分发爬虫文件

数据爬虫技术实例:大快在线爬虫安装教程

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

数据爬虫技术实例:大快在线爬虫安装教程

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

数据爬虫技术实例:大快在线爬虫安装教程

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

数据爬虫技术实例:大快在线爬虫安装教程

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

数据爬虫技术实例:大快在线爬虫安装教程

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


文章名称:数据爬虫技术实例:大快在线爬虫安装教程-创新互联
转载注明:http://bjjierui.cn/article/jdsip.html

其他资讯