trico爬虫云原生无需发布部署,拥有强大的集群支持和多用户协作管理平台的支撑,同时可以灵活调度任务,顺利爬取海量数据的一套云数据采集平台,trico爬虫云原生能够为用户提供房价、天气、新闻、媒体、广告以及新闻等方面的数据采集操作。
功能介绍
trico爬虫云原生可提供商品、房价、快递物流、天气、新闻、咨询、知识体库、文献、媒体广告、股票基金、汽车、医药等各行业百万数据信息采集服务,眼见即可采,不管是图片电话,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求。目前已有杭州淘粉吧、海狐等公司在爬取数百个海内外电商官网(amazon,Esteelauder,Eastbay,Nordstrom,Mankind,Macy,Iherb,Escentual、聚划算、大淘客等)数据源,全面覆盖电商行业商品类目选品,只需简单设置,就可快速准确获取数据。另外还有商户爬取了北美等城市的房产信息源,速度极快。
软件特色
爬取片段
编写自定义的爬取片段,上传至Trico,Trico将会帮助你部署你的片段代码,并且以最优的调度原则将任务投递到Trico的爬虫集群。剩下的你只需要等待Trico回调你的服务,给想要的结果。当然你也可以选择将数据投递到你的邮箱,更高效简单的查看简单的数据。
无需发布部署
强大的集群支持
Trico爬虫语言处理
复杂逻辑的数据结
使用方法
在将segment(yml语法的代码片段)提交给Trico部署前,您可以选择在本地搭建Trico服务来验证和调试你的segment。
Step 1: 下载/安装Docker
先下载docker到您使用的机器中(Mac版本/Windows版本), 并安装它(Mac版本/Windows版本)。
Step 2: 拉取镜像并启动容器
我们已经将trico运行所需要的环境打入镜像中,您只需要通过以下代码拉取镜像,并通过docker运行。
sudo docker pull tricooffical/kenerl
sudo docker run -d -p 8080:8080 -p 9010:9010 -it tricooffical/kenerl
Step 3: 使用编辑器
打开编辑器,左下角的kenerl变为绿色表示连接成功,输入对应的脚本点击RUN按钮运行