欢迎使用Hawk

Advanced Crawler ETL tool written in C#/WPF


欢迎使用Hawk! HAWK无需编程,可见即所得的图形化数据采集和清洗工具,依据GPL协议开源。

项目主页: https://github.com/ferventdesert/Hawk

项目文档: https://ferventdesert.github.io/Hawk/

下载地址: https://github.com/ferventdesert/Hawk/releases

示例工程文件: https://github.com/ferventdesert/Hawk-Projects/Hawk3

1.介绍

Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。它的思想来源于Lisp语言,功能模仿了Linux工具awk。

特点如下:

  • 智能分析网页内容,无需编程
  • 所见即所得,可视化拖拽,快地实现转换和过滤等数据清洗操作
  • 能从各类数据库和文件实现导入导出
  • 任务可以被保存和复用
  • 其最适合的领域是爬虫和数据清洗,但其威力远超于此。

HAWK使用C# 编写,其前端界面使用WPF开发,因此只能运行于windows平台,但提供命令行入口供自动化部署。 以下介绍全部基于最新的Hawk3,请使用老版本的同学尽快通过下面的地址升级最新版。

欢迎主页

2.gif-3330.9kB

以获取大众点评的所有北京美食为例,使用本软件可在10分钟内完成配置,在1小时之内自动并行抓取全部内容,并能监视任务工作情况。而手工编写代码,即使是使用python,一个熟练的程序员也可能需要一天以上:

1.gif-1001.8kB

2.联系作者

Hawk的支持QQ群:546750531

如果Hawk帮到了你,欢迎给Hawk的GitHub点个star。 关注“沙漠之鹰”公众号,或通过支付宝给Hawk作者打赏!

Hawk打赏小

3.相关资源

友情提示:由于软件更新频繁,界面有较大变化。但Hawk1到Hawk3在操作思路上基本一致,只是文案和布局上有少许区别,因此老版本的视频同样可做重要的参考资料。

  • Hawk3

Hawk3视频教学字幕版-新功能展示

  • Hawk2

抓取动态页面

Hawk答疑

  • Hawk1

链家二手房

微信公共平台

大众点评-北京美食

4.如何阅读文档

由于Hawk使用非常灵活,建议您以如下方式阅读本文档:

  • 先尝试最简单的例子,根据兴趣阅读下面的快速入门,一步一步按照步骤操作。
  • 链家二手房: 学习基本操作,手气不错和基本数据清洗
  • 大众点评: 了解翻页,清洗的动态传值
  • 百度百家?动态嗅探的用法
  • 做两个例子后,阅读Hawk一页纸技巧,必读,3分钟让您获得大量实用的经验
  • 成为老司机后,即可阅读之后的详细内容,网页采集器,动态嗅探等内容后,也有对应的例子
  • 有任何困惑,都可以在常见问题中找到