Hawk工程

Hawk使用工程(Project)的概念描述一组任务的集合。在工程中,所有的任务可以互相引用,任务也可以访问内部的数据表,连接器和配置。 一个典型的工程包含以下内容:

  • 任务: 多个网页采集器和数据清洗
  • 数据表: 缓存的抓取结果,错误表和数据日志等,最大不超过10w
  • 连接器: 访问各种数据库的配置
  • 全局配置

已加载任务

打开Hawk后,即可在文件栏中,新建,加载,保存,另存为工程。这些概念和Windows中的标准实现接近,因此不多做介绍。还可以打开最近打开的文件, 直接加载工程。

注意:

  • 由于Hawk在不断发展,早期版本的工程可能并不能兼容目前软件。
  • 当工程较大时,加载和保存都会消耗一定的时间。

1.Hawk工程介绍

Hawk的工程文件为xml或hproj, 在保存工程时,可以在文件保存对话框中,选取要保存的文件格式。下图是典型的xml工程文件内容:

工程配置文件

  • xml: 可直接检查数据,并被其他语言所处理。但当其中包含较大的数据表时,xml文件由于其冗余性,体积会很大。
  • hproj是zip压缩后的xml, Hawk在加载hproj后,会自动将其解压,并按xml格式解析之,反之过程则过程相反。
  • 不论是xml还是hproj,其内部的结构都是一致的,通过xml树描述了层次结构,子节点用Children来表达。
  • 由于xml可读性不强,未来可能会增加基于yaml的配置

2.自动保存

为了提升Hawk运行的稳定性,Hawk3增加了自动保存的功能。 可以在系统配置中,设置自动保存的时间间隔(单位为秒)。当值小于等于0时,则不会自动保存。

保存的内容以xml或hproj形式后缀的文件记录在工程文件中。保存的内容包括:

  • 所有数据表(为了降低存储损耗,超过10万的数据表不会保存)
  • 所有任务(包括数据清洗和网页采集器)
  • 所有正在执行的正式线程(Hawk可以记录任务执行的位置,在下次启动时断点续跑)

系统设置

对工作线程的保存时:

  1. 正式线程是正式处理数据的任务,而非调试模式时自动刷新启动的临时任务。在下次启动时,上次未执行完的任务都会暂停,只有手动重启后才能执行。但并不精确
  2. 在重启线程时,可能会有一定的时延,因为线程会将指针移动到上次执行的位置,而这需要一定的时间。通常在10-30秒之内。
  3. 当加载或保存较大的数据表时,可能会有卡顿的情况。

3.全局配置系统

Hawk5新增了全局配置系统,方便在不同的任务间共享参数,并通过一次切换,更改所有任务的行为。

例如,针对链家开发爬虫时,不同的城市会有细微区别,如xpath,或名称... 因此可针对不同城市建立配置,切换配置即可在不同城市间切换,Hawk的模块在执行时会动态地获取这些数据。大大提升了重用性。

param.gif

全局参数设置

3.1.配置文件语法

Hawk采用了非常简单的配置写法,即yaml。为了方便编辑,可在外部的编辑器编辑完成后,拷贝到本编辑器中。

每行一个配置,键值之间用英文冒号,即:表示。 用#号来代表注释,所有以#号开头的行都会被当成注释而忽略。例如:

`#这是一行注释`
city: bj
xpath: your_xpath

在数据清洗的任意模块,大部分参数都能支持引用全局配置,语法是{key_name},例如{city},会将配置中city项的值拷贝过来。

注意:

  • 使用方括号语法[]是访问其他列的数据
  • 大括号语法{}是访问全局配置的数据。
  • 如果全局配置里没有对应项,则返回带大括号的原始字符串。
  • 虽然使用了yaml作为配置文件,但并不支持完整的语法(如数组和层次字典等),只能支持单层的的键值对。

3.2.新建和切换配置组

点击edit按钮,可增加新的配置组。 选择对应的配置组后,即可全局生效。

全局可配置参数