AirFlow工作流-集群

1 AirFlow介绍
a.Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。
b.airflow 是 apache下孵化项目,是纯 Python 编写的一款非常优雅的开源调度平台。
c.airflow免费
2 组成部分
系统配置($AIRFLOW_HOME/airflow.cfg)
作业管理($AIRFLOW_HOME/dags/xxxx.py)
运行监控(webserver)
报警(邮件或短信)
日志查看(webserver 或 $AIRFLOW_HOME/logs/***)
跑批耗时分析(webserver)
后台调度服务(scheduler)
除了短信需要自己实现,其他功能 airflow 都有,而且在 airflow 的 webserver 上我们可以直接配置数据库连接来写 sql 查询,做更加灵活的统计分析。
3 概念
a.DAG-依赖关系有向无环图
b.Operators-操作符
c.timezone-时区
d.webserver-web服务器
e.schduler-调度器
f.worker-工作节点
g.executor-执行器
4 参考文章
a.https://www.jianshu.com/p/2ecef979c606, 集群搭建
b.https://www.jianshu.com/p/825629ffe3a7, 组成与概念
c.https://www.cnblogs.com/cord/p/9450910.html, 简单使用