分类目录归档:数据管道

使用SmartPip监控Starrocks的Routine Load


什么是Routine Load

Starrocks支持例行导入(Routine Load)功能,提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 StarRocks 中。

什么是SmartPip

smartpip是我们基于airflow研发的任务调度平台, 针对定时导入kafka数据到starrocks, 已实现了一个配置即可实现 但是如果对实时监听kafka导入, 并不太合适, 所以本文将介绍如何使用starrocks自带的routine load的功能,同时来使用smartpip实现监控功能

如何实现

  • 在smartchart中新建一个数据集, 查询内容:

    SHOW 

Read more

KETTLE数据同步方法


kjb和ktr的选择

kettle的数据同步, 你会用到ktr和kjb

ktr中的数据流动不是阻塞的, 是并行执行的, 如果你使用如下:
"表输入" --> "表输出" --> "执行SQL脚本"

这样"执行SQL脚本" 会被执行很多次,

但kjb不一样, kjb会等待一个组件完成再执行另外一个, 所以很多人 会使用kjb 嵌入 ktr的解决方案来做数据抽取后执行脚本

但是如果已经有了任务的调度平台, 再用kjb 来 嵌套 ktr 的解决方案 就会显得臃肿, 所以可以考虑直接在ktr完成

以下为解决方法:

在需要阻塞的地方加入 "阻塞数据" 的组件, 将"Pass all rows

Read more

ADO连接字符串


花了一些时间整理了在ADO中常用的连接字符串,方便查阅和比较。

并对其中的参数做了必要说明,期望让其能让多数人能看懂。

本帖内容涵盖了连接到Access,Excel,TXT,SQL Server,MySQL的连接字符串。


1.Access Access 2003 Access 2007 Access 2010 Access 2013

本地文件:

Provider=Microsoft.ACE.OLEDB.12.0;Data Source=C:\myFolder\myAccessFile.accdb; Persist Security Info=False;


网络文件(IP地址前为双反斜杠,例

Read more

Smart智慧数据处理常见问题


使用说明

点击进入使用说明

常见的安装问题:

- 如果无法看到图标或运行出错, 你的系统可能缺失以下依赖包, 请安装:

微软VSTO组件

- 安装完后还看不到图标, 可在EXCEL中点击 文件 -> 选项 , 最下方 管理 中选 "COM 加载项" 然后 点击 "转到", 如下图, 将SmartData的勾打上

- 如果还无法使用, 你可能还需要安装Frame插件:

微软.NET Framework 4.5

- 如果出现如下受信任的发布者问题, 你可在EXCEL中点击 文件 --> 选项 --> 信任中心 --> 加载项 --> 将勾选的选项取消

- 如果出

Read more

SQL常用转化函数


Oracle:

-- Oracle 行转列 pivot函数基本用法
select *
  from SalesList pivot(
    max(salesNum) for shangPin in (   --shangPin 即要转成列的字段
        '上衣' as 上衣,    --max(salesNum) 此处必须为聚合函数,
        '裤子' as 裤子,       --in () 对要转成列的每一个值指定一个列名
        '袜子' as 袜子,
        '帽子' as 帽子
   

Read more

KETTLE使用指南


Kettle工程存储方式有两种:一种是以XML形式存储,一种是以资源库方式存储。

Kettle中有两类设计分别是:Transformation(转换)与Job(作业),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。

 

Kettle常用三大家族:Spoon、Pan、Kitchen。

Spoon:通过图形界面方式设计、运行、调试Job与Transformation。

Pan: 通过脚本命令方式来运行Transformation。

Kitchen: 通过脚本命令方式来运行Job,一般就是通过调用Kitchen脚本来完成定时任务。

目前Kettle有两种版本:一种

Read more

数据上传设定指南


Smart Data 支持非常便捷的手工数据管理:

  • 无需开发ETL, 快速设定, 快速上传
  • 支持数据质量校验, 上传提示, 邮件通知, 上传模板管理
  • 权限管理, 数据预清洗, 支持自动增加时间戳和上传人字段
  • 可上传到任意数据源, 统一数据收集入口
  • 智能转码, 为你解决上传数据乱码的烦恼
  • 同时支持EXCEL和CSV上传
  • 支持下载历史数据,修改后上传

以上传大数据平台为例, 做基本流程介绍:

STEP1: 自动生成建表语句, 建意下载我们的开发工具 数据处理与开发工具 STEP2: 完成简单的配置即可

STEP3: 高级配置(此步骤为可选),填写我们上传完成后, 需要做的进一步处理, 此

Read more

SmartPip DAG设定方法


关于任务调度的配置方法:

自定义参数方法

-- 当前时间
report_time = datetime.datetime.now()
-- 当前时间,往后推一天, 也可以小时(hours), 分钟(minutes), 秒(seconds)...
report_time = datetime.datetime.now()- datetime.timedelta(days=1)
-- 获取上个月最后一天
report_time = datetime.datetime.now().replace(day=1) - datetime.timedelta(days=1)
-- 格式化字符串时间:(%Y-

Read more

SQL常用时间函数


Hive

select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss')
from_unixtime(unix_timestamp()-432000,'yyyy-MM-dd hh:mm:ss') 5 
date_format(current_timestamp(),'yyyyMMdd'); --推荐使用
select unix_timestamp('2011-12-07 13:01:03') from dual;
select unix_timestamp('20

Read more