FastDataDLink提供多种数据类型的统一存储能力,支持流批一体数据处理、数据分析、数据科学等多工作负载。采用存算分离架构,弹性扩展、高并发、低延时,支持EB级多模数据存储与处理,无缝连接大数据生态,提供一站式数据探索与数据开发能力。
l 弹性、可扩展
l 存储廉价,具有更高性价比
l 数据长时间留存
l 兼容更多数据格式
l 高质量的温数据
场景描述:从数据源到应用自定义生成;业务实时标签;大屏数据实时展现;业务监控预警
关键需求:数据的实时采集/同步;数据处理时效性提升到T+0;实时数仓服务;云上部署或迁移
场景描述:PB级数据;复杂的数据处理,双流Join;数据查询和实时流分析;CDP升级运维成本高
关键需求:降低数据平台成本;PB级数据快速查询;数据处理工具简单易用;兼容现有CDH/CDP
场景描述:IoT数据/时序数据;高数据密度,小数据分析;海量数据存储和计算成本高;湖仓一体;
关键需求:高并发写入,xx万/秒;复杂SQL性能要达到秒级;存算分离,节省成本;数据安全;
场景描述:数据建模和数据科学;数据工程师和分析师(数据科学家)协同工作;复杂的数据处理流程;
关键需求:即席查询;模型优化和验证;用户空间和管理;强大数据处理工具;
(1)多种异构数据源接入支持
l 支持Oracle、MySQL、PostgreSQL、Hive等20多种异构数据源接入与集成
l 支持用户自定义和管理connector
(2)统一元数据管理
l 统一元数据视图,集成大规模元数据管理,表和分区的所有元数据通过统一的元数据访问,并持久化,使用高性能表格管理,可向多计算引擎添加表。
l 提供租户及项目空间级别的catalog管理功能,可通过sql,表单创建及管理。目前支持flink、trino、iceberg等多个类别
(3)统一工作空间
l 机器学习(Python,R,各种机器学习库)
l 强SQL标准支持(SparkSQL、FlinkSQL、HiveSQL等)
l 其他工具(BI工具、IDE等)
(4)统一存储管理
l 支持结构化、半结构化、非结构化数据存储,实现EB级的大规模存储部署;内置包括S3/OSS/HDFS/OBS的多模态的存储引擎与分级存储,深度整合各类云数据存储。)
(1)项目空间管理:可以创建多个项目,为每个项目分配单独的资源和权限,管理数据源链接,多个项目间资源和权限完全隔离。
(2)运维监控:提供通用运维监控能力,支持通过WEB、外接消息机制对故障进行告警的能力,以及是否能够以日志记录告警信息。
(3)权限管理:可通过权限模板或单独授权的方式,批量或单独给成员授予操作及数据权限。
(4)数据源管理:支持Oracle、MySQL、PostgreSQL、Hive等20多种异构数据源接入与集成管理。
(5)数据探索:提供数据视图功能,显示数据源数据schema信息、字段统计信息及相关数据样例,为用户提供数据源探查功能。
(6)数据开发:提供可视化DlinkSQL作业提交和任务管理能力。支持在流上执行类SQL任务,SQL能力至少包括:过滤、转换、基于窗口的计算能力、提供窗口数据的统计能力、关联能力、流数据的拆分与合并。
(7)数据科学:提供可视化算法开发界面,支持模型训练及快速测试和学习
(8)即席数据查询:支持即席数据查询功能,支持多catalog的联邦查询,并可以JDBC、HTTP等方式支持数据分析结果输出
(9)作业管理:支持3种作业类型:SQL作业、JAR作业、ETL作业。支持在每个项目空间内提供创业作业、作业管理、作业包上传等功能。并可为作业配置CPU及内存资源。