【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

2022-06-25 01:05:07

MaxCompute大家都不陌生，之前产品名称叫ODPS，之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出，帮助*、互联网公司、金融等进行大数据项目服务，使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较，此处不做过多评论，各有优势。但是不得不说MaxCompute这几年在生态上向前走了一大步。

关于 MaxCompute2.0 对开源系统的支持与融合 的整体介绍及团队规划，详见文档。

最近，我也针对MaxCompute在生态融合上也进行了一些研究和拜读，因为现在资料还比较零散，就把自己在过程中遇到的好材料统一为大家梳理如下，包括SDK、JDBC等。

MaxCompute SDK

首先我们先来看SDK，想必很多有能力的互联网公司都有大量的个性化需求，都会对SDK/API有一些需求，比如小黄车这样的体量大的客户，就基于MaxCompute SDK做了大量的应用。那具体SDK包括Java、Python、R以及PHP（PHP为社区提供，并非阿里云官方出品，但都可以满足大部分需求）。如图所示：

Java SDK：MaxCompute团队官方开发并维护，具体可以详见：官网文档和 SDK Java DOC

Python SDK：MaxCompute团队官方开发并维护的PyODPS，具体可以详见：官网文档和云栖社区博客。

更大强大的功能，大家可以期待下团队将在北京云栖大会对外正式公测的python UDF，这将大大的提高python开发者对MaxCompute的开发效率和功能。

R SDK：RODPS也较大满足开发者使用R做数据分析的需求，具体安装及使用可以详见云栖社区博文

PHP SDK：PHP SDK并非MaxCompute团队官方出品，由社区招募完成开发工作，具体有PHP需求的同学也可以参考PHP SDK文档，可以满足PHP开发的大部分需求。

Ruby SDK：同PHP SDK由开源爱好者贡献，具体详见：https://github.com/aliyun-beta/aliyun-odps-ruby-sdk

MaxCompute JDBC 2.2 发布说明

对接已有软件并提供标准JDBC编程接口，MaxCompute JDBC 2.2正式版已于2017年2月24日正式发布。

github地址：https://github.com/aliyun/aliyun-odps-jdbc/releases/tag/v2.2
V2.2详细说明：https://yq.aliyun.com/articles/72791
V2.0详细说明：https://yq.aliyun.com/articles/59443

通过Apache Zeppelin 快速实现数据可视化

借力QlikView玩转数据分析

Hive Proxy

提供Hive Thrift协议兼容接口，对接Hive社区已有的工具。Hive Proxy 部署在客户端，将 Hive 的 thrift 请求转换成 MaxCompute 的 Restful API 请求，可以用来直接对接诸如 Tableau、Qlik 这样不直接支持 JDBC 的 BI 工具，或者 HPL 这样的 Hive 组件，详见 博文。

示例1：复用Hive ODBC实现Tableau到MaxCompute的连通
示例2：复用Hive JDBC实现Beeline到MaxCompute的连通

具体详见：https://yq.aliyun.com/articles/61262

ETL tool-数据上云工具
Kettle：［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

sqoop：MaxCompute有一款是基于社区sqoop 1.4.6版本开发的Sqoop，增加了对MaxCompute的支持，可以支持将数据从Mysql等关系数据库和MaxCompute的导入和导出，也支持从Hdfs/Hive导入数据到MaxCompute的表中。 具体用法可以参考：https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop

OGG：主要适用于源库为Oracle，可以通过其采集实时更新数据到DataHub中。 通过OGG将数据采集至MaxCompute/基于OGG Datahub插件将Oracle数据同步上云

Fluentd：该插件遵守Fluentd输出插件开发规范，安装方便，可以很方便地将采集得到的数据写到DataHub。通过Fluentd将数据采集至MaxCompute

Flume：Flume插件下载并安装地址，基于Apache Flume Datahub插件将日志数据同步上云,点击进入

Logstash：Logstash是一种分布式日志收集框架，非常简洁强大，经常与ElasticSearch，Kibana配置，组成著名的ELK技术栈，非常适合用来做日志数据的分析。 通过Logstash将日志数据采集至MaxCompute。

关于Logstash将日志采集MaxCompute，然后做数据分析有详细step by step 文档，点击进入。