要求支持Hive的数据与其他关系型数据库数据进行跨库Join的功能,通过指定格式的建表语句在Hive创建关联关系型数据库的外表,提供这张表可执行Hive的查询功能。 要求支持Hive on Spark,Hive生成的任务,除MapReduce任务外,还支持生成Spark任务,通过Spark来执行,从而缩短HQL的执行时间。 要求提供统一的API同时访问HBase数据和Solr数据的能力,并将Solr的索引数据应用到HBase的查询中,加速HBase数据的查询。提供更方便的SQL接口访问HBase数据,自动解析SQL的Where条件使用Solr的索引以HBase数据进行过滤加速。要求支持敏感词过滤。每个索引集可以关联对应的敏感词集合,在查询的过程中,Solr服务可以对返回结果进行处理,过滤掉其中的敏感词。 要求提供大数据统一SQL的客户端,实现大数据平台SQL组件统一接入的能力。支持统一接入Hive,SparkSQL,Phoenix(HBase SQL层),以及可自定义对接符合JDBC接口的其它组件。支持连接统一管理,同一个连接内切换不同的组件运行。实现Hadoop单进程内进程内使用同一个组件驱动不同版本,避免多版本组件并行。提供统一的客户端工具。 要求支持异构集群部署,在集群中存在不同硬件类型的服务器,允许在CPU类型,硬盘容量,硬盘类型,网卡类型,位置上有差异。支持数据存储时,智能感知硬件信息,磁盘可用容量,自动均衡,达到性能合理利用;同时给管理员提供自定义存储数据存储位置的能力,以支持更加个性化的异构存储策略。 支持服务资源周期调整,在共享大数据集群中,多种服务共享使用集群资源,各服务都存在着的繁忙时间段和空闲的时间段。该特性支持在不同的时间段设置不同的服务资源比例,达到集群资源的合理利用。 支持将不同类型的业务数据存储在RAM_DISK、DISK、ARCHIVE、SSD等存储介质。 支持在Spark中直接通过SQL方式访问HBase,方便用户在Spark应用中对HBase中数据的交互处理。 提供高性能、具有持续化能力的Flume Channel,提供图形化Flume配置界面,让用户易于配置Flume的source、channel、sink。支持Flume工作线程自恢复,提升Flume工作的稳定性。 提供机架组感知的副本放置策略,支持指定数据中心存储数据。当部分数据中心故障,存在可靠的数据中心保障系统的高可用性。 8 开发服务 要求提供至少90人/天的开发支持服务。包括服务组件样例指导、组件接口调用指导、数据导入指导以及表设计的指导。 9 配置及服务 *本次实际配置282个节点软件授权永久许可,3年软件维保服务 2、大数据流处理集群 序号 指标项 参数要求 1 基本功能 提供内存数据库Redis,版本不低于3.0 提供消息订阅分发组件Kafka。 提供图形化的安装维护管理系统,支持向导式的集群安装 2 可靠性 包括集群管理系统在内的所有业务组件的管理节点均实现双机HA,业务无单点故障,且集群整体掉电恢复后,能够正常恢复业务,并确保关键数据不丢失。提供相关技术文档。 支持业务平面和管理平面隔离组网,保证业务可靠性 3 安全 所有组件均提供权限控制和接入认证能力 4 品牌要求 *与大数据平台集群为同一品牌 5 配置及服务 *本次实际配置15个节点软件永久授权许可,3年软件维保服务 3、MPP数据库集群 序号 指标项 技术规格 1 技术架构 采用列存储技术和MPP+Shared Nothing架构,所有节点无共享,对等计算能力; 采用自适应压缩算法,根据不同分布方式和数据类型自动选择最优算法。支持三级压缩选项,压缩比可达1:20; 采用全自动维护的智能索引技术,无需人工建立索引; 2 基本功能 (责任编辑:本港台直播) |