战斗民族开源神器ClickHouse:一款适合于构建量化回测研究系统的高性能列式数据库(二) 2017-07-28 12:13 来源:量化投资与机器学习 原标题:战斗民族开源神器ClickHouse:一款适合于构建量化回测研究系统的高性能列式数据库(二) 编辑部 我们会再接再厉 编辑部原创 编译:wally21st、 西西 未经允许,不得转载 Tutorial 对于一些私募、投资机构和个人来说,量化投资研究、回测离不开数据的支持。当数据量达到一定数量,如A股所有频率和种类的数据等等。这时候需要的是对数据有效的储存和管理。今年6月才开源的数据库ClickHouse,为我们提供了福音。ClickHouse来自俄罗斯,又是刚刚开源,社区也是俄语为主。因此,大家对它并不是很熟悉,用的人也不是很多。 我们对比一下他的速度 一个字 快 上面是100M数据集的跑分结果:ClickHouse 比 Vertia 快约5倍,比 Hive 快279倍,比 My SQL 快801倍。 举个例子:ClickHouse 1秒,Vertica 5.42秒,Hive 279秒; 今天,公众号开始连载ClickHouse的文档,由特约作者:wally21st、西西翻译和解释。希望在量化圈对于数据管理苦恼的人们,开奖,带来一些有用的信息和帮助。 私募和机构对于数据是渴求的,但是拿到那么多数据怎么管理也是一门很深的学问。 由于译者英文水平、数据库技术和时间精力所限,希望大家一起参与翻译和研究。 参与请联系邮箱:[email protected] 原文档:https://clickhouse.yandex/tutorial.html 蓝色字体因为微信公众号不支持外部链接,请大家自己操作。 战斗民族开源神器ClickHouse:一款适合于构建量化回测研究系统的高性能列式数据库(一) Clickhouse入门指南 我们先获取一些开源数据样本集,我们将使用美国1987到2015年的民用航班数据,很难称这个样本为大数据(只包含1亿6千6百万行数据,未压缩时有63GB),但我们能用它很快地开干。数据可以从这里下载,你也可以从原地址下载,戳这里. 首先,我们将在单台服务器上部署Clickhouse,之后,我们再来搞搞如何部署到支持分片和复制的集群上。 在Ubuntu和Debian上,Clickhouse可以通过包安装。在其他Linux发行版上你得自己从源码编译安装。 clickhouse-client这个包内含名为clickhouse-client的应用程序——一个交互式Clickhouse客户端。clickhouse-server-base包含一个名为clickhouse-server的二进制文件。clickhouse-server-commom包含clickhouse-server的配置文件。 服务端配置文件在/etc/clickhouse-server/下。在开干之前要注意配置文件中的path元素,path决定了数据存放的路径。考虑到包更新的问题,直接编辑config.xml文件不是很方便,建议重写config.d目录下配置文件中的配置元素。另外,你也可能希望在开干前设置访问权限。 clickhouse-server服务不会在安装和升级之后自动启动。启动服务如下: sudo service clickhouse- serverstart 服务器日志文件默认存放在/var/log/clickhouse-server/下。服务器在记录下“Ready for connections”后便可等待处理客户端连接请求。 使用clickhouse-client来连接服务器。 下面是clickhouse-client的一些用法小提示: 交互模式: clickhouse-clientclickhouse-client--host=...--port=...--user=...--password=... 开启多行查询模式: clickhouse- client-mclickhouse- client--multiline 在批处理模式下执行查询: clickhouse- client--query= 'SELECT 1'echo 'SELECT 1'| clickhouse- client 从指定格式的文件中插入数据: (责任编辑:本港台直播) |