Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。
源码下载
源码地址:https://github.com/amplab/tachyon
git clone https://github.com/amplab/tachyon.git
编译
进入 TACHYON_HOME
git tag
v0.1.0
v0.2.0
v0.2.1
v0.3.0
v0.4.0
v0.4.1
v0.4.1-thrift
v0.5.0
v0.6.0
v0.6.1
v0.6.2
v0.6.3
v0.6.4
v0.7.0
v0.7.0-rc1
v0.7.1
切换到v0.7.1版本
git checkout v0.7.1
Note: checking out 'v0.7.1'.
You are in 'detached HEAD' state. You can look around, make experimental
changes and commit them, and you can discard any commits you make in this
state without impacting any branches by performing another checkout.
If you want to create a new branch to retain commits you create, you may
do so (now or later) by using -b with the checkout command again. Example:
git checkout -b new_branch_name
HEAD 目前位于 a2b69c9... [maven-release-plugin] prepare release v0.7.1
执行如下命令:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
mvn clean package -Dhadoop.version=2.3.0-cdh5.1.0 -Dspark.version=1.4.1 -DskipTests
配置
- 创建journal目录
mkdir -p /home/cluster/apps/tachyon/journal - 创建ramdisk
mkdir -p /home/cluster/apps/tachyon/ramdisk - 将tachyon_home/conf/tachyon-env.sh.template 修改为tachyon_home/conf/tachyon-env.sh
mv conf/tachyon-env.sh.template conf/tachyon-env.sh - 编辑tachyon_home/conf/tachyon-env.sh 增加如下内容
export JAVA_HOME=/home/cluster/share/java1.7
export HADOOP_HOME=/home/cluster/apps/hadoop
export TACHYON_HOME=/home/cluster/apps/tachyon
export TACHYON_RAM_FOLDER=$TACHYON_HOME/ramdisk
export TACHYON_MASTER_ADDRESS=master
- 修改tachyon日志存放路径:
tachyon_home/下创建logs目录
mkdir logs
vim conf/log4j.properties 增加如下内容:
tachyon.logs.dir=/home/cluster/apps/tachyon/logs - 将tachyon_home/conf/core-site.xml.template 修改为tachyon_home/conf/core-site.xml
mv conf/core-site.xml.template conf/core-site.xml
编辑 conf/core-site.xml,增加如下内容:
<configuration>
<property>
<name>fs.tachyon.impl</name>
<value>tachyon.hadoop.TFS</value>
</property>
</configuration> - 格式化Tachyon
bin/tachyon format
Connecting to localhost as wangyue...
Formatting Tachyon Worker @ wangyue-um
Connection to localhost closed.
Formatting Tachyon Master @ master
启动
bin/tachyon-start.sh local
Killed 0 processes on wangyue-um
Killed 0 processes on wangyue-um
Connecting to localhost as wangyue...
Killed 0 processes on wangyue-um
Connection to localhost closed.
[sudo] password for wangyue:
Formatting RamFS: /home/cluster/apps/tachyon/ramdisk (1gb)
Starting master @ master
Starting worker @ wangyue-um
jps下:
21025 ZeppelinServer
22214 Worker
21987 Master
21360 TachyonWorker
32212 RemoteInterpreterServer
23361 NameNode
29603 RemoteInterpreterServer
21324 TachyonMaster
23493 DataNode
21412 Jps
27005 RemoteInterpreterServer
已经启动TachyonMaster & TachyonWorker
tachyon-start.sh local命令将同时在本地启动Master和Worker进程。需要注意的是,运行tachyon-start.sh local命令一定要拥有切换root的密码,否者会无法启动。这是因为RamFS的格式化需要root权限。
测试
webui:http://master:19999
/home/cluster/apps/tachyon$ bin/tachyon runTest Basic CACHE_THROUGH
/default_tests_files/BasicFile_CACHE_THROUGH has been removed
2015-09-09 20:00:17,911 INFO (MasterClient.java:connect) - Tachyon client (version 0.7.1) is trying to connect with master @ master/127.0.0.1:19998
2015-09-09 20:00:17,938 INFO (MasterClient.java:connect) - User registered with the master @ master/127.0.0.1:19998; got UserId 5
2015-09-09 20:00:17,964 INFO (CommonUtils.java:printTimeTakenMs) - createFile with fileId 3 took 57 ms.
2015-09-09 20:00:17,999 INFO (WorkerClient.java:connect) - Trying to get local worker host : wangyue-um.local
2015-09-09 20:00:18,013 INFO (WorkerClient.java:connect) - Connecting local worker @ wangyue-um.local/10.32.24.78:29998
2015-09-09 20:00:18,098 INFO (BlockOutStream.java:get) - Writing with local stream. tachyonFile: /default_tests_files/BasicFile_CACHE_THROUGH, blockIndex: 0, opType: CACHE_THROUGH
2015-09-09 20:00:18,136 INFO (CommonUtils.java:createBlockPath) - Folder /home/cluster/apps/tachyon/ramdisk/tachyonworker/5 was created!
2015-09-09 20:00:18,140 INFO (LocalBlockOutStream.java:<init>) - /home/cluster/apps/tachyon/ramdisk/tachyonworker/5/3221225472 was created! tachyonFile: /default_tests_files/BasicFile_CACHE_THROUGH, blockIndex: 0, blockId: 3221225472, blockCapacityByte: 536870912
2015-09-09 20:00:18,203 INFO (CommonUtils.java:printTimeTakenMs) - writeFile to file /default_tests_files/BasicFile_CACHE_THROUGH took 238 ms.
2015-09-09 20:00:18,246 INFO (CommonUtils.java:printTimeTakenMs) - readFile file /default_tests_files/BasicFile_CACHE_THROUGH took 43 ms.
Passed the test!
执行 bin/tachyon runTests 循环测试
停止
wangyue@wangyue-um:/home/cluster/apps/tachyon$ bin/tachyon-stop.sh
Killed 1 processes on wangyue-um
Killed 1 processes on wangyue-um
Connecting to localhost as wangyue...
Killed 0 processes on wangyue-um
Connection to localhost closed.
执行jps:
21025 ZeppelinServer
22214 Worker
21987 Master
32212 RemoteInterpreterServer
23361 NameNode
29603 RemoteInterpreterServer
27469 Jps
23493 DataNode
27005 RemoteInterpreterServer
没有tachyon相关进程
尊重原创,拒绝转载,http://blog.csdn.net/stark_summer/article/details/48321605
相关推荐
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf...10.分布式内存文件系统Tachyon介绍及安装部署.pdf
First-ever scalable, distributed deep learning architecture using Spark & Tachyon
关于基于内存的分布式存储系统Tachyon的介绍文档,可以看看
Tachyon集群配置编译安装使用教程,hadoop版本对应,maven安装
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的...
一、Alluxio是什么?...而如果我们将其架构与底层分布式文件系统与上层分布式计算框架之间,以文件的形式在内存中对外提供读写访问服务的话,那么Alluxio可以为那些大数据应用提供一个数量级的加速,
本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工...
对alluxio(原名:tachyon)进行了编译,然后进行集群分布式安装,可以参照文档进行尝试安装。
Tachyon是以内存为中心的分布式文件系统,能够为集群计算框架(如:Spark,MapReduce等)提供内存级速度的跨集群文件共享服务。本文档让你快速入门
第2章 构建Spark分布式集群 第3章 Spark开发环境及其测试 第4章 Spark RDD与编程API实战 第5章 Spark运行模式深入解析 第6章 Spark内核解析 第7章 GraphX大规模图计算与图挖掘实战 第8章 Spark SQL原理与实战 第9章 ...
源码简介与安装说明: Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校...
Tachyon(/'tæki:ˌɒn/ 意为超光速粒子)是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。 从软件栈的层次来看,Tachyon是位于...
Tachyon详细讲解
Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校AMPLab的一个名为Tachyon的...
Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如ApacheSpark,HadoopMapReduce,ApacheFlink等)提供可靠的内存级的数据共享服务。此外...
tachyon-0.4.1.zip for hadoop-2.0.4 http://www.cnblogs.com/shenerguang/p/3836313.html
太子版本0.1在线文件您可以在项目网页上找到最新的Tachyon文档,包括编程指南。