Archive for spark

Spark也是一个集群计算系统,提供Python,Java,Scala,R语言的高级API进行数据操作。Spark有各种优点,请自行搜索。 一、下载安装spark 下载编译好的二进制版本,目前还用不到hadoop选择第一个安装。 wget http://mirrors.cnnic.cn/apache/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz 解压 tar zxvf spark-1.5.2-bin-hadoop2.6.tgz 使用默认参数进入python交互模式。启动参数可以指定Spark集群的地址,处理的线程数等值。 park-1.5.2-bin-hadoop2.6/bin/pyspark 交互模式下,Spark会默认给你启动一个SparkContext,名字为sc。你可以执行以下命令查看版本和应用名字。 >>> sc.version u'1.5.2' >>> sc.appName u'PySparkShell' 二、分析nginx log文件 在交

Continue