文档库 最新最全的文档下载
当前位置:文档库 › Spark开发环境配置及流程(Intellij IDEA)

Spark开发环境配置及流程(Intellij IDEA)

Spark开发环境配置及流程(Intellij IDEA)
Spark开发环境配置及流程(Intellij IDEA)

Spark开发环境配置及流程

之前已经将集群配置完成(详见Hadoop2.6.0搭建过程.doc和Spark1.2搭建过程.doc文档),开发环境中的JDK,Scala部分就不介绍了,下面直接介绍我们用的开发工具Interlij IDEA。为什么选择Intellij IDEA?因为它更好的支持Scala 项目,目前Spark开发团队使用它作为开发环境。

1.下载

直接到官方网站下载页面下载(https://www.wendangku.net/doc/604781589.html,/idea/download/)。

有收费的完整版,也有免费的基本版本,收费的网上也有破解方案。

2.解压

解压到/usr/local,这是因为之前的Scala和Spark都放这里,也可以根据自己喜好。

[hadoop@lenovo0 Downloads]$ sudo tar -vxzf ideaIC-14.1.tar.gz -C /usr/local/ 改个名字,然后授权给hadoop用户。

[hadoop@lenovo0 local]$ cd /usr/local/

[hadoop@lenovo0 local]$ sudo mv ideaIC-14.1 ideaIC14

[hadoop@lenovo0 local]$ sudo chown -R hadoop:hadoop ideaIC14/

3.启动

在解压的文件夹下有个文件介绍怎么打开应用,还有一些设置信息,大家可以看一看:

通过cat命令可以查看,我只截了一些关键的:

根据提示,我们直接进入到文件夹bin目录下执行./idea.sh即可启动:

之后便可以根据UI提示界面创建快捷方式,方便下次启动。

4.在IDEA中安装Scala插件

在IDEA的设置里面,直接搜索“plugins”,在右边的展开中搜索“scala”,点击相应的按钮添加插件即可:

5.配置Spark应用开发环境

这里以SparkPi程序为例子。

5.1创建Scala Project,设置名称,JDK和Scala路径:

5.2选择菜单中的“File”→“project structure”→“Libraries”,然后点击“+”导入spark-assembly-1.2.0-hadoop2.4.0.jar。

这个jar包包含Spark的所有依赖包和Spark源码。一开始我们下载的Spark版本是预编译版本的(见《Spark on yarn搭建过程》),所以这个包可以在解压的Spark目录下lib目录里找到,假如说下载的没有编译的,需要通过sbt/sbt assembly命令打包。

同样的,假如IDEA不能识别Scala库,也是用这种方法,路径是Scala的安装路

径。

5.3现在可以开发Scala程序。右键新建一个scala类,就可以写程序了。我们直接复制

SparkPi的代码,这个代码在Spark文件example目录下可以找到源码:

口,第二句调用addJar方法将我们压缩好的jar包提交到Spark集群(压缩方法在后面介绍)。

6.运行Spark程序

像上面我们编写完代码,有两种方法运行我们的程序,一个是IDEA中的run方法,

另一个是将我们的程序打包成jar包,在Spark集群上用命令行执行。

在集群上运行Spark应用Jar包:

选择“File”→“Project Structure”→“Artifact”,单机“+”,选择“JAR”→“From Modules with dependencies”,然后选择main函数和Jar包的输出路径:

在主菜单中选择“Build”→“Build Artifact”编译生成Jar包。

最后到jar包的目录下执行java -jar SparkTest.jar即可。

Run方法:

在IDEA菜单中选择“Run”→“Edit Configurations”出现如下界面:

点左上角的“+”,选择“Application”,在右边的拓展中改一下name,选择Main 函数:

然后点击右上角的绿色运行箭头即可:

以上介绍了整个Spark应用开发流程以及如何编译调试程序。

安卓开发环境搭建教程及个人经验

安卓入门教程及环境搭建(附笔记) ------By 仙人张 需要的软件包有三个,截止到2012年7月这些软件都是最新版本的:分别是JDK、SDK、Eclipse(版本4.2 Juno)他们的名字和大小如下 一、软件包的下载 1、JDK的下载(jdk-7u5-windows-i586) https://www.wendangku.net/doc/604781589.html,/technetwork/java/javase/downloads/index.html

2、SDK的下载(installer_r20-windows)https://www.wendangku.net/doc/604781589.html,/sdk/index.html 3、Eclipse的下载(eclipse-jee-juno-win32)https://www.wendangku.net/doc/604781589.html,/downloads/

二、软件安装 说说我的文件夹是怎么安排的,软件安装前先在自己安装软件的那个盘新建一个文件夹名字可以取为Android,然后这三个软件分别安装到里面的三个文件夹里就可以了,然后在Android文件夹里新建一个文件夹专门放自己的工程文件。 1、JDK的安装 上面下载的jdk-7u5-windows-i586是一个安装包,直接双击就可以安装了,记得路径选择Android文件夹里的Java 文件夹。 2、Eclipse的安装 上面下载的eclipse-jee-juno-win32是一个压缩包,解压后就可以直接用了,将解压后的文件夹eclipse-jee-juno-win32也放在Android文件夹下。 3、SDK的安装 上面下载的installer_r20-windows是一个安装包,将它安装到Android文件夹里的android-sdk文件夹。 装好以后像我的文件夹就是这样了

开发环境搭建步骤

一、需要使用的工具 1.开发工具:Eclipse 3.2、MyEclipse 5.0GA 2.JDK V ersion:j2sdk1.4.2_08 3.J2EE Server:JBoss 4.20GA 4.Eclipse SVN plugin:Subclipse 1.2.4 二、集成调试环境搭建 1. 安装JDK 假设安装目录为:C:\Java Tools\JDK\j2sdk1.4.2_08 2. 安装Eclipse 假设安装目录为:C:\ec lipse 3.2\eclipse 3. 安装JBoss 假设安装目录为:C:\jboss-4.0.5.GA 4. 在Eclipse下配置JDK、JBoss 打eclipse后,进入Window-Preferences-Java-Installed JREs,做如下配置 单击Ok完成JDK配置,之后进入Window-Preferences-MyEclipse-Application Servers-JBoss 4,做如下配置

配置JBoss Server为Enable,配置JDK为j2sdk1.4.2_08,单击Ok完成JBoss的配置5. 安装Eclipse SVN plugin 进入Help-Software Updates-Find and Install…,做如下配置 选择Search for new features to install,并单击Next 单击New Archived Site..,选择SVN plugin包文件。 单击OK后,按提示操作完成SVN Plugin的安装。

三、工程环境搭建 该工程包括下列子工程:iTreasuryEJB、iTreasuryWEB、ebank、webdocs、Build、lib、properties、Workdoc。各子工程含义: ◆iTreasuryEJB:iTreasury工程JA V A代码; ◆iTreasuryWEB:iTreasur工程WEB部分代码; ◆ebank:ebank工程JA V A及WEB部分代码; ◆webdocs:js文件及图片; ◆Build:配置文件; ◆Lib:JAR包; ◆Properties:配置文件; ◆Workdoc:工程相关文档。 下面分别介绍各项目新建方法: 1. 新建iTreasuryEJB 选择SVN Repository的itreasuryEJB并右键单击Check out… 选择” Check out as a project configured using the New Project Wizard”,并单击 选择EJB Project并单击Next

开发环境配置文档

Linux开发环境配置文档 1.配置网络 配置网络,包括配置 IP 地址、NFS 服务、防火墙。网络配置主要是要安装好以太网卡,对于一般常见的 RTL8139 网卡,REDHAT9.0 可以自动识别并自动安装好,完全不要用户参与,因此建议使用该网卡。然后配置宿主机 IP 为 192.168.0.121。如果是在有多台计算机使用的局域网环境使用此开发设备,IP 地址可以根据具体情况设置。如图 1.4.1 所示: 图 1.4.1 网络配置 双击设备 eth0 的蓝色区域,进入以太网设置界面,如图 1.4.2,1.4.3 所示:

图 1.4.2 以太网常规设置界面 图 1.4.3 以太网路由设置界面 对于 REDHAT9.0,它默认的是打开了防火墙,因此对于外来的 IP 访问它全部拒绝,这样其它网络设备根本无法访问它,即无法用 NFS mount 它,许多网络功能都将无法使用。因此网络安装完毕后,应立即关闭防火墙。操作如下:点击红帽子开始菜单,选择安全级别设置,选中无防火墙。如图 1.4.4 所示:

图 1.4.4 安全级别设置 在系统设置菜单中选择服务器设置菜单,再选中服务菜单,将 iptables 服务的勾去掉,并确保 nfs 选项选中。 2.配置NFS 点击主菜单运行系统设置->服务器设置->NFS 服务器(英文为:SETUP->SYSTEMSERVICE->NFS),点击增加出现如下在界面,在目录(Drictory):中填入需要共享的路径,在主机(Hosts):中填入允许进行连接的主机 IP 地址。并选择允许客户对共享目录的操作为只读(Read-only)或读写(Read/write)。如图 1.4.5 所示:

实验1-Web开发环境的配置与使用

实验1 Web开发环境的配置与使用 一、实验目的 本实验的目的是让学生掌握Web应用开发环境的配置与使用。重点掌握如何在Eclipse 中配置Tomcat服务器,在服务器上部署和运行Web应用。 二、实验要求 要求学生掌握Web开发环境配置的基本过程,了解并掌握如何在Eclipse中配置Tomcat 服务器,如何管理和使用Tomcat服务器。 三、实验内容与步骤 1.JDK的安装与配置 ●下载并安装JDK。 运行JDK安装程序,按照提示进行安装,并记住JDK 的安装位置,比如:C:\Program Files\Java\jdk1.8.0_20。 ●为JDK配置环境变量: 打开控制面板,选择系统安全->系统,选择高级系统设置,打开系统属性对话框,然后选择环境变量,在系统环境变量中: (1)新建环境变量JA V A_HOME,值为JDK的安装目录,比如:C:\Program Files\Java\jdk1.8.0_20。 (2)新建环境变量classpath,值为:.;%JA V A_HOME%\lib\dt.jar;%JA VA_HOME%\lib\tools.jar; (3)修改环境变量path,在尾部添加:%JA V A_HOME%\bin,如果原来不是以分号结尾,则需要先添加一个分号。 2.Tomcat服务器的安装与配置 ●下载并安装Tomcat服务器 如果是解压版的安装程序,直接解压文件到指定位置,记录解压位置,比如:C:\apache- tomcat-8.0.15。 ●为Tomcat服务器配置环境变量 配置环境变量,变量名为CATALINA_HOME, 值为Tomcat的安装目录。 ●测试Tomcat服务器是否可用 (1)进入Tomcat安装目录的bin目录,运行,如果没出现异常信息并能够正确看到如下启动成功的界面,说明服务器启动没有问题。 (2)打开浏览器,在浏览器中输入http://localhost:8080,可以看到如下的Tomcat主页,

Scala从基础到开发实战

Scala从基础到开发实战 对于进化缓慢的Java跟C++语言来说,目前Scala无疑更适应现代化特质的语言,语法简洁,同时兼备函数式编程与面向对象编程,具有令人耳目一新的编程范式。而运行在Java 虚拟机上的编译环境使得其具有很多的现有工具与类库,拥有快速的可靠的解释器和编译器。 本课程是Scala语言基础课程,面向没有或仅有少量编程语言基础的同学,当然,具有一定的Java或C、C++语言基础将有助于本课程的学习。在本课程内,将更注重scala的各种语言规则和应用,通过学习本课程能具备初步的Scala语言实际编程能力。 Scala最近的红火也得益于Spark分布式内存计算平台的兴起,由于其惊人的计算速度,Spark将要革命Hadoop的说法尘嚣日上,但学习Spark的一项瓶颈是其原生语言Scala并不为大众所熟知,即使是资深程序员,从未听说过Scala者大有人在,于是本门课程也可以称为Spark系列的前置课程,供深入学习大数据技术的同仁们进行热身运动。 课程大纲: 第一课:Scala介绍——如何安装Scala REPL、SBT、IDE,编写简单的Scala程序;函数式编程简介 第二课:Scala的class和object,Scala的变量、类的介绍 第三课:Scala的基本数据类型、控制语句 第四课:高阶函数、Currying、尾递归 第五课:数据结构:List、Map、Set 第六课:组合和继承 第七课:Trait 第八课:响应式编程介绍 第九课:Akka框架(一)——akka的基本用法 第十课:Akka框架(二)——actor的监控 第十一课:Akka框架(三)——网络编程 第十二课:Akka框架(四)——akka使用技巧

集成开发环境的配置及使用说明

集成开发环境的配置及使用说明 本文讲解如何编写MSBuild脚本文件执行编译系统、运行FxCop检查代码、运行NUnit以及NCover进行单元测试、运行SandCastle生成帮助文档四项功能,并如何在集成开发环境中使用。 一、集成开发环境的配置 1.1 工具软件准备 1.1.1 MSBuild 只要安装过VS2005或VS2008后,就可以是路径C:\WINDOWS\https://www.wendangku.net/doc/604781589.html,\Framework中看到MSBuild的三人版本,本例中使用V3.5。另外还得从下面的网站下载一个https://www.wendangku.net/doc/604781589.html,munity.Tasks.msi文件,里面有MSBuild的已经编写好的各种任务。下载地址如下: https://www.wendangku.net/doc/604781589.html,/ 1.1.2 NCover NCover现有网上使用的主要有两个版本NCover3.1和NCover1.5.8,但由于后者是免费版本,所以本例中使用NCover1.5.8版本,下载地址如下:https://www.wendangku.net/doc/604781589.html,/download/community 1.1.3 其它软件 其它软件如下所示: NUnit 2.5.1 FxCop 1.36 HTML Help Compiler Sandcastle Help File Builder v 1.8.0.2 以上包括1.1.1和1.1.2的软件均可在Redmine项目管理的集成开发环境的配置的文件管理中下载,此处就不一一给链接了。下载后均按默认安装即可。但因为要在命令行中使用MSBuild和FxCopcmd命令,所在在环境变量Path中加入: C:\WINDOWS\https://www.wendangku.net/doc/604781589.html,\Framework\v3.5; C:\Program Files\Microsoft FxCop 1.36; 另外再增加两个新变量: DXROOT C:\Program Files\Sandcastle和 HHCEXE C:\Program Files\HTML Help Workshop

大数据开发新手学习指南(经典)

上市公司,官网:https://www.wendangku.net/doc/604781589.html, 大数据开发初学者该如何学习 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……首先,如果你确定了想往这个方面发展,先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器?软件专业——软件开发、编程、写代码?还是数学、统计学专业——对数据和数字特别感兴趣? 其实这就是想告诉你大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。 先扯一下大数据的4V特征: ?数据量大,TB->PB ?数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;

上市公司,官网:https://www.wendangku.net/doc/604781589.html, ?商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; ?处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储:Hadoop HDFS、Tachyon、KFS 离线计算:Hadoop MapReduce、Spark 流式、实时计算:Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库:HBase、Redis、MongoDB 资源管理:YARN、Mesos 日志收集:Flume、Scribe、Logstash、Kibana 消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务:Zookeeper 集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager 数据挖掘、机器学习:Mahout、Spark MLLib 数据同步:Sqoop 任务调度:Oozie 1.1 学会百度与Google

用Apache Spark进行大数据处理——第一部分:入门介绍

用Apache Spark进行大数据处理——第一部分:入门介绍 什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。 Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。 Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。 除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。 在这个Apache Spark文章系列的第一部分中,我们将了解到什么是Spark,它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。 Hadoop和Spark Hadoop这项大数据处理技术大概已有十年历史,而且被看做是首选的大数据集合处理的解决方案。MapReduce是一路计算的优秀解决方案,不过对于需要多路计算和算法的用例来说,并非十分高效。数据处理流程中的每一步都需要一个Map阶段和一个Reduce阶段,而且如果要利用这一解决方案,需要将所有用例都转换成MapReduce模式。 在下一步开始之前,上一步的作业输出数据必须要存储到分布式文件系统中。因此,复制和磁盘存储会导致这种方式速度变慢。另外Hadoop解决方案中通常会包含难以安装和管理的集群。而且为了处理不同的大数据用例,还需要集成多种不同的工具(如用于机器学习的Mahout和流数据处理的Storm)。 如果想要完成比较复杂的工作,就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。每一个作业都是高时延的,而且只有在前一个作业完成之后下一个作业才能开始启动。 而Spark则允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。

史上最全ProE二次开发测试及环境配置方法

32位系统preo5.0二次开发测试及环境配置 首先,proe5.0是配合VC++2008来进行二次开发的,因此首先得安装VS2008,其次,要确保proe5.0中已经安装了protoolkit,安装方法略。 如何测试Pro/Toolkit安装成功 第一步,找到proe安装目录下的protooltik文件夹,并找到..\protoolkit\i486_nt\obj这个路径下的一个叫做make_install的文件,用写字板打开,找到如下 # Pro/Toolkit Source & Machine Loadpoint (EXTERNAL USE - DEFAULT) 这么一行字,然后把它下面的PROTOOL_SRC=../..改成PROTOOL_SRC = ...\PTC\protoolkit,保存下关闭就好了。 第二步,在“开始”中找到Microsoft Visuall Studio Tools→Visual Studio Tools→Visual Studio Tools2008命令提示符,打开。 第三步,在打开的这个界面里面敲下如下字符cd ...\PTC\protoolkit\i486_nt\obj,然后回车,再敲上如下字符:nmake /f make_install dll,然后再回车,等其运行完毕,关掉命令提示符,然后再回到...\PTC\protoolkit\i486_nt\obj文件夹中,会发现多了一个pt_inst_test.dll文件,证明前面的工作全是成功的。 第四步,回到...\PTC\protoolkit文件夹,找到protk.dat文件,用写字板打开,将第二行和第三行前面的“.”改成路径...\PTC\protoolkit,将第五行后面的“18”改成“wildfire5.0”,其他保持不变,保存,关闭。 第五步,启动proe5.0,找到工具→辅助应用程序,打开,点“注册”,找到...\PTC\protoolkit,里的protk.dat,打开,选中,点“启动”,发现左上角出现“’pt_inst_test.dll’启动成功”。关闭“辅助应用程序”。 第六步,打开“文件”菜单栏,会有一个“安装检测”,点击后,会出现“PRO/PROTOOLKIT 安装检测成功”。至此,PRO/PROTOOLKIT安装检测全部完成。 配置VC++2008 Debug模式配置 第一步,加上PRO/TOOLKIT的包含文件和库文件,打开工具→选项→项目与解决方案→VC++目录显示以下内容的目录→包含文件,添加如下文件: ...\PTC\protoolkit\includes ...\PTC\protoolkit\protk_appls\includes ...\PTC\prodevelop\includes ...\PTC\prodevelop\prodev_appls\includes 将包含文件换为库文件,添加如下文件: ...\PTC\protoolkit\i486_nt\obj ...\PTC\prodevelop\i486_nt\obj

利用Scala语言开发Spark应用程序

利用Scala语言开发Spark应用程序 park内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 AD: Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 本文将介绍3个Scala Spark编程实例,分别是WordCount、TopK和SparkJoin,分别代表了Spark 的三种典型应用。 1. WordCount编程实例 WordCount是一个最简单的分布式应用实例,主要功能是统计输入目录中所有单词出现的总次数,编写步骤如下: 步骤1:创建一个SparkContext对象,该对象有四个参数:Spark master位置、应用程序名称,Spark安装目录和jar存放位置,对于Spark On Y ARN而言,最重要的是前两个参数,第一个参数指定为yarn-standalone ,第二个参数是自定义的字符串,举例如下: valsc=newSparkContext(args(0), WordCount ,System.getenv( SPARK_HOME ),Seq(System.getenv( SPARK_TEST_JAR ))) 步骤2:读取输入数据。我们要从HDFS上读取文本数据,可以使用SparkCon valtextFile=sc.textFile(args(1)) 当然,Spark允许你采用任何Hadoop InputFormat,比如二进制输入格式SequenceFileInputFormat,此时你可以使用SparkContext中的hadoopRDD函数,举例如下: valinputFormatClass=classOf[SequenceFileInputFormat[Text,Text]]varhadoopRdd=sc.hadoopRDD(c onf,inputFormatClass,classOf[Text],classOf[Text]) 或者直接创建一个HadoopRDD对象: varhadoopRdd=newHadoopRDD(sc,conf,classOf[SequenceFileInputFormat[Text,Text,classOf[Text],c lassOf[Text]) 步骤3:通过RDD转换算子操作和转换RDD,对于WordCount而言,首先需要从输入数据中每行字符串中解析出单词,水草玛瑙 https://www.wendangku.net/doc/604781589.html,然后将相同单词放到一个桶中,最后统计每个桶中每个单词出现的频率,举例如下: valresult=hadoopRdd.flatMap{case(key,value)= value.toString().split( \\s+ }.map(word= (word,1)).reduceByKey(_+_) 其中,flatMap函数可以将一条记录转换成多条记录(一对多关系),map函数将一条记录转换为另一条记录(一对一关系),高山茶 https://www.wendangku.net/doc/604781589.html, reduceByKey函数将key相同的数据划分到一个桶中,并以key为单位分组进行计算,这些函数的具体含义可参考:Spark Transformation。步骤4:将产生的RDD数据集保存到HDFS上。可以使用SparkContext中的saveAsTextFile哈数将数据集保存到HDFS目录下,默认采用Hadoop提供的TextOutputFormat,每条记录以(key,value)的形式打印输出,你也可以采用saveAsSequenceFile函数将数据保存为SequenceFile格式等,举例如下: result.saveAsSequenceFile(args(2)) 当然,一般我们写Spark程序时,需要包含以下两个头文件: importorg.apache.spark._importSparkContext._ WordCount完整程序已在Apache Spark学习:利用Eclipse构建Spark集成开发环境一文中进行了介绍,在次不赘述。 需要注意的是,指定输入输出文件时,需要指定hdfs的URI,比如输入目录是hdfs:hadoop-testtmpinput,输出目录是hdfs:hadoop-testtmpoutput,其中,hdfs:hadoop-test 是由Hadoop配置文件core- site.xml中参数https://www.wendangku.net/doc/604781589.html,指定的,具体替换成你的配置即可。 2. TopK编程实例

开发环境搭建文档

开发环境搭建 jdk1.5环境的安装和配置 1.jdk1.5的安装 jdk的安装很简单,双击jdk1.5文件下面的jdk-1_5_0_07-windows-i586-p.exe文件,按照步骤一步一步安装即可。 2.jdk1.5的配置 找到jdk1.5的安装路径D:\Program Files\Java\jdk1.5.0_07\bin目录,将其配置到windows 的环境下。 右击“我的电脑”—>“属性”—>“高级” 选择Path点击编辑 将鼠标移到变量值的最前端,把D:\Program Files\Java\jdk1.5.0_07\bin拷贝进去并以分号结束。

配置CLASSPATH,单击新建按钮 输入变量名CLASSPA TH,变量值为“.”; 3.查看jdk是否安装成功 运行cmd,在命令行中输入java。查看命令行的提示信息。 输入javac,查看提示信息。

提示上述信息,则安装成功。 db2客户端环境的安装和配置 1.db2客户端的安装 db2客户端的安装很简单,双击db2 client目录下的setup.exe按提示一步一步安装即可。 2.db2客户端的配置 选择“开始”—>“所有程序”—>“IBM db2”—>“设置工具”—>“配置助手”,打开配置助手,如下图: 单击“选择”—>“使用向导来添加数据库”

选择“人工配置与数据库的连接”选择,单击“下一步”。 选择“TCP/IP”单击下一步。 主机名框中填写DB2服务器的IP地址,服务名保持默认值,端口号填写DB2端口号(默认为50000),单击“下一步”按钮,出现如下图所示界面。

在Eclipse下搭建Android开发环境教程

在Eclipse下搭建Android开发环境教程 我们昨天向各位介绍了《在NetBeans上搭建Android SDK环境》,前不久也介绍过《在MyEclipse 8.6上搭建Android开发环境》,都受到了读者的欢迎。但是很多朋友都认为NetBeans在中国用户不多,MyEclipse 又是收费产品,都没有Eclipse好,很多读者都希望我们介绍一下Eclipse下搭建的Android开发环境,本文将全程演示Android开发环境的搭建过程,无需配置环境变量。所有软件都是写该文章时最新版本,希望大家喜欢。 一相关下载 (1)Java JDK下载: 进入该网页: https://www.wendangku.net/doc/604781589.html,/javase/downloads/index.jsp (或者直接点击下载)如下图: 选择 Download JDK 只下载JDK,无需下载jre. (2)Eclipse下载 进入该网页: https://www.wendangku.net/doc/604781589.html,/downloads/ (或者直接点击下载:BT下载 HTTP下载)如下图:

我们选择第一个(即eclipse IDE for java EE Developers) (3)下载Android SDK 说明: Android SDK两种下载版本,一种是包含具体版本的SDK的,一种是只有升级工具,而不包含具体的SDK版本,后一种大概20多M,前一种70多M。 完全版下载 (android sdk 2.1 r01) 升级版下载 (建议使用这个,本例子就是使用这个这里面不包含具体版本,想要什么版本在Eclipse里面升级就行) 二软件安装 (1)安装jdk 6u19安装完成即可,无需配置环境变量 (2)解压eclipse eclipse无需安装,解压后,直接打开就行 (3)解压android sdk 这个也无需安装,解压后供后面使用 (4)最终有三个文件夹,如下图:

51CTO学院-Scala深入浅出实战初级入门经典视频课程

51cto学院-Scala深入浅出实战初级入门经典视频课程 课程目标 为进一步推动大数据技术的发展和应用,在王家林的带领下联合大数据狂热爱好者和一线实践专家构建了“DT大数据梦工厂”公益团队,旨在免 费分享大数据最佳实践技术,帮助您和公司在大数据时代重铸强大IT大 脑,笑傲互联网+时代!在这里,先从Scala语言的编程开发实战学起。。。适用人群 Scala语言爱好者,Spark技术爱好者,大数据技术学习者 课程简介 《Scala深入浅出实战初级入门经典视频课程》 从Scala的开发环境的搭建起步,基于纯粹动手实战的原则,循序渐进的覆盖Scal a基础、Scala面向对象编程、Scala函数式编程、集合的操作深度实战、Scala测 试等实用实战内容,是《Scala深入浅出实战中级---进阶经典》和《Scala深入浅 出实战高级---高手之巅》的前置课程。纯粹的实战精华课程打造能够进行Scala编程实战的您! 从零开始,跟随着王家林老师每天早晨4点左右发布的一个绝对精华的约15分钟的大数据免费视频学习大数据方面的技术,先从Scala语言的编程开发实战学起。。。 Scala是一门以JVM为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言,此课程是大数据框架Spark的前置课程: 1、Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你 就必须阅读Spark的源代码,就必须掌握Scala;

2、虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发,但 是最快速的和支持最好的开发API依然并将永远是Scala方式的API,所以你必须掌握Scala来编写复杂的和高性能的Spark分布式程序; 3、本课程采用循序渐进的实战方式,深入浅出的讲解Scala所有核心内容和高级实 战技巧 课程 1 第1讲:Scala开发环境搭建和HelloWorld解析 24分钟 本视频介绍了Scala语言的特性,Java的安装,详细介绍了Scala的下载、Scala的环境变量配置,ScalaIDE工具的安装。在Scala的环境安装完成后又动手演示了一个在ScalaIDE中建立Sc ala工程的例子,并演示运行结果。 2 第2讲:Scala函数定义、流程控制、异常处理入门实战 24分钟 本视频以具体的例子代码详细介绍了1)Scala中函数的定义格式,以main函数为例介绍了ma in函数中的参数意义和返回值,同时还介绍了无参数函数的调用方式和有参数函数的调用方式。 2)介绍了Scala中流程控制do-while循环、for循环的使用方式。3)Scala中的异常处理try-catch-finally的使用流程。 3 第3讲:Tuple、Array、Map与文件操作入门实战 15分钟 本视频以具体的例子代码详细介绍了1)Scala中的元组的定义、元组的元素访问方式。2)Scal a中数组的定义、数组的遍历方式。3)Scala中Map集合的定义和访问方式。4)Scala中网络文件和本地文件的访问方式。 4

给大数据开发初学者的一些建议

IT=挨踢,这是IT人的自嘲,进入IT行业是有四五年了,也算得上是一个“老人”了吧,见了不少新人,面试了不少新人,也带了一些新人,多多少少还是有点发言权的。 新人们常常会说我看了多少多少的书,看过某某人写的书,仿佛书看了就会做了。其实不然,很多新人在面试的时候夸夸其谈,说啥啥都知道一点,到真正做的时候,啥都不会。归根到底是没有经验,技术这玩意儿经验非常重要,很多东西如果不是你碰到了,你从书上一辈子都找不到答案。 一般都是先把整个书翻一下,了解一下书的基本内容,然后在实际项目中遇到相应的问题再去翻书,当然这是因为我对技术已经有一定的了解,不需要通读整本书。初学者应该找一些适合自己的书,通读一遍,其中的例子要认真做,一定要自己去写代码,而不是Copy。我以前在学做网页的时候,别人都用Dreamweaver去做,只有我打开源代码编辑器学习HTML源代码的编写。 做完书的例子只能说明你会削木头了,但会削木头离会做柜子还有很远的路要走。还记得达·芬奇画鸡蛋的故事么?不停地重复肯定是枯燥的,所以你需要自己尝试去做一些实际的东西,比如做一个个人主页、一个留言本、一个通信地址本......在这些实际的东西中去实现你的创意,去实现你在书本上所学习的例子,并且将这些例子加入你的思想。 永远不要认为书本能给你带来多少东西,虽然它们很有用,但它们只是一个Key,一个引你入门的Key。 四川是旅游的天堂,无法拒绝她火辣辣的美食,无法拒绝她惊艳的自然风光,更无法拒绝她的古蜀文化。随着社会物质文明和精神文明的不断提高,越来越多的人在社会的残酷竞争中优胜劣汰!在追求男女平等的同时,男生和女生却面临同样的竞争,这就是社会生存潜

MTK 开发环境搭建步骤

MTK 平台软件环境配置 Bright.Zhang 2006-12-27 1. 将软件代码拷贝至D:\pvcs\maui\mcu 目录下,做为工作目录。 2. Perl 将Perl 拷贝至C 盘根目录下,在“我的电脑”→“属性”→“高级”→“环境变量” →“系统变量”→Path 中添加Perl 的路径 C:\perl\bin\; (path参考:C:\Program Files\ARM\bin\win_32-pentium;C:\Program Files\ARM\RVCT\Programs\3.1\569\win_32-pentium;C:\Program Files\ARM\Utilities\FLEXlm\10.8.5.0\1\win_32-pentium;C:\Program Files\ARM\ADSv1_2\bin;c:\program files\imagemagick-6.2.5-q16;C:\perl\bin\;C:\WINDOWS\system32;C:\WIN DOWS;C:\WINDOWS\System32\Wbem;C:\Program Files\TortoiseSVN\bin;C:\Program Files\ARM\RDI\Deprecated\1.3.1\1\windows) 3. 7-Zip 安装7-Zip 软件。完毕后,将C:\Program Files\7-Zip 目录下的7za.exe 文件拷贝到 D:\pvcs\maui\mcu\plutommi\Customer\ResGenerator 目录下 4. MinGW-3.1.0-1.exe MinGW-3.1.0-1.exe 安装到c 盘根目录 5. gcc-core-3.3.1 gcc-core-3.3.1 解压,将“bin”、“info”、“lib”、“man”四个目录覆盖方式复制到c:\ MinGW 中。 6. gcc-g++-3.3.1-20030804-1.tar.gz gcc-g++-3.3.1-20030804-1.tar.gz 解压,将“bin”、“include”、“lib”、“man”四个目录覆 盖方式复制到c:\ MinGW 中。 7. 将c:\ MinGW 目录拷贝至D:\pvcs\maui\mcu\tools 中 8. MSYS-1.0.10.exe 将MSYS-1.0.10.exe 安装到C:\msys\1.0 的默认路径下 在弹出的Dos 框中

实验1 开发环境安装与配置

实验一ArcGIS Server+Flex开发环境安装与配置 一、WebGIS示例 a)Oakland犯罪地图 b)OpenStreetMap c)在线专题图制作 d)地图故事 e)百度地图 f)谷歌地图 二、ArcGIS Server 概述 a)ArcGIS Server是一个基于企业级GIS解决方案。用户可以使用ArcGIS Server在企业内部网或整个互联网范围内恭喜GIS资源(专题地图、地 理数据、专业的空间分析工具等),可以把地图或者其他的地理信息资源 无缝地集成到普通的网站页面中。 b)ArcGIS Server特点(单选) i.集中式管理。数据的维护和管理以及系统升级都只需在服务器端进 行集中的处理,无需在每一个终端用户上做大量的维护工作。 ii.瘦客户端也可以使用复杂的GIS功能。 iii.使WebGIS具备灵活的数据编辑和复杂的GIS分析能力。 iv.支持大量的并发访问,具有复杂均衡能力。 v.可以根据工业标准很好地与其他的企业系统整合。 c)使用ArcGIS Server在Web应用上实现的常用GIS功能(简答) i.在浏览器中显示地图,控制各个图层的显示与隐藏; ii.在浏览器中缩放、漫游地图; iii.在地图上点击、拉框查询信息; iv.显示文本标注; v.在地图上叠加航片和卫片影像; vi.使用SQL语言查询要素; vii.使用多种渲染方式渲染图层;

viii.通过Internet编辑空间要素坐标位置信息和属性信息; ix.动态加载图层; x.显示实时的空间数据; xi.几何要素的空间分析(如缓冲区分析); xii.坐标的投影变换; xiii.扩展的网络分析和空间分析功能。 d)ArcGIS Server体系架构(单选) i.ArcGIS是一个分布式系统,由分布在多台机器上的各个角色协同工 作。 ii.浏览器:支持HTTP协议,支持RIA应用。 iii.Web Server:运行Web应用程序或Web Service的容器。Web应用程序或Web Service通过访问GIS Server中的对象来实现GIS功能,然 后把结果返回给客户端。.NET平台下只支持微软的IIS。 iv.GIS Server:由一个SOM(Server Object Manager)和若干个SOC (Server Object Container)两大部分组成。SOM负责管理、调度来 自Web服务器的请求,SOC是ArcObjects对象生存的空间。 v.桌面应用程序:ArcGIS Desktop或ArcGIS Engine应用程序。通过HTTP访问WebServer上发布的GIS网络服务,或者通过LAN/WAN 直接连接到GIS Server。一般通过ArcCatalog或ArcGIS Server Manger应用程序管理ArcGIS Server中的服务。 三、Flash Builder 4安装 a)直接安装Flash Builder 4。 b)在“C:\WINDOWS\system32\drivers\etc”目录下的hosts文件最后增加 “127.0.0.1 https://www.wendangku.net/doc/604781589.html,”。(需要先修改hosts文件的只读属性)。

开发环境配置说明

手持移动数据终端开发环境配置说明 1、开发环境配置说明 (2) 1.1 SDK安装说明 (3) 1.2 同步软件安装说明 (12) 1.3 驱动程序安装说明 (22) 1.4 Win7同步软件(windows mobile 设备中心)安装说明 (29) 2、如何创建C++ MFC工程(VS2005) (38) 2.1、创建工程 (38) 2.2、调试程序 (43) 3、如何创建C#工程(VS2008) (44) 3.1、创建工程 (44) 3.2、调试程序 (47) 4、如何创建https://www.wendangku.net/doc/604781589.html,工程(VS2008) (49) 4.1、创建工程 (49) 4.2、调试程序 (52) 5、调试程序时无线部署软件 (54)

1、开发环境配置说明 依据开发环境配说明,可以帮助您快速搭建C3000W设备开发环境,配置步骤如下: 1.安装VS2005(Visual Studio 2005)/ VS2008(Visual Studio 2008)或者更新的版本; 2.安装SDK(Software Development Kits)(安装说明);如果使用C#开发,可跳过此项安装。生成可执行程序时,选择目标设备选 择为“Windows CE设备”。 3.安装ActiveSync同步软件,依据操作系统选择相应的同步软件安装(安装说明),如果在开发包中未找到合适版本,请自行从微 软官方网站下载; 4.打开C3000W手持移动数据终端,在开机状态下通过USB数据线将设备与电脑连接,电脑将会出现发现新硬件的提示,依据提示设 定驱动路径,电脑将会自动安装驱动(安装说明),成功后ActiveSync会自动运行将电脑与C3000W手持移动数据终端同步; 上述步骤完成后,C3000W手持移动数据终端的开发环境搭建完成,即可进行相应的二次开发。在二次开发包《参考例程》文件夹中,

Spark 实战第 1 部分使用Scala 语言开发Spark 应用程序

Spark 实战,第1 部分: 使用Scala 语言开发Spark 应用程序 本文旨在通过具有实际意义的案例向读者介绍如何使用Scala 语言开发Spark 应用程序并在Spark 集群上运行。本文涉及的所有源数据都将从HDFS(Hadoop Distributed File System)读取,部分案例的输出结果也会写入到HDFS, 所以通过阅读本文,读者也会学习到Spark 和HDFS 交互的一些知识。 查看本系列更多内容|3评论: 王龙, 软件开发工程师, IBM 内容

关于Spark Spark 由加州大学伯克利分校AMP 实验室(Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的大数据处理的应用程序。并且提供了用于机器学习(MLlib), 流计算(Streaming), 图计算(GraphX) 等子模块,最新的1.4.0 版本更是提供了与R 语言的集成,这使得Spark 几乎成为了多领域通吃的全能技术。Spark 对数据的存储,转换,以及计算都是基于一个叫RDD(Resilient Distributed Dataset) 分布式内存的抽象,应用程序对需要计算的数据的操作都是通过对RDD 的一系列转化(Transformation) 和动作(Action) 算子完成的,其中转化算子可以把一个RDD 转成另一个RDD,如filter 算子可以通过添加过滤条件生成一个只包含符合条件的数据的新的RDD。动作算子负责完成最终的计算,如count 算子可以计算出整个RDD 表示的数据集中元素的个数。关于Spark 所支持的算子以及使用方法请参考Spark 官方网站。本文所使用的Spark 的发行版是1.3.1,读者可根据需要下载相应的版本。 回页首关于Scala Scala 语言是一门类Java 的多范式语言,其设计初衷就是为了继承函数式编程的面向对象编程的各种特性,正如Scala 语言官网描述的那样:Object-Oriented Meets Functional, 就是给出了一个关于Scala 语言特性的最简单明了的概括。 Spark 框架使用Scala 语言开发,那么使用Scala 语言开发Spark 应用程序就变成一件很自然的事情,虽然Spark 提供了面向Python,Java 等语言的编程接口,但是从各个方面来看使用Scala 编程都是最简单最容易理解的,特别是当程序出现异常或者是需要通过学习源码来定位问题时,您会发现学习Scala 语言来编写Spark 应用程序是多么有意义的事情。关于Scala 语言,如果您还没有基础,请参考 ?Scala 语言官网 ?Scala 中文网 ?Twitter 提供的Scala 课堂 ?面向Java 开发人员的Scala 指南系列 由于Spark 1.3.1 版本使用的是Scala 2.10.x 版本,所以本文将使用Scala 2.10.5 版本。 回页首搭建开发环境 1. 安装Scala IDE

相关文档
相关文档 最新文档