文档库 最新最全的文档下载
当前位置:文档库 › 【云计算可研】材料3_验收报告

【云计算可研】材料3_验收报告

项目编号:2 0 1 0 D F A 1 1 0 3 0

密级:公开

国家国际科技合作专项

项目验收报告

项目名称:基于云计算的海量电信业务数据挖掘关键技术

研究与应用

项目承担单位:南京大学

项目负责人:

合作国别:加拿大

验收时间:

组织(推荐)部门:省科学技术厅

项目起止年限:2014年6 月至2015年12 月

中华人民共和国科学技术部

年月制

验收报告编写大纲及要求

一、编写大纲

1.验收基本信息表

2.验收报告正文

3.成效报告

4.成果目录

5.其他必要附件材料及说明

二、格式要求

1.文字简练,报告文本第一次出现外文名称时要写清全称;

2.验收报告密级应与项目申报书、合同书确定的密级相同;

3.公开项目在线填报。请各项目组登录“国家国际科技合作专项网管理系统”

(https://www.wendangku.net/doc/401304779.html,/,用户名:项目编号,初始密码:123456,若已修改密码,请用自行设置的密码登录),进入“结题验收”栏目,按要求在网上填写。

4.内部及内部以上级别项目不得在线填报。请各项目组登录“国家国际科技合

作专项网”(网址为:https://www.wendangku.net/doc/401304779.html,),进入“结题验收”栏目,按要求下载单机版软件后填写,并按要求报送纸制材料和光盘。

5.专业领域、学科、方向请根据软件提供的选择项进行选择。

三、编制程序

1.在项目合同规定结止后40日内,由项目负责人编写验收相关材料,提出验收申请,报送项目组织(推荐)部门。

2.经项目组织(部门)审核后,由验收工作组织部门(科技部国际科技合作专项办公室或相关组织推荐部门),拟定验收日期和验收方式,发布验收通知,项目进入验收程序。

3.项目负责人根据会上(网上)答辩过程中的专家意见,重新调整和修改验收报告、技术报告等相关材料,并填写《专家修改意见处理情况表》。

4.验收结束后一个月内,将验收相关材料,一式一份,经项目组织(推荐)部门审核,报送至国际科技合作专项办公室。

项目验收基本信息表

项目名称 基于云计算的海量电信业务数据挖掘关键技术研究与应用

项目编号 2010DF11030

密级

01

01公开02内部03秘密04机密05绝密

项目合同起始时间

2010年 6月 项目合同终止时间

2012年12月 承担单位 南京大学

代码

466007458

单位性质 大专院校

项目依托研究基地(可多选) 02 01国家实验室;02国家重点实验室;03国际科技合作基地;04国家工程技术研

究中心;05国家级企业技术中心;06部门开放(重点)实验室;07教育部985工程创新基地;08教育部重点学科基地;09其他 归口部门 教育部 代码 000013602 项目组织部门

江苏省科学技术厅 代码 014000378

通讯地址 江苏省南京市汉口路22号 邮政编码 210093

所属地区 江苏省

代码

32

项目领域 信息产业与现代服务业 所属学科 计算机科学技术;电子、通信与自动控制技术

专业方向 人工智能理论;通信技术

项目负责人 高阳

联系电话

025-********

手机

139********

E-mail gaoy@https://www.wendangku.net/doc/401304779.html,

传真 025-******** 国外承担单位 加拿大肯考迪亚大学(Concordia University )

合作国别 加拿大

所属地区 北美洲 代码

124

协议类

02

01政府间协议;02其他

项目类型

02 01基础研究;02应用研究;03试验发展;04产业化;05其他

合作目标 (可多选) 01、

06

01解决关键瓶颈技术;02填补国内技术空白;03引进国际优秀人才;

04引进具有重大应用前景的前瞻技术;05引进国家战略需求的关键技术、装备;

06 解决国家科技计划\重大专项难点、瓶颈;07 分享国际前沿科技成果;08 其他

执行情况 02 01执行中;02按期完成; 03提前完成;04拖延;05撤销 / 终止 目标完成情况

01

01达到预期指标;02超过预期指标; 03未达到预期指标 实际参加研究人员

总计 20 人 国内 人 国外 1 国内

高级职称 7人 中级职称 人 初级职称 博士学位 人 硕士学位 人 其他 12 国外

高级职称 1人 中级职称 人 初级职称 博士学位 人

硕士学位

人 其他

其中 中科院院士

工程院院士

人 国家科技计划(国家科技重大专项、863计划、973计划、支撑计划、条件平台建设等)项目/课题负责人(首席专家) 人 长江学者奖励计划

人 中科院百人计划

人 国家杰出青年基金

经费

情况 总经费: 335 万元

其中:从企业获得研发经费投入 万元

国际合作专项拨款: 175 万元 其他财政拨款(含部门、地方匹配): 万元

单位自有货币资金: 160 万元

其他资金: 万元

使用外方资源情况

使用外方经费万元人民币(指外方投入的由中方支配和使用的货币资金)

利用外方关键技术 3 技术名称:云计算框架下的基本算法;聚类算法;系统过滤算使用外方关键设备台设备名称:

利用外方特有资源

物种数样本数数据量图纸数其他(名称:)

项目成果

引进人才

总计:

高级职称博士后博士硕士工程技术人员

人人人人人总计来华工作:人月其中高级职称人员来华工作人月

引进关键技术项技术名称:

技术形式01 01软件;02计算方法;03模型;04专利;05数据库;06其他技术先进性03 01世界独有;02国际领先;03国际先进;04国内领先

技术成熟度02 01实验室成果;02中试阶段;03已产业化

引进关键设备台设备名称:

引进特有资源

物种数样本数数据量图纸数其他(名称)中文核心期刊论文篇数:5 国外学术期刊论文篇数:5 国际合著论文篇数:5

中文专著数:外文专著数:

论文收

录情况

SCI 篇SSCI 篇EI 篇CSCI 篇

国际会议特邀报告篇国内全国性会议特邀报告篇国外发明

专利

自主:2 项国内发

明专利

自主:4项实用新

型专利

自主:项

其它专利

自主:项合作:1 项合作:2项合作:项合作:项取得技术

标准

国际标准国家标准国内行业标准标准数:标准数:标准数:

标准号:标准号:标准号:

其他知识

产权

计算机软件登记集成电路布图设计生物新品种登记其他项数:2 项数:项数:项数:

名称:名称:名称:名称:培养人才博士后 1 人博士 3 人硕士 6 人工程技术人员 3 人

成果应用成果转让项成果转让收入万元创造产值万元创造利润万元创造税收万元

新产品种数种关键元器件种数种关键材料种数种

形成高新企业数家带动就业人数人带动出口额万元

突破国外技术封锁的关键技术

名称

替代进口额万元提高能源使用效率%

降低万元单位产值能耗

(标准煤公斤)

可替代何种能源提高环保减排效率%

解决何种重大疾病和新发再发

传染病

增加农作物单产产值解决国家重大工程的关键技术

名称

合作/引进成果知识产权归属 1. 中方70 %; 2. 国外合作方30 %

合作交流情况

合作方式

(可多选)

04、05、

06、07、

08

01购买全套技术及消化吸收;02购买关键know-how;

03引进关键技术设备;04分工合作研发;05聘请专家来华工作;

06赴国外技术培训;07利用国外资源;08信息交流、技术咨询举办学术会议出国参加

会议、培训

合作来访合作出访国内会议国际会议次数:3 次数:3

次数人次次数人次次数人次人次:8 人次:12

6 12 在华时间:6 人月在外时间:9 人月

项目负责人承诺:

我承担的项目为(项目编号:2010DF11030 ,项目名称:基于云计算的海量电信业务数据挖掘关键技术研究与应用),保证所填写的所有栏目内容和数据属实。若填报失实或违反有关规定,本人将承担全部责任。

项目负责人(签字):

年月日

项目承担单位审核意见:

经审核,该项目以上所填内容和信息准确、真实,同意上报。

负责人签字:单位盖章:

年月日

项目组织(推荐)部门审核意见:

经审核,该项目以上所填内容和信息准确、真实,同意上报。

负责人签字:组织(推荐)部门盖章:

年月日

项目验收报告

(正文)

编写大纲

一、合作背景与合作理由

1.项目合作背景及合作重要性、必要性:

(包括合作内容的国内外现状和发展趋势,项目合作在促进科学技术突破、经济、社会发展、国家安全或外交工作等方面的战略重要性及合作必要性、紧迫性,所选合作外方的重要性等)

随着电信行业的发展,电信运行商之间的竞争也愈发激烈。为了在竞争中获取胜利,正确的商业策略成为电信运营商成功的关键环节。电信运营商拥有海量用户数据信息,利用数据挖掘技术,可在语音业务、数据业务等海量用户数据中挖掘用户行为偏好,为市场的精准营销和业务的个性化体验打下基础。随着用户规模的扩大及对应用目标的多样需求,数据挖掘应用面临了新的挑战。

首先,用户规模越来越大,由大量用户产生了海量数据,包括业务数据、计费数据以及网管数据等。以中国移动为例,一个中等规模的省公司拥有大约1000万用户,每年产生的CDR数据量大约在12-16TB。一个非常简单的业务目标的数据挖掘,经过数据预处理后,算法需要处理大约10GB的数据。而一个省公司的网管数据更是海量,可达到一天1TB量级。其次,随着应用需求的愈加复杂及变化多样,数据挖掘应用向其IT支撑平台提出了更高计算要求及存储能力,数据挖掘应用也逐步提出及时性要求,及时的商业策略才能快速占领市场。

以上问题向传统的数据挖掘系统提出了新的挑战,传统数据挖掘系统运行于Unix小型机的集中平台上,受到很多限制。目前,以一个聚类应用为例,现有的商用数据挖掘系统仅能支持100万用户一个月内数据的知识发现,这距离用户的要求还相差很远。并且,传统的IT支撑平台成本很高。

云计算的兴起给解决上述问题提供了一个崭新的思路。云计算使用大量廉价的PC,构建计算机集群,提供海量的分布式存储和简单的分布式计算平台。云计算平台的易编程、高容错、方便扩展等特性,使得处理超大规模数据的分布式计算成为现实。在Google、Facebook、Yahoo等公司,云计算已被广泛用于包括数据挖掘在内的大规模数据处理工作。

云计算采用MapReduce计算模型,这意味着现有的数据挖掘算法不能直接应用于云计算平台,需要进行一定的改造。将数据挖掘算法改造以适用于MapReduce计算模型,就是本项目研究的核心问题。在学术界,已经有部分相关的研究成果,但是还不够全面,只对部分算法有研究,而且对于实现的细节冰没有公开。因此,迫切需要开展本项国际科技合作项目,以研究解决基于云计算平台下实现数据挖掘算法的重大关键问题,并实现一个基于云计算的海量电信数据挖掘分布式应用系统。

合作各方在数据挖掘、机器学习、互联网服务、云计算、分布式网络计算模型等先进技术研发,以及对国内外电信行业和市场的产业服务方面具有很强的优势互补性,可保证项目合作目标的顺利实现,并力争达到国际先进、国内领先水平。

2.合作的优势互补性:

(指出合作各方的科学技术优势及合作外方拥有哪些我方所需的关键(核心)技术、应用成果、前沿理论或专有人才等智力资源、技术资源、自然资源或市场资源)项目合作方中方单位南京大学在数据挖掘、机器学习和人工智能领域具有很强的研究基础和实力,一些研究成果已投入了应用,产生了一定的社会和经济效益。其中,针对电信行业独有的海量短消息数据,成功研制开发了针对移动通信和电信用户的短消息内容数据挖掘系统,并投入实际应用。合作方加拿大方单位肯考迪亚大学(Concordia University)在Web service、数据仓库、云计算和分布式网络计算方面具有很好的研究背景和条件,在开展和实现本项目的研究和实际应用做方面具有很好的技术和市场优势与互补性。

二、合作目标、内容完成情况

1.合作目标、主要内容及完成情况:

(对照项目任务合同书中的主要合作目标、任务、内容及相关考核指标,阐述项目完成与目标实现情况)

合作目标:

研究解决基于云计算平台的数据挖掘算法的重大关键问题,并实现基于云计算的海量电信用户数据挖掘关键技术研究及应用平台。

主要内容:

(1)构建服务于电信数据挖掘的云计算平台;

(2)研究并实现常用数据挖掘基本算法在云计算平台中的MapReduce化。

(3)构建一个海量电信业务数据挖掘的分布式应用

项目成果:

(1)云计算平台

(2)基于云计算平台的数据挖掘算法研究报告(包括算法的MapReduce流程图)

(3)基于云计算平台的数据挖掘算法代码库(包括详细的注释)

(4)基于云计算平台的数据挖掘算法评测数据和评测文档

(5)基于云计算平台的数据挖掘分布式应用原型

具体指标完成情况:

(1)成功搭建一个云计算平台,可导入TB级规模数据,可运行基础的大规模数据分布式运算(1TB数据的WordCount和Sort),并且具有好的负载平衡、扩展性,通过容错性测试。

(2)算法性能指标:对于同一数据挖掘算法,相对于单机算法和1台worker的MapReduce算法,实现与机器数量接近线性提高。

(3)算法效果指标:MapReduce算法结果和单机相同算法基本达到相同效果。

(4)在国内外相关专业期刊上发表论文17篇,研究(咨询)报告2份。

(5)申请国内软件著作权2项,国内专利6项,国际发明专利3项。

(6)联合培养数据挖掘、机器学习与分布式网络计算等相关方向博士后1人、博士2人、硕士9人。

2.对项目考核目标、内容调整情况的说明:(如无调整此项不写)

三、合作实施情况及国际合作所起的作用

(重点表述国际合作对项目完成及在项目实施过程中所起的关键或特殊作用)

1.组织实施情况:

(包括项目合作所涉的合作各方信息、人才、技术、资金、设施及合作渠道等资源的组织、集成、整合、投入和使用方式、方案,以及工作流程、合作各方任务分配、合作方式、人

员交流计划等)

中方投入:

(1)人才:教授1人,副教授1人,博士后1人,博士生3人,硕士生9人;高级工程师3人,工程技术人员8人。

(2)技术:中方南京大学项目组成员所在的“机器学习与智能化软件支撑技术”研究团队,是国内机器学习与数据挖掘领域最活跃、在国际上有一定影响的研究团队之一,该团队在机器学习与数据挖掘方面深厚的研究基础和丰硕的研究成果为开展本项研究提供了有力的技术支撑;中方北京西慧科技发展有限公司项目组成员具有多年从事电信行业产品研发、项目管理、市场开拓方面的实际工作经验,其在电信行业的深厚背景为本项目研究成果的市场化和市场推广工作打下了坚实的基础。

(3)理论:数据挖掘、机器学习、人工智能等方面的理论研究基础和成果。

(4)资金和自然资源投入:中方单位所依托的南京大学计算机软件新技术国家重点实验室是国内著名的计算科研机构,在国家科技部等部门2007年组织的五年一度的信息科学领域国家重点实验室评估中被评为优秀类国家重点实验室(计算机学科领域第一名)。计算机软件新技术国家重点实验室科研投入充足,拥有国内一流的计算机硬件设备以及优越的软件环境,工作和实验条件优良。实验室还具有一大批信息检索、数据挖掘、机器学习、计算机软件、人工智能、图形与多媒体等方面的专业文献,南京大学也订阅了大量的国际电子刊物全文数据库,课题组在查阅国际最新文献资料方面非常便利,为本课题的研究提供了充分的实验条件保障。实验室还与国内外多家科研单位有良好的协作关系,科研、创新氛围浓厚,具有良好的学术研究平台,为本合作项目的顺利完成提供了可靠的资金和资源保障。中方西慧科技发展有限公司具有良好的运作资本、大批高素质的设计技术人员以及丰富的通信理论知识、实际工作经验和市场资源,为项目的产业化推广提供了重要的保障。

加方投入:

(1)人才:教授2人,高级研究员1人,博士后2人,博士生2人,硕士生3人,技术工程人员3人。

(2)技术:外方项目组成员是国际上互联网服务、数据挖掘和分布式网络计算研究领域具有一定影响的学者,其在互联网服务、数据协同过滤、云计算平台技术等深厚的研究基础和丰硕的研究成果为开展本项研究提供了有力的技术支撑。

(3)理论:Web service、数据仓库、数据协同过滤、云计算平台技术、分布式网络计算等方面的理论研究基础和成果。

(4)资金和自然资源投入:外方单位所依托的加拿大肯考迪亚大学、加拿大蒙特利尔魁北克大学均为加拿大一流的大学和研究机构,其人才、技术和资源优势无疑为中方项目组提供了良好的支撑条件和互补性。外方项目负责人Yuhong Yan教授及项目组主要成员Daniel Lemire教授主持有加拿大NSERC Discovery Gran基金项目、加拿大Canarie NEP Program项目的研究工作,为项目合作的顺利开展提供了良好的资金和资源投入保障。值得一提的是,肯考迪亚大学、蒙特利尔魁北克大学均属于加拿大魁北克地区重点支持的院校,有望获得当地政府更优越的项目合作支持和投入。

项目实施方案与分工“

1.加方负责完成云计算平台的搭建工作,并提供云计算平台搭建说明书;

2.中方与加方分工合作,完成主要数据挖掘算法的Mapreduce化设计、编码、测试任务,

并分别撰写算法研究报告和算法评测文档。其中,主要数据挖掘算法的分工如下:

加方负责:

(1)基本算法:WordCount、TF-IDF、排序、距离计算(Euclidean,Manhattan)

(2)聚类:K-means,Canopy,Graph Mining(the Shortest Path)

(3)协同过滤:User-Based Collaborative Filtering(CF),Item-Based CF

中方负责:

(4)分类与预测:KNN,Na?ve Bayesian,SVM,BP Neural Network,Locally-Weighted Linear Regression(LWLR),Logistic Regression

(5)关联规则:Apriori

(6)中文处理:分词(具有新词学习和词库扩充功能)

(7)网页解析:VIPS,DOM-Tree

3.中方与加方分工合作,共同完成基于云计算平台的数据挖掘分布式应用原型系统,并

撰写系统研制报告:

4.中方负责提供对各算法和整个系统进行评测的测试数据集,主要包括:

(1)天网200G或SogouT 1TB测试数据集;

(2)TeraByte Sort 1TB测试数据集;

(3)IMDB Dataset(演员合作网络)测试数据集

(4)SougouCS 1.7GB测试数据集

(5)KDD CUP 1999 743M测试数据集

(6)Netflix Prize 665测试数据集

5.中方与加方分工合作,共同完成整个系统的测试和验收。

人员交流计划:

(1)项目执行期间,每年安排一次双方的人员交流合作,每次时间为1-2个月。

(2)项目执行期间,项目合作双方主要成员每月进行一次远程视频会议讨论。

(3)联合培养博士生3人,硕士生9人。

实验条件和平台共享:

双方在项目实施过程中将互相向对方开放各自的实验设备和平台环境,用于进行本合作项目的研究、开发和实验室验证。

协调机制:

中加双方以目标管理为重点,建立了必要的协调机制,包括(但不限于):双方研发骨干互访、定期发行项目进展通报、每周一次的国际会议电话会商等等。同时双方项目负责人,每月进行一次研发阶段性绩效考核,并根据考核结果进行通报和会商。

2.技术实施情况:

(包括采取的联合研发或引进技术的消化吸收再创新情况及技术路线,以及本项目所涉主要科学技术瓶颈、难点的合作或引进解决情况)

具体研究方法:

以加拿大合作方提供的Web service、云计算平台搭建等关键技术为基础框架,坚持以“引进吸收消化后再创新“为贯穿始终的原则,结合我方在长期研发中积累的国内经验,通过中外技术合作方式(在于外方合作的过程中,基础人员组成和测试环境以我方为主),形成理论分析、逻辑优化、适应性研究与设计、分系统模拟测试、现场专家征询等综合研究方法。重点研究服务于电信数据挖掘的云计算平台构建技术、常用数据挖掘基本算法的MapReduce化技术以及海量电信业务数据挖掘的分布式应用系统开发技术。

采用的基本技术路线如下:

(1)构建云计算平台

在Linux下,搭建一个计算机集群,集群中可用的计算机数不少于10台。使用

Hadoop在该集群中构建一个云计算平台,包括分布式文件系统HDFS、MapReduce

编程环境,简单高效的数据加载(导入)工具,以及对集群的统一管理。在该云计

算平台进行TeraByte Sort测试和WordCount测试,要求具有好的负载平衡、容错

性、扩展性。详细步骤和经验输出到云计算平台搭建说明书。

(2)算法的MapReduce化

a)基本算法:WordCount、TF-IDF、排序、距离计算(Euclidean,Manhattan)

b)聚类:K-means,Canopy,Graph Mining(the Shortest Path)

c)协同过滤:User-Based Collaborative Filtering(CF),Item-Based CF

d)中方负责:

e)分类与预测:KNN,Na?ve Bayesian,SVM,BP Neural Network,Locally-Weighted

Linear Regression(LWLR),Logistic Regression

f)关联规则:Apriori

g)中文处理:分词(具有新词学习和词库扩充功能)

h)网页解析:VIPS,DOM-Tree

(3)分布式应用系统开发

以上述分布式算法库为基础,在上述云计算平台上,构建一个海量电信业务数据挖

掘的分布式应用。该应用以WAP/WEB分析为背景,可以对大量用户访问日志进行挖

掘,综合了爬虫、网页解析、分析、分类计数,对网页进行分类,通过聚类、关联

规则、协同过滤等技术,进行用户聚类和用户个性化推荐。

四、合作成果与知识产权保护

1.取得的技术突破和技术创新:

(指出通过国际合作解决了哪些科学技术瓶颈、难点,取得的重要技术突破和技术创新,是否突破了国外对我的技术封锁。要求具体、明确)

通过国际合作研究解决基于云计算平台的数据挖掘算法的重大关键问题,并实现基于云计算的海量电信用户数据挖掘关键技术研究及应用平台。

主要内容:

(1)构建服务于电信数据挖掘的云计算平台;

(2)研究并实现常用数据挖掘基本算法在云计算平台中的MapReduce化。

(3)构建一个海量电信业务数据挖掘的分布式应用

2.取得的合作成果及水平:

(包括人才、技术、装备设备引进及论文著作、专利、标准、新技术、新产品[含生物新品种、计算机软件等]、新装置、新工艺、新材料等合作成果与知识产权的数量及水平,形成拥有自主知识产权的重要核心技术或重大战略产品情况,尤其是在引进消化吸收再创新方面的成果。)

项目成果:

(1)云计算平台

(2)基于云计算平台的数据挖掘算法研究报告(包括算法的MapReduce流程图)

(3)基于云计算平台的数据挖掘算法代码库(包括详细的注释)

(4)基于云计算平台的数据挖掘算法评测数据和评测文档

(5)基于云计算平台的数据挖掘分布式应用原型

具体指标完成情况:

(1)成功搭建一个云计算平台,可导入TB级规模数据,可运行基础的大规模数据分布式运算(1TB数据的WordCount和Sort),并且具有好的负载平衡、扩展性,通过容错性测试。

(2)算法性能指标:对于同一数据挖掘算法,相对于单机算法和1台worker的MapReduce算法,实现与机器数量接近线性提高。

(3)算法效果指标:MapReduce算法结果和单机相同算法基本达到相同效果。

(4)在国内外相关专业期刊上发表论文17篇,研究(咨询)报告2份。

(5)申请国内软件著作权2项,国内专利6项,国际发明专利3项。

(6)联合培养数据挖掘、机器学习与分布式网络计算等相关方向博士后1人、博士2人、硕士9人。

合作成果达到了国内领先,国际一流水平。

3.成果、知识产权等的权益归属、分享、保护、使用措施、方案:

(措施、方案、指标要明确、具体、有效,并有约束性;对可能出现的知识产权纠纷的预防及解决方案)

合作成果及其知识产权归属方案,将参照国际惯例并结合本项目特点确定。

首先,就知识产权保护方式,双方在合作初始,就明确各自已有的知识产权权属保持不变,并在合作开始后签署有关互相保护知识产权的备忘录。在合作过程中,外方提供的软件算法爆、数据逻辑模型开放接口及相应的知识产权,由中方拥有使用权和再研发权。以中方为主研发出的适合中国企业的专业平台,知识产权全部由中方所有,权益归属中方。

其次,由双方共同研发出的适合电信行业的分布式数据挖掘应用平台,权益归属参照双方的投入和贡献大小,原则以按7:3分享,其中:中方70%,外方30%。单项技术知识产权根据三方投入,由三方协商确定。

4.外方合作投入及我方使用、掌握情况:

(包括资金、人员、技术、材料、设备、信息数据及特有资源等,并注明是否投入到中方,是合作实施期间使用还是归中方所有;对已/可能出现的知识产权纠纷的预防及解决方案)外方合作方投入专项费用20万加币(约合110万人民币),由外方支配,用于云计算研发平台硬件设备的维护和保养、数据挖掘算法软件研发费用、部分测试费用、出版费用以及在外国为本项目发生的差旅费用等。

外方项目负责人及主要成员在构建具有自管理特性的互联网服务进程方面取得了国际领先的技术优势,尤其在互联网服务进程的规范化模型构建、自适应和自动配置算法、正确性验证的技术上去得了一定的理论突破和应用创新,结合其在分布式系统整合、数据协同过滤、云计算和网格计算方面的先进技术优势,将为本合作项目研究的顺利开展提供良好的技术保障,以上先进技术将在本项国际合作项目中率先引入。

此外,本项目外方项目组拥有充足的科研投入和良好的分布式网络计算实验环境,以上的外方资源将部分用于支持中方项目组成员赴外方单位进行学术交流和合作研究,以及供中方项目组搭建面向海量电信数据挖掘的云计算平台试验和仿真环境。

5.我方投入的已有资源、知识产权的保护情况:

(包括我方已有的、投入本合作项目的信息、数据、技术、材料、设备装备、特有资源等资源和知识产权及其使用、保护情况,是否有效维护了国家利益,保障了国家安全)此项合作课题内容、形式等,完全符合国际法规、惯例和合作方所在国家的法规、伦理,已有资源、知识产权均归原始持有人所有,受到国际法规、惯例和合作方所在国家的法规、伦理的保护。

五、取得的经济、社会、环境、外交效益

1.取得的经济、社会、环境效益:

(包括在国家重大工程建设或重大装备开发中发挥的作用;与国内外同类产品或技术的竞争分析,成果应用和产业化情况,对促进相关产业技术进步、带动新兴产业发展、提升我国相关产业竞争力的作用;技术及产品应用所形成的市场规模、效益及促进就业情况等;项目实施中形成的示范基地、中试线、生产线及其规模等;对保障国家安全、改善民生、提高公共服务能力、促进社会可持续发展的作用等。属于产学研结合的项目,请给出对联合研发或引进技术的产学研联合机制、具体方案,以及企业参与、企业投入及企业技术应

用方案等)

本项目研究解决基于新型云计算平台的海量电信业务数据挖掘技术的重大关键问题,实现可快速处理千兆字节(PB)级数据的云计算海量电信业务数据流挖掘应用平台,并在国内各市县级电信公司进行成功的市场推广与应用,创造和节省相关业务收入。

主要指标如下:

(1)系统整体上达到国际先进水平,最大可容纳10万台节点服务器;可提供64千兆字节(PB级)的存储空间,高校管理100亿个文件,单目录支持1000万个文件。(2)实现基于云计算的聚类分析、趋势预测、分类监控、协同过滤以及异常行为检测等高校的数据流挖掘算法,处理数据速度可达100万跳/分钟,汇总县级电信公

司一年的业务数据流只需1分钟。

(3)具备超强的股长探测与自我恢复能力,系统能够自动发现磁盘损坏、网络中断、系统宕机等异常并自发进行恢复,保证业务的连续性和数据呃完整性。

(4)系统投入市场,可实现销售产值1000万元;并通过项目定制、技术服务实现收入300万元;同时力争在国内各主要县级电信公司实现部署和运行,创造和节省相

关业务收入2000万元。

2.对国家外交工作的支撑和推动作用:

(包括政府间科技合作协议落实及取得的效益、影响;对国家外交工作的支撑与服务情况;项目实施在国际上取得的外交影响;对提升我国相关工作国际声望、国际影响力的作用等)通过项目合作,推动了同加拿大方面的科技外交工作,为进一步加强国际科技合作打下了坚实的基础。

六、经费使用情况

科目费用(万元)

1.设备费50.00

2.材料费14.00

3.测试化验加工费13.54

4.燃料动力费10.00

5.差旅费(指国内差旅费)30.00

6.会议费22.00

7.合作与交流费50.00

国内人员出国考察费35.00

海外专家来华交流费15.00

8.出版/文献/信息传播/知识

19.00

产权事务费

9.劳务费91.46

国内人员劳务费75.00

海外专家劳务费16.46

10.专家咨询费16.00

国内专家咨询费8.00

海外专家咨询费8.00

11.管理费9.00

12.技术引进费0.00

13.其他费用10.00

七、存在的问题、取得的合作经验及建议。

在合作过程中,双方通过不断的探索和学习,突破了一些关键技术。但总的看来,相关技术还处于不断的发展之中,还有很多很多进行深入研究和开打的空间。通过同外方的合作,中方进一步缩小了科技研究上同国际先进的差距,基本上达到了国际一流的水平。建议在此基础上进一步加强国际合作。

八、签章(项目负责人签字,项目承担单位盖章)

项目成效报告

项目名称基于云计算的海量电信业务数据挖掘关键技术研究与应用

项目编号2010DF11030 项目负责人高阳

项目承担单位南京大学

外方合作单位加拿大肯考迪亚大学(Concordia University)

一、主要合作目标和内容(包括任务合同书所规定的主要合作目标,项目实施、执行期间的主要合作内容,限300字以内)

合作目标:

研究解决基于云计算平台的数据挖掘算法的重大关键问题,并实现基于云计算的海量电信用户数据挖掘关键技术研究及应用平台。

主要内容:

(1)构建服务于电信数据挖掘的云计算平台;

(2)研究并实现常用数据挖掘基本算法在云计算平台中的MapReduce化。

(3)构建一个海量电信业务数据挖掘的分布式应用

二、项目战略意义及国际合作的重要性(限500字以内)

1、通过合作研发、引进优秀人才、引进关键技术或设备,解决我国重大的科技瓶颈问题;或突破国外对我技术封锁,解决了国家战略性需求;或填补我国科学技术空白,实现我国在该行业、领域科学技术的跨越式发展等方面的具体情况;

随着用户规模的扩大及对应用目标的多样需求,数据挖掘应用面临了新的挑战。云计算的兴起给解决上述问题提供了一个崭新的思路。云计算使用大量廉价的PC,构建计算机集群,提供海量的分布式存储和简单的分布式计算平台。云计算平台的易编程、高容错、方便扩展等特性,使得处理超大规模数据的分布式计算成为现实。

云计算采用MapReduce计算模型,这意味着现有的数据挖掘算法不能直接应用于云计算平台,需要进行一定的改造。将数据挖掘算法改造以适用于MapReduce计算模型,就是本项目研究的核心问题。在学术界,已经有部分相关的研究成果,但是还不够全面,只对部分算法有研究,而且对于实现的细节冰没有公开。因此,迫切需要开展本项国际科技合作项目,以研究解决基于云计算平台下实现数据挖掘算法的重大关键问题,并实现一个基于云计算的海量电信数据挖掘分布式应用系统。

合作各方在数据挖掘、机器学习、互联网服务、云计算、分布式网络计算模型等先进技术研发,以及对国内外电信行业和市场的产业服务方面具有很强的优势互补性,保证了项目合作目标的顺利实现,并力争达到国际先进、国内领先水平。

2、执行政府间科技合作协议,推动我国科技外交工作等服务于国家外交工作情况。

通过项目合作,推动了同加拿大方面的科技外交工作,为进一步加强国际科技合作打下了坚实的基础。

三、国际合作成果、技术突破、创新点概述(包括取得的主要合作成果、自主知识产权及分享情况,在学术、技术上的突破和创新情况,限500字以内)

项目成果:

(1)云计算平台

(2)基于云计算平台的数据挖掘算法研究报告(包括算法的MapReduce流程图)(3)基于云计算平台的数据挖掘算法代码库(包括详细的注释)

(4)基于云计算平台的数据挖掘算法评测数据和评测文档

(5)基于云计算平台的数据挖掘分布式应用原型

具体指标完成情况:

(1)成功搭建一个云计算平台,可导入TB级规模数据,可运行基础的大规模数据分布式运算(1TB数据的WordCount和Sort),并且具有好的负载平衡、扩展性,通过容错性测试。

(2)算法性能指标:对于同一数据挖掘算法,相对于单机算法和1台worker的MapReduce算法,实现与机器数量接近线性提高。

(3)算法效果指标:MapReduce算法结果和单机相同算法基本达到相同效果。

(4)在国内外相关专业期刊上发表论文17篇,研究(咨询)报告2份。

(5)申请国内软件著作权2项,国内专利6项,国际发明专利3项。

(6)联合培养数据挖掘、机器学习与分布式网络计算等相关方向博士后1人、博士2人、硕士9人。

四、国际合作的作用、效果及影响(下列选项中相符的要重点阐述,用具体事例和数据说明,突出亮点,图文并茂,300字/项;其中,第3、6、10、11、12项为必填,其他项根据项目实际情况选填)

1、利用国际合作解决国家热点问题,包括改善民生、节能减排、环境保护、新能源开发利用、安全生产等情况;

2、创建双边、多边国际合作交流基地,建立良好的国际合作环境和长效机制情况;

3、通过合作引进国际顶尖及优秀人才(其国际声望、科技水平和在项目执行中发挥的作用及取得成效),培养我国具有全球开拓能力的科学家和青年人才,提高自主创新能力和研发水平的情况;(必填)

合作各方在数据挖掘、机器学习、互联网服务、云计算、分布式网络计算模型等先进技术研发,以及对国内外电信行业和市场的产业服务方面具有很强的优势互补性,可保证项目合作目标的顺利实现,并力争达到国际先进、国内领先水平。同时也保证了对青年人才的培养,提高了自主创新能力和研发水平。通过合作联合培养数据挖掘、机器学习与分布式网络计算等相关方向博士后1人、博士2人、硕士9人。

4、开展以企业为主体的国际合作与交流,提高企业技术创新能力,促进高新技术的产业化和企业的国际化;

5、有力促进国家主体科技计划(国家科技重大专项、863计划、973计划、支撑计划、条件平台建设等)项目和重大专项中关键科学技术问题的解决,提升项目研发水平、层次及国际影响力情况;

6、通过开展以我为主的国际科技合作与交流,引进关键技术,特别是军民两用关键技术,解决保障我国经济、社会又好又快发展和国家安全的重大技术问题,适应国家经济、社会和安全的战略需求情况;(必填)

随着用户规模的扩大及对应用目标的多样需求,数据挖掘应用面临了新的挑战。云计算的兴起给解决上述问题提供了一个崭新的思路。云计算使用大量廉价的PC,构建计算机集群,提供海量的分布式存储和简单的分布式计算平台。云计算采用MapReduce计算模型,这意味着现有的数据挖掘算法不能直接应用于云计算平台,需要进行一定的改造。将数据挖掘算法改造以适用于MapReduce计算模型,就是本项目研究的核心问题。在学术界,已经有部分相关的研究成果,但是还不够全面,只对部分算法有研究,而且对于实现的细节冰没有公开。因此以研究解决基于云计算平台下实现数据挖掘算法的重大关键问题,并实现一个基于云计算的海量电信数据挖掘分布式应用系统具有重大的战略意义。

7、通过国际合作,取得重大的具有自主知识产权的高新技术成果,引领和带动新兴产业的发展情况;

8、积极参与国际重大科技计划、大科学工程,分享世界前沿科学技术成果,和/或通过国际合作促使我国科学家在国际科学组织担任了重要职务,或牵头组织以我为主的国际重大科学计划,提高我国国际科技影响力和地位情况;

9、以“走出去”形式带动区域国际合作,包括建立合作平台、技术输出、技术示范和培训等,推进我国外交工作等情况;

10、通过合作研究或交流活动,建立广泛、有效、稳定、双赢的合作关系,获取国际先进理念关键技术情况;(必填)

外方单位加拿大肯考迪亚大学、加拿大蒙特利尔魁北克大学均为加拿大一流的大学和研究机构,其人才、技术和资源优势无疑为中方项目组提供了良好的支撑条件和互补性。外方项目负责人Yuhong Yan教授及项目组主要成员Daniel Lemire教授主持有加拿大NSERC Discovery Gran基金项目、加拿大Canarie NEP Program项目的研究工作,为项目合作的顺利开展提供了良好的资金和资源投入保障。值得一提的是,肯考迪亚大学、蒙特利尔魁北克大学均属于加拿大魁北克地区重点支持的院校,有望获得当地政府更优越的项目合作支持和投入。肯考迪亚大学(Concordia University)在Web service、数据仓库、云计算和分布式网络计算方面具有很好的研究背景和条件,在开展和实现本项目的研究和实际应用做方面具有很好的技术和市场优势与互补性。

11、通过国际合作,开展国外重要资源调查,或引进国外特有资源和科学数据,以及利用国外独特的优秀专业人才、独特自然资源、高新技术、先进设施、软件、数据等,提高了我国战略性研究能力的情况;(必填)

外方项目负责人及主要成员在构建具有自管理特性的互联网服务进程方面取得了国际领先的技术优势,尤其在互联网服务进程的规范化模型构建、自适应和自动配置算法、正确性验证的技术上去得了一定的理论突破和应用创新,结合其在分布式系统整合、数据协同过滤、云计算和网格计算方面的先进技术优势,为本合作项目研究的顺利开展提供良好的技术保障,以上先进技术将在本项国际合作项目中率先引入。

此外,本项目外方项目组拥有充足的科研投入和良好的分布式网络计算实验环境,以上的外方资源将部分用于支持中方项目组成员赴外方单位进行学术交流和合作研究,以及供中方项目组搭建面向海量电信数据挖掘的云计算平台试验和仿真环境。

12、积极支持、紧密围绕促进经济建设的国际合作与交流,促就业、保增长,促进地方科技突破和经济腾飞情况;(必填)

本项目研究解决基于新型云计算平台的海量电信业务数据挖掘技术的重大关键问题,实现可快速处理千兆字节(PB)级数据的云计算海量电信业务数据流挖掘应用平台,并在国内各市县级电信公司进行成功的市场推广与应用,创造和节省相关业务收入。

系统投入市场,预计可实现销售产值1000万元;并通过项目定制、技术服务实现收入300万元;同时力争在国内各主要县级电信公司实现部署和运行,创造和节省相关业务收入2000万元。

13、通过我国驻外使领馆的科技中介作用,找到急需的科学技术和/或适合的合作伙伴,建立良好的合作项目基础情况;

14、通过开展国际合作,取得原创性成果,带动学科发展情况。

国家国际科技合作项目成果目录

(说明:填报自执行以来累计取得的成果和进展,栏目不够可自行增加)

序号成果类型技术、专利、设备、论著等成果主要完成者成果说明是否为代表性成果(请打勾,不超过5项)引进技术

1

引进设备

1

引进与培养人才

1

获得特有资源

1

专利

1

标准

1

专著

1

期刊论文

1

会议论文

1

获奖

1

其他

1

18

国家国际科技合作项目成果目录填写说明

成果类型分为“期刊论文、会议论文、专著、专利、标准、获奖、引进技术、引进设备、获得特有资源、引进与培养人才、其他”十一大类,请归类集中填写,逐类单独编号,表格不够可自行增加;

成果名称栏目填写论文题目或专利或奖励名称;

主要完成人根据作者或获奖人实际情况按顺序填写,并在论文通讯作者后加*标注;

成果说明栏目分别按以下格式填写:

1)期刊论文按“刊物名称,年,卷(期):起-止页码,(SCI,SSCI,EI,CSCI收录,如被这些检索系统收录)”格式填写说明;

2)会议论文按“国际/国内,特邀报告/分组报告/墙报展示,会议名称、时间”格式填写说明;

3)专著按“出版社,出版时间,字数,发行量”格式填写说明;

4)专利按“获准专利国别,类别,专利号,获专利时间”格式填写说明;

5)技术标准按“获准标准国别,类别,标准号,获标准时间”格式填写说明;

6)获奖按“授奖单位,授奖时间,奖励名称,等级”格式填写说明;

7)引进技术按“引进国别,引进时间,技术名称,技术水平”格式填写说明;

8)引进设备按“引进国别,引进时间,设备名称,设备水平”格式填写说明;

9)获得特有资源按“获得国别,获得时间,特有资源名称,研究及应用价值”格式填写说明;

10)引进人才按“引进国外著名科学家和工程技术专家来华工作,引进海外优秀人才及获得国家三大人才计划(国家杰出青年科学基金、中科院百人计划、教育长江学者奖励计划)资助,引进及获得国家三大人才计划资助的时间”格式填写;培养人才按“课题组主要成员被评选为两院院士或获得国家三大人才计划(国家杰出青年科学基金、中科院百人计划、教育长江学者奖励计划)资助,在国际组织任职,主持和参与国际重大科技合作计划(项目),被评选为两院院士或获得国家三大人才计划资助的时间”格式填写。

19

附件1:

国家国际科技合作项目主要参加单位、完成人员

项目主要参加单位

单位名称单位性质代码

国内参加单位南京大学大专院校466007458 北京西慧科技发展有限公司企业78483621-9

国外合作单位加拿大肯考迪亚大学(Concordia University)

大专院校

项目完成人员

姓名性

出生

年月

职务/

职称

对本项目工作

时间(人年)

对项目主

要贡献

所在单位

项目负责人高

男1972

09

副系

主任/

高级

职称

10.0 中方项目

负责人

南京大学

鸿

女1972

07

教授/

高级

职称

10.0 外方项目

负责人

加拿大肯考迪亚大

学(Concordia

University)

他主要参加人员陈

男1963

09

总经

理/高

级职

6.0 总体设

计、市场

推广

北京西慧科技发展

有限公司

男1977

02

副教

授/高

级职

10.0 总体设

计、技术

攻关

南京大学

相关文档
相关文档 最新文档