中科院计算所在可信大数据软件技术方面的研究工作【DOC+PPT下载】

http://pan.baidu.com/s/1qWOCMxm

清单:

PS:前段时间接到任务,对中科院计算所在可信大数据软件技术方面的研究工作进行调研,以下是正文。

第1章           鉴定/验收的代表性成果

1.1           天玑大规模 络信息处理系统

在 国 家“973” 课题“ 基 于 Internet 超大规模知识检索的算法及应用”(课题编 :G1998030413)、“大规模文本内容计算”(课题编 :2004CB318109),以及“863”计划“大规模 络内容安全监控关键技术与示范系统研究(课题编 :2006AA01Z452)”、“863”计划子课题“CNGrid 格软件测试及工程化”(课题编 :2005AA119010)等项目的持续支持下,中科院计算所和国家计算机 络与信息安全管理中心等单位历时十余年研制了“天玑大规模 络信息处理系统”。

“天玑大规模 络信息处理系统”覆盖了大规模 络信息获取、存储与管理、分析与挖掘等深度处理的关键环节,在信息分析的精度、信息挖掘的深度和信息处理的广度等方面取得了系统性成果。系统在高维稀疏特征的精准分析、多元异构数据融合的深度挖掘、跨尺度演变的聚集行为发现和海量数据的分布式存储管理等四个方面的关键技术上取得了重要突破。项目所形成的技术成果发表学术论文356余篇,SCI收录 60余篇,被包括Nature、PhysicsReports、IEEE汇刊等SCI学术刊物引用 183 次。已形成了覆盖 络信息监测与服务领域成体系的核心技术发明专利群和软件著作权,申请发明专利20项,授权12项,软件著作权16项。该系统在由美国国防部高级研究计划局(DARPA)、美国国家标准技术研究所(NIST)等机构主办的国际权威评测中,有4 项技术获得国际排名第一;所提出来的分布式数据存储结构(RCFile)技术系国际首创,被Apache Hive、Pig 等主流开源软件采纳,已成为国际上分布式离线数据分析系统中存储结构的事实标准;所研制的开源软件影响范围遍及全球,全文索引与检索平台系统(Firtex)全球下载10万余次,在东亚开源大赛中获得杰出成就奖。

  获中国电子学会电子信息科学技术一等奖

1.2           基于虚拟机架构的可信计算环境与可信软件设计

本项目为国家自然科学基金重点项目(编 为 90718040),于 2011 年 1 月通过国家基金委验收,验收结果为“优秀”,项目取得如下成果:

◇  在平台基础设施方面,对虚拟计算资源的建模、分配与隔离、有效利用与管理等方面进行了深入的研究,并按计划书要求构建了TRainbow 可信虚拟计算平台系统。在此平台基础上,重点对虚拟集群的可信增强技术、信任链构建机制、虚拟平台的可靠机制、虚拟监控器的可信机理等进行了研究。

◇  项目组在下列研究领域取得了若干创新成果:可信平台能力服务计算理论及三层资源调度框架和以此为基础的按需资源流动算法、可信平台下服务整合的效用分析模型、管理域及虚拟存储的完整性检测方法、基于多核技术的可信计算机制、面向流动的内存全局优化方案、指令监控和替换技术、虚拟机监控器多域隔离技术、虚拟域运行时监控技术、虚拟集群中休眠节点的Optimal 和 Demotion 管理算法等。

VSchecker :透明的虚拟存储完整性检测工具

1.3           基于云计算的海量数据挖掘

本项目为国家基金重点项目(课题编 :61035003),起止时间是 2011 年 1 月至 2014年 12 月。项目组按计划进行深入研究,圆满地完成了2013 年的工作,取得如下进展。

1. 基于云计算的海量数据挖掘方法和算法

(1)并行数据挖掘方法利用数据库来模拟链表结构,管理挖掘出来

的知识,提供了树形结构、图模型的分布式计算方法,提出一种在 Hadoop 上高效数据挖掘框架。

为了加速分布式 SVM 优化的全局一致性,我们提出分组式的分布式交替方向乘子法,引入分组机制,将学到的组结构信息用于全局变量优化。

(2)特征捆绑框架

针对视觉感知,提出特征捆绑的 CCF 框架,由视觉特征提取、紧凑编码、特征捆绑三层构成。针对视频轨迹,提出了一种基于轨迹分段与多示例学习的异常检测框架 TRASMIL。提出了多模态稀疏表示分类器 mSRC。提出混合生成式和判别式学习的图像自动标注模型 HGDM、基于概率潜语义分析(PLSA) 和最大二等分模型(MAX-BIS) 的图像语义标注方法、基于概率潜语义分析 (PLSA) 和随机游走模型(RW) 的两阶段精细化图像语义标注方法。

(3)基于大脑皮层功能柱结构的粒度计算基于粒度计算的观点把模糊逻辑设计与机器学习有机的结合起来,提出了脑皮层粒度计算模型。该方法能有效提升照片的信息含量,具有更好的去雾效果。

(4)跨领域典型相关性分析

针对大数据环境下,由于数据快速更新带来的有标签训练样本与测试样本间分布的差异,提出了一种跨领域典型相关性分析 CD-CCA 算法。

该算法在传统典型相关性分析方法的基础上,结合基于特征映射迁移学习的思路,用于分析领域特有特征与领域共享特征之间的相关性。

(5)数据挖掘算法

提出多类监督型新分类器、安全性半监督学习算法、无监督大间隔聚类算法、 基于视图间成对约束信息的协同度量学习方法,并以并行结构集成的鲁棒人脸识别模型及其相应算法。

2. 海量数据预处理

(1)云数据库系统

研究了云数据库系统 GCDB,对其系统架构、功能模块进行设计。云数据库系统采用了分布式架构和数据查询优化技术的关键技术。

(2)特征选择

针对多目标问题,结合基于 Pareto 优化的演化算法设计了特征选择方法,并与传统的单一目标方法进行了实验对比。提出一种基于视图差异性与相关分析的多视图特征选择方法,来同时选择每个视图的差异性特征与判别性特征。

(3)维度约简与特征降维

提出了决策粗糙集模型中基于最小化决策代价的优化问题。提出了启发式算法、遗传算法和模拟退火算法三种约简算法。

对于非线性降维,我们提出一种基于关系图增强融合类别信息的图像语义流形学习算法,可充分利用反馈信息,有效实现高维图像特征数据的降维,学习查询图像的语义子空间。

3. 面向海量数据挖掘的云计算模式

(1)GCFS 云存储系统

研究了存储虚拟化,提出了一种分布式存储技术:GCFS 云存储系统。对其系统架构采用分布式架构进行设计,对系统可用性、数据安全、数据去重等关键技术进行了研究。

4. 基于云计算的海量数据挖掘按需服务

(1)自适应支撑框架

为海量数据挖掘云服务提供了一个自适应的支撑框架,具有自适应需求描述语言等。

(2)Web 服务

提出了一种全新的 web 服务分解算法,将QoS 优化和冗余服务去除两个功能整合到一起。

(3)自适应学习算法

针对大规模离散(或连续)状态空间强化学习问题,提出了基于分段线性基的时间差分学习方法 PLVF-TD。

(4)扩展多智能体环境 MAGE

扩 展 了 多 智 能 体 环 境 MAGE, 增加 了BDI 推理机,构建具有推理机的多智能体环境MAGER。

5. 云计算海量数据挖掘引擎

初步开发了大数据挖掘云引擎 CBDME,为智能城市知识数据中心提供解决方案。研发基于MapReduce 的并行海量数据挖掘算法工具箱DoDo。

2013年度发表专著3本,发表国际期刊论文35篇,其中SCI收录25篇,EI收录10篇,发表国际会议上论文33篇,其中EI收录19篇,在国内重要期刊发表(含录用)文章14篇,其中EI收录5篇,参加国际会议特邀 告2次,国内会议特邀 告7次。申请国家专利11项,已有2项获得正式授权。获软件著作权4项。课题负责人史忠植获得2013年中国人工智能学会吴文俊人工智能科学技术成就奖。

 

第2章           研究方向科研进展

2.1           面向大数据处理的存储系统(软件)研究

键值数据的组织方式,是影响高通量大数据系统性能的关键。本项目从构建一个数据中心软件栈的基石的角度出发,设计和开发了一个扩展键值对象存储系统 EKOS(Extended KeyObjectStore)。EKOS 设计和实现了如下有别于传统键值存储系统的创新特征:支持不同粒度对象的高效存储和管理;为基于其构建文件系统、数据库等提

2.2           大数据基准测试程序集

BigDataBench 是 一 个 抽 取 Internet 典型服务构建的大数据基准测试程序集,覆盖了微基准测试、CloudOLTP、关系查询、搜索引擎、 交 络和电子商务六种典型应用场景,包含十九种不同类型的负载和六种不同类型的数据 集。 此 外 BigDataBench 还 提 供 了 数 据生成工具 –BDGS。该工具能在保留原始数据特性的基础上以小规模真实数据生成大规模数据。BigDataBench 同 时 涵 盖 了 完 整 的 系 统 软件栈,覆盖的应用类型包括:实时分析、离线分析和在线服务应用。目前 BigDataBench 的用户包括:华为、国家互联 应急中心、OSH、SAIT 等国内外企业、高校和研究机构;研究领域包括:负载特征刻画、系统评测和性能优化分 析 等。BigDataBench的相关工作已经发表在 IISWC2013(最佳论文)、HPCA2014、Dasfaa2014 等国际知名会议。

络数据科学与技术重点实验室研究布局

在 络数据平台建设方面,面向高端数据分析、金融数据工程、互联 信息监测、商业智能等应用,积累数据的规模持续增长。建成了数千个计算节点,PB 级存储容量,Gbps级互联 带宽和大量群体合作的 络爬盟与 络感知;达到百万领域信源入口,千万级 ID 与自媒体源,亿级微博关联用户、百万级名博关注;积累了带标签的百亿级 页、百亿级消息文本信息、每天千万级消息更新。与 2012 年底相比,信源增加 6倍,配置效率提高 1倍,积累百亿消息文本信息,每天千万级消息更新。

在重要项目争取方面,由中国科学院计算技术研究所牵头,华云生教授作为首席科学家,联合清华大学、北京大学、中国人民大学、同济大学、天津大学、武汉大学、公安部第三研究所等单位共同申 并获得立项的国家重点基础研究发展计划(973 计划)项目“ 络大数据计算的基础理论及其应用研究”。这是我国在大数据研究领域被批准的第一个国家 973 计划项目。

络数据科学与技术重点实验室揭牌仪式

 

 

第4章           学术活动

4.1           中国大数据技术大会

2013年12月5-6日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,我所与CSDN具体组织的中国规模最大、最具影响的大数据领域技术盛会——2013中国大数据技术大会(Big Data TechnologyConference 2013,BDTC 2013)在北京世纪金源大饭店圆满落幕。

本次大会的前身是去年举办的“Hadoop与大数据技术”大会,在此之前是“Hadoop中国云计算大会(Hadoopin China)”。为了因应大数据时代的到来,今年大会正式更名为“中国大数据技术大会(Big Data Technology Conference,BDTC)”。 BDTC 2013以“应用驱动的架构与技术”为主题,共设立“大数据架构与系统”、“大数据技术”、“大数据应用”、“大数据研究与发展”,“大数据基准测试(Benchmark)”五大技术分论坛,并首次增加“2013中国智能交通与大数据技术峰会”和“传统行业如何驾驭大数据总裁研讨会”。作为分论坛数量最多的一届大会,2013中国大数据技术大会参会人数首次突破2000人。

2014中国大数据技术大会(Big Data TechnologyConference 2014,BDTC 2014)暨第二届CCF大数据学术会议于12月12-14日在北京新云南皇冠假日酒店顺利召开。本次大会由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,由中科院计算所与CSDN具体组织,主旨在于推进大数据科研、应用与产业的发展。

程学旗研究员发表大数据白皮书与发展趋势 告

作为中国大数据领域最具价值的IT盛会,历经七届沉淀,中国大数据技术大会已经成为中国最具影响、规模最大、参会者人数最多的大数据领域技术盛会。2014中国大数据技术大会对于产业的发展与推进有着重要意义。2014中国大数据技术大会,六十余场主题演讲、技术论坛和专业培训,数千名业内人士与会齐聚的深度实践之旅。作为大数据技术与应用深度结合的新起点,BDTC 2014已经成为产业界、科技界与政府部门密切合作的新平台,为推动我国大数据的产学研用做出了重大贡献。

第5章           结论与研究点思考

在大数据概念兴起之前,中科院计算所围绕大规模信息处理已经开展了多个国家项目的研究,并研制了天玑系统、海云系统等等。近年来随着大数据技术的流行,计算所成立了 络数据科学与技术重点实验室,重点研究突破 ZB 级 络数据的感知、传输、存储、管理与分析体系架构, 络数据界的溯源、定位、预测与控制方法,研发支撑安全大数据、情 大数据、金融大数据、商业与媒体消费大数据等系列应用,在A类期刊和会议上发表了20多篇论文。计算所牵头申请获批的973项目是在大数据研究领域被批准的第一个国家 973 计划项目。由计算所具体组织的中国大数据技术大会是目前我国规格最高的大数据方面的技术会议,已经成为产业界、科技界与政府部门密切合作的新平台。综上所述,在大数据软件技术领域,中科院计算所在在研项目、论文、学术活动等方面的成果较为突出。

 

 

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2015年1月10日
下一篇 2015年1月10日

相关推荐