所有相关信息统一主页:http://www.ccse.uestc.edu.cn/list?type=110
【课程名称】
大规模的数据并行处理系统
【课程概要】
目前,我们所面对的一个严重挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称“大数据”(Big Data)。这样的数据借助互联网的快速传递无所不在:从各种科学研究基地,到重多政府机构,还有各大商业企业公司。举世界上最大社会网Facebook(脸谱)为例,现在每天有超过70 Terabytes (万亿 Bytes) 经过压缩后的新数据需要存储,管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模上、性能上、和费用上无法对付日益增大的海量数据了。
大数据时代的到来是不可阻挡的。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次以数据为基础的探索,发现,和创新的机遇。
大数据处理有以下几个特点:(1)处理的平台一定是大规模和可扩展的分布式系统;(2)MapReduce是处理大数据的一个主流软件构架。(3)需要各种有效的存储技术和调度算法的支持。(4)在高效和优化的条件下,先进的存储硬件,比如,固态闪存器件(SSD),是大数据系统中的一个重要组成部分。
【课程大纲】
这门课将全面介绍几个在大数据分布式系统中的存储、管理和分析层面上有代表性的和先进的算法和技术。课程安排如下:
(一)导论
(1) 计算机系统中的供求平衡
(2) 一个大数据访问行为的分布模型
(二)MapReduce以及数据处理
(1) 基本结构和Hadoop的开源实现
(2) Hive: 在Hadoop上的数据仓库
(3) YSmart: 优化Hadoop的数据处理
(三)大数据在分布式系统上的存储结构
(1) RCFile: 设计与实现
(2) 存储结构中优化问题
(3) RCFile的应用范围
(四) 内存和磁盘管理中的核心技术: 替换算法
(1) LRU算法优点以及难以解决的问题
(2) LIRS算法是如何解决LRU问题的
(3) Clock-pro: LIRS是如何实现在操作系统内核的
(4) BP-wrapper:消除替换算法在系统实现中的同步竟争
(五)提高操作系统对磁盘的管理功能和效率
(1) 操作系统对磁盘管理的局限性
(2) 扩大操作系统的视野去获得关键的磁盘数据存储地址信息
(3) DULO-Caching和DULO-Prefetchin:感知磁盘数据分布的缓存 (Caching)和预取(Prefetching)方法以及系统实现
(六) 固态闪存系统(Solid State Device Flash Memory)
(1) SSD Flash Memory的结构和性能
(2) SSD的并行性和它在整个存储系统中的作用
(3) Hystor: 一个通用的混合型SSD的存储系统
(4) hStorage-DB: 一个为数据库服务的混合型SSD的存储系统
(七)计算机学者发表论文之目的与追求
注:课程在此基础上可能会有部分调整.
【课程教师】
张晓东教授,美国俄亥俄州立大学 Robert M. Critchfield讲席教授,担任计算机科学与工程系主任。研究方向为计算机和分布式系统中的数据和存储管理。主持研究的一些核心算法和系统设计已被广泛应用到商业处理器以及主要操作系统、数据库系统和大型的分布式系统中,有效地优化或更新了计算机和网络存储和处理系统中的一些关键技术。
张晓东教授于北京工业大学获电气工程学士学位,在美国科罗拉多大学获计算机科学博士学位,并获得该校2011年度工程与应用科学的杰出校友奖。2010年获中国计算机学会海外杰出贡献奖。国际计算机学会(ACM)Fellow,国际电气电子工程师学会 (IEEE) Fellow。
【个人主页】
http://web.cse.ohio-state.edu/~zhang/
【电子邮件】
【报名信息】
面向全国,招收高等院校高年级本科生、研究生、青年教师和少量产业界人士。
课程报名统一在龙星网站进行。
链接http://dragonstar.ict.ac.cn/dragonstar/about.asp
【申请流程】
先注册登陆,然后点击“听课申请办法”填写申报信息,查看具体报名事项。
若无自己入学年份,请选择其他选项,然后备注入学年份。本科生也请选择其他选项,备注入学年份。
【报名截止日期】
2015年6月23日12:00
【联系方式】
邮箱:dragonstar_uestc@163.com如有任何问题,可发邮件询问。
【录取通知时间】
承办单位将根据申请情况,综合考虑地区、学校、学科以及申请材料提交早晚,择优录取,录取通知将通过邮件发送,并在官方网站上公布录取名单。
【上课时间】
2015年7月11日至2015年7月18日
【上课地点】
电子科技大学清水河校区
【日程安排】
7月11日 学员报到
7月12日 开班典礼
学术交流
7月13日至7月17日
课程学习
学术交流
7月18日 毕业典礼
学员离校