第1章 绪论 (1.3 研究目的与内容)

1.3 研究目的与内容
1.3.1 研究目的
论文主要研究目的是设计并实现具有多维度数据分析展现功能的日志分析软件平台,其中中间媒介数据载体(Intermediate Database)使用的是基于Hadoop的分布式文件系统(Hadoop Distributed File System,简称HDFS),使用HDFS目的主要是用来提高日志分析中日志记录分组的计算效率,解决对大量日志数据的查询与管理问题。该日志分析软件平台可以满足对日常大量日志数据进行的模糊匹配分析工作,可实现文本日志数据导入;日志数据分析、归类;分析结果报表可视化的功能。
在需求分析阶段,主要分析了当前业务中使用的开源数据质量产品的主要功能点、用途,充分了解各个工具的工作的运行原理,提取重要功能进行梳理,并对数据处理的性能进行了分析。在当前业务处理过程中数据集成系统会产生大量日志文件,日志分析人员需要对不同类型日志进行分类处理,并需要提取日志中有用信息制作数据分析报表。
目前工作中对日志文件的管理和查询管理工作目前主要依赖开源数据分析软件完成,有诸多不便之处,本次开发的日志分析平台目标主要用于解决以下在日常数据处理过程中遇到的几个方面的问题:
(1) 将开源数据分析技术集成到同一平台完成日志数据分析
(2) 实现基于Map/Reduce的分组算法,提高对日志数据的分析效率
(3) 提高历史日志数据查询速度
(4) 将通用分组算法做成可配置模式,在数据分析过程中可配置不同分组算法
(5) 解决历史日志数据管理与存储问题
论文中设计的日志分析平台主要用于对日常日志数据进行高效处理,其中包括:使用模糊分组算法按关键词对日志文本数据进行分组、可视化展现分析结果。

1.3.2 主要研究内容
论文的研究内容主要包含在以下三个方面:基于RAP技术的日志分析平台用户界面设计与开发;对数据进行数据抽取、过滤、导入,完成基于常用数据匹配算法的Map/Reduce框架实现,以针对HDFS中数据的通用查询与分析功能;并实现以图表形式展现日志分析挖掘结果。具体技术方案如下:
(1) 基于Eclipse RAP(Remote Application Platform)框架开发日志分析软件前端界面
Eclipse RAP框架提供了丰富的网页前端控件,并集成OSGi(Open Service Gateway Initiative)与Java EE(Java Platform Enterprise Edition),本次开发的日志分析平台框架部分主要采用RAP开源技术结合Eclipse Plug-ins插件技术开发应用程序界面,利用插件开发技术将业务应用组件模块化,分别开发前端用户界面与后台数据处理功能模块,再通过RAP平台中的OSGi将系统整合起来,从而降低数据处理功能与前端用户界面的耦合性。前端用户界面主要功能包括:数据库连接控制视图,数据集成视图,数据检索视图,算法配置页面等。
(2) 研究HDFS分布式文件系统作为日志分析软件中间媒介数据载体的数据存储方式
Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有着高容错性的数据处理优势,并且其设计架构允许将其部署在配置较低的硬件平台上。而且它提供高传输率来访问应用程序的数据。Hadoop的功能特点适合本次论文中所需的对于大量日志数据进行高效分析的需求,所以论文中设计到的数据处理技术采用基于Hadoop 分布式系统基础架构作为中间媒介数据载体并利用Map/Reduce框架实现数据分组功能(图1-2)。

ddd.png
图1-2 通过Map/Reduce框架处理HDFS
Figure 1-2 Map/Reduce in HDFS

(3) 多维数据可视化技术
基于联机分析处理技术设计多维数据模型用于存储日志分析结果,使用SpagoBI、JProvit等开源数据可视化技术组件实现对日志分析结果的可视化展现。

标签: none

添加新评论