第1章 绪论 (1.2 研究现状)

(1) 业务现状

当前数据处理业务(以ICCPRINT类型数据处理为例说明数据集成中日志数据的生成过程)数据集成过程如下图1-1所示:
hh.png
图1-1 ICCPRINT类型数据处理过程[5]

Figure 1-1 ICCPRINT Data Processing Steps [5]
如上图在不同数据集成软件运行过程中会产生大量数据处理日志文本文件(Log File),如下为日志文件片段:
INFO (2012-09-25) 17:53.07:943 [core.runnable] (Unknown-URI) Unknown-thread/DefaultRunnableManager: ThreadPool named "default" created with maximum queue-size=2147483647,max-pool-size=5,min-pool-size=5,
priority=5,isDaemon=false,keep-alive-time-ms=60000,block-policy="RUN",shutdown-wait-time-ms=-1

INFO (2012-09-25) 17:53.07:946 [core.runnable] (Unknown-URI) Unknown-thread/DefaultRunnableManager: ThreadPool named "daemon" created with no queue,max-pool-size=2147483647,min-pool-size=1,priority=5,
isDaemon=true,keep-alive-time-ms=60000,block-policy=ABORT,shutdown-wait-time-ms=-1

WARN (2012-09-25) 17:53.08:576 [core.language.java] (Unknown-URI) Unknown-thread/JavaLanguage: Attempted to retrieve directory listing of non-directory C:\Windows\Sun\Java\lib\ext

其中包含如日志等级(INFO、WARN、ERROR),具体位置(core.runnable、core.language.java)以及相应描述信息中的具体问题等。在分析过程中,工程师需要对不同类型日志进行分类处理,如在第一第二两条日志中的描述部分可以看出,其中只有部分关键词不同,但是日志可以归为同一类型,这就需要在开发日志数据分析算法时设计模糊匹配算法,并通过可调节的阈值动态实现对不同日志数据进行正确分组。用于数据模糊匹配分组的算法主要包括Soundex,Jaro ,Jaro-Winkler,Q-gram等。
目前正在使用中的日志分析、集成工具主要包括Talend,Excel,MySQL等以及相关客户端开发工具如HeidiSQL,Eclipse,Sharp Developer, MySQL Administrator,在Linux端查询数据主要使用DBeaver和Oracle SQL Developer。在数据分析阶段手动处理Excel的过程非常繁琐,相应的日志数据分组程序也只能单机运行,在处理大文件时效率很低,对于历史日志数据也没有健全的管理机制,对于客户提供的数据在数据集成过程中不能在日志分析报告中完全体现出数据缺陷,容易造成数据结果丢失,报表统计不准确等问题。
(2) 用于日志分析的数据分析技术发展现状
国外数据分析产品主要包括开源产品和商业产品两大类,以IBM InfoSphere、Informatica、SAS DataFlux等为代表的商业智能数据分析产品以其功能丰富,定制性强等优势被广泛应用于企业级数据分析处理中。与此同时,随着大数据时代的到来,越来越多的创新型开源数据分析产品也逐渐占据一定市场。
市场对于高活性的商务智能(BI)和主数据管理(MDM)产品的需求很大,信息治理方法数量在迅速增加。大型软件供应商通过收购较小的专业软件供应商不断进入数据质量软件产品市场(例如,甲骨文公司最近收购了Datanomic),不断涌现的新的软件机构(例如在本次魔力四象限中,新的竞争对手,如Talend和Ataccama)。各种新的数据集成工具和MDM(Master Data Management)产品不断汇聚到数据质量工具软件的市场,今后该领域的发展趋势是向着更广泛的数据管理和综合治理能力方向跨越,这种技术发展路线也反映了供应商的愿景。
分析师Ted Friedman(Gartner)认为:DataFlux的看点并不多,倒是新加入的一些公司吸引力客户的眼球,比如Oracle。Friedman向我们介绍,Oracle公司的数据质量产品完全源自其收购的技术,18个月之前,他们收购了Silver Creek,之后又在今年收购了Datanomic。因此目前Oracle无论是从软件技术还是从市场份额方面都已经有资格在魔力象限中占据一席之地。来自法国的Talend公司是报告中唯一一家纯开源软件厂商,而捷克软件公司Ataccama还在不断向客户普及他们免费的数据剖析(data profiling)工具。Friedman表示:“我们希望看到在数据质量、数据集成市场中出现更多的竞争者和不同的解决方案,最好的价格低廉或者干脆是免费的工具。从全球角度来看,我们应该注意到数据质量市场中的竞争者有很多不是来自于美国,Ataccama ,Talend这样来自欧洲的厂商已经证明了自己的能力。”在领导者象限中,除了DataFlux之外还有Informatica、Trillium Software、IBM和SAP四家公司。Pitney Bowes Business Insight和Oracle两家处在挑战者象限,DataLever、Uniserv、DataMentors、Human Inference、Datactics 和Innovative Systems处在特定领域象限,而Talend 和 Ataccama则处在有远见者象限[16]。
随着大数据热在国内的兴起,少数金融,电子商务企业开始大量应用大数据处理理论完成业务分析与战略决策,基于国外开源数据处理框架也逐渐积累开发出了一些自己的产品,大多是在数据仓库、决策支持、数据挖掘研究中,对其作一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,有越来越多的理论性的成果见诸于报道。

标签: none

添加新评论