大数据的小世界

搜索

公众号

发布

大数据的小世界

人称T客

2016-06-04

0 评论 3636 浏览 0 收藏

　　当我们谈论大数据和数据仓库时，提及Hadoop几乎是不可避免的。　　但Hadoop并非空穴来风，就像大多数的大数据技术，它在这一领域与其它技术具有密切的关系。在这种情况下，Hadoop利用映射/缩减技术形成一种数据框架，用以存储数据，而且获得这些数据的应用程序可以运行，可以追溯到另一种数据仓库技术: 企业搜索。　

　　当我们谈论大数据和数据仓库时，提及Hadoop几乎是不可避免的。

　　但Hadoop并非空穴来风，就像大多数的大数据技术，它在这一领域与其它技术具有密切的关系。在这种情况下，Hadoop利用映射/缩减技术形成一种数据框架，用以存储数据，而且获得这些数据的应用程序可以运行，可以追溯到另一种数据仓库技术: 企业搜索。

　　企业搜索，也称为实时搜索，是一种数据存储的方法，应用搜索的观念并将其应用于大量的非结构化或部分结构化的数据（如文件）的收集时。

　　最好的文件储存系统将利用某种XML或基于SGML的标记，让那些文件的内容很有条理。但在现实中，文件会与这种理想的标记有些出入。这也正是企业搜索的用武之地了。

　　企业搜索产品，比如ElasticSearch, Apache Lucene和 Apache Solr，用一种被称为切面的概念，让你能像关系型数据库中的字段那样处理文件中的数据。从本质上来说切面是反相索引，让你在一份文件中找到具体的信息，如地址或者其它的客户信息。

　　企业搜索最好用在你把一大套这种类型的文件精选一遍时，而且需要做一些简单的数据挖掘或商业智能（BI）分析。结构化数据越多越好: 企业搜索在处理网络博客这样的文件时确实很好，它有一致的结构化足以能够更深的数据挖掘。

　　企业搜索和当前被大肆宣传的Hadoop之间的连接在于两种技术的创造者：Doug Cutting。Cutting目前是商业Hadoop供应商Cloudera的一位架构师，他在1998年把, Lucene一起作为一种Java搜索引擎库。

　　但是生活(与网路的兴起)让Cutting远离了他的Java项目。到2000结束之际，Cutting选择把这个完美的搜索引擎库在SourceForge的 GPL授权之下开源。在潜在用户强烈的回推之后，Cutting后来将授权转向了更少限制的 LGPL。

　　在该项目于2001年被邀请加入Apache软件基金会时，Cutting被鼓励带着它们去报价，从那时起Lucene就在ASF的保护之下，并在Apache开源协议下授权。

　　Cutting继续在Lucene工作，开发技术进入开源Nutch搜索引擎，它相对于Lucene这样的平台来说是一种完全在线的应用程序。Nutch也偏向于适应于网络搜索，并使用了许多企业搜索中的特性，如网页的抓取，文件格式及文字检测和语法分析。

　　但是，就算Nutch证明了它的强大功能，它也不能扩展到足以搜索企业级的数据集。多结点的安装，甚至只有四个节点，也将被证明很难管理。在Nutch中任何超过1亿页的空间配置和资源管理都将证明是难以承受的。

　　因此在2008年，Hadoop诞生了，它利用分布式计算技术并成为Nutch运行的新框架。Hadoop分布式文件系统再加上MapReduce(两者都在谷歌项目上被模仿)，将是Nutch框架运行的基础。

　　Cutting的Lucene不仅培育了基于MapReduce的 Hadoop技术的创造，它还形成了其他企业搜索技术的基础。特别是ElasticSearch和Apache Solr都是使用了Lucene 的Java搜索库的企业网络搜索工具。

　　在企业搜索领域对于这两个工具哪个更好有很多的争论。据说Solr非常快，但ElasticSearch的分布式能力意味着可以在许多分布式资源上共享工作，因此能提供类似的性能。

　　技术的进化很有趣，但不只是从一种单纯深奥的立场。了解这些技术如何融合在一起，会让用户更好地了解哪一种解决方案更适合他们。

点赞 0收藏 0打赏 0评论 0

人称T客

个性签名！！！

14721篇作品

腾讯以 20 亿美元回购 Manus，成为最大单一股东

2026-07-14163 浏览

峰值日活300万的钉钉，也是个“草台班子”

2026-06-082165 浏览

主AI赋能企业管理全场景，金蝶发布中国首个企业级AI原生入口

2025-11-045710 浏览

WPS 365升级为一站式AI协同办公平台，成本不到行业三分之一

2025-11-2813747 浏览

某知名ERP厂商深陷信任危机？

2025-11-2813364 浏览

当谈到SaaS的“收入”时，我们在谈什么？

2025-11-283029 浏览

评论请登录

暂时没有评论，来说点什么吧