狂神聊 ElasticSearch(IK分词器+Rest+集成SpringBoot+实战爬虫项目+完整代码及资料)

狂神聊 ElasticSearch

版本：（全最新了）

的区别十分大，的（原生、高级！）

我们要讲解什么/h2>

：，如果是的大数据，就十分慢！索引！

：搜索！（百度、github、淘宝电商！）

1、聊一个人

2、货比三家

3、安装

4、生态圈

5、分词器

6、操作

7、

8、集成（从原理分析！）

9、爬虫爬取数据！

10、实战，模拟全文检索！

以后你只要，需要用到搜索，就可以使用！（大数据量的情况下使用！）

聊聊 Doug Cutting

1998 年 9 月 4 日，公司在美国硅谷成立。正如大家所知，它是一家做搜索引擎起家的公司。

是用写成的，目标是为各种中小型应用软件加入全文检索功能。因为好用而且开源（代码公开），非常受程序员们的欢迎。

早期的时候，这个项目被发布在 Doug Cutting 的个人站和（一个开源软件站）。后来，2001 年底，成为Apache软件基金会 项目的一个子项目。

是一个建立在核心之上的页搜索应用程序，可以下载下来直接使用。它在的基础上加了络爬虫和一些页相关的功能，目的就是从一个简单的站内检索推广到全球络的搜索上，就像一样。

在业界的影响力比更大。

大批站采用了平台，大大降低了技术门槛，使低成本的普通计算机取代高价的服务器成为可能。甚至有一段时间，在硅谷有了一股用低成本创业的潮流。（大数据！）

随着时间的推移，无论是还是，都面临搜索对象“体积”不断增大的问题。

尤其是，作为互联搜索引擎，需要存储大量的页，并不断优化自己的搜索算法，提升搜索效率。

还是 2004 年，又发表了一篇技术学术论文，介绍自己的MapReduce编程模型。这个编程模型，用于大规模数据集（大于 1TB）的并行分析运算。

第二年（2005 年），Doug?Cutting 又基于，在搜索引擎实现了该功能。

加盟 Yahoo 之后，Doug?Cutting 将和进行了升级改造，并重新命名为Hadoop（也改名为，）。

这个，就是后来大名鼎鼎的大数据框架系统—— 的由来。而 Doug?Cutting，则被人们称为Hadoop之父。

我们继续往下说。

还是 2006 年，又发论文了。

这次，它们介绍了自己的BigTable。这是一种分布式数据存储系统，一种用来处理海量数据的非关系型数据库。

Doug?Cutting 当然没有放过，在自己的系统里面，引入了，并命名为HBase。

2008 年 1 月，成功上位，正式成为基金会的顶级项目。

同年 2 月，宣布建成了一个拥有 1 万个内核的集群，并将自己的搜索引擎产品部署在上面。

7 月，打破世界纪录，成为最快排序 1TB 数据的系统，用时 209 秒。

回到主题

是一套信息检索工具包！包！不包含搜索引擎系统！

包含的：索引结构！读写索引的工具！排序，搜索规则… 工具类！

Lucene 和 ElasticSearch 关系：

是基于做了一些封装和增强（我们上手是十分简单！）我的讲课风格：学习更多的是培养大家的学习兴趣！教学风格：开源、免费的、授人以渔！

只要学不死，就往死里学！

ElasticSearch 概述

，简称为， es 是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理级别（大数据时代）的数据。也使用开发并使用作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的来隐藏的复杂性，从而让全文搜索变得简单。

据国际权威的数据库产品评测机构的统计，在 2016 年 1 月，已超过等，成为排名第一的搜索引擎类应用。

历史

多年前，一个叫做 Shay Banon 的刚结婚不久的失业开发者，由于妻子要去伦敦学习厨师，他便跟着也去了。在他找工作的过程中，为了给妻子构建一个食谱的搜索引擎，他开始构建一个早期版本的。

直接基于工作会比较困难，所以开始抽象代码以便程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目，叫做“”。

后来找到一份工作，这份工作处在高性能和内存数据格的分布式环境中，因此高性能的、实时的、分布式的搜索引擎也是理所当然需要的。然后他决定重写库使其成为一个独立的服务叫做。

第一个公开版本出现在 2010 年 2 月，在那之后已经成为上最受欢迎的项目之一，代码贡献者超过 300 人。一家主营的公司就此成立，他们一边提供商业支持一边开发新功能，不过将永远开源且对所有人可用。

的妻子依旧等待着她的食谱搜索……

现在我们就知道了重要性！

谁在使用：

1、维基百科，类似百度百科，全文检索，高亮，搜索推荐/2 （权重，百度！）

3、（国外的程序异常讨论论坛），问题，程序的错，提交上去，有人会跟你讨论和回答，全文检索，搜索相关问题和答案，程序错了，就会将错信息粘贴到里面去，搜索有没有对应的答案

4、（开源代码管理），搜索上千亿行代码

5、电商站，检索商品

6、日志数据分析，采集日志，进行复杂的数据分析，技术， ++

7、商品价格监控站，用户设定某商品的价格阈值，当低于该阈值的时候，发送通知消息给用户，比如说订阅牙膏的监控，如果高露洁牙膏的家庭套装低于 50 块钱，就通知我，我就去买。

8、系统，商业智能，。比如说有个大型商场集团，，分析一下某某区域最近

3 年的用户消费金额的趋势以及用户群体的组成构成，产出相关的数张表，**区，最近 3 年，每年消费金额呈现 100%的增长，而且用户群体 85%是高级白领，开一个新商场。执行数据分析和挖掘，进行数据可视化

9、国内：站内搜索（电商，招聘，门户，等等），系统搜索（，，，等等），数据分析（热门的一个使用场景）

ES 和 solr 的差别

架构选择！

Elasticsearch 简介

是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。

它用于全文搜索、结构化搜索、分析以及将这三者混合使用：

维基百科使用提供全文搜索并高亮关键字，以及输入实时搜索和搜索纠错等搜索建议功能。

结合全文搜索与地理位置查询，以及功能来找到相关的问题和答案。

使用检索 1300 亿行的代码。

但是不仅用于大型企业，它还让像以及这样的创业公司将最初的想法变成可扩展的解决方案。

可以在你的笔记本上运行，也可以在数以百计的服务器上处理级别的数据。

是一个基于的开源搜索引擎。无论在开源还是专有领域，可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是，只是一个库。想要使用它，你必须使用来作为开发语言并将其直接集成到你的应用中，更糟糕的是，非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

也使用开发并使用作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的来隐藏的复杂性，从而让全文搜索变得简单。

Solr 简介

是下的一个顶级开源项目，采用开发，它是基于的全文搜索服务器。提供了比更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化

可以独立运行，运行在、等这些容器中，索引的实现方法很简单，用方法向服务器发送一个描述及其内容的文档，根据文档添加、删除、更新索引。Solr 搜索只需要发送请求，然后对返回、等格式的查询结果进行解析，组织页面布局。不提供构建的功能，提供了一个管理界面，通过管理界面可以查询的配置和运行情况。

是基于开发企业级搜索服务器，实际上就是封装了。

是一个独立的企业级搜索应用服务器，它对外提供类似于的接口。用户可以通过请求，向搜索引擎服务器提交一定格式的文件，生成索引；也可以通过提出查找请求，并得到返回结果。

Lucene 简介

是软件基金会 4 jakarta 项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene 的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene 是一套用于全文检索和搜寻的开源程式库，由 Apache 软件基金会支持和提供。Lucene 提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在开发环境里是一个成熟的免费开源工具。就其本身而言，是当前以及最近几年最受欢迎的免费信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。

是一个全文检索引擎的架构。那什么是全文搜索引擎/p>

全文搜索引擎是名副其实的搜索引擎，国外具代表性的有、、、、、等，国内著名的有百度（）。它们都是通过从互联上提取的各个站的信息（以页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，因此他们是真正的搜索引擎。

Elasticsearch 和 Solr 比较

ElasticSearch vs Solr 总结

1、基本是开箱即用（解压就可以用 ! ），非常简单。安装略微复杂一丢丢！

2、利用进行分布式管理，而自身带有分布式协调管理功能。

3、支持更多格式的数据，比如、、，而仅支持文件格式。

4、官方提供的功能更多，而本身更注重于核心功能，高级功能多有第三方插件提供，例如图形化界面需要友好支撑~!

5、查询快，但更新索引时慢（即插入删除慢），用于电商等查询多的应用；

建立索引快（即查询慢），即实时性查询快，用于新浪等搜索。
是传统搜索应用的有力解决方案，但更适用于新兴的实时搜索应用。

6、比较成熟，有一个更大，更成熟的用户、开发和贡献者区，而相对开发维护者较少，更新太快，学习使用成本较高。（趋势！）

ElasticSearch 安装

声明：，最低要求！客户端，界面工具！

开发，的版本和我们之后对应的的核心包！版本对应！环境是正常！

下载

官：https://www.elastic.co/

我们学习的话和都可以学习！

我们这里现在 Window 下学习！

三剑客，解压即用！（项目！前端环境！）

window 下安装！

1、解压就可以使用了！

3、启动，访问 9200；

4、访问测试！

2、启动

文档主目录下命令

4、重启 es 服务器，然后再次连接

安装 Kibana

是一个针对的开源分析及可视化平台，用来搜索、查看交互存储在索引中的数据。使用，可以通过各种图表进行高级数据分析及展示。让海量数据更容易理解。它操作简单，基于浏览器的用户界面可以快速创建仪表板（）实时显示查询动态。设置非常简单。无需编码或者额外的基础架构，几分钟内就可以完成安装并启动索引监测。

官：https://www.elastic.co/cn/kibana

版本要和一致！

下载完毕后，解压也需要一些时间！是一个标准的工程！

好处：基本上都是拆箱即用！

启动测试：

1、解压后端的目录

2、启动

3、访问测试

我们之后的所有操作都在这里进行编写！很多学习大数据的人，！

5、汉化！自己修改配置即可！！

ES 核心概念

1、索引

2、字段类型（mapping）

3、文档（documents）

概述

在前面的学习中，我们已经掌握了 es 是什么，同时也把 es 的服务已经安装启动，那么 es 是如何去存储数据，数据结构是什么，又是如何实现搜索的呢们先来聊聊 ElasticSearch 的相关概念吧！

集群，节点，索引，类型，文档，分片，映射是什么/mark>

elasticsearch 是面向文档，关系行数据库和 elasticsearch 客观的对比！一切都是 JSON！

Relational DB	Elasticsearch
数据库(database)	索引(indices)
表(tables)	types
行(rows)	documents
字段(columns)	fields

(集群)中可以包含多个索引(数据库)，每个索引中可以包含多个类型(表)，每个类型下又包含多个文档(行)，每个文档中又包含多个字段(列)。

物理设计：

在后台把每个索引划分成多个分片，每分分片可以在集群中的不同服务器间迁移一个人就是一个集群！默认的集群名称就是

类型是文档的逻辑容器，就像关系型数据库一样，表格是行的容器。类型中对于字段的定义称为映射，比如映射为字符串类型。我们说文档是无模式的，它们不需要拥有映射中所定义的所有字段，比如新增一个字段，那么是怎么做的呢会自动的将新字段加入映射，但是这个字段的不确定它是什么类型，就开始猜，如果这个值是，那么会认为它是整形。但是也可能猜不对，所以最安全的方式就是提前定义好所需要的映射，这点跟关系型数据库殊途同归了，先定义好字段，然后再使用，别整什么幺蛾子。

索引

就是数据库！

索引是映射类型的容器，elasticsearch 中的索引是一个非常大的文档集合。索引存储了映射类型的字段和其他设置。然后它们被存储到了各个分片上了。我们来研究下分片是如何工作的。

物理设计：节点和分片如何工作

上图是一个有 3 个节点的集群，可以看到主分片和对应的复制分片都不会在同一个节点内，这样有利于某个节点挂掉了，数据也不至于丢失。实际上，一个分片是一个索引，一个包含倒排索引的文件目录，倒排索引的结构使得在不扫描全部文档的情况下，就能告诉你哪些文档包含特定的关键字。不过，等等，倒排索引是什么鬼/p>

倒排索引

elasticsearch 使用的是一种称为倒排索引的结构，采用 Lucene 倒排索作为底层。这种结构适用于快速的全文搜索，一个索引由文档中所有不重复的列表构成，对于每一个词，都有一个包含它的文档列表。例如，现在有两个文档，每个文档包含如下内容：

Study every day, good good up to forever  声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！