提问者:小点点

ElasticSearch/同义词、复数和错别字的嵌套搜索


我想做一个实现以下项目的搜索。

现在我已经通过正则表达式实现了所有这些,它远远没有涵盖所有内容,我想知道我可以使用ElasticSearch来实现这一点:

>

  • 同义词

    我的理解是,这是在创建索引时实现的。

    indexSettings. Analysis.TokenFilters.Add("同义词",new SynonymTokenFilter{同义词=new[]{"轮胎=

    但是我需要包括复数吗?或者,

    单数单词(鞋和鞋应该是相同的匹配)

    这是否意味着我需要把“鞋子”放在同义词列表中?或者有其他方法吗?

    应允许小的拼写错误、替换和遗漏

    所以“汽车”、“汽车”或“汽车”会匹配。我不知道这是否可能。

    忽略所有停用词

    现在我正在通过正则表达式删除所有的“the”、“this”、“my”等

    我所有的搜索词都是简单的英文单词和数字;其他什么都不允许。


  • 共1个答案

    匿名用户

    所有这一切都可以通过在Elasticsearch中配置/编写自定义分析器来实现。依次回答每个问题:

    同义词

    同义词可以应用于索引时间、搜索时间或两者。无论您选择哪种方法,都需要考虑权衡

    • 与在搜索时应用同义词相比,在索引时应用同义词将导致更快的搜索速度,代价是更多的磁盘空间、索引吞吐量以及添加/删除现有同义词的易用性和灵活性
    • 在搜索时应用同义词可以以牺牲搜索速度为代价实现更大的灵活性。

    还需要考虑同义词列表的大小以及它更改的频率(如果有的话)。我会考虑尝试两者并决定哪种最适合您的场景和需求。

    单数单词(鞋和鞋应该是相同的匹配)

    您可以考虑使用词干法将复数和单数单词减少为其词根形式,使用基于算法或字典的词干器。也许从英语Snowball词干器开始,看看它是如何为你工作的。

    您还应该考虑是否还需要索引原始单词形式,例如,精确的单词匹配是否应该在其根形式上排名高于词干单词?

    应允许小的拼写错误、替换和遗漏

    考虑使用可以利用模糊性来处理拼写错误的查询。如果索引数据中存在拼写错误,请考虑在索引之前进行某种形式的清理。根据所有数据存储,垃圾输入,垃圾输出:)

    忽略所有停用词

    使用英文停止标记过滤器删除停止词。

    将所有这些放在一起,示例分析器可能看起来像

    void Main()
    {
        var pool = new SingleNodeConnectionPool(new Uri("http://localhost:9200"));
        var defaultIndex = "default-index";
        var connectionSettings = new ConnectionSettings(pool)
            .DefaultIndex(defaultIndex);
    
        var client = new ElasticClient(connectionSettings);
    
        if (client.IndexExists(defaultIndex).Exists)
            client.DeleteIndex(defaultIndex);
    
        client.CreateIndex(defaultIndex, c => c
            .Settings(s => s
                .Analysis(a => a
                    .TokenFilters(t => t
                        .Stop("my_stop", st => st
                            .StopWords("_english_", "i've")
                            .RemoveTrailing()
                        )
                        .Synonym("my_synonym", st => st
                            .Synonyms(
                                "dap, sneaker, pump, trainer",
                                "soccer => football"
                            )
                        )
                        .Snowball("my_snowball", st => st
                            .Language(SnowballLanguage.English)
                        )
                    )
                    .Analyzers(an => an
                        .Custom("my_analyzer", ca => ca
                            .Tokenizer("standard")
                            .Filters(
                                "lowercase",
                                "my_stop",
                                "my_snowball",
                                "my_synonym"
                            )
                        )
                    )
                )
            )
            .Mappings(m => m
                .Map<Message>(mm => mm
                    .Properties(p => p
                        .Text(t => t
                            .Name(n => n.Content)
                            .Analyzer("my_analyzer")
                        )
                    )
                )
            )
        );
    
        client.Analyze(a => a
            .Index(defaultIndex)
            .Field<Message>(f => f.Content)
            .Text("Loving those Billy! Them is the maddest soccer trainers I've ever seen!")
        );
    }
    
    public class Message
    {
        public string Content { get; set; }
    }
    

    my_analyzer为上面生成以下标记

    {
      "tokens" : [
        {
          "token" : "love",
          "start_offset" : 0,
          "end_offset" : 6,
          "type" : "<ALPHANUM>",
          "position" : 0
        },
        {
          "token" : "those",
          "start_offset" : 7,
          "end_offset" : 12,
          "type" : "<ALPHANUM>",
          "position" : 1
        },
        {
          "token" : "billi",
          "start_offset" : 13,
          "end_offset" : 18,
          "type" : "<ALPHANUM>",
          "position" : 2
        },
        {
          "token" : "them",
          "start_offset" : 20,
          "end_offset" : 24,
          "type" : "<ALPHANUM>",
          "position" : 3
        },
        {
          "token" : "maddest",
          "start_offset" : 32,
          "end_offset" : 39,
          "type" : "<ALPHANUM>",
          "position" : 6
        },
        {
          "token" : "football",
          "start_offset" : 40,
          "end_offset" : 46,
          "type" : "SYNONYM",
          "position" : 7
        },
        {
          "token" : "trainer",
          "start_offset" : 47,
          "end_offset" : 55,
          "type" : "<ALPHANUM>",
          "position" : 8
        },
        {
          "token" : "dap",
          "start_offset" : 47,
          "end_offset" : 55,
          "type" : "SYNONYM",
          "position" : 8
        },
        {
          "token" : "sneaker",
          "start_offset" : 47,
          "end_offset" : 55,
          "type" : "SYNONYM",
          "position" : 8
        },
        {
          "token" : "pump",
          "start_offset" : 47,
          "end_offset" : 55,
          "type" : "SYNONYM",
          "position" : 8
        },
        {
          "token" : "ever",
          "start_offset" : 61,
          "end_offset" : 65,
          "type" : "<ALPHANUM>",
          "position" : 10
        },
        {
          "token" : "seen",
          "start_offset" : 66,
          "end_offset" : 70,
          "type" : "<ALPHANUM>",
          "position" : 11
        }
      ]
    }