java文本相似度-Toy模板网

这篇具有很好参考价值的文章主要介绍了java文本相似度。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在 Java 中，可以使用一些现成的库来比较文本的相似度。这里，我将为您提供一个使用 Jaccard 相似度算法（集合相似度）比较文本相似度的方法。首先，请确保将 commons-collections4-4.4.jar 添加到项目的类路径中。您可以从 Maven Central 仓库下载这个 JAR 文件。

添加 Maven 依赖：

<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-collections4 -->
<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-collections4</artifactId>
    <version>4.4</version>
</dependency>

使用 Jaccard 相似度算法比较文本相似度的 Java 方法：

import org.apache.commons.collections4.CollectionUtils;
import org.apache.commons.collections4.ListUtils;
import org.apache.commons.collections4.Transformer;

import java.util.ArrayList;
import java.util.List;

public class TextSimilarity {

    public static double jaccardSimilarity(String text1, String text2) {
        List<String> words1 = tokenize(text1);
        List<String> words2 = tokenize(text2);

        List<String> union = new ArrayList<>(words1);
        CollectionUtils.addAll(union, words2);

        List<String> intersection = ListUtils.intersection(words1, words2);

        return (double) intersection.size() / union.size();
    }

    private static List<String> tokenize(String text) {
        // 您可以根据需要替换为您喜欢的分词器，例如：结巴分词等
        String[] tokens = text.toLowerCase().split("\\s+");
        return new ArrayList<>(List.of(tokens));
    }

    public static void main(String[] args) {
        String text1 = "今天是个好天气。";
        String text2 = "今天天气真好。";

        double similarity = jaccardSimilarity(text1, text2);
        System.out.println("文本相似度: " + similarity);
    }
}