Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理 Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理

这篇具有很好参考价值的文章主要介绍了Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理 Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理

目录

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

五、实现步骤

六、关键代码

附录:在 HanLP 中,Term 对象的 nature 字段表示词性


一、简单介绍

Android 开发中的一些基础操作,使用整理,便于后期使用。

本节介绍,在Android中, 使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理。

在 Android 平台上,除了 HanLP,还有其他一些可以用于中文分词处理的算法和工具。以下是一些常见的中文分词算法,以及 HanLP 在分词中的一些优势:

常见的中文分词算法和工具:

  1. ansj_seg: ansj_seg 是一个基于 CRF 和 HMM 模型的中文分词工具,适用于 Java 平台。它支持细粒度和粗粒度的分词,并具有一定的自定义词典和词性标注功能。

  2. jieba: jieba 是一个在 Python 中广泛使用的中文分词库,但也有其 Java 版本。它采用了基于前缀词典的分词方法,并在速度和效果方面表现出色。

  3. lucene-analyzers-smartcn: 这是 Apache Lucene 项目中的一个中文分词器,使用了基于规则的分词算法。它在 Lucene 搜索引擎中被广泛使用。

  4. ictclas4j: ictclas4j 是一个中科院计算所开发的中文分词工具,基于 HMM 模型。它支持自定义词典和词性标注。

HanLP 分词的优势:

  1. 多领域适用性: HanLP 被设计为一个面向多领域的中文自然语言处理工具包,不仅包括分词,还支持词性标注、命名实体识别、依存句法分析等多种任务。

  2. 性能和效果: HanLP 在多个标准数据集上进行了训练和优化,具有较好的分词效果和性能。

  3. 灵活的词典支持: HanLP 支持自定义词典,你可以根据需要添加专业领域的词汇,以提升分词效果。

  4. 开放源代码: HanLP 是开源的,你可以自由使用、修改和分发,有利于定制和集成到你的项目中。

  5. 多语言支持: HanLP 不仅支持中文,还支持其他语言,如英文、日文等,为跨语言处理提供了便利。

  6. 社区活跃: HanLP 拥有活跃的社区和维护团队,有助于解决问题和获取支持。

总之,HanLP 是一个功能丰富且性能优越的中文自然语言处理工具,适用于各种应用场景,特别是在多领域的文本处理任务中表现出色。然而,最终的选择取决于你的具体需求和项目背景。

HanLP 官网:HanLP | 在线演示

HanLP GitHub:GitHub - hankcs/HanLP: 中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理

二、实现原理

1、使用 StandardTokenizer.segment(text) 传入文本 Text 内容进行分词

2、使用 Term.word; 获取分词内容,Term.nature.toString() 获取分词的属性

三、注意事项

1、中文的词会有对应较为准确的此属性,英文可能没有

四、效果预览

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理,Android,android,android studio,HanLP,分词,中文分词

五、实现步骤

1、打开 Android Studio 创建一个空工程,在build.gradle 中引入 HanLP

implementation 'com.hankcs:hanlp:portable-1.7.5' 记得 Sync nNow

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理,Android,android,android studio,HanLP,分词,中文分词

 2、创建脚本 ChineseSegmentationExample ,实现分词功能

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理,Android,android,android studio,HanLP,分词,中文分词

3、在 主脚本中调用,输入要分词的内容

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理,Android,android,android studio,HanLP,分词,中文分词

4、打包在Android 机子上运行,效果如上

Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理,Android,android,android studio,HanLP,分词,中文分词

六、关键代码

1、ChineseSegmentationExample

package com.xxxx.testchinesesegmentationexample;

import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;

import java.util.List;

public class ChineseSegmentationExample {

    /**
     * 分词
     * @param wordsContent 要进行分词的内容
     */
    public static void SegmentWords(String wordsContent) {
        String text = wordsContent;

        // 进行分词
        List<Term> terms = StandardTokenizer.segment(text);

        // 遍历分词结果,判断词性并打印
        for (Term term : terms) {
            String word = term.word;
            String pos = term.nature.toString();

            String posInfo = getPosInfo(pos); // 判断词性属性

            System.out.println("Word: " + word + ", POS: " + pos + ", Attribute: " + posInfo);
        }
    }

    /**
     * 判断词性属性
     * @param pos
     * @return 属性
     */
    static String getPosInfo(String pos) {
        // 这里你可以根据需要添加更多的判断逻辑来确定词性属性
        if (pos.equals("n")) {
            return "名词";
        } else if (pos.equals("v")) {
            return "动词";
        } else if (pos.equals("ns")) {
            return "地名";
        }else if (pos.equals("t")) {
            return "时间";
        }
        else {
            return "其他";
        }
    }

}

2、MainActivity

ackage com.xxxxx.testchinesesegmentationexample;

import androidx.appcompat.app.AppCompatActivity;

import android.os.Bundle;

public class MainActivity extends AppCompatActivity {

    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);

        ChineseSegmentationExample.SegmentWords("现在几号,几点钟,今天明天后天昨天北京深圳的天气如何。");
    }
}

附录:在 HanLP 中,Term 对象的 nature 字段表示词性

在 HanLP 中,Term 对象的 nature 字段表示词性(Part of Speech,POS)。HanLP 使用了一套标准的中文词性标注体系,每个词性都有一个唯一的标识符。以下是一些常见的中文词性标注及其含义:

  • 名词类:

    • n:普通名词
    • nr:人名
    • ns:地名
    • nt:机构名
    • nz:其他专名
    • nl:名词性惯用语
    • ng:名词性语素
  • 时间类:

    • t:时间词
  • 动词类:

    • v:动词
    • vd:副动词
    • vn:名动词
    • vshi:动词"是"
    • vyou:动词"有"
  • 形容词类:

    • a:形容词
    • ad:副形词
  • 副词类:

    • d:副词
  • 代词类:

    • r:代词
    • rr:人称代词
    • rz:指示代词
    • rzt:时间指示代词
  • 连词类:

    • c:连词
  • 助词类:

    • u:助词
  • 数词类:

    • m:数词
  • 量词类:

    • q:量词
  • 语气词类:

    • y:语气词
  • 叹词类:

    • e:叹词
  • 拟声词类:

    • o:拟声词
  • 方位词类:

    • f:方位词
  • 状态词类:

    • z:状态词
  • 介词类:

    • p:介词
  • 前缀类:

    • h:前缀
  • 后缀类:

    • k:后缀
  • 标点符号类:

    • w:标点符号

请注意,上述只是一些常见的词性标注及其含义,实际情况可能更复杂。你可以根据需要调查 HanLP 的文档来了解更多词性标注的详细信息。根据这些词性标注,你可以编写代码来判断词的属性(如动词、名词、地名等)并进行相应的处理。文章来源地址https://www.toymoban.com/news/detail-654946.html

到了这里,关于Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理 Android Studio 之 Android 中使用 HanLP 进行句子段落的分词处理(包括词的属性处理)的简单整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • hanlp,pkuseg,jieba,cutword分词实践

    总结:只有jieba,cutword,baidu lac成功将色盲色弱成功分对,这两个库字典应该是最全的 https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_stl.ipynb https://github.com/lancopku/pkuseg-python 下载最新模型 https://github.com/fxsjy/jieba HMM中文分词原理 https://github.com/liwenju0/cutword https://gi

    2024年01月19日
    浏览(69)
  • 自然语言处理学习笔记(三)————HanLP安装与使用

    目录 1.HanLP安装 2.HanLP使用 (1)预下载  (2)测试 (3)命令行  (4)测试样例 3.pyhanlp可视化 4. HanLP词性表 1.HanLP安装  HanLP的 Python接口由 pyhanlp包提供,其安装只需一句命令: 安装完成 2.HanLP使用 (1)预下载 第一次使用pyhanlp时,会自动下载许多hanlp的jar包(包含许多算法

    2024年02月14日
    浏览(40)
  • Android Studio 使用WIFI连接手机进行无线调试

    这样就表明成功了。

    2024年02月03日
    浏览(54)
  • 使用 Elasticsearch 和 LlamaIndex 进行高级文本检索:句子窗口检索

    2023 年是检索增强生成 (RAG) 的一年,人们探索了许多用例,并使用该技术开发了数百种产品。 从 Q/A 聊天机器人到基于上下文的代理,RAG 的使用一直是 LLM 申请快速增长的主要因素。 支持不断发展的社区以及 Langchain 和 LlamaIndex 等强大框架的可用性,使开发人员可以更轻松地

    2024年01月18日
    浏览(30)
  • Android Studio 如何连接 夜神模拟器 进行使用!

    目录 一、夜神模拟器官方简介 二、如何使用Android Studio  连接到夜神模拟器 三、更多开源案例代码获取         夜神模拟器,是全新一代的安卓模拟器,能够让你在电脑上畅玩手机游戏。与传统安卓模拟器相比,基于Android7.1,同时支持Android5以及向上兼容Android9内核,兼

    2024年04月15日
    浏览(55)
  • Sentence-BERT:使用Siamese BERT网络进行句子嵌入

    Siamese BERT 基于BERT模型的孪生网络结构,Siamese 一词表示网络结构共享参数和权重。 Siamese BERT常用于处理文本相似度任务,如句子对匹配、问答系统等。 它通过两个输入句子分别输入到两个共享参数的BERT模型中,获取句子的语义表示。然后,通过对比两个句子的语义表示,可

    2024年02月16日
    浏览(25)
  • 在Android Studio上使用Monkey工具对安卓应用进行压力测试

    2–pct-trackball 调整轨迹事件的百分比(轨迹事件由一个或几个随机的移动组成,有时还伴随有点击)–(轨迹球) 3–pct-nav 调整“基本”导航事件的百分比(导航事件由来自方向输入设备的up/down/left/right组成) 4–pct-majornav 调整“主要”导航事件的百分比(这些导航事件通常引发图

    2024年04月15日
    浏览(38)
  • ElasticSearch-使用IK分词器进行分词

    使用KIbana测试IK分词器 打开开发工具台 ik_smart 最少分词器 分词结果比较少 ik_max_word 颗粒度最细分词器 分词结果比较多,组成各种结果,穷尽词库的可能! 再看个例子,把我们的句子换成 超级喜欢魏一鹤学习Java 首先看最少分词 然后是最细颗粒度分词 问题来了 我们输入超级喜

    2024年02月13日
    浏览(30)
  • 中文分词入门:使用IK分词器进行文本分词(附Java代码示例)

    中文分词是将连续的中文文本切分成一个个独立的词语的过程,是中文文本处理的基础。IK分词器是一个高效准确的中文分词工具,采用了\\\"正向最大匹配\\\"算法,并提供了丰富的功能和可定制选项。 细粒度和颗粒度的分词模式选择。 可自定义词典,提高分词准确性。 支持中文

    2024年02月17日
    浏览(40)
  • 使用ES对一段中文进行分词

    ES连接使用org.elasticsearch.client.RestHighLevelClient。获取分词的代码如下: 单测代码如下: 执行结果: [\\\"点击\\\",\\\"上方\\\",\\\"蓝字\\\",\\\"关注\\\",\\\"我们\\\",\\\"全体\\\",\\\"教职员工\\\",\\\"教职员\\\",\\\"教职\\\",\\\"职员\\\",\\\"员工\\\",\\\"家长\\\",\\\"朋友们\\\",\\\"朋友\\\",\\\"们\\\",\\\"你们\\\",\\\"好\\\",\\\"快乐\\\",\\\"而\\\",\\\"充实\\\",\\\"的\\\",\\\"暑期\\\",\\\"生活\\\",\\\"即将\\\",\\\"结束\\\",\\\"新学

    2024年02月12日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包