【自然语言处理】第3部分:识别文本中的个人身份信息

这篇具有很好参考价值的文章主要介绍了【自然语言处理】第3部分:识别文本中的个人身份信息。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

自我介绍

  • 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。微信小号【ca_cea】

【自然语言处理】第3部分:识别文本中的个人身份信息,Python,自然语言处理,深度学习,自然语言处理,人工智能,transformers,tensorflow,python

在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:

  • 与第三方共享数据
  • 遵守GDPR等法规要求
  • 将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。

到目前为止,我们已经找到了查找人名、电子邮件地址、电话号码和信用卡号码的方法。让我们看看我们还能找到哪些其他类型的PII。

介绍Hugging Face

Hugging Face是一个流行的Python库,包含预先训练的人工智能模型,可用于各种自然语言处理(NLP)任务,包括命名实体识别(NER)。正如我们在前几篇文章中所讨论的,NER是一种非常有用的检测文本中PII的技术。

Python示例

让我们看看我们将如何使用拥抱脸。

先决条件:

应至少安装TensorFlow 2.0或PyTorch中的一个。然后在您选择的终端中键入以下内容:

pip install transformers

我们将尝试看看“拥抱脸”在识别某些文本中的位置方面做得有多好:

from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)

sequence = "In west Philadelphia born and raised. On the playground was where I spent most of my days. "
sequence += "I got in one little fight and my mom got scared. "
sequence += "She said 'You're movin' with your auntie and uncle in Bel Air'!"

output = ner(sequence)

print(output)

让我们看看这个代码打印的内容:

[
{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Philadelphia', 'start': 8, 'end': 20}, 
{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Bel Air', 
'start': 194, 'end': 201}
]

它只使用默认的英语语言模型和设置就很好地检测到了这两个位置词。给人印象深刻的

根据我的经验,“拥抱脸”在检测位置方面比我们迄今为止讨论的其他工具要好,所以如果发现位置对你来说很重要,那么一定要试一试。它非常灵活,周围有一个很大的社区,有很好的文档,并且被广泛使用。

结论

我们不仅继续将PII类型添加到我们能够找到的列表中,而且我们也在慢慢提高质量,给自己足够的知识来选择最适合这份工作的工具。

我们将在随后的文章中继续这段旅程,所以请观看此空间以获得更多刺激(嗯……我们中的一些人喜欢这些东西!)。

本文:【自然语言处理】第3部分:识别文本中的个人身份信息 | 开发者开聊

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.文章来源地址https://www.toymoban.com/news/detail-769370.html

到了这里,关于【自然语言处理】第3部分:识别文本中的个人身份信息的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 自然语言处理 文本分类 地铁方面留言文本

    将关于地铁的留言文本进行自动分类。 不要着急,一步步来。 导入需要的库。 定义函数,加载用来分词的自定义词典。 定义函数,生成自己的停用词词典,得到一个文件。 我找的4个停用词词典下载地址:https://gitcode.net/mirrors/goto456/stopwords/-/tree/master 后面我会把自己整合好

    2024年02月09日
    浏览(65)
  • 【自然语言处理】实验3,文本情感分析

    清华大学驭风计划课程链接  学堂在线 - 精品在线课程学习平台 (xuetangx.com) 代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主 有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~ 情感分析

    2024年02月19日
    浏览(46)
  • 自然语言处理-文本表示: Embedding技术

    目录 I. 引言 A. 文本表示介绍 B. 引入Embedding技术的重要性和应用领域 II. 传统文本表示方法 A. One-Hot编码 B. 词袋模型 C. TF-IDF III. 什么是文本表示-Embedding A. 定义和概念 B. Embedding的目标和作用 IV. 常见Embedding技术 A. Word2Vec 1. CBOW模型 2. Skip-gram模型 3. 结构与训练方法 B. GloVe 1. 全局

    2024年02月16日
    浏览(69)
  • 自然语言处理实战9-大语言模型的训练与文本生成过程

    大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目9-大语言模型的训练与文本生成过程,详细步骤介绍。大语言模型的训练是通过深度学习技术实现的。首先,需要准备一个庞大的文本数据集作为训练样本,这些文本可以是网页、书籍、新闻等大量的非结构化文

    2024年02月07日
    浏览(56)
  • 【自然语言处理(NLP)】基于ERNIE语言模型的文本语义匹配

    作者简介 :在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设专家委员会(TIPCC)志愿者,以及编程爱好者,期待和大家一起学习,一起进步~ . 博客主页 : ぃ灵彧が的学习日志

    2024年02月10日
    浏览(63)
  • Go语言的自然语言处理和语音识别

    自然语言处理(NLP)和语音识别是计算机科学领域中的重要研究方向。它们涉及到计算机与人类自然语言的交互,使计算机能够理解、生成和处理人类语言。Go语言是一种现代编程语言,具有高性能、简洁且易于学习。在本文中,我们将探讨Go语言在自然语言处理和语音识别领域

    2024年02月20日
    浏览(73)
  • 自然语言处理 Paddle NLP - 检索式文本问答-理论

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月11日
    浏览(56)
  • 自然语言处理入门:使用Python和NLTK进行文本预处理

    文章标题:自然语言处理入门:使用Python和NLTK进行文本预处理 简介 自然语言处理(NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、分析和生成人类语言。本文将介绍如何使用Python编程语言和NLTK(Natural Language Toolkit)库进行文本预处理,为后续的文本分析

    2024年02月19日
    浏览(55)
  • 5.Python数据分析项目之文本分类-自然语言处理

    预测类数据分析项目 流程 具体操作 基本查看 查看缺失值(可以用直接查看方式isnull、图像查看方式查看缺失值missingno)、查看数值类型特征与非数值类型特征、一次性绘制所有特征的分布图像 预处理 缺失值处理(填充)拆分数据(获取有需要的值) 、统一数据格式、特征

    2024年02月03日
    浏览(67)
  • 自然语言处理 Paddle NLP - 文本翻译技术及应用-理论

    基础 自然语言处理(NLP) 自然语言处理PaddleNLP-词向量应用展示 自然语言处理(NLP)-前预训练时代的自监督学习 自然语言处理PaddleNLP-预训练语言模型及应用 自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram) 自然语言处理PaddleNLP-词法分析技术及其应用 自然语言处理Pa

    2024年02月11日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包