关于我们
书单推荐
新书推荐

R自然语言处理导论

R自然语言处理导论

定  价:78 元

        

  • 作者:鲍贵
  • 出版时间:2023/11/1
  • ISBN:9787576609417
  • 出 版 社:东南大学出版社
  • 中图法分类:TP312.8R 
  • 页码:
  • 纸张:胶版纸
  • 版次:
  • 开本:16开
9
7
6
8
0
7
9
5
4
7
1
6
7

这部著作包括十一章内容,遵循由易到难、循序渐进的原则。第一章是R语言入门,第二章介绍字符串处理。第三章介绍常见的文本统计方法,包括统计文本词数、句子数和平均句长、绘制词频表以及词频分布图。
第四章依据R数据包koRpus介绍与讨论文本词汇多样性测量方法,包括传统的类符-形符比和平均分段类符-形符比等。第五章同第四章一样利用R数据包koRpus,重点介绍文本可读性多种测量方法和一种听力文本难易度的测量方法,包括自动化可读性指数(ARI)和Flesch阅读难易度等。
第六章聚焦于n元组和关键词提取方法,内容包括文本词语关键性检验方法(如卡方检验和似然比检验)、比较学生故事复述文本与原文本中使用的关键词以及比较美国总统就职演说文本中的关键词等。第七章介绍两种特殊形式的n元组,即搭配和搭配构式。第八章介绍文档或文本相似度和距离测量,包括余弦相似度、Jaccard相似度、欧式距离、Minkowski距离和潜在语义分析等。第九章着重介绍基于整洁文本的自然语言处理技术,是本著作内容最为丰富的一章,包括整洁数据的特征和整洁数据包tidyr的使用等。第十章介绍中文自然语言处理技术,包括调用jiebaR包时如何通过自定义词典进行分词、调用jiebaR包开展基础统计分析,计算文本长度、句子数和平均句长以及绘制高频词分布条形图等。第十一章是本书的最后一章,介绍如何对文本词汇开展词类标注和句法成分依存分析,包括数据包udpipe的安装与初试、词语共现和快速自动关键词提取等。

 你还可能感兴趣
 我要评论
您的姓名   验证码: 图片看不清?点击重新得到验证码
留言内容