{page.title}

AI产品经理必修课:NLP技术原理与应用2018本港台

发表时间:2019-10-08

  2019北京运营增长大会 16位嘉宾与你一起探讨下沉市场、私域流量、KOC等热点线日

  15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下

  本文简单介绍了NLP的主要技术以及应用领域,适合希望成为人工智能产品经理的产品新人阅读。

  词态:封装了可用于自然语言理解的有用信息,其中信息量的大小取决于具体的语言种类。中文没有太多的词态变换,仅存在不同的偏旁,导致出现词的性别转换的情况。

  句法:主要研究词语如何组成合乎语法的句子,句法提供单词组成句子的约束条件,为语义的合成提供框架。

  自然语言处理(Natural Language Processing,NLP):是计算机科学,人工智能和语言学的交叉领域。目标是让计算机处理或“理解”自然语言,以执行语言翻译和问题回答等任务。

  自然语言千变万化,没有固定格式。同样的意思可以使用多种句式来表达,同样的句子调整一个字、调整语调或者调整语序,表达的意思可能相差很多。

  自然语言所表达的语义本身存在一定的不确定性,同一句话在不同场景/语境下的语义可能完全不同。

  人类讲话时往往出现不流畅、错误、重复等现象,而对机器来说,在它理解一句话时,这句话整体所表达的意思比其中每个词的确切含义更加重要。

  自然语言理解以语言学为基础,融合逻辑学、计算机科学等学科,通过对语法、语义、语用的分析,获取自然语言的语义表示。

  依存句法分析dependency syntactic parsing,主要任务是识别句子中词汇之间的相互依存关系。

  短语结构句法分析phrase-structure syntactic parsing,也称作为分句法分析constituent syntactic parsing,主要任务是识别句子中短语结构和短语之间的层次句法关系。

  深层文法句法分析,主要任务是利用深层文法,对句子进行深层的句法及语义分析,这些深层文法包括词汇化树邻接文法、词汇功能文法、组合范畴文法等。

  (1)语义,指的是自然语言所包含的意义,在计算机科学领域,可以将语义理解为数据对应的现实世界中的事物所代表概念的含义。

  2. TF-IDF(term frequency-inverse document frequency,词频-逆文档频率)

  (1)含义:是一种基于统计的加权方法,常用于信息检索领域,用具体词汇在文档中出现的次数和该词汇在语料中出现的次数两个值评估该词汇对相关文档的重要程度。TF指某词语在该文档中出现的次数,IDF是词语普遍重要性的度量。

  涉及文法开发,需要将文法结构和应用特有的语义表征相关联,但由于自然语言中存在海量的文法结构,造成搜索空间巨大,如何避免生成有歧义输出成了一个有挑战的问题。

  由于语言的上下文敏感性,生成语言时如何整合包括时间、地点、位置、用户信息等在内的上下文信息也是一个难题。

  基于深度学习技术生成回复的对话模型很难解释,也很难被人类理解,只能通过更好的语料和参数调整来改善对线. 三种自然语言生成方式

  基于检索的自然语言生成并不是如字面意思一样生成自然语言,更多是在已有的对话语料中检索出合适的回复。2018本港台开码记录

  自然语言生成模板由句子sentence模板,词汇word模版组成。句子模版包含若干个含有变量的句子,词汇模板则是句子模块中的变量对应的所有可能的值。

  NLP作为人工智能的核心技术,在机器翻译、聊天机器人、语音识别等领域都有重要的应用。

  基于功能的聊天机器人分类:问答系统、面向任务的对话系统、闲聊系统和主动推荐系统。

  一个完整聊天机器人的系统架构主要由语言识别、自然语言理解、对话管理、自然语言生成、语音合成等5个部分组成。

  自动语音识别automatic speech recognition,ASR,负责将原始的语音信号转换成文本信息。

  自然语言理解natural language understanding,NLU,负责将识别到的文本信息转换为机器可以理解的语义表示。

  对话管理dialogue management,DM,负责基于当前对话的状态判断系统应该采取怎样的动作。

  自然语言生成natural language generation,NLG,负责将系统动作/系统回复转变成自然语言文本。

  语音合成text-to-speech,TTS,负责将自然语言文本转变成语音信号输出给用户。

  软件形态:Apple Siri、微软小冰、微软cortana、IBM watson、Google Now。

  平台:谷歌、微软等公司对外提供聊天机器人框架bot framework,以sdk或saas服务的方式像第三方公司或个人开发者提供可以用于构建特定应用和领域的聊天机器人。代表:amazon Alexa(服务amazon lex)、微软luis with bot(认知服务cognitive services)、谷歌api.ai、Facebook wit.ai。

  常见的聊天机器人系统包括问答系统、蚔牁卼藹楊呇ㄗ窪藹絳ㄘ縐郪蜊撈奀珋部惆鎢。面向任务的对话系统、闲聊系统、主动推荐系统。

  QA问答系统偏重于问句分析,旨在获取问句的主题词、问题词、中心动词。主要采取模板匹配和语义理解两种方式。

  通过对话管理(重点)和跟踪当前的对话状态,进而明确用户的目的和需求。聚焦于将用户输入的自然语言映射为用户的意图和相应的槽位值。

  针对用户没有特定目的、没有具体需求情况下的多轮人机对话,重点是对话管理(上下多轮交互)和自然语言理解两个模块。

  处于起步阶段,是人机自然交互的关键一环,其作用更多是体现聊天机器人的认知能力。

  聊天机器人系统中的自然语言理解模块主要包括:实体识别named entity recognition、用户意图识别、用户情感识别、指代消解、省略恢复、回复确认及拒识判断等。

  指代消解:指聊天主题背景一致的情况下,人们在对话过程中通常会习惯性地使用代词指代出现过的某个实体或事件,或者为了方便表述省略句子部分成分的情况。

  省略恢复:自然语言理解模块需要明确代词指代的成分和句子中的省略的成分,唯有如此,聊天机器人才能正确理解用户的输入,给出合乎上下文语义的回复。

  回复确认:当用户意图、聊天信息等带有一定的模糊性时,需要聊天机器人主动向用户询问,确认用户的意图。

  拒识判断:指聊天机器人系统应当具备一定的拒识能力,主动拒绝识别及回复超出自身理解/回复范围或者涉及敏感话题的用户输入。

  本文由 @Alan 原创发布于人人都是产品经理,未经作者许可,禁止转载。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立9年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,www.0449.com开始只是责任和契约的督2019-10-07,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。