NLP为什么这么难
案例
你以为的对话类AI:
实际上的AI:
更多案例
类似的例子还有很多很多。。。
普通难度:
校长说衣服上除了校徽别别别的
过几天天天天气不好
看见西门吹雪点上了灯,叶孤城冷笑着说:“我也想吹吹吹雪吹过的灯”,然后就吹灭了灯。
今天多得谢逊出手相救,在这里我想真心感谢“谢谢谢逊大侠出手”
灭霸把美队按在地上一边摩擦一边给他洗脑,被打残的钢铁侠说:灭霸爸爸叭叭叭叭儿的在那叭叭啥呢
姑姑你估估我鼓鼓的口袋里有多少谷和菇!!
“你看到王刚了吗”“王刚刚刚刚走”
张杰陪俩女儿跳格子:俏俏我们不要跳跳跳跳过的格子啦
骑车出门差点摔跤,还好我一把把把把住了
我朋友问父亲:我大大大(大大爷)和我姑姑谁年龄大?朋友爸爸说:你大大大大!
我背有点驼,麻麻说“你的背得背背背背佳
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”
赵敏说:我也想控忌忌己不想无忌。
你也想犯范范范玮琪犯过的错吗
地狱级别:
写给卖豆芽的对联: 长长长长长长长,长长长长长长长。(solution: changzhangchangzhangchangchangzhang zhangchangzhangchangzhangzhangchang,zhangchangchangzhangchangzhangchang,zhangchangzhangchangzhangchangchang)
季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。《施氏食狮史》
去商店买东西一算账1001块,小王对老板说:“一块钱算了。” 老板说好的。于是小王放下一块钱就走了,老板死命追了小王五条街又要小王付了1000,小王感慨:#自然语言理解太难了#
“碳碳键键能能否否定定律一”
为什么会这样?
人类发明语言是为了高效传达信息,潜在要点:
忽略共同背景信息:故意省略一些常识信息(都知道的知识)、场景信息(当前时间地点情景)
压缩:尽量使用简短语言传达最重要的信息
解压缩:对方接收到压缩的信息后,根据常识、场景推断背后的传达的意思
然而,机器远没有人那么聪明,现在没法完成人一样的解压缩工作
当前的数据驱动+机器学习方法与NLU关系不大
机器学习将大量数据概括为单一函数(模式、范式)
统计无法捕捉(甚至不能近似)语义
为什么 NLU 很困难:
(1)文本容易丢失:”缺失文本现象”(MTP)自然语言理解中所有挑战的核心。场景:演讲者将思想“编码”为某种自然语言中的话语,然后听众将话语“解码”为演讲者打算/希望传达的思想。”解码”过程是NLU中的”U”–即理解话语背后的思想。MTP:媒体传输协议,Media Transfer Protocol
(2)”解码”过程中需要没有任何误差,才能从说话者的话语中,找出唯一一种意在传达的含义。这正是NLU困难的原因。两种优化通信的方案:1.说话者可以压缩(和最小化)在思想编码中发送的信息量,并且听者做一些额外的工作解码(解压缩)话语;2.演讲者多做一部分工作,把所有想要传达的思想信息告诉听者,减少听者的工作量;
NLU的问题所在:机器不知道我们遗漏了什么,它们不知道我们都知道什么。如果它们不能以某种方式”整理”我们话语的所有的含义,那么软件程序将永远不能完全理解我们话语背后的想法。为了有效地沟通,人们在交流中通常不会说对方知道的信息。这也正是为什么都倾向于忽略相同的信息——因为都了解每个人都知道的,而这正是所谓的共同背景知识。人类在大约 20 万年的进化过程中,发展出的这一天才优化过程非常有效。NLU的挑战,并不是解析,阻止,POS标记,命名实体识别等, 而是解释或揭示那些缺失的信息。并隐含地假定为共享和共同的背景知识。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!