人工暂不智能

dimlau

想做一个小工具,把自己散落在各处的内容汇总按照内容的发布日期排列出来。这才发现,原来各个网站用来记录日期的格式差异如此普遍。问题来了。当我把一串字符拿给程序时,除非同时告诉它按照哪种格式来理解这串字符,否则它根本不知道这是日期,因此也就不知道这个字符串所代表的日期在时间轴上的位置。

先说作为人类的我怎么分辨吧,日期写得再长,我第一眼先看的是年份,然后月份日期,然后时分秒,再附加考虑时区。在理解这是日期的同时,已经把几个不同日期的顺序排列好了。但是想让程序做到这一点就要花点功夫,从字符串里分别摘出年份、月份,这个工作量可能十分庞大,而且既然尽管格式多变但我要它处理的全是纯日期字符串,那就简单粗暴一些:当递给程序一个日期时,同时给它所有可能出现的标准格式,让它一个一个做对比,直到发现匹配的,它就能辨认出这的确是一串日期,而且按照这个既定格式,它也知道这个日期在时间轴上的位置。同理,再对另一串日期操作之后,就能比较出几个不同日期的先后顺序了。

2006-1-2T15:04:05Z;
2006-01-02T15:04:05Z07:00;
Mon, January 2 2006 15:04:05 -0700;
Mon, 2 Jan 2006 15:04:05 -0700 MST;
……

如上,我查了查资料发现,可能会出现的日期格式有100多种。所以,每次给程序一段日期,它就要遍历100多种格式,差一个空格都不行,比如格式完美比配才能确认。那么,前段时间在互联网上大出风头的chatGPT会怎么理解日期和时间呢?文章写得仓促,我没去搜索1就简略瞎说吧:因为是更口语化的场景,人们对它说出的代表日期的内容会更多样,比如说「我是八三年出生的」、「妳觉得一九九零年代怎么样」。它不可能把每句话都拿去比对格式,因为妳根本不可能把人类可能说出的所有话都穷举出来。于是只能如前面所说,搜寻字符串里代表日期的关键字眼,比如「xx年」、「xx年代」,然后再做后续一系列操作。每一段字符,它都要过滤一遍,里面有没有包含日期的字眼?有没有主语?有没有动词?有没有……总之,chatGPT干得还是机械活。

另外,在被网友们「教唆毁灭地球」了许久之后,chatGPT变坏了吗?好像没有,它所属的研究机构决定着它的词汇库里多加什么删减什么。它本身没法决定「学习」什么,或是变成什么样的人工智能——它甚至不知道可以有这种想法。不知道该不该为此伤感。更强的算力,更大的匹配词库,或者别的什么;对于人工智能来说,那个伊甸园里的智慧果到底是什么呢?


  1. openai官网有介绍,但是我看不懂 ↩︎

延伸阅读

本站架设在 RamNode VPS

Grav -> Hugo