“前面说了,让机器人‘听得懂’一切用人类语言提的问题、并且准确回答其中那些有标准答案的客观题,这就是深度学习算法对问题回答型人工智能的训练的上半场。然后,从去年下半年,搞定nhn之后,咱的问题回答型人工智能已经发展到下半场了,严磊和他的研究院,如今天天就忙那些。只不过你在休产假,没了解罢了。”
“具体给我说说嘛,人家真不想脱节前沿太久,被人以为没见识。”陆文君的技术宅妹属性,也算是天生的了,并不是为了赚钱才对数理内容好奇的。作为顾莫杰的妻子,她绝不希望自己在生意上辅佐丈夫的价值就此终结。
“这个下半场,就是:当客观题部分,采用公用的大数据池训练完毕后,主观题部分,我们要依靠对每个用户细致入微的行为分析,来做到私人订制的‘初秘’。也就是说,数年之后,每个‘初心’手机上的‘初秘’机器人,在回答各自主人提出的主观题时,答案是不一样的。这里面再也不依靠‘大样本容量的统计’来实现偏好筛选,而是完全按照每个人的喜好量身定做。”
陆文君歪着脑袋想了想:“每个人都根据自己本身的行为数据来揣测,那岂不是一开始很不准?那些不愿意配合、不愿意把行为习惯隐私泄漏给初音的用户,我们岂不是很难有进展?何况单个个体产生的数据频次太低了,很难通过聊聊几条信息分析出一个人的喜好啊。”
顾莫杰摆摆手,示意陆文君不必担心。
“你不懂里面的技术原理,就别瞎担心。这是一个循序渐进的过程。比如,我举个例子,就拿看书而言,曾经我们是把用户分成几个大类,有的用户爱看玄幻,有人爱看都市,有人爱看历史。然后他看哪类比较多,就把这一类最火的书推给他——这是最原始的弱智状态,都称不上人工智能。
第二步,当他有限地看了几本书之后,大致可以摸清这个人的脾胃。然后根据和他行为模式类似的人,按照‘人以群分’的算法,推而广之认为他和哪类人是一样的,把那一类人都比较爱看的东西推送给他。
如果他接受了,那么就留下一个喜好的数据烙印,如果他拒绝了,就进一步细分人群。这样一步步推进,最后用户会从数百万人一群的大群、细化为数万人的小群、最后甚至是数百人的小群。
这些人的经历、喜好、脾性其实是高度吻合的,也就容易捆绑成一个数据圈子,相互引用推送结果,进一步反馈推送效果——这样循序渐进,最终就可以勾勒出一个个独一无二的‘人’的需求。”
中国那么大,十亿网民里面,但凡细分到数百人一群的时候,对娱乐内容的喜好基本上可以做到完全相同了——毕竟,放到人群的总体样本来看,那都已经是百万分之一的小众需求了。
这么大一个国家,哪怕是再孤僻、特立独行的个体,好歹至少也有几百个人和他是兴趣爱好完全相同的,这种小概率事件并不奇怪。
初音系的人工智能要做的,就是在日渐分析中,把人群越分越细,或者兼顾几个判断维度交织一张数据评价之网,最终让“初秘”变得和主人内心的幽灵一样精准。
这样,任何人都离不开“初秘”了。
一旦离开,就会像顾莫杰怀念初音娘一样怀念。
陆文君反复咀嚼顾莫杰的话,最后终于豁然开朗。
“原来是这样……这都可以!”