金令牌首页金令牌猎头十佳职业经理人评选最佳雇主评选加入俱乐部《职业经理人周刊》会员区薪酬调查报告

登录

《职业经理人周刊》猎头公司

职业经理人俱乐部首页 >> 经理人资讯 >> IT通信 >> 焦点企业对话 >> 正文

谷歌AI上线“与书籍对话”项目，从10w+本书中搜索你要的答案

《职业经理人周刊》猎头班长v微博微信：AirPnP 2018/4/18

企业职位经理人专访社区金令牌首页

猎头|自助猎头
兼职|推荐人才

摘要：大数据文摘作品编译：魏子敏、蒋宝尚在使用日常语言与计算机交谈时，计算机如何理解我们？谷歌的方法是利用数十亿条对话来直接告诉人工智能，真正的人类对话是什么样的。而书籍，可能是人类完整语句最大的汇聚地。谷

著名猎头机构推荐金领职位

企业职位经理人专访社区会员

军工仪器研发制造--电子工程师/项目经理

36-45万

北京

TOP5国内氢能源存储公司--俄罗斯客户经理

30-60万

莫斯科

军用AI分布式智能仿真系统（军棋战略推演）-销售总监/售前顾问

60-120万

北京成都西安

著名光电通信芯片--外延工艺资深专家

80-150万

北京深圳

核生化军工企业--产品经理（VR/AR)/研发经理

60-70万

北京山东

上市公司-80G微波器件/组件-技术研发总监（军用）

40-60万

成都西安

FT500智慧制造ICT/ERP解决方案销售VP

150-200万

天津北京

互联网保险公司-区块链工程师

40-60万

北京无锡

大数据文摘作品

编译：魏子敏、蒋宝尚

在使用日常语言与计算机交谈时，计算机如何理解我们？

谷歌的方法是利用数十亿条对话来直接告诉人工智能，真正的人类对话是什么样的。

而书籍，可能是人类完整语句最大的汇聚地。

谷歌AI的Talk to Books项目昨日上线，旨在通过搜索挖掘这片人类完整语句的宝藏。

网站链接：

https://research.google.com/semanticexperiences/about.html

在Talk to Books中，当你输入一个问题或一个陈述时，谷歌的模型会查看超过10万本书籍中的每个句子，以查找最有可能在对话中出现的答案。响应句子会以粗体显示，并附带一些关于上下文的句子旁边的文字。

让我们看一个谷歌给出的案例：

文摘菌当然也自己做了一下尝试，输入：AI会比人类更聪明吗？谷歌给出了以下的答案，出现在第一位的答案来自Kevin Gurney的《神经网络入门》，相关度非常之高，而排在第二位第三位的分别是偏生物科学和语言学的两本书，点击可以直接进入谷歌图书，定位到相关语句。

在谷歌官方发布的介绍文章中，其表示虽然这一应用有一个搜索框，但它的目标和底层技术与传统的搜索体验完全不同。这只是一个研究演示，它使人工智能能够找到用户输入可能有反应的语句，而不是一个涉及标准质量信号的广泛精细工具。

您可能需要充分使用才能更好地发掘其价值。而谷歌也表示，在这个实验中，其实没有考虑这本书是权威的还是只是论题。该模型只是查看每个句子与查询配对的情况。有时它会发现错过标记的回答或完全脱离情境。

此外，谷歌强调，直接问出完整的句子会比输入关键词或者短语获得更好地结果，而这一点与传统的搜索引擎有根本不同。

对于开发人员来说，谷歌也提供了更详细的技术细节来供探索。

专门的开发者页面：

https://research.google.com/semanticexperiences/for-developers.html

开发人员可以深入了解技术并将其用于自己的应用程序。

谷歌称：“我们很高兴与社区分享这些模型，以了解可以与他们一起构建的其他模型。我们知道我们展示的仅仅是一个开始......”

以下是谷歌给技术人员写出的技术细节，大数据文摘编译如下：

训练模型

我们上面分享的模型主要是通过对自然语言输入以及反馈进行训练。训练过程中使用了各种半监督数据源，在这种情况下，半监督通常是一个语句和一个实际后续语句的实际共存。

这些模型使用英语语言样本对数据进行了训练，但是其他语言也可以使用相同的方法。

最简单的例子是使用多句文本(例如报纸文章)中的下一个句子。从Q/A数据集中输入：“今晚你为什么不去吃晚餐？”其配对答复是：“对不起，我不能去。”数据集中的真对是作为正面例子给出的。随机配对的输入/回复提供了反面的例子：“为什么你今晚不来吃饭呢？”其配对答复是“大都会队赢了三场比赛”。

另外，半监督只是一种基于事实的方法，即句子或短语在一段训练数据中同时发生。使用各种数据源(问答数据库、报纸文章中的下一个句子对)，模型可以在多个维度(句法一致性、一般语义相似性或一致性、主题一致性甚至某些知识一致性)上学习短语或句子的适当配对。

通过学习区分正确短语对，系统学会了用500维实数向量来表示自然语言语法、语义。输入长度是可变，但是有效性随着输入长度的增长而下降。这些向量可用于语义相似任务、Q/A任务、自然语言建议任务等。

使用模型

TensorFlow最近发布了TFHub，TF-Hub是一个可以共享机器学习专业知识的平台，里面包含在可重用资源中打包的机器学习专业知识，特别是在预先训练的模块中的技能。

在这个平台上，可以找到和下载类似于这些应用程序的模型。这里提供了几个教程，包括语义相似和文本分类。

Universal Sentence Encoder模型与我们在Talk to Books和Semantris中使用的非常相似，尽管这些应用程序正在使用双编码器方法，以最大限度地提高响应相关性，而Universal Sentence Encoder是一种单一的编码器。

关于语言理解模型中的偏误

语言理解模型使用数以十亿计的例子来了解这个世界。语言理解模型的进步可以推动这个社会的社交应用的发展。也可以反映人类的认知偏见。因此仔细的设计对于使用这些模型至关重要。

在Semantris中，我们展示的单词列表是手工整理的。在可能的范围内，我们排除了我们认为不适合的主题，从而可以轻松地将它们作为输入进行补充。在“Talk to Books”中，虽然我们不能手动审核10万册书籍中的每个句子，但我们使用的是一种流行度衡量标准，可以增加专业出版社出版的图书的比例。

当然，还有其他措施可以采取。例如，敏感话题分类器可以确定何时输入或输出的素材是不合理的。我们建议在使用这些模型构建最终用户应用程序时，采取减少偏见的措施。

对于这里展示的AI实验项目，我们没有采取减轻偏见的措施。实验过程表明了AI的全部能力和弱点。在过程中可能会发现冒犯性关联。鼓励您使用反馈工具报告冒犯性关联，以便改进未来的模型。

我们还没有（也可能永远不会）有一个完整的解决方案来识别和减轻不需要的关联。正如Caliskan等人在他们最近的论文《自动从语言语料中导出的语义包含类似于人类的偏见》中指出，这些关联深深地缠绕在自然语言数据中。

(来源：大数据文摘)

生成长微博 在线投稿 设本站为首页 收藏本站 猎头服务

我们尊重原创者版权，除非我们确实无法确认作者以外，我们都会注明作者和来源。在此向原创者表示感谢。本网转载文章完全是为了内部学习、研究之非商业目的，若是涉及版权等问题，烦请联系 service@execunet.cn 或致电 010-85885475 删除，谢谢！

发表评论：

主题：
内容：
	匿名发表验证码：登录名：密码：个人企业

发帖须知：

一、请遵守中华人民共和国有关法律法规、《全国人大常委会关于维护互联网安全的决定》及《互联网新闻信息服务管理规定》。
二、请注意语言文明，尊重网络道德，并承担一切因您的行为而直接或间接引起的法律责任。
三、管理员有权保留或删除其管辖留言中的任意内容。
四、您在本站发表的言论，本站有权在网站内转载或引用。
五、发表本评论即表明您已经阅读并接受上述条款。

企业找猎头

职业经理人找猎头

□IT通信行业相关资讯

□IT通信行业相关职位

京ICP备05025905号-1

京公网安备 110105001605号