“Project Ellmann”是谷歌内部的一项提案,旨在利用人工智能帮助用户“鸟瞰”他们的生活故事。
这个想法是使用像 Gemini 这样的法学硕士来提取搜索结果,发现用户照片中的模式,创建聊天机器人并“回答以前不可能的问题”有关一个人的生活。
该团队还演示了“Ellmann Chat”,其描述是“想象一下打开 ChatGPT,但它已经知道你生活的一切。”

CNBC 观看的演示文稿的副本。它指出,埃尔曼的目标是成为“你的生活故事讲述者”。目前情况尚不清楚该公司是否计划在 Google Photos 或任何其他产品中提供这些功能。据一家公司博文称,Google 相册拥有超过 10 亿用户和 4 万亿张照片和视频。

Ellman 项目只是 Google 提议利用 AI 技术创建或改进其产品的众多方式之一。周三,Google 推出了其最新的“最强大”且先进的 AI 模型 Gemini,该模型在某些情况下优于 OpenAI 的 GPT-4。该公司计划通过 Google Cloud 向广泛的客户授权 Gemini,以便他们在自己的应用程序中使用。 Gemini 的突出特点之一是它是多模式的,这意味着它可以处理和理解文本之外的信息,包括图像、视频和音频。

Google 产品经理Google根据 CNBC 看到的文件,在最近的一次内部峰会上展示了 Ellman 项目与 Gemini 团队的照片。他们写道,团队在过去的几个月里确定大型语言模型是使这种鸟瞰一个人的生活故事成为现实的理想技术。

演示文稿称,埃尔曼可以使用传记、之前的时刻和随后的照片来引入上下文,比“仅带有标签和元数据的像素”更深入地描述用户的照片。它建议能够识别一系列时刻,例如大学岁月、湾区岁月和为人父母的岁月。“如果没有鸟瞰你的生活,我们就无法回答棘手的问题或讲述好故事,”一个小男孩在泥土中与狗玩耍的照片旁写着这样的描述。“我们会仔细浏览您的照片,查看它们的标签和位置,以识别有意义的时刻,”演示幻灯片上写道。 “当我们退后一步,全面了解你的生活时,你的总体故事就会变得清晰起来。”

该演讲称,大型语言模型可以推断诸如用户孩子出生之类的时刻。 “这个法学硕士可以利用树上更高层的知识来推断这是杰克的出生,并且他是詹姆斯和杰玛的第1个也是唯一的孩子。”

“法学硕士对于这种鸟瞰方法如此强大的原因之一是,它能够从这棵树的所有不同高度获取非结构化背景,并用它来改善它对树的其他区域的理解,”幻灯片上写着,旁边还附有用户生活中各种“时刻”和“章节”的插图。演示者给出了另一个确定用户最近参加过同学聚会的示例。 “他毕业已经整整10年了,到处都是10年没见的面孔,所以这可能是一次重聚,”团队在演示中推断道。该团队还演示了“Ellmann Chat”,并描述道:“想象一下打开 ChatGPT,但它已经知道你生活的一切。你会问它什么?”

它显示了一个示例聊天,其中用户询问“我有宠物吗?”它回答说是的,用户有一只狗,它穿着红色雨衣,然后提供了狗的名字以及它最常看到的两个家庭成员的名字。

聊天的另一个例子是用户询问他们的兄弟姐妹上次访问是什么时候。另一个人要求它列出与他们居住地相似的城镇,因为他们正在考虑搬家。埃尔曼对这两个问题都给出了答案。他幻灯片显示,埃尔曼还总结了用户的饮食习惯。 “你看起来很喜欢意大利菜。有几张意大利面食的照片,还有一张披萨的照片。”它还表示,该用户似乎很喜欢新食物,因为他们的一张照片的菜单上有一道它无法识别的菜肴。

演示文稿称,该技术还根据用户的屏幕截图确定用户正在考虑购买哪些产品、他们的兴趣、工作和旅行计划。它还表示它将能够了解他们最喜欢的网站和应用程序,例如 Google Docs、Reddit 和 Instagram。谷歌发言人告诉 CNBC:“谷歌照片一直使用人工智能来帮助人们搜索他们的照片和视频,我们对法学硕士解锁更多有用体验的潜力感到兴奋。这是早期的内部探索,一如既往,如果我们决定推出新功能,我们会花时间确保它们对人们有帮助,并将保护用户的隐私和安全作为我们的首要任务。”

大型科技公司竞相创造人工智能驱动的“记忆”拟议的埃尔曼项目可以帮助谷歌参与科技巨头之间的军备竞赛,创造更加个性化的生活记忆。

多年来,谷歌照片和苹果照片一直服务于“记忆”,并根据照片趋势生成相册。

11 月,Google 宣布在人工智能的帮助下,Google 相册现在可以将相似的照片分组在一起,并将屏幕截图组织成易于查看的格式。 -查找专辑。

Apple 在 6 月份宣布,其最新的软件更新将包括照片应用程序识别照片中的人、狗和猫的功能。它已经对面孔进行分类并允许用户按姓名搜索它们。

苹果还宣布即将推出一款日记应用程序,该应用程序将使用设备上的人工智能来创建个性化建议,提示用户根据最近的照片、位置、音乐和锻炼撰写描述他们的记忆和经历的段落。但苹果、谷歌和其他科技巨头仍在努力解决正确显示和识别图像的复杂性。

例如,在 2015 年有报道发现苹果和谷歌将黑人错误地标记为大猩猩后,苹果和谷歌仍然避免给大猩猩贴上标签。 《纽约时报》今年的一项调查发现,全球大多数智能手机所采用的苹果和谷歌 Android 软件关闭了视觉搜索灵长类动物的功能害怕给一个人贴上动物的标签。

包括 Google、Facebook 的公司和 Apple 随着时间的推移添加了控件以最大程度地减少不需要的记忆,但用户报告它们有时仍然显示并要求用户切换通过多种设置来最小化它们。原文链接:https://www.cnbc.com/2023/12/08/google-weighing-project-ellmann-uses-gemini-ai-to-tell-life-stories.html

发表评论