2025-06-18 11:54来源:本站
底行中的图像是从看着上排的人的大脑扫描中重新创建的 Yu Takagi和Shinji Nishimoto/Osaka University,Japanntext="Article" data-image-id="2363331" data-caption="The images in the bottom row were recreated from the brain scans of someone looking at those in the top row" data-credit="Yu Takagi and Shinji Nishimoto/Osaka University, Japan" />
对流行的文本到图像生成的人工智能的调整使其可以将大脑信号直接转化为图片。该系统需要使用笨重且昂贵的成像设备进行广泛的培训,因此,每天的思维阅读与现实相距甚远。
几个研究小组先前使用能源密集型AI模型从大脑信号中产生了图像,这些模型需要数百万到数十亿个参数。
现在,日本大阪大学的Shinji Nishimoto和Yu takagi使用了稳定扩散开发了一种更简单的方法,该方法是稳定的稳定生成器,这是稳定AI于2022年8月发布的文本对图像生成器。他们的新方法涉及成千上万的方法,而不是数百万个参数。
当正常使用时,稳定的扩散通过随机视觉噪声开始,然后对其进行调整以产生类似于具有相似文本字幕的训练数据中的图像,从而将文本提示转换为图像。
Nishimoto和Takagi建立了两个附加模型,以使AI具有大脑信号。这对夫妇使用了来自四个人的数据,他们参与了一项使用功能性磁共振成像(fMRI)的研究,以扫描他们的大脑,而他们正在查看10,000张不同的景观,物体和人的图片。
两人使用大约90%的大脑成像数据,训练了一个模型,以在处理视觉信号的大脑区域(称为早期视觉皮层)的大脑区域之间建立链接,以及人们正在查看的图像。
他们使用相同的数据集来训练第二个模型,以在图像的文本描述之间形成链接(在上一项研究中由五个注释者制成),以及来自大脑区域的fMRI数据,该数据处理图像的含义,称为腹侧视觉皮层。
训练后,这两个模型(必须对每个人都必须自定义)可以将大脑成像的数据转化为直接馈入稳定扩散模型的形式。然后,它可以重建约80%的精度观看的1000张图像,而无需对原始图像进行培训。这种准确性与以前在一项使用更加乏味的方法分析相同数据的研究中实现的准确性相似。
高吉说:“我简直不敢相信我的眼睛,我上厕所,照镜子,然后回到桌子上再次看一看。”
Nishimoto说,但是,这项研究只对四个人进行了测试,而对某些人的思维方式比其他人更好。
更重要的是,由于必须对每个人的大脑定制模型,因此这种方法需要冗长的大脑扫描会议和庞大的FMRI机器。她说:“这对于日常使用是不切实际的。”
林说,将来,该方法的更实用的版本可以使人们能够以自己的想象力制作艺术品或改变图像,或者在游戏玩法中添加新元素。