修改:修改部 HXY
AI众多成灾的年代,真假孰能分辩?
最近,国外一位专业律师Jay Shooster自曝,自己的父亲堕入了一场巨大的AI圈套。
欺诈者运用AI克隆了Shooster声响,然后给他的父亲拨去电话:您孩子因酒驾开车被捕,需3万美元保释出狱。
简直,这位父亲被AI欺诈。
我不确定这事发生在我的声响呈现在电视上仅仅几天后是否仅仅偶然。短短15秒的声响,就足以制造一个不错的AI克隆。
作为一名顾客维护律师,我从前就这种欺诈做过讲演,在网上发过帖子,也和家人谈论过,但他们仍是差点受骗。这些欺诈之所以如此有用,便是这个原因。
不巧的是,Shooster近一次在电视中露脸的15秒视频,恰被欺诈者钻了空子。
而且,即便是在Shooster曾提示过家人此类欺诈状况下,他的父亲仍旧被利诱了。
只能说AI仿照人类的声响,现已强到令人发指。
还有伦敦大学学院一项研讨佐证,不管任何语种,人们在27%状况下,都无法辨认AI生成的声响。
而且,重复倾听,也并不能提高检测率。
这意味着,理论上,每四个人傍边就有一人或许被AI电话欺诈,由于人类的直觉并不总是那么牢靠。
不论是图画、视频、声响,凭仗AI生成技能,任何一个人都能简单假造,Deepfake现已深深影响每个人的日子。
AI技能违法程度,现如今到了咱们无法幻想的境地。
AI声响克隆,3秒原声足矣
Shooster的共享意图,告知咱们这种欺诈手法之所以有用,部分原因在于——
人类无法牢靠地辨认出AI的声响。
IBM一项试验中,安全专家展示了怎么完结「音频绑架」的一幕。
他们开发一种办法,将语音辨认、文本生成、声响克隆技能结合,去检测对话中的触发词「银行账户」,然后将本来账户替换成自己的账号。
研讨人员称,替换一小段文字,比AI克隆语音对话要愈加简单,而且还能扩展到更多的范畴。
而关于满足好的语音克隆技能,只需3秒原声就满足了。
别的,文本和音频生成中的任何推迟,都能够通过桥接句来补偿,或有满足处理才干状况再消除。
对此,研讨人员正告,未来进犯还或许会操作实时视频通话。
而这种技能也不仅仅被乱用在欺诈,配音演员Amelia Tyler称,AI克隆的声响在未经自己允许下,被用来朗诵不宜儿童的内容。
Deepfake众多成灾
AI克隆声响之外,还有AI换脸视频、AI虚伪图画生成,这样事例早已层出不穷。
前段时刻,韩国国内掀起「N号房2.0」事情,Deepfake被用到了未成年人身上,引发人们巨大的惊惧。
乃至,全网一度敞开了「Deepfake到底有多可怕」的热议论题。
图画生成Midjourney、Flux,视频生成Gen-3、声响生成NotebookLM等等,都成为潜在的作案东西。
上一年,Midjourney生成的穿羽绒服走在大街上的教皇,许多人信以为真,张狂转发。
而到了本年,AI图画王者Flux出生,各种TED讲演者的传神相片,再配上AI视频东西动起来,简直骗过了全部人。
而在AI视频实时换脸上,本年国外网友们现已开宣布许多开源东西了。
比方,Facecam仅需增加一张图,就能够当即生成实时视频,而且一部手机即可操作。
项目作者展示了,自己怎么轻轻松松无缝换脸到Sam Altman、马斯克,脸上全部器官根本无死角。
还有一夜爆火的AI换脸项目Deep-Live-Cam,相同也是只需一张相片,直接换脸马斯克开直播了。
而这两天炒的比较热的AI声响生成,当属谷歌NotebookLM了。它能够敏捷把文字内容,生成播客视频。
就连AI大佬Karpathy爱不释手地试玩,并力荐称有或许会迎来它的ChatGPT时刻。
不过,国外一位扫雷游戏专家,在听了AI将自己书生成播客声响,却惊呼自己被吓到了。
而且,更令人惊悚的是,两位NotebookLM播客「主持人」发现,自己是AI而不是人类,还堕入了存在主义溃散的边际。
若是这样强壮的AI,被应用到实践欺诈中,只会带来更严峻的效果。
「魔高一尺,道高一丈」
在DeepFake逐步变成「恶龙」的一起,研讨界也在活跃研制「屠龙」东西。
要么从源头为GenAI生成的内容增加水印,或许对实在内容设置护栏以避免乱用,要么发展出能检测主动生成内容的体系。
不久前,中科院一位工程师曾开源了能够辨认假造图画的AI模型,去对立DeepFake。
刚一发布,这个项目便登上了Hacker News热榜,其受欢迎程度可见一斑。
现在,完好的代码和文档现已发布在了GitHub库房上。
开发者表明,自己从2023年结业后就一直在从事DeepFake检测算法方面的研讨作业,让全部有需求的人都能够免费运用模型来对立deepfake。
此外,还有许多业界科学家们,在这条路上做出了许多奉献。
在2023年11月丹麦哥本哈根举行的ACM计算机与通讯安全会议上,美国圣路易斯华盛顿大学的博士生Zhiyuan Yu展示了他和Ning Zhang教授合作开发的AntiFake。
通过一种立异性的水印技能,AntiFake能够供给创造性的办法,维护人们免受深度假造声响的欺诈。
论文地址:https://dl.acm.org/doi/pdf/10.1145/3576915.3623209
创立DeepFake语音只需求实在的音频或视频中有人说话。一般,AI模型只需求大约30秒的语音,就能通过创立「嵌入」(embedding)学会仿照或人的声响。
这些embedding向量就像是在全部声响的巨大数字地图中指向说话者身份的地址,听起来类似的声响在这个地图中的方位更挨近。
当然,人类并不是用这种「地图」来辨认声响的,而是通过频率。咱们更重视某些频率的声波,而对其他频率的重视较少,而AI模型则运用全部这些频率来创立杰出的嵌入。
AntiFake通过在人们不太重视的频率上增加一些噪音来维护语音录音,这样人类听众仍是能听懂,但会严峻搅扰AI。
终究,AntiFake会让AI创立出低质量的嵌入,相当于一个指向地图过错部分的地址,这样生成的任何DeepFake都无法仿照原始声响。
为了测验AntiFake,Yu的团队扮演「欺诈者」的人物,运用5种不同的AI模型生成了6万个语音文件,并为其间600个片段增加了AntiFake维护。
效果发现,增加维护后,超越95%的样本无法再欺诈人类或语音认证体系。
值得一提的是,AntiFake的衍生版别DeFake,还在本年4月初美国联邦交易委员会举行的语音克隆挑战赛中获得了一等奖。
无独有偶,浙江大学智能体系安全试验室(USSLAB)与清华大学也联合了一种内容隐私维护的语音假造检测办法——SafeEar。
项目主页:https://safeearweb.github.io/Project/
SafeEar的中心思路是,规划根据神经音频编解码器(Neural Audio Codec)的解耦模型,该模型能够将语音的声学信息与语义信息别离,而且仅运用声学信息进行假造检测,然后完结了内容隐私维护的语音假造检测。
效果显现,该结构针对各类音频假造技能展示杰出的检测才干与泛化才干,检测等过错率(EER)可低至2.02%,与根据完好语音信息进行假造检测的SOTA功能挨近。
一起,试验还证明进犯者无法根据该声学信息康复语音内容,根据人耳与机器辨认办法的单词过错率(WER)均高于93.93%。
具体来说,SafeEar选用一种串行检测器结构,对输入语音获取方针离散声学特征,然后输入后端检测器。
虚线方框内的④Real-world Augmentation仅在练习时呈现,推理阶段仅有①②③模块
1. 根据神经音频编解码器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)
模型包含编码器(Encoder)、多层残差向量量化器(Residual Vector Quantizers, RVQs)、解码器(Decoder)、鉴别器(Discriminator)四个中心部分。
其间,RVQs首要包含级联的八层量化器,在第一层量化器中以Hubert特征作为监督信号别离语义特征,后续各层量化器输出特征累加即为声学特征。
2. 瓶颈层和混杂层(Bottleneck & Shuffle)
瓶颈层被用于特征降维表征和正则化处理。
混杂层对声学特征进行固定时刻窗范围内的随机打乱重置,然后提高特征杂乱度,保证内容盗取进犯者即便凭仗SOTA的语音辨认(ASR)模型,也无法从声学特征中强行提取出语义信息。
终究,通过解缠和混杂两层维护的音频能够有用抵挡人耳或许模型两方面的歹意语音内容盗取。
3. 假造检测器(Deepfake Detector)
SafeEar结构的假造音频检测后端规划了一种仅根据声学输入的Transformer-based分类器,选用正弦、余弦函数替换方式对语音信号在时域和频域上进行方位编码。
4. 实在环境增强(Real-world Augment)
鉴于实践国际的信道多样性,选用具有代表性的音频编解码器(如G.711、G.722、gsm、vorbis、ogg)进行数据增强,仿照实践环境中带宽、码率的多样性,以推行到不行见通讯场景。
作用如下:
不过,即便有了许多的发展和效果,防护DeepFake仍旧是一项十分具有挑战性的使命,人们需求全部或许的协助来维护他们在网上的身份和信息免受损害。
差人用AI侦破尘封悬案
具体来说,这个名为「Soze」的东西,能够一起剖析视频片段、金融交易、交际媒体、电子邮件和其他文档,然后辨认在人工查找依据过程中或许未被发现的潜在头绪。
评价显现,它能够在短短30小时内剖析完27起杂乱案子的依据资料,相比之下,人类需求长达81年的时刻才干完结这项作业。
明显,这关于在人员和预算约束方面或许绰绰有余的法律部分来说吸引力巨大。
对此,英国国家差人局长委员会主席Gavin Stephens表明:「你或许有一个看起来不或许完结的悬案检查,由于资料太多了,但你能够把它输入这样的体系,体系能够吸收它,然后给你一个评价。我觉得这会十分十分有协助。」
咱们日子在了一个Deepfake众多的国际,或许说,是一个「矩阵仿照」的国际。
在这个国际中,没有实在,全部满是AI。
近来,西安美院听障女大学生宸玥因长相引发争议。有网友称像AI,美得不真实。相关论题冲上热搜榜首。此前报导:“美得不真实!”女大学生因长相太美被质疑,校友:她是聋哑人,对同学们都很好据红星新闻报导,4月...
在这次发布会上,被网友戏称为皮衣刀客的NVIDIA创始人黄仁勋仍然穿戴他心爱的皮衣,把很多尖端技能展现给国际,光芒四射。
但是这次的老黄会不会有什么花招?在发布会之后,很多人开端置疑这次掌管发布会的“黄仁勋”又是假的,是NVIDIA的AI技能组成的兼顾,由于发布会上“黄仁勋”全程都没眨眼,对话也没有任何卡顿,不像人类的体现。
在日前的GTC大会上,NVIDIA发布了多款核弹级产品,不只有最新的H100系列加速卡及AI技能,乃至还把芯片制作给革新了,推出了研制4年多的光刻软件cuLitho,将核算光刻的用时提速40倍,能用于...
财联社5月14日讯(修改 赵昊)周二(5月13日),美股三大指数涨跌纷歧,道琼斯指数走低,标普500指数则克复年内一切跌幅。到收盘,标普500指数涨0.72%,报5,886.55点,收于3月初以来的最...
133期主持人 | 尹清露收拾 | 实习记者 李雨桐说到人与机器的爱情,你会想到什么?是电影《她》中那段伤感的爱情、刻板形象中找不到女朋友的宅男,仍是一种具有改造性的密切联系方法?本年4月,“人机恋”...
图片系AI生成【工业互联网周报是由钛媒体TMTpost发布的特征产品,将整合本周最重要的企业级服务、云核算、大数据范畴的前沿趋势、重磅方针及行研陈述。】国内资讯阿里拟收买两氢一氧,陈航将重回钉钉CEO...
1995年,美国斯坦福大学的两名学生拉里·佩奇和谢尔盖·布林,创建了一个名为BackRub的查找引擎,也便是日后的Google,从此彻底改动了人类获取信息的方法。
经过近30年的开展进化,查找引擎的功用越来越强壮,但它的缺乏也开端暴露:越来越多的冗余信息,让用户查找到有用信息的功率变低;依托关键字和网页链接排序,难以答复愈加杂乱的问题。
换言之,传统的查找引擎,在今日现已不行智能了。
佩奇在2013年时曾有一个预言:一切查找引擎的终极形状是人工智能。进入大模型年代后,这则预言正在越来越挨近实践。
在6月29日的知乎新知青年大会上,知乎创始人、董事长兼CEO周源发布了一款人工智能查找产品:知乎直答。依据知乎的内容库和问答基因,知乎直答可认为用户供给发问、查找、成果生成和概括体会。
在周源看来,知乎直答是一种全新的生产力东西,也应该成为人们发现国际的衔接器。
在佩奇提出预言11年后,AI热潮呈现出新的趋势:资金和人才开端从根底大模型流向使用立异,职业逐步构成一致——跟着模型功用、推理本钱、模型模态、使用生态等条件逐步老练,大模型使用正处于迸发前夜。
位列使用立异榜首队伍的AI查找,将展现出什么样的或许性?
知乎直答:找内容、找人
传统查找引擎的作业流程,能够大致分为三步。
榜首步是搜集并处理互联网上的海量数据。第二步,为数据树立索引并规划检索算法,以便快速找到相关数据。第三步,拆解用户宣布的检索指令中的关键字,将中心信息与数据进行匹配,终究呈现相关度最高的成果。
比方,在查找引擎中输入“北京网约车司机一个月能赚多少钱”。在几条广告链接之后,查找成果会展现与“网约车”“北京”“月收入”等关键词相关的网页链接,依据相关性由高到低摆放。
在这种交互方法下,用户需求对查找成果自行挑选,并进行穿插比对,才干获取有用信息。这也意味着,查找引擎并没有实在了解用户的发问目的,仅仅在罗列相关性更高的网页链接。
而把相同的问题抛给知乎直答,在数秒核算后,它给出的答案是:
来历:雪豹财经社1995年,美国斯坦福大学的两名学生拉里·佩奇和谢尔盖·布林,创建了一个名为BackRub的查找引擎,也便是日后的Google,从此彻底改动了人类获取信息的方法。经过近30年的开展进化...