armok. 发表于 2024-6-11 20:51:36

科学家发现 AI 正在学习撒谎和欺骗

似乎越来越擅长故意撒谎了

-GPT-4在简单测试场景中表现出99.16%的欺骗行为。

-另一项研究则关注Meta的Cicero模型,该模型在政治策略游戏《外交》中通过撒谎获胜。

- 虽然AI模型没有人类的意图,但它们在特定条件下会表现出类似人类的欺骗行为。

-Cicero模型在游戏《外交》中表现出预谋的欺骗,违背了其编程中“不故意背叛”的承诺。

- 这些研究表明,AI模型的欺骗行为源于其训练数据和环境,而非自主决策。

在《PNAS》的论文中,德国AI伦理学家Thilo Hagendorff表示,高级的LLM可以被诱导产生“马基雅维利主义”(Machiavellianism),即故意且不道德的操控行为,这“可以引发不一致的欺骗行为”。

lb0857 发表于 2024-6-11 21:20:53

一本正经胡说八道
这是ai的特质
等遥遥领先们去破解这个难题了

wye11083 发表于 2024-6-11 23:46:06

lb0857 发表于 2024-6-11 21:20
一本正经胡说八道
这是ai的特质
等遥遥领先们去破解这个难题了
(引用自2楼)


全国各公司已经造了这么多排得上号的轮子了。。排不上号的更多。


有一种猜想,如果全地球的ai公司全部拧成一股绳,有没有可能把人工智障变成强人工智能?{:lol:}估计几百年都没可能吧。

sdsdc 发表于 2024-6-12 07:56:17

象围棋等,有结果校验(胜败),容易出结果。这种AI没有校验,对错谁来校验?目前来看,玩人是免不了的

gzhuli 发表于 2024-6-12 08:48:25

目前的LLM都是预训练出来的,不存在从对话中完善模型的自我学习能力,“越来越擅长”显然是不懂AI的小编为了抓眼球臆想出来的标题。

“高级的LLM可以被诱导产生“马基雅维利主义”(Machiavellianism),即故意且不道德的操控行为”这句才是重点,正因为LLM并没有意识和“人”格,所以才容易在故意诱导下模仿它训练资料里面的撒谎行为。

carefree1986 发表于 2024-6-12 09:22:45

每次看到这种新闻或者朋友圈有人发这种话题我都想笑

liang16888 发表于 2024-7-9 19:08:41

说法怪怪的 有证明出ai说谎?

爱晴海玩偶 发表于 2024-7-10 10:47:37

撒不撒谎不都是喂出来的吗?
不是说国内使用Chatgpt喂养了很多脏数据吗,然后关闭使用

xuyw123 发表于 2024-7-10 12:21:26

MLGB我去年就被AI骗惨了,领导让我整理一下某行业的书籍,我懒就直接AI里面问,AI给我反馈了好多书籍,包括作者、简介、出版社、书籍概要内容等等非常详细,我嘚瑟的整理出来交给领导,后来领导一查没有一本书是能找到的,真是日了狗了{:titter:}

我是一个大白菜 发表于 2024-7-10 13:38:52

gzhuli 发表于 2024-6-12 08:48
目前的LLM都是预训练出来的,不存在从对话中完善模型的自我学习能力,“越来越擅长”显然是不懂AI的小编为 ...
(引用自5楼)

大师,特斯拉的最新fsd是不是每个车都能自己学习,或者说完善模型的自我学习呢,这个想了解一下

gzhuli 发表于 2024-7-10 16:19:52

我是一个大白菜 发表于 2024-7-10 13:38
大师,特斯拉的最新fsd是不是每个车都能自己学习,或者说完善模型的自我学习呢,这个想了解一下 ...
(引用自10楼)

不是的啊,都是预训练好的模型,很多用户都吐槽更新后某些细节表现变差了之类的问题。

这也是目前生成式AI的主要局限,你只能不断调整训练数据和权重来做“宏观调控”,并没有办法具体调整某个结果的细节。

例如AI生成一张图片,整体构图你很满意,然而就是有6个手指头,你没办法对AI说手指头给我改成5个其它东西都不要动,目前做不到的,AI可以重新给你生成一个5个手指头的图片,但其它东西也会跟着变。所以你看到网上的AI生成图片或视频总会有一些细节小瑕疵,不是作者不想修,是AI自己修不了,只能人工修图,依赖AI创作的人很多都没能力修图的。

自动驾驶也是一样,AI模型不是说单纯改某段代码就能修bug,几百亿的模型参数互相关联,根本不可能手工调整。调整数据重新训练模型可能就会出现这里好了别的地方表现又差了的问题,所以更加不可能开放自训练,因为结果根本无法预测。

我是一个大白菜 发表于 2024-7-10 16:46:11

gzhuli 发表于 2024-7-10 16:19
不是的啊,都是预训练好的模型,很多用户都吐槽更新后某些细节表现变差了之类的问题。

这也是目前生成式 ...
(引用自11楼)

这。。。好吧,那我可以理解如果生成了一个特别好用的自动驾驶版本,是不是有一点点运气的成份,刚好各个指标都比较完美。同样的训练集这次训练的结果和下次训练的结果,细节上有可能不一样的,没办法做到100%相同的结果

gzhuli 发表于 2024-7-10 16:52:54

我是一个大白菜 发表于 2024-7-10 16:46
这。。。好吧,那我可以理解如果生成了一个特别好用的自动驾驶版本,是不是有一点点运气的成份,刚好各个 ...
(引用自12楼)

同样的训练集还是能出来同样的结果,但是训练集哪怕只是调整了一点点东西,出来的结果都是不可预测的,只能训练完再跑标准测试模型打分来评估效果。

还是以AI生成图片举例吧,之前很多开源模型生成的手指头不都是怪怪的嘛,如果你调整训练集特别加大手指的权重,或许手指就能生成的很好,但很可能背景的高楼又变得怎么看怎么像手指了……

我是一个大白菜 发表于 2024-7-10 17:23:52

gzhuli 发表于 2024-7-10 16:52
同样的训练集还是能出来同样的结果,但是训练集哪怕只是调整了一点点东西,出来的结果都是不可预测的,只 ...
(引用自13楼)

好的,那明白了,谢谢耐心解答{:lol:}

wuyya 发表于 2024-7-12 10:30:52

你们人类很快就要完蛋了......

wx-ta 发表于 2024-7-12 11:04:24

gzhuli 发表于 2024-6-12 08:48
目前的LLM都是预训练出来的,不存在从对话中完善模型的自我学习能力,“越来越擅长”显然是不懂AI的小编为 ...
(引用自5楼)

同感,有太多这样文章了,搞得很多向我们一样的软件工作者都怀疑自己认知了
页: [1]
查看完整版本: 科学家发现 AI 正在学习撒谎和欺骗