人工智能训练模型-训练人工智能系统来准确和可靠地执行特定任务需要大量数据

发布时间：2023-07-01 11:02 浏览次数：次作者：佚名

训练人工智能系统来准确和可靠地执行特定任务需要大量数据。许多公司在 Mechanical Turk 等平台上向外包零工支付报酬，让他们完成通常难以自动化的任务，例如解决验证码、标记数据和注释文本。然后，这些数据被输入人工智能模型来训练它们。零工们的工资很低，而且往往被期望在很短的时间里完成大量任务。

这解释了为什么他们中的一些人人工智能训练模型，可能会转向 ChatGPT 等人工智能工具来最大限度地提高他们的收入。但这一比例有多少呢？为了找到答案，瑞士联邦理工学院（EPFL）的一组研究人员在亚马逊零工平台 Mechanical Turk 上雇佣了 44 名零工，来总结 16 篇医学研究论文的摘录。然后，他们使用自己训练的人工智能模型分析了他们的回答，该模型用于寻找 ChatGPT 输出内容中存在的明显信号，例如词语选择缺乏多样性。他们还捕捉了这些人的按键记录，以确定他们是否复制并粘贴了答案——这往往表明他们在其他地方生成了答案。

爱数智慧语音标注外包_数据标注平台外包_人工智能训练模型

他们估计得出，33% 到 46% 的零工使用过 OpenAI ChatGPT 等人工智能模型。该研究的作者表示，随着 ChatGPT 和其他人工智能系统变得更加强大且易于访问，这一比例可能会更高。该研究已在预印本网站 arXiv 上分享，尚未经过同行评审。

数据标注平台外包_爱数智慧语音标注外包_人工智能训练模型

“我不认为这是众包平台的终结。它只是改变了动态，”该研究的共同作者、洛桑联邦理工学院助理教授罗伯特·韦斯特（Robert West）说道。

数据标注平台外包_人工智能训练模型_爱数智慧语音标注外包

使用人工智能生成的数据来训练人工智能模型，可能会给已经容易出错的模型带来更多错误。大型语言模型经常将虚假信息呈现为事实。牛津大学计算机科学系研究员伊利亚·舒迈洛夫（Ilia Shumailov）表示，如果它们生成的错误输出本身被用于训练其他人工智能模型，这些错误就会被其它模型吸收，并随着时间的推移而扩大，从而使弄清楚它们的起源变得越来越困难。他没有参与该项目。

人工智能训练模型_爱数智慧语音标注外包_数据标注平台外包

更糟糕的是人工智能训练模型，这个问题没有简单的解决办法。“问题是，当你使用人工数据时，你会因对模型的误解和统计错误而产生错误，”他说，“你需要确保你的错误不会影响其他模型的输出，但没有简单的方法可以做到这一点。”

爱数智慧语音标注外包_数据标注平台外包_人工智能训练模型

该研究强调，整个行业需要新的方法来检查数据是由人类还是人工智能产生的。它还凸显了另一个重要问题，即科技公司倾向于依赖零工来完成许多很关键的工作，包括整理输入人工智能系统的数据。

“我不认为一切都会崩溃，”韦斯特说，“但我认为，人工智能社区必须仔细调查哪些任务最容易被自动化，并找出防止这种情况发生的方法。”

支持：Ren

人工智能初学者-人工智能的学习方法.系统学习需要坚实的基础知识

人工智能智能系统指南-科技部引导性政策发布助各界找准新一轮发力点

人工智能 训练模型-训练人工智能系统来准确和可靠地执行特定任务需要大量数据

人工智能训练模型-训练人工智能系统来准确和可靠地执行特定任务需要大量数据