ai人工智能相关书籍-ai人工ibm智能交易
在数据成为企业重要竞争力的今天,摆在企业面前的,除了回答如何获取数据的问题之外,最为直接的问题是,如何确保来源繁杂且格式不一的AI训练数据在个人隐私与版权层面的合规。
国内大模型方面,百度、阿里、科大讯飞等积累了丰富数据资源的企业纷纷加入大模型之战。其中,隐私数据成为数据治理和使用中不可逾越的红线。
一位不愿具名的算法工程师对记者介绍称,近些年来,企业对于隐私数据进行专门治理,公司内部所积累的相关数据很难接触,相关数据需要经过脱敏等措施才可使用。“从技术上来说,不会故意使用相关数据;如果发现相关漏洞,第一选择一定是堵上漏洞,现在谁都不敢去踩红线。”
大模型自身“大力出奇迹”的暴力美学,拥有的数据越多、质量越高,大模型的能力也就愈加强大。如上文所言,除企业本身所积累的数据之外,公开数据、开源数据集等也构成大模型数据来源的一部分。
某互联网大厂人工智能架构师对记者表示,“对于大模型来说,数据集的范围肯定是越多越好,覆盖的领域越广越好。开源的数据集的使用则会根据哪部分数据的适用途径进行匹配。”
但其中,随着数据来源的扩大,如何解决人工智能模型训练数据中的可版权性问题,成为关注的焦点。即便是号称“开源”的各类数据库,也并非意味着完全不存在版权层面的合规问题,当前各类开源平台往往以开放数据共享、社区数据许可协议等协议方式规范相关内容的署名权、继承权、盈利权、演绎权等权益。
具体到开发层面,我国的AIGC领域的版权规制亦存在争议。上海大邦律师事务所高级合伙人游云庭在接受记者采访时表示,根据相关法律,利用数据训练人工智能实际上存在“先上车再买票”的问题:“我国著作权法并没有规定合理使用的相关情况。线上线下的声音文字图片,如果有独创性,是个人创作的,就构成受著作权法保护的作品ai人工智能相关书籍,未经著作权人许可进行使用,涉嫌侵权。”
值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,需将数据纳入合理使用的范畴进行规制。
可以看到,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案……这些监管举措的背后,则是各国对AIGC规制路径的探索。
规则实践
梳理近期不同国家和地区对AIGC的立法不难发现,基于不同的法律体系和产业发展愿景,不同国家选取的实践路径亦各有侧重。
以近期刚刚在欧洲议会通过《人工智能法案》谈判授权草案的欧盟为例,这部于2021年正式成为欧盟委员会提案的法案中规定,人工智能大模型的创建者需要在人工智能使用之前进行评估并减轻各种风险。相关公司必须公开训练人工智能使用的数据,以确保其使用受版权法保护的数据训练。
而随着立法期间ChatGPT的横空出世,欧洲立法者很快对法案增添了修正案,扩大了AI开发者的禁止行为清单,其中包括“禁止从社交媒体或监控摄像头中抓取生物特征数据以创建面部识别数据库(侵犯人权和隐私权)”。
在立法层面的法律法规不断推进的同时,司法层面的案例亦开始涌现,今年1月,三名艺术家联合对Stability Al、DeviantArt和Midjourney发起集体诉讼,指控其训练数据侵害了艺术家版权。
作为全球首例知名的AIGC商业化应用领域,算法模型及训练数据版权侵权案,原告认为Stable Diffusion等AI模型“将无数受版权保护的图像存储和合并为训练图像后……生成完全基于训练图像的‘新’图像”,从而获得商业利润,挤占了原作品的交易市场。
虽然Stable Diffusion案距尘埃落定无疑还将面临长久的诉讼过程,但在部分国家,为AI产业大开绿灯已成为重要的政策指引方向。
近日,日本最高教育行政长官、文部科学大臣在会议上重申,日本政府不会对人工智能训练过程中使用的数据实施版权保护。上海大邦律游云庭告诉南方财经全媒体记者,根据日本著作权法第30条第4款规定,如果不以欣赏作品中表达的思想或情感为目的,且没有不合理地损害著作人权益的,可以合理使用他人享有著作权的作品。
“考虑到立法已经先行,虽然会有动漫,影视制作的利益群体的游说ai人工智能相关书籍,个人认为这个事情法律上的争议还是会比较小。”游云庭表示。
“整体来看,各国都在基于自身人工智能产业发展的不同定位和战略诉求,设计和实现自身的治理框架和治理主张,并引入与之匹配的治理机制。”
北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括指出,以欧盟为例,基于其强调数字主权的立场,其更倾向于从数据治理角度强化与AI相关的数据流转利用规则,日本则表现出以产业数据促进流转利用的治理思路。“我国强调的是一种以风险为导向的综合治理思路。”他进一步表示。
某种程度上,隐私与版权仍是沿用人类已有的法律体系对AI利用生产资料的方式加以监督,而如何保证AI这一新兴事物的“思考”与“输出”符合人类的伦理和道德,却是一项几无先例可循的监管实践。在本专题的下一篇,我们将进一步探讨如何由从数据角度对AI生成与训练加以梳理和监管,以打造真正“向善”的下一代人工智能。
统筹:王俊
记者:吴立洋 郑雪 阳飘飘