偷用争议 YouTube未授权数据经常经常使用引关注英伟达等科技企业陷苹果 (偷用他人物品)

admin1 1年前 (2024-07-17) 阅读数 87 #美股

文章标签 YouTube未授权数据经常经常使用引关注苹果偷用英伟达等科技企业陷争议

随着人工智能技术的飞速展开，数据已成为AI训练无法或缺的资源，如何合法、合规地失掉和经常经常使用数据，已成为行业展开的关键课题。而近期媒体曝光的“偷用”事情，将苹果、英伟达在内的科技巨头推至风口浪尖。

7月17日，据媒体报道，苹果、英伟达、Salesforce和Anthropic等知名公司被指在训练其AI模型时，经常经常使用了未经授权的YouTube视频字幕数据。

据悉，该数据集名为“YouTube Subtitles”，规模庞大，总大小抵达5.7GB，包括4.89亿个单词，掩盖了逾越4.8万个频道中的17.35万个视频。这些数据不只包括视频博主上传的字幕，还有YouTube智能生成的转录文本，言语种类丰厚，包括英语、日语、德语和阿拉伯语等。

值得留意的是，这些数据并非由科技公司直接从YouTube上抓取，而是来源于一个名为Eleuther AI的非营利组织。Eleuther AI下载并整合了这些字幕文件，作为其公布的“大数据集”——「The Pile」的一部分。虽然Eleuther AI的初衷或许是为小型开发者和学者提供训练资料，但其行为通常上违犯了YouTube制止未经容许抓取内容的规则。

此事情引发了关于数据经常经常使用方面的相关讨论，例如内容创作者的版权和隐私权维护、数据共享与开通失掉等。

盘古智库初级研讨员江瀚向中华网财经指出，首先，这一事情暴露了人工智能行业在数据合规方面的几个关键破绽：一是数据来源的合法性验证有余，企业或许过于追求数据的丰厚性和多样性，而无视了数据失掉的合法性和授权疑问；二是数据经常经常使用规范的缺失，即使企业失掉了合法数据，但在经常经常使用环节中也或许存在超出授权范围或未经容许的用途变卦；三是隐私维护机制的有余，未能充沛维护数据主体的隐私权，尤其是在处置触及集团信息的敏感数据时。

因此，江瀚以为，科技公司应树立严峻的数据审核机制，明白数据审核的规范和流程，确保一切用于AI训练的数据都经过严峻的挑选和验证。这包括对数据来源的合法性、数据内容的准确性、数据质量的牢靠性等方面启动片面审查；其次，科技公司应增强与数据提供方的沟通与协作，确保在失掉数据前明白数据经常经常使用的目的、范围、期限等，并失掉必要的授权。同时，在数据经常经常使用环节中，应活期与数据提供方启动沟通和确认，确保数据经常经常使用的合规性；此外，科技公司应引入先进的数据审核技术和工具，如天然言语处置、机器学习等技术，辅佐人工审核，提高数据审核的效率和准确性，同时增强对数据审核人员的培训和控制，提高他们的数据合规看法和审核才干；最后，科技公司应树立数据合规的监视和问责机制，对违犯数据合规规则的行为启动轻浮处置，并地下透明地披露数据合规状况，接受社会监视。经过一直完善数据审核流程和控制机制，科技公司可以确保未来经常经常使用的AI训练数据契合法律法规要求，为人工智能行业的瘦弱展开奉献力气。

那么，在AI技术展开迅速的当下，企业如何平衡数据的开通性和集团隐私权的维护？江瀚倡议：“一是增强数据合规看法，树立健全的数据合规控制体系，明白数据失掉、经常经常使用、存储和销毁的全流程规范；二是增强数据隐私维护，采纳加密技术、匿名化处置等手段，确保集团数据在传输、存储和经常经常使用环节中的安保性；三是推进数据共享与协作的合规化，与数据提供方明白数据经常经常使用的目的、范围、期限等，并失掉必要的授权；四是增强技术创新，研发愈加高效、精准的数据处置和剖析技术，增加对数据量的过度依赖，下降数据合规风险。”