承认使用爬虫,OpenAI的数据黑箱成谜?
(相关资料图)
文/陈根
据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。
网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。
数据来源一直以来就是OpenAI的黑箱之一,公司公开承认爬虫只是OpenAI公司被用户发现之后所承认的危机公关行为之一。可以说,OpenAI的数据不仅会使用爬虫,并且使用用户数据也是在必然之中。
而更值得关注的是OpenAI所训练出来具有一定知识正确性的ChatGPT,这背后的高质量数据来源。在数据来源层面,OpenAI从采取了黑箱操作策略开始,就没打算向外界公布真正的数据来源方式,包括对用户与各种版权方的数据使用。
而我之所以一直说我们当前的类ChatGPT企业无法训练出ChatGPT这类,在知识生成层面具有竞争力的人工智能模型,核心原因就在于我们无法知晓OpenAI的这个数据黑箱。
可以预见的是,只要用户没有发现OpenAI的数据黑箱证据,OpenAI就不会诚实,或者说不会主动采取措施。而当数据黑箱中的一些手法被用户发现之后,OpenAI就会以同样的方式对于发现的部分采取管控。
在AI时代,在大模型时代,数据决定着模型的核心竞争力,廉价、滥用用户数据已经成为了当前监管的最大挑战。
原文标题 : 陈根:承认使用爬虫,OpenAI的数据黑箱成谜?
关键词:
责任编辑:宋璟
-
承认使用爬虫,OpenAI的数据黑箱成谜?
-
亚足联公布亚冠附加赛具体信息:海港、浙江队均为22日19:30开球
-
2023东莞乐购石排购车补贴领取攻略
-
太古地产管理层:中国内地是公司未来发展核心市场
-
博德之门3粉碎机之戒装备怎么样
-
2D方块消除游戏《UFO: Unidentified Falling Objects》今日上线
-
海南召开持续深化农垦改革领导体制和工作机制专题会议
-
女子翻看去世爸爸手机后破防了:一直在看不见的地方偷偷爱自己
-
道通科技: 公司2023年半年度报告拟定于8月26日披露
-
福彩3d开奖结果今天的今天晚上 百度 百度2020016(福彩3d开奖结果今天的今天晚上)
-
兰州市永登县向“绿”而行构建产业发展新格局
-
主播点评:叫好叫座“破圈”吸粉!国产电影掀起暑期观影热潮
-
新华社记者五常农田实地探访
-
韩国队裁判(汤包聊球:韩国主帅赛后怒斥裁判被红牌驱逐)
-
【受权发布】北京处于地质灾害黄色预警中 市民避免或减少到山区、涉山涉水景区等危险地带游玩
-
剑傲丹枫破解版(剑傲丹枫)
-
捷顺扭亏业绩大涨背后:智慧停车的困境与转型探索
-
8月10日深圳现暴雨局部大暴雨 市三防办:城市运行平稳
-
阳春布德泽是什么意思? 阳春布德泽的布是什么意思
-
vivo Pad Air官宣8月14日开售:骁龙870永流传
-
手机相关知识:oppor9是不是曲面屏
-
财政部、水利部紧急下达15亿水利救灾资金 支持受灾地区做好水利水毁设施修复工作
-
8月10日超大账户抢筹(减持)的50只股(附名单及解读)
-
常州回应二院乳腺外科医师朱某某相关案情:“抄家抄出1.5亿”“20套房子”等信息不实
-
新宏泰:目前没有使用契约锁电子签约的方式来签署样品检测报告、产品合格证等协议文件
-
龙俊亨现状 龙俊亨事件
-
云岩区召开2023年避暑旅游专项调度会
-
市场监管总局:一批重要国家标准发布 涉及暑期活动、家居生活等领域
-
北京晚报评论:倒卖明星信息是职业道德脱轨
-
一加Ace2 Pro手机官宣全球首发“全局内存架构”,24GB 版本独享
-
太平洋电脑网下载软件安全吗(太平洋电脑网下载)
-
海马汽车:公司氢能汽车功能样车计划于2023年四季度开展小批量示范运营
-
承德露露:公司生产厂区未受到洪水影响
-
富力地产:阶段性资金紧张导致合计3072.74万元商票逾期
-
QFII、社保、券商最新重仓股曝光