通信人家园
标题: 阿里达摩院:GPT-4替代年薪60万数据分析师只要几千块,论文已发 [查看完整版帖子] [打印本页]
时间: 2023-5-29 09:25
作者: 纠结的大白菜
标题: 阿里达摩院:GPT-4替代年薪60万数据分析师只要几千块,论文已发
GPT-4替代初级数据分析师的成本只有0.71%,换成高级数据分析师则是0.45%……
你没看错,是百分之零点七一,不是百分之七十一。
按新加坡行情,年薪8.6万-9万美元(60-63万人民币)的高级数据分析师,换成GPT-4就只需要三四百美元(2000多人民币)了。
这项结论来自阿里达摩院与新加坡南洋理工大学的新论文,被网友评价为对AI和数据分析领域感兴趣的必读论文。
具体来说,结论中高级分析师指在金融行业拥有多年工作经验的数据分析师。
而GPT-4的表现,在大多数指标上能与一位6年工作经验的人类相当,正确性低于人类,但复杂性和一致性指标高于人类。
在与另一位5年工作经验的分析师对比中,GPT-4在信息的正确性、图表的美观性、洞察的复杂性等方面输给人类。
如果与2年工作经验的初级分析师对比,GPT-4在正确性上表现更好,而且能完成更多的工作。
但GPT-4完成所有类型的任务都要比人类快得多。
在假设每个月有21个工作日,每天8小时工作时间,按市场价支付工资的前提下,得出最终结论。
GPT-4当数据分析师,都能干什么论文重点考察了GPT-4作为数据分析师的以下几种能力:
- 生成SQL和Python代码
- 执行代码获得数据和图表
- 从数据和外部知识源中分析数据,得出结论
200个样本的实验表明,对于绘制图表任务,GPT-4能够理解指令含义,且对图表类型有一定背景知识,从而绘制出正确的图表。
图表大部分清晰可见,没有任何格式错误,图标的美观性指标满分3分,GPT-4平均得分2.73。
但手工检查还是能发现一些小错误,图表准确性指标满分1分,GPT-4平均得分0.78。
论文中特别说明他们的评估标准非常严格,只要x轴或y轴的任何数据或任何标签有错误,都要扣分。
对于数据分析任务,GPT-4在一致性和流畅性中平均得到满分,验证了生成流畅且语法正确的句子对GPT-4来说绝对不是问题。
有意思的是,到了数据分析这一步的准确性要比图表信息的准确性高得多,说明尽管GPT-4画了错误的图表但分析出了正确的结论。
在案例分析中,研究团队还总结出三条GPT-4与人类数据分析师的主要区别:
- 人类分析师可以用个人思想和情感来表达,比如在分析时写“令人惊讶的是……”;人类读者容易从这样的表述中理解数据是符合预期还是不正常的。
- 人类分析师倾向于结合背景知识得出结论,如写到“……常见于……”;GPT-4通常只关注提取到的数据本身,允许GPT-4上网搜索实时在线信息可以改善这一点。
- 当提供见解或建议时,人类分析师倾向于保守,如声明“假如数据没有问题的话……”;GPT-4会以自信的语气直接给出建议,不会提及假设。
另外团队表示,由于预算有限,主要是雇一个来与GPT-4对比的高级分析师太贵了,人工评估和数据标注的数量相对较少。
在最后的结论则是:
实验结果和分析表明,GPT-4在数据分析上有与人类相当的性能,但是否可以取代数据分析师需要近一步研究才能得出结论。
论文:
附件: ba45400ec2ff4f6d89fe742575ed3af4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=LN2U%2Bq2yFAXFY2SrPFdKk%2BTtOkg%3D (2023-5-29 09:24, 76.16 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjc2fGIzM2NiNWU4fDE3NTU3MTcxMDR8MHww
附件: 7530d68e6166485ea904845961b60069~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=wKOZtozYBt7HpZqSLJvxl0YXPfw%3D (2023-5-29 09:24, 173.22 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjc3fDAxZDVhNmNkfDE3NTU3MTcxMDR8MHww
附件: 25ec6a23b78448b19ced92ecc0d0adaf~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=gaN8Ua17zyvLotszkTl9emS8cyk%3D (2023-5-29 09:24, 49.03 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjc4fGU3ZDI2ZTMzfDE3NTU3MTcxMDR8MHww
附件: 9528c9fb5bd04f82b2612eea8a9aab8c~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=XKLfVkQ3XdARF69ekJki9yhOodw%3D (2023-5-29 09:24, 97.16 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjc5fDZiMTM4MTQ0fDE3NTU3MTcxMDR8MHww
附件: 68e2f221335d4356a5dfd32b12fcb75b~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=ZoEVPAZE9AmxpAO5hf1akxFaWBU%3D (2023-5-29 09:24, 178.26 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjgwfGVmMmQyZWJhfDE3NTU3MTcxMDR8MHww
附件: 527ea7d2c1e94efeb326bbb99c0fcfe9~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=FA%2FmCjU4ss5xKlerdqqOYAfQRfY%3D (2023-5-29 09:24, 32.6 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjgxfDYxMjA1MmJmfDE3NTU3MTcxMDR8MHww
附件: 0496a171a4304cca821c8d8a8655aa70~noop.image?_iz=58558&from=article.pc_detail&x-expires=1685928178&x-signature=UgQmuncSboPINbE5hPYkxySL6yA%3D (2023-5-29 09:24, 355.52 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTgwMjgyfDdjOGIzOTEzfDE3NTU3MTcxMDR8MHww
时间: 2023-5-29 09:55
作者: taigerzhm
时间: 2023-5-29 10:59
作者: timberth
人和人的差别急剧拉大
时间: 2023-5-29 11:02
作者: 为别人打工的人
论文和专利,在我国具有特色
时间: 2023-5-29 22:48
作者: Helicopter2000
我觉得论文本身是很有趣或者说很有看头的,但这个结论确实是非常噱头,因为前提本身就是不准确的,前提是数据分析师只需要具备以下三个能力:生成SQL和Python代码、执行代码获得数据和图表、从数据和外部知识源中分析数据,得出结论;如果说就这三个能力数据分析师要么是刚毕业的学生(估计好一点的学生都不止这些能力)或者办公室表哥表姐(表是指电子表格);在我的认知里,一个比较完整周期的数据分析工作至少有以下流程:
寻找数据源(数据源有内部数据源外部数据源,内部数据源好拿,外部数据源可不好拿,外部数据源至少涉及到爬虫策略、数据提取,这两项都是靠经验积累的);
数据预处理(这个过程或者叫数据清洗,获得数据后要对数据的无关/干扰/缺失部分进行处理,这里面能涉及到的坑可太多了,还要编程让这些清洗行为变得可重复,这可是个苦差事);
设计数据模型/建模模型(这个是对知识积累要求最高的一步,首先数学知识背景肯定跑不了,涉及到具体领域还需要具体领域的相关知识,例如统计学有统计学的模型、金融学有金融学的模型、气象学有气象学的模型,没有具体领域的就可能要考虑统计机器学习上或数学上的一些抽象模型(这里的抽象只指脱离具体事务,不指模型本身的复杂性或理解难易程度));
将模型编程成可重复调用的代码(这一步现在可能靠调包能解决,但如果是特定领域没有通用模型的就得自己再造,自己造不仅要能编出来,还要考虑性能、资源消耗等许多因素);
验证模型可靠性(如果可靠性不咋地就要回到模型设计调整模型或者重新设计模型);
输出相关报告(这才是最后一步);
为了能让上述过程的结果被重复利用,还要设计相关的信息系统(设计信息系统也有水平高低之分),涉及到大量计算,还要考虑高性能和可靠性的问题;当然上述内容在一个企业中不可能由一个人来完成,每个人都是一个环节,但需要有人对各个环节都有所了解来管理整个流程,这可能就是说的“高级数据分析师”。
只能说这篇论文为了博眼球,“巧妙”地忽略难度颇高部分的工作,来符合人们认知的“数据分析”工作。
通信人家园 (https://www.txrjy.com/) |
Powered by C114 |