大数据之下的小数据

前阵子我看了一本书,很认可一个对人类社会不同阶段不同的生产要素的总结。

原始社会人本身是生产要素,人越多打猎越多,要多造人,农耕时代加上个重要的土地,土地成为了生产要素进入封建社会。再到工业革命,资本成为生产要素,购买设备原料,发放工资等等,资本规模越大产出越多,金融是这个时代的产物。

到了近代,光有资本不行了,知识技术作为生产要素越发重要,谁掌握先进的技术,谁的产出越多。专利、形象IP、知识产权、算法等产生价值。特别突出的是互联网科技企业,以模式、技术做产品赋能诸多领域,赚所谓服务费、广告费之类盆满钵满。

未来,数据本身也会成为越来越重要的生产要素,从数据里边分析出所有的过去跟现在加上预造未来趋势,可以遥遥领先。

说到数据积累,大数据有价值,个体小数据却一直被低估,现代社会变化之快,很多人每天都在接收新信息,生怕自己跟不上变化。人每天都在产生数据,很少有人会专门整理。嫌麻烦、没时间、不必要等,直至前阵子“建议频繁记录生活”话题上热搜!才有人意识到自个数据放在以后的意义。

有意义不代表真能用的好。个体的能力本就参差不齐。“信息大爆炸”是上个世纪六十年代之前的说法,进入互联网时代之后人脑早就跟不上了。别说互联网海量的信息,随身的手机有多年旅游下来拍的照片视频,不间断的微博、微信、播客、短视频等各种消息流,全部随手可取,鲜有人具备关联分析能力。都只能挑着兴趣看,数据冲击下多数人随波逐流,有价值的部分都隐藏在汪洋大海中。

直至AI时代,一如万年前大猩猩第一次拿起石头敲打蚌壳取肉,人终于可以用AI这个工具用来处理自己产生的信息。

最初很多人把AI就当传统搜索引擎那样用,即在公开互联网检索结果,如今回看有点像是,铁铲挖土的人一夜暴富之后把铲子换成了黄金材质,还是在那继续挖土。有了远超过往的强大算力,却沿用过往陈旧的用法。

我们也开始意识到光有强大的算力跟优秀的算法模型还不行,还需要投喂数据集来训练才有AI,喂的越多,喂的越优质越精准,训练出来效果越好。工具、算法、模型是会不断进步演化的,好的数据集却越发稀缺。如果将来大家用的都是差不多的算法模型,那最后的区别就是数据集的区别。

兜了一圈回来,又可以重提“建议频繁记录生活”,将来有更牛逼的大模型,一旦把这个人数据集扔给它,瞬间化身贴心秘书助理,那岂不美哉?

如何构建私人数据集,各有各的方法,我就分享几点。

安全可控:不要让自己的数据被平台绑架,过往博客平台关闭、网盘跑路的血泪史就不说了。最原始的纸质笔记本未尝不可,只是管理起来难度高了些许。尽量用开源工具,数据可随时掌控。除了不丢失,范围也要把握。总有隐私方面的记录不宜共享,就像手机系统植入AI之后总让人很担心一样。

归集统一:工具玩的多了数据会散落各处,建议还是统一起来,算法模型都还在快速迭代,数据集中放一起,换不同的AI模型也方便比较结果。

数据尽量结构化,这是要重点讲的

虽然现在大模型能处理非结构的数据,比如照片、歌曲、视频等等都逐渐理解,但计算机本质上应该本身更偏爱结构化的数据。只不过真实世界的信息本身就混杂在一起乱糟糟,AI模型进化方向是一直努力理解真实世界,让AI能从乱麻世界中自主提取出结构化数据,如果我们自己积累的就是结构化的高标准数据集,这在我看来是一种优势。

结构化的数据有序,规律清晰,需要的时候想转换成其他格式。只需编写一条指令,转换范围跟格式都好做。反过来,要把一大堆零碎的文档信息重新拼凑成完整数据库,那难度就大很多,正如热力学的熵增很容易熵减很难,这其实也是现代算法模型的难点。

如果我们自己的数据集本身就是非常有结构的,那不论用什么模型都能快速导入转换,即我们自己可以灵活、快速调教属于自己的AI,而不必像别人一样喂给AI一堆乱糟糟的数据,最后提炼出来的结果始终有幻觉甚至偏差。

AI时代个体产生的数据,与其让别人掌握挖掘,不如自己先想办法积累好用起来,才算跟得上时代。

觉得好可以点个赞!
(暂无人赞)
Loading...

《大数据之下的小数据》有2个想法

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注