大数据之下的小数据

前阵子我看了一本书，很认可一个对人类社会不同阶段不同的生产要素的总结。

原始社会人本身是生产要素，人越多打猎越多，要多造人，农耕时代加上个重要的土地，土地成为了生产要素进入封建社会。再到工业革命，资本成为生产要素，购买设备原料，发放工资等等，资本规模越大产出越多，金融是这个时代的产物。

到了近代，光有资本不行了，知识技术作为生产要素越发重要，谁掌握先进的技术，谁的产出越多。专利、形象IP、知识产权、算法等产生价值。特别突出的是互联网科技企业，以模式、技术做产品赋能诸多领域，赚所谓服务费、广告费之类盆满钵满。

未来，数据本身也会成为越来越重要的生产要素，从数据里边分析出所有的过去跟现在加上预造未来趋势，可以遥遥领先。

说到数据积累，大数据有价值，个体小数据却一直被低估，现代社会变化之快，很多人每天都在接收新信息，生怕自己跟不上变化。人每天都在产生数据，很少有人会专门整理。嫌麻烦、没时间、不必要等，直至前阵子“建议频繁记录生活”话题上热搜！才有人意识到自个数据放在以后的意义。

有意义不代表真能用的好。个体的能力本就参差不齐。“信息大爆炸”是上个世纪六十年代之前的说法，进入互联网时代之后人脑早就跟不上了。别说互联网海量的信息，随身的手机有多年旅游下来拍的照片视频，不间断的微博、微信、播客、短视频等各种消息流，全部随手可取，鲜有人具备关联分析能力。都只能挑着兴趣看，数据冲击下多数人随波逐流，有价值的部分都隐藏在汪洋大海中。

直至AI时代，一如万年前大猩猩第一次拿起石头敲打蚌壳取肉，人终于可以用AI这个工具用来处理自己产生的信息。

最初很多人把AI就当传统搜索引擎那样用，即在公开互联网检索结果，如今回看有点像是，铁铲挖土的人一夜暴富之后把铲子换成了黄金材质，还是在那继续挖土。有了远超过往的强大算力，却沿用过往陈旧的用法。

我们也开始意识到光有强大的算力跟优秀的算法模型还不行，还需要投喂数据集来训练才有AI，喂的越多，喂的越优质越精准，训练出来效果越好。工具、算法、模型是会不断进步演化的，好的数据集却越发稀缺。如果将来大家用的都是差不多的算法模型，那最后的区别就是数据集的区别。

兜了一圈回来，又可以重提“建议频繁记录生活”，将来有更牛逼的大模型，一旦把这个人数据集扔给它，瞬间化身贴心秘书助理，那岂不美哉？

如何构建私人数据集，各有各的方法，我就分享几点。

安全可控：不要让自己的数据被平台绑架，过往博客平台关闭、网盘跑路的血泪史就不说了。最原始的纸质笔记本未尝不可，只是管理起来难度高了些许。尽量用开源工具，数据可随时掌控。除了不丢失，范围也要把握。总有隐私方面的记录不宜共享，就像手机系统植入AI之后总让人很担心一样。

归集统一：工具玩的多了数据会散落各处，建议还是统一起来，算法模型都还在快速迭代，数据集中放一起，换不同的AI模型也方便比较结果。

数据尽量结构化，这是要重点讲的

虽然现在大模型能处理非结构的数据，比如照片、歌曲、视频等等都逐渐理解，但计算机本质上应该本身更偏爱结构化的数据。只不过真实世界的信息本身就混杂在一起乱糟糟，AI模型进化方向是一直努力理解真实世界，让AI能从乱麻世界中自主提取出结构化数据，如果我们自己积累的就是结构化的高标准数据集，这在我看来是一种优势。

结构化的数据有序，规律清晰，需要的时候想转换成其他格式。只需编写一条指令，转换范围跟格式都好做。反过来，要把一大堆零碎的文档信息重新拼凑成完整数据库，那难度就大很多，正如热力学的熵增很容易熵减很难，这其实也是现代算法模型的难点。

如果我们自己的数据集本身就是非常有结构的，那不论用什么模型都能快速导入转换，即我们自己可以灵活、快速调教属于自己的AI，而不必像别人一样喂给AI一堆乱糟糟的数据，最后提炼出来的结果始终有幻觉甚至偏差。

AI时代个体产生的数据，与其让别人掌握挖掘，不如自己先想办法积累好用起来，才算跟得上时代。

其他相关文章