互联网 – 昭君网志

作为上一篇《大数据之下的小数据》的子篇，就分享一个使用WIN系统下，使用Python导出TriliumNext数据库变成常见的md文本的代码。

Python编程安装使用容易。网上其他教程也多，在这就不详细说了。TriliumNext作为目前开源的笔记应用之一，它后端使用了sqlite数据库，正好可以用来做例子。md是轻量标记语言的一种，视同普通的txt文本，后缀名是md。

先声明，TriliumNext本来就有数据导出功能，不过导出的网页或者md文档虽然保留各种层级却缺少重要标签，所以才有这个从数据库内直接转换导出的做法，相当于统一的功能设计不太合需要，咱自己设计一套转换规则。

假设数据库文件名”database.db”在电脑上的位置是”C:\Users\数据库\”。需要导出md文件所在的位置即”D:\导出”（该文件夹预先清空）。TriliumNext版本0.95.0

这段代码是实现功能如下

1、笔记的标题当做md文件的文件名，然后也放入文档第一行

2、从笔记的”dateNote”标签中（这个标签我定义成笔记日期），放入文档第2行，然后把文档按照年份归类。如果真的没有日期，就丢入另外指定文件夹集中。这个”dateNote”标签并非每个人都有，但理论上对于日期型的都可以照着替换使用。

3、从笔记的”属性”标签中，提取了属性，写到文档第3行，这样方便识别文档大概归的类别。同上，”属性”这个标签并非每个人都有，但对于文本，多个类型的标签都可以照着替换使用。

4、TriliumNext里边有层级归属一说，子笔记日期、属性都共享父级，处理的时候对于日期、属性空白的笔记参考上一层级的处理。

5、替换正文中的一些关键字，如果不需要，可以把代码中对应部分改成一段无意义的长18位字符即可，或者把整个处理环节删掉。

这跟《大数据之下的小数据》讲的一样，一个是集中处理，第二是范围可控，安全，然后实现了对应的结构化，可以用来打造属于自己的AI助力。

代码在这分享

另存为这段代码，保存成”export_notes.py”文件，在安装Python的时候开启命令运行的前提下，把这个保存的文件放在WIN桌面，使用系统的命令提示符，输入


python C:\Users\你的用户名\Desktop\export_notes.py

即可完成运行。

其他相关文章

前阵子我看了一本书，很认可一个对人类社会不同阶段不同的生产要素的总结。

原始社会人本身是生产要素，人越多打猎越多，要多造人，农耕时代加上个重要的土地，土地成为了生产要素进入封建社会。再到工业革命，资本成为生产要素，购买设备原料，发放工资等等，资本规模越大产出越多，金融是这个时代的产物。

到了近代，光有资本不行了，知识技术作为生产要素越发重要，谁掌握先进的技术，谁的产出越多。专利、形象IP、知识产权、算法等产生价值。特别突出的是互联网科技企业，以模式、技术做产品赋能诸多领域，赚所谓服务费、广告费之类盆满钵满。

未来，数据本身也会成为越来越重要的生产要素，从数据里边分析出所有的过去跟现在加上预造未来趋势，可以遥遥领先。

说到数据积累，大数据有价值，个体小数据却一直被低估，现代社会变化之快，很多人每天都在接收新信息，生怕自己跟不上变化。人每天都在产生数据，很少有人会专门整理。嫌麻烦、没时间、不必要等，直至前阵子“建议频繁记录生活”话题上热搜！才有人意识到自个数据放在以后的意义。

有意义不代表真能用的好。个体的能力本就参差不齐。“信息大爆炸”是上个世纪六十年代之前的说法，进入互联网时代之后人脑早就跟不上了。别说互联网海量的信息，随身的手机有多年旅游下来拍的照片视频，不间断的微博、微信、播客、短视频等各种消息流，全部随手可取，鲜有人具备关联分析能力。都只能挑着兴趣看，数据冲击下多数人随波逐流，有价值的部分都隐藏在汪洋大海中。

直至AI时代，一如万年前大猩猩第一次拿起石头敲打蚌壳取肉，人终于可以用AI这个工具用来处理自己产生的信息。

最初很多人把AI就当传统搜索引擎那样用，即在公开互联网检索结果，如今回看有点像是，铁铲挖土的人一夜暴富之后把铲子换成了黄金材质，还是在那继续挖土。有了远超过往的强大算力，却沿用过往陈旧的用法。

我们也开始意识到光有强大的算力跟优秀的算法模型还不行，还需要投喂数据集来训练才有AI，喂的越多，喂的越优质越精准，训练出来效果越好。工具、算法、模型是会不断进步演化的，好的数据集却越发稀缺。如果将来大家用的都是差不多的算法模型，那最后的区别就是数据集的区别。

兜了一圈回来，又可以重提“建议频繁记录生活”，将来有更牛逼的大模型，一旦把这个人数据集扔给它，瞬间化身贴心秘书助理，那岂不美哉？

如何构建私人数据集，各有各的方法，我就分享几点。

安全可控：不要让自己的数据被平台绑架，过往博客平台关闭、网盘跑路的血泪史就不说了。最原始的纸质笔记本未尝不可，只是管理起来难度高了些许。尽量用开源工具，数据可随时掌控。除了不丢失，范围也要把握。总有隐私方面的记录不宜共享，就像手机系统植入AI之后总让人很担心一样。

归集统一：工具玩的多了数据会散落各处，建议还是统一起来，算法模型都还在快速迭代，数据集中放一起，换不同的AI模型也方便比较结果。

数据尽量结构化，这是要重点讲的

虽然现在大模型能处理非结构的数据，比如照片、歌曲、视频等等都逐渐理解，但计算机本质上应该本身更偏爱结构化的数据。只不过真实世界的信息本身就混杂在一起乱糟糟，AI模型进化方向是一直努力理解真实世界，让AI能从乱麻世界中自主提取出结构化数据，如果我们自己积累的就是结构化的高标准数据集，这在我看来是一种优势。

结构化的数据有序，规律清晰，需要的时候想转换成其他格式。只需编写一条指令，转换范围跟格式都好做。反过来，要把一大堆零碎的文档信息重新拼凑成完整数据库，那难度就大很多，正如热力学的熵增很容易熵减很难，这其实也是现代算法模型的难点。

如果我们自己的数据集本身就是非常有结构的，那不论用什么模型都能快速导入转换，即我们自己可以灵活、快速调教属于自己的AI，而不必像别人一样喂给AI一堆乱糟糟的数据，最后提炼出来的结果始终有幻觉甚至偏差。

AI时代个体产生的数据，与其让别人掌握挖掘，不如自己先想办法积累好用起来，才算跟得上时代。

其他相关文章

标签：互联网

TriliumNext个性化批量转换数据

大数据之下的小数据