TriliumNext个性化批量转换数据

作为上一篇《大数据之下的小数据》的子篇,就分享一个使用WIN系统下,使用Python导出TriliumNext数据库变成常见的md文本的代码。

Python编程安装使用容易。网上其他教程也多,在这就不详细说了。TriliumNext作为目前开源的笔记应用之一,它后端使用了sqlite数据库,正好可以用来做例子。md是轻量标记语言的一种,视同普通的txt文本,后缀名是md。

先声明,TriliumNext本来就有数据导出功能,不过导出的网页或者md文档虽然保留各种层级却缺少重要标签,所以才有这个从数据库内直接转换导出的做法,相当于统一的功能设计不太合需要,咱自己设计一套转换规则。

假设数据库文件名”database.db”在电脑上的位置是”C:\Users\数据库\”。需要导出md文件所在的位置即”D:\导出”(该文件夹预先清空)。TriliumNext版本0.95.0

这段代码是实现功能如下

1、笔记的标题当做md文件的文件名,然后也放入文档第一行

2、从笔记的”dateNote”标签中(这个标签我定义成笔记日期),放入文档第2行,然后把文档按照年份归类。如果真的没有日期,就丢入另外指定文件夹集中。这个”dateNote”标签并非每个人都有,但理论上对于日期型的都可以照着替换使用。

3、从笔记的”属性”标签中,提取了属性,写到文档第3行,这样方便识别文档大概归的类别。同上,”属性”这个标签并非每个人都有,但对于文本,多个类型的标签都可以照着替换使用。

4、TriliumNext里边有层级归属一说,子笔记日期、属性都共享父级,处理的时候对于日期、属性空白的笔记参考上一层级的处理。

5、替换正文中的一些关键字,如果不需要,可以把代码中对应部分改成一段无意义的长18位字符即可,或者把整个处理环节删掉。

这跟《大数据之下的小数据》讲的一样,一个是集中处理,第二是范围可控,安全,然后实现了对应的结构化,可以用来打造属于自己的AI助力。

代码在这分享

另存为这段代码,保存成”export_notes.py”文件,在安装Python的时候开启命令运行的前提下,把这个保存的文件放在WIN桌面,使用系统的命令提示符,输入


python C:\Users\你的用户名\Desktop\export_notes.py

即可完成运行。

觉得好可以点个赞!
(暂无人赞)
Loading...

大数据之下的小数据

前阵子我看了一本书,很认可一个对人类社会不同阶段不同的生产要素的总结。

原始社会人本身是生产要素,人越多打猎越多,要多造人,农耕时代加上个重要的土地,土地成为了生产要素进入封建社会。再到工业革命,资本成为生产要素,购买设备原料,发放工资等等,资本规模越大产出越多,金融是这个时代的产物。

到了近代,光有资本不行了,知识技术作为生产要素越发重要,谁掌握先进的技术,谁的产出越多。专利、形象IP、知识产权、算法等产生价值。特别突出的是互联网科技企业,以模式、技术做产品赋能诸多领域,赚所谓服务费、广告费之类盆满钵满。

未来,数据本身也会成为越来越重要的生产要素,从数据里边分析出所有的过去跟现在加上预造未来趋势,可以遥遥领先。

说到数据积累,大数据有价值,个体小数据却一直被低估,现代社会变化之快,很多人每天都在接收新信息,生怕自己跟不上变化。人每天都在产生数据,很少有人会专门整理。嫌麻烦、没时间、不必要等,直至前阵子“建议频繁记录生活”话题上热搜!才有人意识到自个数据放在以后的意义。

有意义不代表真能用的好。个体的能力本就参差不齐。“信息大爆炸”是上个世纪六十年代之前的说法,进入互联网时代之后人脑早就跟不上了。别说互联网海量的信息,随身的手机有多年旅游下来拍的照片视频,不间断的微博、微信、播客、短视频等各种消息流,全部随手可取,鲜有人具备关联分析能力。都只能挑着兴趣看,数据冲击下多数人随波逐流,有价值的部分都隐藏在汪洋大海中。

直至AI时代,一如万年前大猩猩第一次拿起石头敲打蚌壳取肉,人终于可以用AI这个工具用来处理自己产生的信息。

最初很多人把AI就当传统搜索引擎那样用,即在公开互联网检索结果,如今回看有点像是,铁铲挖土的人一夜暴富之后把铲子换成了黄金材质,还是在那继续挖土。有了远超过往的强大算力,却沿用过往陈旧的用法。

我们也开始意识到光有强大的算力跟优秀的算法模型还不行,还需要投喂数据集来训练才有AI,喂的越多,喂的越优质越精准,训练出来效果越好。工具、算法、模型是会不断进步演化的,好的数据集却越发稀缺。如果将来大家用的都是差不多的算法模型,那最后的区别就是数据集的区别。

兜了一圈回来,又可以重提“建议频繁记录生活”,将来有更牛逼的大模型,一旦把这个人数据集扔给它,瞬间化身贴心秘书助理,那岂不美哉?

如何构建私人数据集,各有各的方法,我就分享几点。

安全可控:不要让自己的数据被平台绑架,过往博客平台关闭、网盘跑路的血泪史就不说了。最原始的纸质笔记本未尝不可,只是管理起来难度高了些许。尽量用开源工具,数据可随时掌控。除了不丢失,范围也要把握。总有隐私方面的记录不宜共享,就像手机系统植入AI之后总让人很担心一样。

归集统一:工具玩的多了数据会散落各处,建议还是统一起来,算法模型都还在快速迭代,数据集中放一起,换不同的AI模型也方便比较结果。

数据尽量结构化,这是要重点讲的

虽然现在大模型能处理非结构的数据,比如照片、歌曲、视频等等都逐渐理解,但计算机本质上应该本身更偏爱结构化的数据。只不过真实世界的信息本身就混杂在一起乱糟糟,AI模型进化方向是一直努力理解真实世界,让AI能从乱麻世界中自主提取出结构化数据,如果我们自己积累的就是结构化的高标准数据集,这在我看来是一种优势。

结构化的数据有序,规律清晰,需要的时候想转换成其他格式。只需编写一条指令,转换范围跟格式都好做。反过来,要把一大堆零碎的文档信息重新拼凑成完整数据库,那难度就大很多,正如热力学的熵增很容易熵减很难,这其实也是现代算法模型的难点。

如果我们自己的数据集本身就是非常有结构的,那不论用什么模型都能快速导入转换,即我们自己可以灵活、快速调教属于自己的AI,而不必像别人一样喂给AI一堆乱糟糟的数据,最后提炼出来的结果始终有幻觉甚至偏差。

AI时代个体产生的数据,与其让别人掌握挖掘,不如自己先想办法积累好用起来,才算跟得上时代。

觉得好可以点个赞!
(暂无人赞)
Loading...