全站拟公开文本数据 dump,为 SQLite 格式,下载 https://sqlitebrowser.org/ 即可在本地浏览,总共有 4 个表:
导出使用的脚本:
由于有重量级門友投票反对,此事暂时搁置 。
本站和商业软件最大的区别之一是数据是用户完全所有的(民有、民治、民享),每个人都能在 https://xjtu.app/my/preferences/account 导出自己的全部数据(包括但不限于全部话题、回复、喜欢、书签、登陆记录)。
本站活跃度并不高,很大的原因是本来就 冇 [1] 多少东西好聊的,聚焦于校园生活以及本校的话题被聊完了就冇乜 [2] 好聊的了。这就像情侣早期无话不说,到了后期成为夫妻以后就慢慢失去了聊天的兴趣一样。
将本站的公开数据公开有以下可能的好处:
-
用户可以用本地的数据库软件直接浏览原始数据,稍微懂点 Docker 的童鞋也可以在本地跑一个 Discourse 从而实现本机上的高速浏览(我在本地开发环境就曾导入过生产环境的数据),更有兴趣锻炼一下自己的技术的童鞋可以利用这个数据源开发一套别样的数据浏览乃至交互界面(如果只是浏览的话不涉及 CRUD 只需要会前端技术,哪怕不懂前端,做成静态网页放到 github.io 上也很容易,如果能支持交互的全栈软件就有点了,如果做成 P2P 的分布式软件就更 了)。
-
有望将现有的知识凝炼到从前年开始暴热的 ChatGPT 首当其冲的大语言模型中,2023 年 9 月数据量不太多的时候有人做过尝试(referenced below),从而做成 后最喜闻乐见的网络使用方式:客服。(用提问 prompt 代替搜索 search)
知识图谱(Knowledge graph) 亦是一个对此有帮助的技术。
试验:训练一个解答下交学生疑问的 Chatbot -
万一各种想到或想不到的原因导致网站(可以称之为門門吗)去世,用户不失去自己的东西。从而不用在此刻惧怕丢失一切东西。
-
有关方面可以对数据进行研究,例如《上网的西安交通大学学生的精神状态研究》《时间/季节对网络上“打交”相关话题的流行度的影响》… …
公开数据是指全部话题和回复,至少除去了
- 用户隐私信息(至少包括登陆记录,IP,邮箱)
- 聊天(DM)内容(包含群聊(channel),私聊)
- 私信(PM)内容。
公开公开数据的形式现在可以想到的是:
topic & posts > SQLite
Sam Saffron 大佬开源了现成的工具:GitHub - SamSaffron/discourse_public_import: A tool to import all public posts on discourse
风险:
提供便捷的全部公开数据下载的做法有风险,有人可以做个网站让全部数据一样,从而仿冒本站。考虑到交大門三个字以及 logo 也没申请 trademark,仿冒的话也没办法起诉
是否反对公开本站公开数据?
- 我反对