kangvcar / InfoSpider
- суббота, 22 августа 2020 г. в 00:25:35
Python
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱 🧰 ,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
一个神奇的工具箱,拿回你的个人信息。
小明一如往常打开 Chrome 浏览器逛着论坛,贴吧,一不小心点开了网页上的广告,跳转到了京东商城,下意识去关闭窗口时发现 (OS:咦?京东怎么知道我最近心心念念的宝贝呢?刚好我正需要呢!),既然打开了那就看看商品详情吧 (OS:哎哟不错哦),那就下单试试吧!
小白听着网易云音乐的每日推荐歌单无法自拔 (OS:哇!怎么播放列表里都是我喜欢的音乐风格?网易云音乐太棒了吧!深得我心啊!黑胶会员必须来一个!),逛着知乎里的“如何优雅的XXX?”,“XXX是怎样一种体验?”,“如何评价XXX?” (OS:咦?这个问题就是我刚好想问的,原来早已有人提问!什么???还有几千条回答!!进去逛逛看!)
小达上班时不忘充实自己,逛着各大技术论坛博客园、CSDN、开源中国、简书、掘金等等,发现首页的内容推荐太棒了(OS:这些技术博文太棒了,不用找就出来了),再打开自己的博客主页发现不知不觉地自己也坚持写博文也有三年了,自己的技术栈也越来越丰富(OS:怎么博客后台都不提供一个数据分析系统呢?我想看看我这几年来的发文数量,发文时间,想知道哪些博文比较热门,想看看我在哪些技术上花费的时间更多,想看看我过去的创作高峰期时在晚上呢?还是凌晨?我希望系统能给我更多指引数据让我更好的创作!)
看到以上几个场景你可能会感叹科技在进步,技术在发展,极大地改善了我们的生活方式。
但当你深入思考,你浏览的每个网站,注册的每个网站,他们都记录着你的信息你的足迹。
细思恐极的背后是自己的个人数据被赤裸裸的暴露在互联网上并且被众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为数据的生产者却没能分享属于自己的数据收益。
如果有一个这样的工具,它能帮你拿回你的个人信息,它能帮你把分散在各种站点的个人信息聚合起来,它能帮你分析你的个人数据并给你提供建议,它能帮你把个人数据可视化让你更清楚地了解自己。
你是否会需要这样的工具呢? 你是否会喜欢这样的工具呢?
基于以上,我着手开发了 INFO-SPIDER
INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
进入 tools 目录
运行 python3 main.py
在打开的窗口点击数据源按钮, 根据提示选择数据保存路径
弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.
在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)
Thank you to JetBrains, who provide Open Source License for PyCharm!
2020年7月10日
2020年7月12日
2020年7月14日
2020年7月17日
2020年7月19日
2020年7月30日
2020年8月18日
GPL-3.0