- 前端使用纯HTML、JS和JSON(不包括链接统计),后端使用Python生成标准JSON数据。
- 系统内置了30多个常见网站的数据采集规则。
- 采用多线程方式,可以在5秒内从30多个网站完成数据采集。
- 相同网站的内容被组织在一个框架内,支持局部刷新和滚动功能。
- 显示内容的更新时间,可以根据采集页的自带更新时间或按照时间排序的第一条数据的采集时间来确定(如果没有自带更新时间,则使用采集完成时间)。
- 为了防止内容链接的盗链,链接被加密处理,采用了多重加密方法,包括base64编码、字符逆序、大小写反转等(您可以自行修改加密顺序或添加数字替换来实现不同的加密方式)。
- 统计内容链接的点击次数,以便进行分析。
- 针对某些内容,鼠标悬停在上面时会显示提示信息(例如,App Store排行榜可能会显示更新内容、时间和版本号等信息)。
安装:
1.python3 caiji.py采集(保持后台运行请用screen或nohup)
2.打开首页访问
注:
caiji.py
是后端数据采集程序,需与其他文件放在同一目录。请根据源代码中的注释进行必要的设置和修改。admin.php
是第三方数据库管理程序,用于统计和查看内容链接。默认密码为 “admin”,建议在文件内修改密码以提高安全性。- 数据库文件
log.db
会在首次访问内容链接时自动生成。如果未生成,请确保主目录具有写入权限。 - 为了提高安全性,建议将后端程序
caiji.py
和数据库查看程序admin.php
更改为复杂的文件名,或将其移至非 Web 目录。同时,需要在文件内修改生成 JSON 文件的保存目录为网站根目录,如果默认设置为当前目录的话。 - 默认情况下,后端采集程序使用多线程进行数据抓取。如果出现问题,可以尝试使用单线程。
- 如果您要采集今日头条的数据,请替换为您自己的 Cookie。请注意,频繁采集相同内容可能会导致获取到相似的内容,建议定期更换 Cookie 或者自行添加随机生成的头条 Cookie 规则。
- 大多数采集站的标志已经修改为透明图层 PNG 格式,但在非白色背景下可能会显示不清晰。
资源下载:
文件大小:8.84 MB (9,277,430 字节)
下载地址:蓝奏网盘
备用下载:城通网盘 (访问密码: 6308)