type
Post
status
Published
date
Apr 15, 2026
slug
summary
多数据源爬虫 + 规则驱动的 JD 筛选,自动追踪大厂 AI 方向岗位。
tags
项目
技术
Python
category
项目作品
icon
password
自动追踪互联网大厂 AI 方向招聘,规则驱动的高精度筛选 + 每日 CI 更新。
项目简介
AI 岗位雷达是一个自动化的招聘信息采集与筛选系统。针对 AI 测试、Agent 评测、测试开发(AI方向)、AI 产品四个方向,从各大厂招聘官网抓取岗位数据,经过规则驱动的多维筛选后,生成结构化的岗位索引。
当前已接入腾讯、阿里巴巴(夸克)、百度、快手、小红书、网易 6 家数据源,持续追踪约 66 个符合条件的岗位。GitHub Actions 每日定时运行,自动抓取、筛选、去重、生成报告。
核心架构
数据源抓取 → 归一化 → 去重 → 规则筛选 → 历史快照 Diff → 报告生成 + 飞书通知
双栈抓取
根据站点特性选择不同抓取策略:
- HTTP API 直连:腾讯、网易等提供 JSON API 的站点,用 curl_cffi 模拟 TLS 指纹
- Playwright 浏览器:快手、小红书、字节等 SPA 站点,配合 stealth 插件 + cookie 持久化
- API 改写:夸克/千问招聘站通过 Playwright 路由拦截,改写搜索 POST 请求体实现分页
规则驱动的 JD 筛选
不是简单的关键词匹配,而是多维度正则规则链:
- 过滤条件:社招、本科及以下学历、经验年限合理、AI 相关性
- 四类方向分类:大模型/AI测试、测试开发(AI方向)、Agent评测、AI/Agent产品
- 排除规则:硬件测试、游戏纯研发、非目标产品方向等
未通过严格分类的岗位直接丢弃,保证输出精度。
数据完整性保护
- 去重:按 platform:job_id 唯一键,保留描述更长的记录
- 冻结策略:某次抓取筛选后为空时,不覆盖历史数据
- 月度归档:下线岗位写入 archive,保留历史追溯能力
- 快照 Diff:每次运行与上一版 jobs.json 比对,输出新增/下线统计
数据源覆盖
公司 | 抓取方式 | 状态 |
腾讯 | 官方 JSON API | 已接入 |
阿里巴巴(夸克) | Playwright + API 改写 | 已接入 |
百度 | SSR HTML 内嵌 JSON 提取 | 已接入 |
快手 | Playwright + 响应监听 | 已接入 |
小红书 | Playwright + DOM 解析 | 已接入 |
网易 | 官方 JSON API | 已接入 |
字节跳动/美团/滴滴 | Playwright 浏览器 | 已开发,调试中 |
Boss/猎聘/智联等 | Playwright 浏览器 | 已开发,未启用 |
技术栈
- Python 3.11 + curl_cffi(TLS 指纹模拟)+ Playwright(浏览器自动化)
- GitHub Actions 定时 CI:Tier1 正式运行,Tier2 dry-run 验证
- 正则规则链:多维度 JD 筛选与方向分类
- 飞书 Webhook:交互卡片通知新增/下线变动
- 自动生成 README + 按公司拆分的 Markdown 岗位详情
为什么做这个项目
AI 方向的岗位分散在各家招聘系统里,且职位名称五花八门,单靠关键词搜索噪音很大。这个项目的核心价值不是爬虫本身,而是那套筛选规则——用正则规则链把「AI 测评相关」这个模糊需求转化为可执行的精确过滤,把噪音从数百条压缩到几十条可投递的目标岗位。

