AI 岗位雷达 — 自动追踪大厂 AI 招聘

type

Post

status

Published

date

Apr 15, 2026

slug

summary

多数据源爬虫 + 规则驱动的 JD 筛选，自动追踪大厂 AI 方向岗位。

项目简介

AI 岗位雷达是一个自动化的招聘信息采集与筛选系统。针对 AI 测试、Agent 评测、测试开发(AI方向)、AI 产品四个方向，从各大厂招聘官网抓取岗位数据，经过规则驱动的多维筛选后，生成结构化的岗位索引。

当前已接入腾讯、阿里巴巴(夸克)、百度、快手、小红书、网易 6 家数据源，持续追踪约 66 个符合条件的岗位。GitHub Actions 每日定时运行，自动抓取、筛选、去重、生成报告。

核心架构

数据源抓取 → 归一化 → 去重 → 规则筛选 → 历史快照 Diff → 报告生成 + 飞书通知

双栈抓取

根据站点特性选择不同抓取策略：

HTTP API 直连：腾讯、网易等提供 JSON API 的站点，用 curl_cffi 模拟 TLS 指纹

Playwright 浏览器：快手、小红书、字节等 SPA 站点，配合 stealth 插件 + cookie 持久化

API 改写：夸克/千问招聘站通过 Playwright 路由拦截，改写搜索 POST 请求体实现分页

规则驱动的 JD 筛选

不是简单的关键词匹配，而是多维度正则规则链：

过滤条件：社招、本科及以下学历、经验年限合理、AI 相关性

四类方向分类：大模型/AI测试、测试开发(AI方向)、Agent评测、AI/Agent产品

排除规则：硬件测试、游戏纯研发、非目标产品方向等

未通过严格分类的岗位直接丢弃，保证输出精度。

数据完整性保护

去重：按 platform:job_id 唯一键，保留描述更长的记录

冻结策略：某次抓取筛选后为空时，不覆盖历史数据

月度归档：下线岗位写入 archive，保留历史追溯能力

快照 Diff：每次运行与上一版 jobs.json 比对，输出新增/下线统计

数据源覆盖

公司	抓取方式	状态
腾讯	官方 JSON API	已接入
阿里巴巴(夸克)	Playwright + API 改写	已接入
百度	SSR HTML 内嵌 JSON 提取	已接入
快手	Playwright + 响应监听	已接入
小红书	Playwright + DOM 解析	已接入
网易	官方 JSON API	已接入
字节跳动/美团/滴滴	Playwright 浏览器	已开发，调试中
Boss/猎聘/智联等	Playwright 浏览器	已开发，未启用

技术栈

Python 3.11 + curl_cffi（TLS 指纹模拟）+ Playwright（浏览器自动化）

GitHub Actions 定时 CI：Tier1 正式运行，Tier2 dry-run 验证

正则规则链：多维度 JD 筛选与方向分类

飞书 Webhook：交互卡片通知新增/下线变动

自动生成 README + 按公司拆分的 Markdown 岗位详情

为什么做这个项目

AI 方向的岗位分散在各家招聘系统里，且职位名称五花八门，单靠关键词搜索噪音很大。这个项目的核心价值不是爬虫本身，而是那套筛选规则——用正则规则链把「AI 测评相关」这个模糊需求转化为可执行的精确过滤，把噪音从数百条压缩到几十条可投递的目标岗位。

源码

GitHub: krisaruz/ai-job-radar