AI 岗位雷达 — 自动追踪大厂 AI 招聘

多数据源爬虫 + 规则驱动的 JD 筛选,自动追踪大厂 AI 方向岗位。

2026-4-15项目技术Python
AI 岗位雷达 — 自动追踪大厂 AI 招聘

type
Post
status
Published
date
Apr 15, 2026
slug
summary
多数据源爬虫 + 规则驱动的 JD 筛选,自动追踪大厂 AI 方向岗位。
tags
项目
技术
Python
category
项目作品
icon
password
🎯
自动追踪互联网大厂 AI 方向招聘,规则驱动的高精度筛选 + 每日 CI 更新。
 

项目简介

AI 岗位雷达是一个自动化的招聘信息采集与筛选系统。针对 AI 测试、Agent 评测、测试开发(AI方向)、AI 产品四个方向,从各大厂招聘官网抓取岗位数据,经过规则驱动的多维筛选后,生成结构化的岗位索引。
当前已接入腾讯、阿里巴巴(夸克)、百度、快手、小红书、网易 6 家数据源,持续追踪约 66 个符合条件的岗位。GitHub Actions 每日定时运行,自动抓取、筛选、去重、生成报告。
 

核心架构

数据源抓取 → 归一化 → 去重 → 规则筛选 → 历史快照 Diff → 报告生成 + 飞书通知
 

双栈抓取

根据站点特性选择不同抓取策略:
  • HTTP API 直连:腾讯、网易等提供 JSON API 的站点,用 curl_cffi 模拟 TLS 指纹
  • Playwright 浏览器:快手、小红书、字节等 SPA 站点,配合 stealth 插件 + cookie 持久化
  • API 改写:夸克/千问招聘站通过 Playwright 路由拦截,改写搜索 POST 请求体实现分页
 

规则驱动的 JD 筛选

不是简单的关键词匹配,而是多维度正则规则链:
  • 过滤条件:社招、本科及以下学历、经验年限合理、AI 相关性
  • 四类方向分类:大模型/AI测试、测试开发(AI方向)、Agent评测、AI/Agent产品
  • 排除规则:硬件测试、游戏纯研发、非目标产品方向等
未通过严格分类的岗位直接丢弃,保证输出精度。
 

数据完整性保护

  • 去重:按 platform:job_id 唯一键,保留描述更长的记录
  • 冻结策略:某次抓取筛选后为空时,不覆盖历史数据
  • 月度归档:下线岗位写入 archive,保留历史追溯能力
  • 快照 Diff:每次运行与上一版 jobs.json 比对,输出新增/下线统计
 

数据源覆盖

公司
抓取方式
状态
腾讯
官方 JSON API
已接入
阿里巴巴(夸克)
Playwright + API 改写
已接入
百度
SSR HTML 内嵌 JSON 提取
已接入
快手
Playwright + 响应监听
已接入
小红书
Playwright + DOM 解析
已接入
网易
官方 JSON API
已接入
字节跳动/美团/滴滴
Playwright 浏览器
已开发,调试中
Boss/猎聘/智联等
Playwright 浏览器
已开发,未启用
 

技术栈

  • Python 3.11 + curl_cffi(TLS 指纹模拟)+ Playwright(浏览器自动化)
  • GitHub Actions 定时 CI:Tier1 正式运行,Tier2 dry-run 验证
  • 正则规则链:多维度 JD 筛选与方向分类
  • 飞书 Webhook:交互卡片通知新增/下线变动
  • 自动生成 README + 按公司拆分的 Markdown 岗位详情
 

为什么做这个项目

AI 方向的岗位分散在各家招聘系统里,且职位名称五花八门,单靠关键词搜索噪音很大。这个项目的核心价值不是爬虫本身,而是那套筛选规则——用正则规则链把「AI 测评相关」这个模糊需求转化为可执行的精确过滤,把噪音从数百条压缩到几十条可投递的目标岗位。
 

源码


Loading...
Daily Photo Coach

Daily Photo Coach

AI 驱动的每日摄影教学站点,自动获取 Unsplash 精选照片并通过多模态大模型进行七维度深度解析。

Model Perspective - 模型化观点发散 Agent

Model Perspective - 模型化观点发散 Agent

从一个想法出发,先结构化问题,再发散出多个可检验、可反驳、可深化的模型化观点框架。