Data Engineer

Hi I'm
Siying

大数据中发现趋势，小数据中探索逻辑。

GitHub

工作年限

Experience

Data Architecture & Engineering

Focus: Data Quality, Workflow Automation, Data Mapping

Cross-functional Collaboration

Focus: Domain Expert Alignment, End-to-end Delivery

Cloud Infrastructure & Performance

Focus: Cloud Operations, System Efficiency, Scalability

Journey

2025

随着 LLM 可靠性的实质性提升，开始将大模型系统性地引入数据生产流程——经过实验和评估，作为可交付的基础设施。Doubao承接了部分内容处理任务，结果可信度稳定在 90% 以上。

受 B 站架构师分享的启发，探索用 LLM 规模化构建品类标签体系与延伸 SKU 结构。与此同时，开始将 Prompt 工程化：为不同行业、不同分析场景建立模板库，让模型的输出真正可管理、可迭代。

这一年最大的转变，是让LLM参与大量生产和使用。

LLM-in-the-loopPrompt EngineeringTaxonomy Building

2024

建立全域内容的聚合统计体系，将长尾内容纳入可量化的范围；内容相似度计算作为底层技术支撑，解决了长尾数据难以归类聚合的问题。

深入医药垂类，围绕医生 KOL 的内容生产行为，搭建定性与定量结合的分析框架；引入内容相似度计算，提升数据处理的精度与可扩展性。

那年还发起组织了团队的徒步 Outing。工作之外，也热衷于连接团队。

Content AnalysisSimilarity ComputationQuant & Qual Research

2023

开始主动拓展数据覆盖的边界：将社交电商纳入数据版图，着手解决跨平台数据孤岛的整合问题。

这一年对"指标"有了更深的理解——不只是定义口径，而是通过加权设计让指标真正反映业务逻辑。

同时尝试将 NLP 模型和目标检测引入数据流程，利用多模态数据，丰富库内新的内容标签。

ETLMetric FrameworkNLPCVK8S

2022

以大数据工程师的身份加入意略明·加维部门，和一群咨询专家工作——这是我工作的起点。

日常工作在 SQL、Python、PySpark的代码上流转，用阿里云 DataWorks 完成大规模数据的开发与运维。

那时候积累的，是一种在大量数据里快速识别模式的直觉：哪些字段是噪声，哪些关联值得追，结构藏在哪里。

PySparkSQLPythonAliCloud DataWorksPattern Recognition

Recent Projects

MAA_HLR

玩游戏但不想每天上线，所以我用它来替代我自动完成每日任务。开源项目，采用MAA Framework构建，可pc双端运行。

{ }

https://github.com/siying233/Maa_HLR

费米-mind

就地取材地估算出某个数字，是咨询师们需要具备的软技能。基于费米推定原理，构建了逻辑推理式的估算框架，用来估算某个规模。使用minimax构建。

{ }

https://github.com/siying233/fermi-mind

Get in Touch

Email: shensiying233@gmail.com

Hi I'mSiying

Experience

Data Architecture & Engineering

Cross-functional Collaboration

Cloud Infrastructure & Performance

Journey

2025

2025

2024

2024

2023

2023

2022

2022

Recent Projects

MAA_HLR

费米-mind

Get in Touch

Hi I'm
Siying