Data Engineer

Hi I'm
Siying

大数据中发现趋势,小数据中探索逻辑。

3+
工作年限

Experience

Data Architecture & Engineering

Focus: Data Quality, Workflow Automation, Data Mapping

Cross-functional Collaboration

Focus: Domain Expert Alignment, End-to-end Delivery

Cloud Infrastructure & Performance

Focus: Cloud Operations, System Efficiency, Scalability

Journey

2025

随着 LLM 可靠性的实质性提升,开始将大模型系统性地引入数据生产流程——经过实验和评估,作为可交付的基础设施。Doubao承接了部分内容处理任务,结果可信度稳定在 90% 以上。

受 B 站架构师分享的启发,探索用 LLM 规模化构建品类标签体系与延伸 SKU 结构。与此同时,开始将 Prompt 工程化:为不同行业、不同分析场景建立模板库,让模型的输出真正可管理、可迭代。

这一年最大的转变,是让LLM参与大量生产和使用。

LLM-in-the-loopPrompt EngineeringTaxonomy Building

2024

建立全域内容的聚合统计体系,将长尾内容纳入可量化的范围;内容相似度计算作为底层技术支撑,解决了长尾数据难以归类聚合的问题。

深入医药垂类,围绕医生 KOL 的内容生产行为,搭建定性与定量结合的分析框架;引入内容相似度计算,提升数据处理的精度与可扩展性。

那年还发起组织了团队的徒步 Outing。工作之外,也热衷于连接团队。

Content AnalysisSimilarity ComputationQuant & Qual Research

2023

开始主动拓展数据覆盖的边界:将社交电商纳入数据版图,着手解决跨平台数据孤岛的整合问题。

这一年对"指标"有了更深的理解——不只是定义口径,而是通过加权设计让指标真正反映业务逻辑。

同时尝试将 NLP 模型和目标检测引入数据流程,利用多模态数据,丰富库内新的内容标签。

ETLMetric FrameworkNLPCVK8S

2022

以大数据工程师的身份加入意略明·加维部门,和一群咨询专家工作——这是我工作的起点。

日常工作在 SQL、Python、PySpark的代码上流转,用阿里云 DataWorks 完成大规模数据的开发与运维。

那时候积累的,是一种在大量数据里快速识别模式的直觉:哪些字段是噪声,哪些关联值得追,结构藏在哪里。

PySparkSQLPythonAliCloud DataWorksPattern Recognition

Get in Touch

Email: shensiying233@gmail.com