数据整理自动化
tags
Design
Tool
date
‣
数据分析可以辅助设计决策
S 情境
是什么、遇到了什么问题
从数据到可视化图表,经历了 3 个过程
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2Fc41287d4-0267-4d15-a80a-eb21bc13868a%2FUntitled.png%3Fid%3Dbc21e267-ab05-46c0-a1fc-3de39c0e1bbe%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DhNqIYOONz5IRW-f08bsLL0613XNP0sNDrdCHn49goZ4?table=block&id=bc21e267-ab05-46c0-a1fc-3de39c0e1bbe&cache=v2)
本文结合公司内部的数据工具,着重围绕「数据整理」环节描述现存问题和优化方案。
这是获取到的原始数据,它距离分析并产出可视化图表、分析结论还需要经过「数据整理」环节。
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F08c5c6fd-0304-4414-b80b-9dff403d8637%2FUntitled.png%3Fid%3D604f2cac-c715-4dea-9960-3c9e10d1c07f%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3Ddcit3chalJ4561F1eZDc0UWvk8GJYC7wWezSgiNRfcw?table=block&id=604f2cac-c715-4dea-9960-3c9e10d1c07f&cache=v2)
数据整理包括
- 根据数据 ID 匹配事件信息,包括事件名称/对应位置
- 日期数据格式化
根据数据 ID 匹配事件信息
原始数据只有数据 ID,无法明确 ID 对应产品的哪一个界面/流程,所以需要将 ID 与事件信息进行关联。
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F4ddc917a-1fa5-492c-ac41-a4c7e525810f%2FUntitled.png%3Fid%3D54a67860-2777-49ca-bf18-97724e4868d0%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3D0oVcq1vu3RgZ8skeU8gURKpUVDr4RS2mAljzH7w_OtA?table=block&id=54a67860-2777-49ca-bf18-97724e4868d0&cache=v2)
在原有方案中,需要单独保存一份 ID 索引表格,通过函数进行匹配,每次需要手动操作,比较繁琐。
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2Fcabdd87d-e8ee-4ca8-93df-aea77583ed35%2FUntitled.png%3Fid%3Dcaedf691-235d-494a-b427-a61973857fad%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DOtPEFUwjPcXeq_ygyn5MfAT7mZDJcVaIOiJpVaKWN3I?table=block&id=caedf691-235d-494a-b427-a61973857fad&cache=v2)
日期数据格式化
原始数据中的日期,看起来是日期,但格式其实是「数字」,「数字」与「日期」在 Excel 中是不同的数据类型,如果使用「数据」类型生成可视化图表,将导致显示问题,影响分析。
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2Ff8f0be43-497e-498a-ad1c-916c1da2206c%2FxmsWsd20220301002457.png%3Fid%3Ddb4b4fab-0bab-4286-9cb4-d5162e761590%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DkSKLG7zAfrDK41DUGaxRKLxKPtJktv3w7J_PCFGr1iI?table=block&id=db4b4fab-0bab-4286-9cb4-d5162e761590&cache=v2)
T 任务
在此情境下我要解决的问题、要达到的目标是什么
上述两个问题需要人工处理,且出现次数频繁,影响工作效率。可以结合 Python 自动化完成。
A 行动
我采取了哪些行动、制定了什么方案,为什么采取这些行动。如何开展这些行动,遇到哪些问题,我是如何解决的。
ID 匹配事件信息方面,抓取了事件信息数据保持到本地表格中,定期更新,避免每次使用时都需要获取数据影响处理效率。
日期格式化方面,通过 Python 的 openpyxl 模块读写表格完成格式化。
R 结果
行动的结果如何,是否完成任务。从中学习到了什么有哪些收获。
自动化匹配 ID 对应的事件信息、自动化对日期进行格式化,节省了人工处理的时间,提高了数据分析的效率,降低了分析门槛。
案例
分析快速发言的使用情况
首先从后台导出数据
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F09b93119-cf9f-4919-8aa1-0a1e4e994120%2FUntitled.png%3Fid%3D547d1578-7f31-436b-bb0a-ed19e0b031fc%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3D9Di1OyLbAzWZ8xwmooCDL3dnnGS5MVu1ZCHqGektSQ0?table=block&id=547d1578-7f31-436b-bb0a-ed19e0b031fc&cache=v2)
默认的表格数据只有事件 ID,无法了解具体的事件信息,日期也没有被格式化
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F2f9e245b-c4e3-49cb-bd7a-620476dc02ad%2FUntitled.png%3Fid%3D116e1554-d837-4942-81e5-9b12d403fbcf%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DVdSC8TAJFlTXE7hKias7fszGrrh_Dc2BjoCrlSM54cQ?table=block&id=116e1554-d837-4942-81e5-9b12d403fbcf&cache=v2)
运行脚本,自动整理数据
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F9fe76b96-f033-42d9-a93f-5c2a89480a06%2FUntitled.png%3Fid%3Dd11eaeac-812e-4a20-9396-5ce912d84d11%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DH4CueiZWp-UrgCpiIkH9MDqhUFAc99FpYkERw___ZlM?table=block&id=d11eaeac-812e-4a20-9396-5ce912d84d11&cache=v2)
处理后的表格新增了「分类」、「具体位置」、「事件名称」信息,帮助了解数据含义、进行后续操作
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2F334ca631-a7ac-48e1-a740-d9e138ef76cc%2FUntitled.png%3Fid%3D5b5408d0-ec77-4293-91d3-6cb46a446b5e%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DkAtApnaAyq7BxDF0kQN64ML5llIpBVKOHMnJe5c5mzI?table=block&id=5b5408d0-ec77-4293-91d3-6cb46a446b5e&cache=v2)
更多可能性
前面只介绍了「数据整理」部分,其实整个分析流程中还有很多可以通过自动化提高效率。例如通过 pandas 实现自动可视化,快速预览数据概要。
接下来将学习 pandas 库,进一步提高数据分析的效率和质量,让数据更好的为设计服务。
总结
通过 Python 可以替代人工做数据整理,提高数据分析效率;未来计划学习 pandas 进一步提高效率和质量。
![notion image](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2F65cd4d52-6664-40b0-a0ed-f4a98505309f%2Fd80ada7d-05b8-4f4b-8d65-06941627ede7%2FUntitled.png%3Fid%3D8d9d887c-44c5-453d-b013-a2b2eed64305%26table%3Dblock%26spaceId%3D65cd4d52-6664-40b0-a0ed-f4a98505309f%26expirationTimestamp%3D1720440000000%26signature%3DpxQrG4qw533HGyrt7n-KtE77qINrwiEsySAPkvH_4JU?table=block&id=8d9d887c-44c5-453d-b013-a2b2eed64305&cache=v2)
演讲自查清单
🗒️ 全局信息
- 观众是谁:同事,有一定数据分析的了解
- 演讲目的:宣传提高数据分析的方法,可以和有兴趣的同事做进一步的沟通
- 预计时长:5min
🖼️ 直观
三段式框架
舍弃与主题关联不大的内容
将生僻且非核心的概念舍弃或更换名词
让内容变成故事
幽默、有趣
引入典型例子,可以用现场观众举例,调动注意力,加强互动
加入图片、视频、演示(演示注意准备充分)
内容是否存在不严谨的问题(特别是数据分析相关的)
加入小结、总结
↔️ 互动
观众可能有哪些疑问
能达到什么效果
如何使用
向观众提哪些问题