科研绘图你值得注意的14个点 (1)

数据科学工厂

1. 只为区分均值而制作条形图

在科学出版物中，用于区分均值的图表非常普遍。我们有两组或多组数据，每组都包含多个观测点；这些组可能具有不同的平均值、变异性和数据分布。可视化的目标是展示数据的平均值及其分布范围（离散程度）。

在这个案例中，两组数据的平均值和标准偏差相近，但它们的分布却有着显著差异。我们能说它们是“一样的”吗？最好不要用条形图来区分均值，或者至少在确定使用条形图之前，先检查几个关键点。

2. 为小样本数据绘制小提琴图

这种情况在学术文献中颇为常见，然而遗憾的是，对于样本量较小的情况，小提琴图（以及任何形式的平滑分布曲线）并不适用。

即使基础数据相似，小样本量时分布和四分位数也可能有显著差异。分布和四分位数只有在样本量较大时才具有实际意义。我曾进行过一项实验，多次从同一个正态分布中抽取样本，并计算每个样本的四分位数。我发现只有当样本量超过50时，四分位数才会趋于稳定。

3. 对单向数据采用双向色阶

这是一种真正的数据可视化误区，而且这种情况相当普遍。

颜色渐变看起来很美观，但我们在使用时需要格外谨慎。当用颜色渐变来表示数值数据时，最深和最浅的颜色应该代表特定的意义。你可以自行决定这些颜色代表什么：比如最大值、最小值、平均值或零点。但它们应该代表一些有实际意义的数值。在热图或颜色渐变中，一个常见的错误是让最浅或最深的颜色代表一些随意的数值，这就像条形图中最长的条不代表最大值一样糟糕。你能想象这种情况吗？

4. 条形图

我们之前提到过，不建议用条形图来区分均值，但这里讨论的是另一个问题，它涉及到如何呈现多因素实验的结果。条形图在科学出版物中非常普遍，但遗憾的是，它们在传达实验结果方面效果不佳。

条形图之所以普遍，是因为多因素实验非常普遍。但是，条形图的设计并不适合其传达目的。要有效地展示多因素实验的结果，需要精心设计，通过感兴趣的因素进行分组或分面。

在这个例子中，我专注于比较在每个品种层面上，处理和移植对反应的影响。然而，如果关注的是在每个移植层面上，处理和品种对反应的影响，那么就需要不同的布局设计。

朋友们不会让朋友在不重排行和列的情况下制作热图热图在科学出版物中非常普遍，特别是在组学领域的论文中。但是，为了让热图发挥其作用，我们必须考虑行和列的排序问题。

5. 在未考虑行和列重排的情况下创建热图

热图在科学出版物中十分普遍，在组学领域的论文里尤其如此。不过，为了让热图发挥出应有的效果，我们不得不深思熟虑地安排行与列的顺序。

在这个示例中，我将细胞类型设为列，特征设为行。网格中展示的是 z 分数。如果不对行和列进行重排，我们无法从热图中获取任何有价值的信息。我们可以通过聚类来重排行和列，但这并不是唯一的方法。当然，如果行和列对应于物理实体（比如96孔板的行和列），那么你就不能对它们进行重排。但至少考虑对行和列进行重排是一个非常好的做法。

6. 未审视异常值的情况下创建热图

热图中的异常值可能会极大地影响我们对可视化的理解和解释。这一点在所有使用颜色来展示数值数据的图表中都是通用的。让我给你展示一个例子：

在这个示例中，我有两个观测点。对于每个观测点，我测量了20个特征。如果没有检查异常值，可能会觉得这两个观测点大体上是相似的，除了两个特征之外。然而，当颜色尺度调整到数据的95百分位数时，它显示这两个观测点在所有特征上都有明显差异。

7. 忘记在每个因素层面检查数据范围

这是一个我们很多人都遇到过的常见问题。在多因素实验中，响应变量的范围在不同因素层面之间有时会有显著变化。

这个假设性实验在两个组别（对照组与实验组）中测量了3种化合物。如果未对每种化合物的数据范围进行检查，你可能会忽略实验组对化合物1有显著影响的事实。这是因为化合物1的浓度范围远比实验中的其他化合物要窄。

微信扫一扫分享文章

科研绘图你值得注意的14个点 (1)

1. 只为区分均值而制作条形图

2. 为小样本数据绘制小提琴图

3. 对单向数据采用双向色阶

4. 条形图

5. 在未考虑行和列重排的情况下创建热图

6. 未审视异常值的情况下创建热图

7. 忘记在每个因素层面检查数据范围

相关帖子

R语言ggplot2柱形图组合热图

ATAC-seq数据分析（一）

求助各位大佬们帮忙下载文献，整理数据和分析数据

科研绘图你值得注意的14个点 (2)

数据分析的 10 个最佳 Python 库

R中单细胞RNA-seq分析教程 (6)

R语言系统发育树专栏 | 复杂系统发育树教程（三）

组学绘图代码分享，作者提供全部图的绘制代码，你还不动手收藏呢？

跟着顶刊学绘图 | 组学中多组热图绘制

数据科学工厂 LV5

科研绘图你值得注意的14个点 (1)

1. 只为区分均值而制作条形图

2. 为小样本数据绘制小提琴图

3. 对单向数据采用双向色阶

4. 条形图

5. 在未考虑行和列重排的情况下创建热图

6. 未审视异常值的情况下创建热图

7. 忘记在每个因素层面检查数据范围

相关帖子

R语言ggplot2柱形图组合热图

ATAC-seq数据分析（一）

求助各位大佬们帮忙下载文献，整理数据和分析数据

科研绘图你值得注意的14个点 (2)

数据分析的 10 个最佳 Python 库

R中单细胞RNA-seq分析教程 (6)

R语言系统发育树专栏 | 复杂系统发育树教程 （三）

组学绘图代码分享，作者提供全部图的绘制代码，你还不动手收藏呢？

跟着顶刊学绘图 | 组学中多组热图绘制

数据科学工厂 LV5

R语言系统发育树专栏 | 复杂系统发育树教程（三）