打乱 Transformer中的信息流动机制,被最新研究揭开了,所有层都是必要的吗,中间层在做同样的事吗,层的顺序重要吗,如果跳过一些层,比如第4层输出接到第6层会怎样,随机打乱层的顺序,比如4,6,5,7...