是什么解释了从显示的PDF文档复制并粘贴其等效的无格式文本时有时导致的文本古怪的顺序?

PDF旨在在任何查看上下文中(无论是在屏幕上还是在纸上打印)都以完美的保真度显示打印的内容。 因此,他们并不是将文本存储为简单的字符,而是将文本存储在纯文本文件中。 相反,PDF会存储有关字形运行的信息:所使用的字形(包括从中绘制的字体),字形的大小以及它们在页面上的位置。 这些“游程”是字形的序列:例如,在PDF中,“香蕉”一词可以存储为单个游标形,也可以存储为两个单独的游程(“ bana”,“ na”),也可以每个字形存储为独立的游程。 。 完全由生成PDF的软件决定。 特别地,跑步的存储顺序可能与人类阅读它们的顺序无关 。 继续上面的示例,“香蕉”可以存储为(’na’,’bana’),但请记住,每次运行都具有自己的页面位置。 只要第二行在页面上布局时位于第一行的前面,则在渲染时将显示为“香蕉”。 尽管不寻常,但PDF完全合法。 当您从PDF中提取文本时,该软件可能必须根据页面运行的(x,y)位置来“重构”单词, 这就是为什么文本顺序有时会变得很奇怪的原因。 常见的情况是页面上有两列文本:字形的运行可能会被排序为跟随整页上的每一行,从每一行的一列“跳到下一页”,即使这与人类读者的方式不同会读文本。 请注意,约翰·查普曼(John Chapman)的回答也是正确的:某些PDF将页面存储为文本图像,而不是如上所述的运行顺序。…

电子杂志的消费者采用统计数据是什么?

有趣的问题,所以我做了一些查找。 根据ppa.co.uk上PPA Page引用的行业支持者ABC的一项研究,随着平板电脑的持续向上销售,数字版本继续增长,而印刷版本则继续下滑。 问题在于统计数据仍然散布在各处,并且不易获得,因为与旧版印刷同胞相比,数字杂志出版业仍相当不发达。 此外,还有一个问题,就是要确定免费的网络内容读者与付费内容等的结合。 与任何未开发的类别一样,我认为有时查看一些案例研究会更好。 有鉴于此,您可以看看Domino的传奇故事: 现在,这是重生的Domino Mag内部的彻底窥视。 为了简化故事,流行的Conde Nast mag在2009年折叠起来。然后,该标题被拆分出来,去年作为电子商务和Web内容平台重新出现在网上,实际上是通过报亭的季度印刷销售来支持的。 我想您会发现,大多数印刷出版物今后都会采用类似的模式,其中印刷用于支持网络上的品牌。 然后,数字版本将包括在线免费内容,付费专页后面的高级内容,或者是通过订阅或单一副本出售的特殊格式的电子书形式的出版物。 主要的教训似乎是,尽管消费者似乎比以前更愿意购买数字杂志,但陪审团可能仍然对付费内容和在线免费内容的适当组合不屑一顾。 当然,没有在线免费内容,可能与产品或数字媒体销售(电子书,印刷书籍或视频)结合使用的杂志,再也无法运作。