分类
成长之路

加密货币本质

去年,比特币价暴涨,其他币也像雨后春笋一样冒出来,现已经有1000多种了。

很多人都在问,加密货币cryptocurrency的时代,真的来临了吗?将来会不会人类都不再使用美元、人民币而改用加密货币?那么多的品种,我应该使用哪一种币呢?要不要现在就去投资一些呢?

以上这些问题,我也很想知道答案,于是花了很多时间查阅资料、研究协议。于是引申出根本的问题:加密货币到底是什么呢?

下面就是对这个问题的思考。阅读之前,如果你已经了解区块链和比特币,那非常好;如不了解,也没关系,本文并不涉及技术,只讨论基本的原理。

钱是什么

我们都知道人民币是钱,美元是钱,金银财宝是钱。我问一个问题,它们为什么可以成为钱?

你可能会回答,因为它们都有价值,或者是价值的代表。但是,有价值的东西多了,为什么只有这些品种成为了钱呢?

答案非常容易想到,因为人们普遍相信或认同它们的价值,其他东西的价值难以得到普遍的认同,故无法成为钱。比如,邮票的价值就没有普遍认同,除了集邮爱好者们,其他地方都不能当钱用。一般来说,认同的人越多,这种钱的通用性就越高。

所以,钱的本质,或者说货币的本质,是它的可信性。它必须使人们相信,它是有价值的,然后才可以成为钱,才能被收藏和支付。

货币的可信性

为什么钱必须是可信的?因为对方必须相信它的价值,否则没法支付出去。那么,接下来的问题就是,可信的东西是否就是钱?

我的回答是Yes。一种东西能否成为货币,只取决于人们是否相信它的价值,至于它是不是真有价值,这根本不重要。

如果马云在一张纸条写:这张纸条价值10000元,下面签了他的名字,并且附上防伪标记。你说这纸条是钱吗?我敢打赌,这就是钱,你用此来支付,人们都会接受,马云等同于发行了一种新的纸币。

而比特币也是如此,它是什么,其实不太重要。重要的是,必须保证自己是可信的,这样才可以让足够的人相信它的价值,然后才可以成为钱。

比特币可信性

比特币需要解决的核心问题,是创造一种可信的数字凭证。由于这种凭证可信,所以能够当做货币。

比特币的技术基础是加密学,因为只有加密学才能保证它的可信性。一旦加密被破解了,就没法当作货币了。这也是这一类数字凭证被称为加密货币的原因。

技术人员们对比特币感兴趣,还有一个重要原因。任何需要可靠的数字凭证的场合,也许都能用到这种技术。

比特币的特点

比特币有三个特点,就是因为做到了这三点,所以它可信能够当作钱。

  1. 它不会被轻易偷走。或者反过来说,它使得你无法去偷别人,只能花你自己的钱。因为必须有别人的私钥,才可以取出他的钱。正常的情况下,拿不到别人的私钥;
  2. 无法伪造。每一个比特币都能追溯来源,而所有比特币都源于矿工获得的奖励。矿工只有新建区块,才能获得奖励,这是很难的事,故无法伪造比特币;
  3. 无法大批生成。原因跟上一条一样,比特币的发行速度是稳定的,现在每10分钟新增12.5个,然后每四年会减半,最终停止增长。因此它不会像纸币那样,政府滥发导致通货膨胀。

比特币会有实体吗

由于后面要提到的原因,比特币不可能拥有实体,没办法做到从口袋里掏出一个币这种场景,交易都必须通过互联网完成。

你可能说,钱有实体,怎么会存在无形的钱呢?答案正好相反,钱就应该是无形的,那些实体的钱其实是物质材料的浪费,由于技术不够发达,故不得不做成实体。

小时候买东西,都必须用现金,否则没法证明,自己拥有的购买力。只有通过实体的钱,才能保证对方确实收到了钱。如果银行业很发达,就不用现金了,可以用银行卡。在支付的时候,对方抄一下银行卡号码,查询银行这个账户里有钱吗。银行回答有钱,好的,成交。

但是,互联网使得实体的银行卡也不需要了。如果存在一个开放中央记账系统,任何人都可以查询,你把钱划到老板的账户,老板查询一下,发现钱收到了,交易自动成交,整个过程是无形的,那还需要什么银行卡呢?

日前这个中央记账系统已经实现,就叫做区块链。

区块链的作用

区块链就是一个数据库,记载了所有的交易,用作中央记账系统。

每一笔交易的核心,是一句话,如张三向李四转移了1个比特币。为了证明这句话可信度,张三为它加上数字签名。任何人都可以用张三的公钥,证明这确实是张三本人行为。另一方面,其他人无法伪造张三的数字签名,故不可能伪造这笔交易。

矿工们收到这句话,首先会验证数字签名的可信性,然后再验证张三确实拥有这些比特币。验证通过以后,就着手把这句话写入到区块链了。一旦写入到区块链,所有人就都可以查询到,因此这笔比特币就会被认为,从张三转移到李四。

区块链的作用是把这句话永久保存下来了,任何人都可以查看,并且任何人包括张三本人在内都无法再修改了。

双重支出

前面说过,交易不可能被伪造。但是,由于每一笔交易都是一串二进制信号,很可能被复制。举例来说,张三向李四转移了1个比特币这句话,可能被其他人复制,也可能被张三自己复制,提交到区块链。

如果这句话被两次写入了区块链,就意味张三可以把同一笔钱花掉两次。但是,第二次写入的时候,查询区块链可以发现张三已经把这笔钱花掉了,从而认定这是不合法的交易,而不能写入区块链。因此,不可能复制交易的。

比较麻烦是另一种情况,就是张三把同一笔钱付给两个人。先向区块链提交一个交易张三向李四转移了1个比特币,然后又提交了另一个交易张三向王五转移了1个比特币。这两个交易都可能被认为是真实交易,从而进入到区块链。因此,必须有办法防止出现这样的情况。

  1. 同一个矿工收到这两个交易。那么他就会察觉到,它们不可能同时成立的,因此选择其中的一笔写入区块链。
  2. 矿工A收到第一笔交易,矿工B收到第二笔交易,他们各自都会认定是合法的交易,分别把这两笔交易写入两个区块,这时区块链就出现分叉。

比特币的协议规定,分叉点之后最先达到6个区块的那个分支,被认定为正式的区块链,其他分支都被放弃。由于区块的生成速度由计算能力决定,所以到底哪一笔交易最后会被写入区块链,完全由它所在的分支能吸引多少计算能力决定。隐藏的逻辑是,如果大多数计算能力选择相信某一笔交易,那么它应该是真的。

综上所述,双重支出不会发生。因为中央记账系统总有办法发现,你把同一笔钱花了两遍。但是,这也说明比特币的一个代价,就是交易不能实时确认,必须等待至少一个小时。

分类
成长之路

比特币的入门教程

比特币bitcoin诞生于2008年的一篇论文。

一个署名为中本聪的人,提出革命性的构想:让我们创造一种不受政府或其他任何人控制的货币!这个想法堪称疯狂:一串数字,背后没有任何资产支持,也没有任何人负责,你把它当作钱付给对方,怎么会有人愿意接受呢?

但是,狂想居然变成现实。随后几年,在全世界无数爱好者支持下,比特币网络运行起来了,越来越多的人、资本参与,星星之火,终成燎原。刚刚过去的2017,比特币迎来了爆发式的增长,从年初1000美元,最高涨到2万美元,全世界都为之震动,上到政府,下到普通百姓都在关注。事实是比特币已经并将继续改变世界。

新闻媒体们往往只关注它的火爆表现,忽视或无法回答一些基本的问题。

  • 比特币原理是什么?
  • 为什么这个无人管理的体系可以成功运作?
  • 比特币交易流程是怎么回事?
  • 它与区块链是什么关系?

下面,笔者尝试回答这些问题,希望能帮助大家理解比特币。抛开技术细节,还是很容易解释的。

提前说明,本文只讨论技术性问题,不涉及如何投资比特币,更不会预测价格的走势。事实上我也不知道,如果笔者知道怎么发财,可能就不会在这里写博客了。

非对称性加密

首先,要理解比特币,必须先理解非对称加密。

大家可能听说过这个词,所谓的非对称加密,其实非常简单,就是加密、解密需要两把钥匙:一把公钥、一把私钥。

公钥是公开的,任何人都可以获取。私钥是保密的,只有拥有者才可以使用。他人使用你的公钥加密信息,然后发送给你,你用私钥解密,取出信息。反之,也可以用私钥加密信息,别人使用你的公钥解开,从而可证明这个信息确实是你发出的,并且未被篡改,这就叫做数字签名。

现在请设想下:如果公钥加密的不是普通的信息,而是加密了一笔钱,发送给你,这会怎样?

首先,你可以解开加密包,取出里面的钱,因为私钥在你手里。其次,别人偷不走这笔钱,因为他们没有你的私钥。因此,支付可以成功。

这就是比特币及其他数字货币的原理:非对称加密保证了支付的可靠性。

由于支付的钱必须通过私钥取出,故你是谁并不重要,重要的是谁有私钥。只要拥有私钥,才能取出支付给你的钱。

比特币的钱包

对比特币来说,钱并不是支付给个人的,而是支付给某一把私钥。这就是交易匿名性根本原因,因为没人知道,那些私钥背后主人是谁。

所以,比特币交易的第一件事,就是必须拥有自己的公钥和私钥。

你去网上那些比特币交易所开户,它们会让你首先生成一个比特币钱包。这个钱包并不是用来存放比特币,而是存放你的公钥、私钥。软件会帮你生成这两把钥匙,然后放在钱包里面。

根据协议,公钥的长度是512位。这个长度不太方便传播,故协议又规定,要为公钥生成一个160位指纹。所谓指纹,就是一个比较短的、易于传播的哈希值。160位是二进制,写成十六进制,大约是26-35个字符,如1BvBMSEYstWetqTFn5Au4m4GFg7xJaNVN2。这个字符串就叫做钱包地址,且它是唯一的,即每个钱包的地址肯定都是不一样的。

向别人收钱时,只要告诉对方你的钱包地址即可,对方向你给的地址付款。由于你是这个地址的拥有者,所以会收到这笔钱。

而你是否拥有某个钱包地址,是由私钥证明,所以一定要保护好私钥。这点是极其重要的,如果你的私钥被偷,你的比特币就等于没了,因为他人可以冒用你的身份,把钱包里面的钱都转走。

同样,向他人支付比特币,千万不能写错他人钱包地址,否则你的比特币就支付到了另一个不同的人了。

交易过程

下面,把整个流程串起来,看看比特币如何完成一笔交易的。

一笔交易就是一个地址的比特币,转移到另一个地址。由于比特币交易记录全部都是公开的,哪一个地址拥有多少比特币,是可以查到的。因此,支付方是否拥有足够比特币,完成这笔交易,是可以轻易验证的。

问题是怎么防止其他人,冒用你的名义申报交易。举例来说,有人申报一笔交易:地址A向地址B支付10个比特币。我怎么知道这个申报是真的,申报人就是地址A的主人呢?

比特币的协议规定,在申报交易的时候,除了交易金额,转出比特币的一方必须提供以下数据。

  • 上一笔交易的Hash你从哪里得到这些比特币;
  • 本次交易双方地址;
  • 支付方的公钥;
  • 支付方私钥生成的数字签名。

验证这笔交易是否属实,需要三步。

  1. 找到上笔交易,确认支付方比特币来源;
  2. 算出支付方公钥的指纹,确认与支付方地址一致,从而保证公钥属实;
  3. 使用公钥解开数字签名,保证私钥属实。

经过上面三步,就能认定这笔交易是真实的。

交易确认与区块链

确认交易的真实性后,交易不算完成。交易数据必须写入到数据库,才算成立,对方才可以真正收到钱。

比特币用的是一种特殊的数据库,叫做区块链blockchain。

首先,所有的交易数据都会传送到矿工那里。矿工负责把这些交易写入区块链。

根据比特币的协议,一个区块大小最大是1MB,而一笔交易大概500字节左右,因此一个区块最多可以包含2000笔交易。矿工负责把这2000多笔交易打包在一起,组成一个区块,然后计算这个区块的Hash。

计算Hash的过程叫做采矿,这需要大量的计算。矿工之间也在竞争,谁先计算出Hash,谁就能第一个添加新区块进入区块链,从而享受这个区块全部收益,而其他矿工将一无所获。

一笔交易一旦写入了区块链,就无法反悔了。这里需要建立一个观念:比特币不存放在钱包或其他别的地方,而是只存在区块链上面。区块链记载了参与的每一笔交易,得到过多少比特币,你又支付了多少比特币,因此可以算出来你拥有多少资产。

矿工收益

交易的确认离不开矿工。为什么有人愿意做矿工?

比特币的协议规定,挖到新区块的矿工获得奖励,开始(2008年)是50个比特币,然后每4年会减半,目前(2018年)是12.5个比特币。这是比特币的供给增加机制,流通中新增的比特币都是这样诞生的。

可能看出来了,每4年奖励会减半,那么到了2140年,矿工将得不到任何奖励,比特币的数量也将停止增加。这时,矿工的收益就完全依靠交易手续费了。

所谓的交易手续费,就是矿工可以从每笔交易中抽成,具体金额由支付方自愿决定。完全可以一毛不拔,一分钱也不给矿工,但是那样的话,你的交易就会没人处理,迟迟无法写入到区块链,得到确认。矿工们总是优先处理手续费比较高的交易。

目前由于交易数量猛增,手续费已经水涨船高了,一个区块2000多笔交易的手续费总额可以达到3-10个比特币。如果你的手续费给低了,可能过了一个星期,交易还没确认。

一个区块奖励金12.5个比特币,再加上手续费,收益是相当可观的。按照目前价格,可达到100-200万人民币。想想看运气好的话,几分钟就可以挖到一个区块,拿到这样一大笔钱,怪不得人们对挖矿趋之若鹜。

区块扩容

比特币的协议规定,平均10分钟会诞生一个区块。区块的大小只有1MB,最多能包含2000多笔交易。也就是说,比特币网络的每10分钟,最多能处理2000多笔交易,换算一下,就是处理速度3-5笔每秒。

全世界的比特币交易这么多,可是区块链每秒最多能处理5笔,这就成为制约比特币发展的一个瓶颈。

很早有人呼吁,改革比特币的协议,提升处理速度。这件事在2017年8月有了一点眉目,当时区块链发生了一次分叉,诞生了一个新协议,称为Bitcoin Cash简称BCH。这种新货币其他方面都与比特币一致,就是每个区块的大小从1MB增加到了8MB,因此处理的速度提升了8倍,手续费低得多。该协议是对原有区块链分叉,故当时持有比特币的人,等于每个人获赠了一份同样数量的BCH。

BCH等于创造了一种新的货币,而且有人提议,原始比特币的区块大小提升到2MB,这称为SegWit2x。这个建议原定2017年11月实施,但是最后一刻由于缺乏共识,被取消了,而目前还在讨论中。

点对点的网络

比特币是一个全世界的开放网络,只要有服务器,就能加入这个网络,成为一个节点。每个节点都包含整个区块链,并且节点之间时刻不停地在同步信息。

当发生了一笔支付,你所在的节点就会把这笔交易告诉另一个节点,直至传遍整个网络。矿工从网络上收集各种新发生的交易,将它们打包写入区块链。一旦写入成功, 矿工所在节点的区块链,就会成为最新版本,其他节点都会来复制新增的区块,保证全网区块链都是一致的。

最后,你所在的节点也拿到了最新的区块链,从而得知你早先的那笔交易,已经写在里面,至此交易确认成功。

分类
成长之路

区块链的入门教程

区块链是眼下的大热门,新闻媒体大量报道,宣称它将创造未来。

可是,简单易懂的入门文章却很少。区块链到底是什么,有何特别之处,网络上很少有解释。

毕竟它不是很难的东西,核心概念非常简单,几句话就能说清楚。希望读完本文,你不仅可以理解区块链,还可以明白什么是挖矿、为什么挖矿越来越难等问题。

需要说明的是,笔者并非这方面的专家。虽然很早就关注区块链,但是仔细地了解区块链,还是从今年初开始。文中的错误和不准确的地方,欢迎大家指正。

区块链的本质

区块链是什么?简单的一句话,它是种特殊的分布式数据库。

首先,区块链主要作用是储存信息。任何需保存的信息,都可以写入区块链,也可以从里面读取,所以说它是数据库。

其次,任何人都能架设服务器,并加入区块链网络,成为一个节点。区块链的世界里面,没有中心节点,每一个节点都是平等的,并且保存着整个数据库。你可以向任何一个节点,写入或是读取数据,因为所有节点最后都会同步,保证区块链的一致。

区块链的最大特点

分布式数据库并不是新发明,市场上早已有此类产品。但是,区块链有一个革命性的特点:区块链没有管理员,它是彻底无中心的。

其他数据库都有管理员,但区块链没有。如果有人想要对区块链添加审核,也实现不了的,因为它设计目标就是防止出现居于中心地位的管理当局。

正是因为无法管理,区块链才能做到无法被控制。否则一旦大公司大集团控制了管理权,他们就会控制整个平台,其他使用者就都必须听命于他们。

但是,没有了管理员,人人都可以往里面写入数据,怎么才能保证数据是可信的?被坏人改了怎么办?请接着往下读,这是区块链奇妙的地方。

区块

区块链由一个个区块block组成。区块很像数据库的记录,每次写入数据,就是创建一个区块。

每个区块包含两个部分。

  • 区块头Head:记录当前区块的特征值;
  • 区块体Body:实际数据。

区块头包含了当前区块的多项特征值。

  • 生成时间;
  • 实际数据即区块体的hash;
  • 上一个区块的哈希.

这里,你需要理解什么叫哈希,这是理解区块链必需的。

所谓哈希就是计算机可以对任意内容,计算得出一个长度相同的特征值。区块链哈希长度是256位,这就是说,不管原始的内容是什么,最后都会计算出一个256位二进制数字。而且可以保证,只要原始内容不同,对应哈希一定是不同的。

举例来说,字符串123的哈希值是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0十六进制,转换成二进制就是256位,而且只有123能得到这个哈希。

因此,就有两个重要推论:

  1. 每个区块哈希都是不一样的,可以通过哈希标识区块;
  2. 如果区块的内容改变了,它的哈希一定跟着改变。

Hash不可修改性

区块与哈希是一一对应,每个区块的哈希都是针对区块头Head计算的。也就是说,把区块头的各项特征值,按照一定的顺序连接在一起,组成一个很长的字符串,再通过这个字符串计算哈希。

Hash=SHA256区块头

上面就是区块哈希计算公式,SHA256是区块链的哈希算法。注意,这个公式里面只包含区块头,不包含区块体,也就是说,哈希由区块头唯一决定。

前面说过,区块头包含了很多内容,其中有当前区块体哈希,还有上一个区块的哈希。这意味着,如果当前区块体的内容变了,或者上一个区块的哈希变了,一定会引起当前区块的哈希改变。

这一点对区块链有重大意义。如果有人修改一个区块,该区块哈希就变了。为了让后面区块还能连到它,该人必须依次修改后面所有区块,否则被改掉的区块就脱离区块链。由于后面要提到的原因,哈希的计算很耗时,短时间内修改多个区块几乎不会发生,除非有人掌握全网51%以上的计算能力。

正是通过这种联动机制,区块链保证了自身的可靠性,数据一旦写入,就无法被篡改。就像历史一样,发生了就是发生了,从此无法改变。

每个区块都连着上一个区块,这也是区块链这个名字由来。

采矿

由于必须保证节点之间同步,所以新区块的添加速度不能太快。试想一下,你刚刚同步了一个区块,准备基于它生成下一个区块,但这时别的节点又有新区块生成,不得不放弃做了一半的计算,再去同步。因为每一个区块的后面,只能跟着一个区块,永远只能在最新区块的后面,生成下个区块。所以,别无选择,听到信号,必须立刻同步。

所以,区块链的发明者中本聪故意让添加新区块,变得非常困难。他的设计,平均每10分钟,全网才可以生成一个新区块,一小时就六个。

这种产出速度并不是通过命令达成的,而是故意设置了海量的计算。也就是说,只有通过极其大量计算,才可以得到当前区块的有效哈希,从而把新区块添加到区块链。因计算量太大,所以快不起来。

这个过程就叫做采矿mining,因为计算有效哈希值的难度,就好比在全世界的沙子里面,找到一粒符合条件沙子。计算哈希的机器就叫做矿机,操作矿机的人叫做矿工。

难度系数

读到这里,可能会有一个疑问,人们都说采矿很难,可是采矿不就是用计算机算出一个哈希吗,这正是计算机的强项啊,怎么变得很难,迟迟算不出呢?

原来不是任意一个哈希都可以用,只有满足条件的哈希值才会被区块链接受。这个条件特别苛刻,使得绝大部分哈希都不满足要求,必须重算。

原来,区块头包含一个难度系数difficulty,这个值决定计算哈希的难度。举例来说,第100000个区块的难度系数是14484.16236122。

区块链的协议规定,使用一个常量除以难度系数,可以得到目标值target。显然,难度系数越大,目标值就越小。

哈希的有效性跟目标值密切相关,只有小于目标值的哈希是有效的,否则哈希无效,必须重算。由于目标值非常小,哈希小于该值机会极其渺茫,可能需计算10亿次,才会算中一次。这就是采矿如此之慢的根本原因。

前面说过,当前区块的哈希由区块头唯一决定的。如果要对同一区块反复计算哈希,就意味着,区块头必须不停地变化,否则不可能算出不一样的哈希值。区块头里面所有的特征值都是固定的,为了让区块头产生变化,中本聪故意增加了一个随机项叫做Nonce。

Nonce是个随机值,矿工的作用其实就是猜出Nonce的值,使区块头的哈希可以小于目标值,从而能够写入到区块链。Nonce是很难猜的,目前只能通过穷举法一个个试错。根据协议,Nonce是一个32位二进制值,即最大可以到21.47亿。第100000个区块的Nonce值是274148111,可理解成,矿工从0开始,一直计算了2.74亿次,才得到了一个有效Nonce值,使算出的哈希能够满足条件。

运气好的,也许一会就找到Nonce。运气不好的话,可能算完了21.47亿次,都没有发现Nonce,即当前区块体不可能算出满足条件的哈希。这时,协议会允许矿工改变区块体,开始新的计算。

难度系数动态调节

正如上节所说,采矿有随机性,没法保证正好每十分钟产出一个区块,有时一分钟就算出来了,有时几个小时可能也没结果。总体来看,随着硬件设备提升,以及矿机数量增长,计算的速度一定会越来越快。

为了能将产出速率恒定在十分钟,中本聪还设计了难度系数的动态调节机制。规定难度系数两周(2016个区块)调整一次。如果在这两周里面,区块平均生成速度是9分钟,就意味着比法定速度快了10%,因此接下来的难度系数要调高10%;如果平均生成速度是11分钟,就意味着比法定速度慢了10%,因此接下来的难度系数要调低10%。

难度系数越调越高,导致采矿越来越难。

区块链的分叉

就算区块链是很可靠的,现在还有一个问题没有解决:如果有两个人同时向区块链写入数据,也就是说,同时两个区块加入,因为它们都连着前一个区块,就形成了分叉。这时应该采纳哪一个区块呢?

现在的规则是,新节点总是采用最长的那一条区块链。如果区块链有分叉,将看哪个分支在分叉点后面,先达到6个新区块称为六次确认。按照每10分钟一个区块计算,一小时就可以确认。

由于新区块生成速度由计算能力决定,所以这条规则是说,拥有大多数计算能力的那条分支,就是正宗的区块链。

总结

区块链作为无人管理的分布式数据库,从2009年开始已经运行了8年,没有出现大的问题。这证明它是可行的。

但是,为了保证数据的可靠性,区块链也有自己的代价。一是效率,数据写入到区块链,最少要等待十分钟,所有节点都要同步数据,则需要更多的时间;二是能耗,区块生成需要矿工进行无数无意义的计算,这是非常耗能源的。

因此,区块链的适用场景,其实非常有限。

  1. 不存在所有成员都信任管理当局;
  2. 写入的数据不要求实时使用;
  3. 挖矿的收益能够弥补本身的成本。

如果无法满足上述条件,那么传统的数据库是更好的解决方案。

目前,区块链最大的应用场景,就是以比特币为代表的加密货币。

分类
成长之路

Java的SE/EE/ME区别知道吗

许多零基础Java开发者刚参加Java培训时并不知道JavaSE/JavaEE/JavaME三者之间的区别,那我们究竟该学习JavaSE还是JavaEE,还是JavaME呢?笔者将以通俗易懂的方式给大家讲解这三者之间的区别。

JAVA是一门编程语言,分为三大版本。

JavaSE即Java标准版,它是JavaEE和JavaME的基础,之前也称为J2SE,用来开发C/S架构的软件,通俗来讲,主要用于开发、部署桌面、服务器以及嵌入设备和实时环境中的应用程序。例如,Java应用程序开发平台Eclipse。

JavaEE企业版,之前被称为J2EE,JavaEE是在JavaSE基础上构建的,用来开发B/S架构的软件,主要针对企业应用开发。例如,电子商务网站、ERP系统等。

JavaEE在JavaSE的基础进行扩展,增加了一些更加便捷的应用框架。如我们现在常用的Java开发三大框架Spring/Struts和Hibernate,我们可以应用这些框架轻松写出企业级的应用软件。

JavaEE也可以说是一个框架也是一种规范,说它是框架是因为它包含了很多我们开发时用到的组件,例如:Servlet/EJB/JSP/JSTL等。说它是规范是因为我们开发web应用常会用到的一些规范模式,JavaEE提供很多规范的接口却不实现,将这些接口的具体实现细节转移到厂商的身上,这样各家厂商推出的JavaEE产品虽然名称实现不同,但展现给外部使用的却是统一规范的接口。

例如,我们编写的JSP代码,由于大量的显示代码和业务逻辑混淆一起,彼此嵌套,不利于程序维护和扩展。当业务需求发生变化的时候,对于程序员和美工是一个很重的负担。为了程序的易维护性和可扩展性,这就需要我们使用JavaEE技术来进行项目开发。

JavaME微型版,也是以Java为基础的,之前被称为J2ME,它是一套运行专门为嵌入式设备设计的api接口规范,主要用于开发移动设备软件和嵌入式设备软件,主要针对消费类电子设备的。例如,手机、电视的机顶盒、汽车导航系统等等。

简单来说,JavaSE是Java的基础,主要针对桌面程序开发;JavaEE是针对企业应用开发;而JavaME是主要针对嵌入式设备软件开发。

分类
成长之路

关于http与https之间的区别

前言

谷歌在2018年2月9日宣布从今年的7月起,Chrome浏览器将在地址栏把所有的HTTP网址标示为不安全网站。

谷歌早在2017年1月发布的Chrome56,开始把要求用户输入密码或信用卡信息的HTTP网页标为不安全;2017年10月发布的Chrome62,开始把需要输入数据的HTTP网页和在Incognito模式下浏览的HTTP网站标为不安全。

http与https的概念

http超文本传输协议,是一个客户端和服务端请求和应答的标准,用于WWW服务器传输超文本到本地浏览器的传输协议,可以使浏览器更加高效,减少网络传输。

https超文本传输安全协议,就是http的安全版本,https是由http进行通信,但利用SSL/TLS来加密数据包。

HTTPS开发的主要目的,是提供对网站服务器的身份认证,保护交换数据隐私与完整性。这个协议由网景公司在1994年首次提出,随后扩展到互联网。

http存在的问题

  • 易被监听

http通信是明文,数据在客户端与服务器通信的过程中,任何一点都可能被劫持。比如,发送了银行卡号和密码,hacker劫取到数据,就可以看到卡号和密码,这是很危险的;

  • 易被伪装

http通信时,无法保证通行双方是合法的,通信方可能是伪装后的。比如你请求birdteam.net,你怎么知道返回的数据就是来自本站,中间人可能返回数据伪装成本站;

  • 易被篡改

hacker中间篡改数据后,接收方并不知道数据已经被更改。

https解决的问题

https恰好解决了上述三个问题,https不是一种新协议,它是由http+SSL的结合体,由之前http到tcp,改为了http到SSL到tcp。

  • 防止监听

因为数据是加密的,黑客监听得到的是密文,看不懂的;

  • 防止伪装

https在通信的过程中,客户端和服务器端都是携带证书,证书相当于身份证,有证书就是合法的,没有就是非法,证书由第三方颁布,很难伪造;

  • 防止篡改

https对数据进行摘要处理,即使被篡改也是会被感知的,改了数据也没有用。

http与https的区别

  • https比http更安全

http协议传输的数据时未经过加密的,就是明文;

https在使用http进行通信时,利用SSL进行了加密传输、身份认证的网络协议http+SSL,比http更加安全。

  • https使用需要CA证书,大部分都是付费使用的

CA是Certificate Authority的缩写,也叫证书授权中心,也是需要第三方公司进行授权的。

  • 端口不同

HTTP的URL是由http://起始且默认使用80端口;

HTTPS的URL是由https://起始且默认使用443端口。

https的工作原理

如图所示,https工作原理可以细分为八个步骤:

  • 客户端发起HTTPS请求

用户在浏览器里输入一个https网址,然后连接到server的443端口;

  • 服务端的配置

就是指上述提到的数字证书;

  • 传送证书

Web服务器收到客户端请求后,会将网站的证书信息中包含公钥传送一份给客户端;

  • 客户解析证书

客户会对证书进行判断,验证公钥是否有效,存在问题弹出警告;若没问题,生成一个秘钥,后用证书继续进行加密;

  • 传送加密信息

客户端将上加密后的随机值(私钥)提供给服务端,服务端会对其进行解密;

  • 服务器端解密信息

服务端解密后得到私钥,然后把内容通过该值进行对称性加密。对称加密就是指把要返回的信息和随机值(私钥)混合加密,这样除非知道私钥,不然无法获取数据;

  • 传输加密后的信息

继续将加密后的信息传递给客户;

  • 客户解密信息

客户端用之前生成的秘钥解密服务端传过来的信息,于是获取解密后的内容。

https的缺点

https虽然安全性比http高出很多但是也有一些缺点。

  • 握手阶段费时

因为SSL的缘故,HTTPS协议握手阶段会比较费时,会使页面加载时间延长近50%;

  • SSL证书要花钱

便宜没好货好货不便宜;

  • HTTPS连接缓存不如HTTP高效

HTTPS连接缓存不如HTTP高效,会增加数据开销和功耗,甚至已有的安全措施也会因此而受到影响;

  • SSL证书通常需要绑定IP

SSL证书通常需要绑定IP,不可以在同一IP上绑定多个域名,IPv4资源不可能支撑这个消耗;

  • 有局限性

HTTPS协议加密范围也比较有限,黑客攻击、拒绝服务攻击、服务器劫持方面几乎起不到什么作用。最关键的,SSL证书信用链体系并不安全,特别是在某些国家可以控制CA根证书的情况下,中间攻击一样可行。

分类
成长之路

大数据分析是什么

目前,不少人都会对大数据分析有着浓厚的兴趣,那么什么是大数据分析?大数据分析是指对海量数据进行分析。大数据有4个显著特点, 海量数据、急速、种类繁多、数据真实。大数据被称为当今最有潜质的IT词汇,故接踵而来的数据挖掘、数据安全、数据分析、数据存储等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

大数据分析的具体含义如下:

数据分析可以让人们对数据产生更优质的诠释,而具有预知意义的分析可以让分析员根据可视化分析和数据分析后的结果做出一些预测性的推断。

大数据分析与存储和数据的管理是一些数据分析层面的最佳实践。通过按部就班的流程和工具对数据进行分析可以保证一个预先定义好的高质量分析结果。

不管使用者是数据分析领域中的专家,还是普通用户,可作为数据分析工具的始终只能是数据可视化。可视化可以直观的展示数据,让数据自己来表达,让客户得到理想的结果。

大数据已经不像前些年给人一种虚无缥缈的感觉了,而当下最重要的是对大数据进行分析,只有经过了分析的数据,才能对用户产生最重要价值,越来越多人开始对什么是大数据分析产生联想,所以大数据的分析方式在整个IT领域就显得尤为重要了,可以说决定最终信息是否有价值的决定性因素。

分类
成长之路

大数据主要应用于哪些行业

大数据已无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入大数据的印迹,下面详细介绍一下大数据在各行各业具体应用。

制造行业,利用工业大数据提升制造业水平,包括产品的故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程等。

金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥着重大作用。

汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

互联网业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

餐饮行业,利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式

电信行业,利用大数据技术实现客户的离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业,随着智能电网发展,电力公司可以掌握海量用户用电信息,利用大数据技术分析用户的用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业,利用大数据优化物流的网络,提高物流效率,降低物流成本。

城市管理,可利用大数据实现智能交通、环保监测、城市规划和智能安防等。

生物医学,大数据可以帮助我们实现流行病的预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多生命奥秘。

体育娱乐,大数据可帮助我们训练球队,决定投拍哪种题材影视作品,以及预测比赛结果。

安全领域,政府可利用大数据技术构建起强大的国家安全保障体系,企业可利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活, 大数据可以应用于个人生活,利用与每一个人相关联的个人大数据,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据的价值,远远不止于此,大数据针对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

分类
成长之路

Python工程师面试必备25条Python知识点

到底什么是Python

你可以在回答中与其他技术进行对比,下面是一些关键点:

  • Python是种解释型语言。这就是说,与C语言和C衍生语言不同,Python代码在运行前不需要编译。其他的解释型语言还包括PHP和Ruby;
  • Python是动态类型语言,指的是你在声明变量时,不需要说明变量的类型。可以直接编写类似x=111和x=”I’m a string”这样的代码,程序不会报错;
  • Python非常适合面向对象的编程,因为支持通过组合composition与继承inheritance的方式定义类class。

Python中没有访问说明符access specifier,类似C++中的public和private,这么设计的依据是“大家都是成年人了”

  • Python语言中,函数是第一类对象。这指的是它们可以被指定给变量,函数既能返回函数类型,也可以接受函数作为输入。类也是第一类对象;
  • Python代码编写快,但运行速度比编译语言通常要慢。好在Python允许加入基于C语言编写扩展,因此我们能够优化代码,消除瓶颈,这点通常是可以实现的。

Numpy就是一个很好地例子,它运行速度真的非常快,因为很多算术运算其实不是通过Python实现的。

  • Python的用途非常广泛:网络应用,科学建模,自动化和大数据应用等。它也常被用作“胶水语言”帮助其他语言和组件改善其运行状况;
  • Python让困难的事变得容易,因此程序员可以专注于算法和数据结构的设计,而不用处理底层的细节。

如果你应聘的是一个Python开发岗位,你应该知道这是门什么样的语言,以及为什么这么酷。以及哪里不好。

什么是PEP8

PEP8是一个编程规范,内容是一些关于如何让你的程序更具可读性的建议。

主要内容包括代码编排、文档编排、空格使用、注释、文档描述、命名规范、编码建议等等。

什么是pickling和unpickling

Pickle模块读入任何Python对象,并将它们转换成字符串,然后用dump函数将其转储到一个文件中:这个过程就叫做pickling。

反之从存储的字符串文件中提取原始Python对象的过程,叫unpickling。

Python是如何被解释的

Python是种解释性语言,它的源代码可直接运行。Python解释器会将源代码转换成中间语言,之后再翻译成机器码再执行。

Python怎样管理内存的

Python的内存管理是由私有heap空间管理的。所有Python对象和数据结构都在一个私有heap中。程序员没有访问该heap的权限,只有解释器才可以对它进行操作。

Python的heap空间分配内存是由Python的内存管理模块进行的,其核心API会提供一些访问该模块的方法供程序员来使用。

Python自带的垃圾回收系统,它回收并释放没有被使用的内存,让它们能够被其他程序使用。

有哪些工具可以帮助debug或做静态分析

PyChecker是一个静态分析工具,不仅能报告源代码中的错误,并会报告错误类型和复杂度。Pylint是检验模块是否达到代码标准的另一个工具。

何为Python装饰器

Python装饰器是Python中的特有变动,可以使修改函数变得更容易。

数组和元组之间区别是什么

数组和元组之间的区别:数组内容可以被修改的,元组内容是只读的。另外,元组可被哈希,比如作为字典的关键字。

参数按值传递和引用传递是怎样实现

Python中的一切都是类,所有的变量都是一个对象的引用。引用的值是由函数确定,因此无法改变。但如果一个对象是可以被修改的,可以改动对象。

字典推导式和列表推导式是什么

它们可以轻松创建字典和列表的语法结构。

Python都有哪些自带的数据结构

Python自带的数据结构分为可变的和不可变的。可变的有:数组、集合、字典;不可变的:元组、字符串以及数。

什么是Python命名空间

Python中,所有的名字都存在于一个空间中,它们在空间中存在和被操作:就是命名空间。

它就好像一个盒子,每一个变量名字都对应装着一个对象。当查询变量的时候,会从该盒子里面寻找相应的对象。

Python的lambda是什么

这是一个常被用于代码中的单个表达式的匿名函数。

为什么lambda没有语句

匿名函数lambda没有语句的原因,是它被用于在代码被执行的时候构建新的函数对象并且返回。

Python的pass是什么

Pass是一个在Python不会被执行的语句。在复杂语句中,如一个地方需要暂时被留白,常常被用于占位符。

Python中什么是遍历器

遍历器是用于遍历一组元素,比如列表这样容器。

Python的unittest是什么

Python中,unittest是Python的单元测试框架。拥有支持共享搭建、自动测试、在测试中暂停代码、将不同测试迭代成一组,等等功能。

Python中什么是slicing

Slicing是种在有序的对象类型中(数组,元组以及字符串)节选某一段的语法。

Python中什么是构造器

生成器是实现迭代器的一种机制。功能的实现依赖于yield表达式,除此之外跟普通的函数没有两样。

Python的docstring是什么

Python文档字符串被称为docstring,在Python中的作用是为函数、模块和类注释生成文档。

如何在Python拷贝一个对象

如果要在Python中拷贝一个对象,大多时候你可以用copy.copy()或者copy.deepcopy()。但不是所有的对象都可以被拷贝。

Python的负索引是什么

Python中的序列索引可以是正也可以是负。如果是正索引,0是序列中第一个索引,而1是第二个索引。如果是负索引,-1是最后一个索引而-2是倒数第二个索引。

如何将一个数字转换成为一个字符串

可以使用自带函数str()将一个数字转换为字符串。如果想要八进制或者十六进制数,可以用oct()或hex()。

Xrange和range区别是什么

Xrange用于返回一个xrange对象,而range用于返回一个数组。不管那个范围多大,Xrange都用同样的内存。

Python中的模块和包是什么

Python中,模块是搭建程序的一种方式。每一个Python代码文件都是一个模块,并可以引用其他的模块,比如对象、属性。

一个包含许多Python代码文件夹是一个包。一个包可以包含模块和子文件夹。

分类
成长之路

Python到底是什么来头

Python将正式纳入高考内容!随着浙江省的重磅官宣,许多家长开始有些恐慌,我们一无所知的Python要加入高考了,到底Python是什么?什么时候要开始学?用什么样的方式学最好?今天就和大家好好聊聊Python这个磨人的神器。

Python英文是大蟒蛇的意思。Python的发明者是荷兰人Guido van Rossum。

Guido在1989年圣诞期间,为了打发圣诞节的无趣,于是想要开发一个新的脚本解释程序,所以就有了Python。

而之所以选中Python作为程序的名字,据说因为Guido是一个名为Monty Python的喜剧团体的爱好者。虽然Python的诞生似乎源于一种偶然,然而Python能够在诞生之后不久就风靡程序员的圈子似乎是一种必然。

权威专家预测Python将成为AI时代的第一语言。从AlphaGo打败人类天才棋手柯洁,到年度编程语言排位Python直逼首席王位,都可看出预言非虚。

与此同时,翻看招聘网站,与Python相关岗位薪资也是远远高于平均水平,近来更有水涨船高之势。

究竟Python为何如此受青睐呢?

程序圈中一直流穿着一句话:人生苦短,我用派神,这句略丧略戏谑的调侃难掩程序猿对Python的喜爱。到底为何会有这种说法,或许和Python以下特点不可分割。

  1. 易学:Python极容易上手,因为Python有极简单的语法;
  2. 丰富资源:Python标准库非常庞大,可以帮助处理各种工作。很多时候简洁的几行代码就可以解决一个问题,很大程度上提高了开发效率;
  3. 应用广泛:Python易学简洁和具有丰富的资源的特点使得它广泛应用在不同领域。较强数据处理能力能够将繁琐凌乱的数据轻松转换为结构化数据,以至于Python在大数据领域,成为最受欢迎语言;
  4. 跨平台性:Python是一门脚本语言,它不需要编译,它执行只跟解释器有关,与操作系统没关系。同样的代码不需要改动就可以在不同的操作系统上运行;
  5. 可扩展性:Python被称作胶水语言,可把Python嵌入C/C++程序,从而向程序用户提供脚本的功能。

对一个程序圈外的人大家或许不能理解Python的这些特点意味着什么,那就用木桶理论简单给大家解读一下Python的特点。

就木桶原理说,一只水桶能装多少水取决于它最短的那块木板,所以许多人都想去思考和补齐自己的短板。

Python恰恰是反木桶理论的极致。自诞生来,Python一直保持了简单、开放、语言工业化等特点,具备良好封装、组合、嵌入能力,开发效率惊人。这些都是它的长板,Python把这些方面都做到了极致。

而它的短板也丝毫没影响它的受喜爱程度,反而其促成了其他软件库对它的优化。

比如,有人觉得Python慢,提高Python的编译器工具出来了;为了配合科学计算、大数据的分析,SciPy/Pandas诞生了;要用机器学习,机器学习库开发出来了。

而这些库对于Python可随意调用,Python调用这些开发出来的库甚至比原生语言调用还要方便,所以大家简直没理由不用Python。

所以,围绕Python语言构建出来的生态库逐渐让其他语言望尘莫及。这也是Python被成为胶水语言并被预言将成为AI时代第一语言的原因。

了解Python的神奇,还有一个疑问,就是到底孩子多大学习Python最合适?

尤其最近山东省最新出版的小学信息技术六年级教材也加入了Python内容,更是又一次把这一问题抛在了大众的面前。

其实,在美国婴幼儿都有Python编程书。打开亚马逊网,就会看到很多婴幼儿Python编程书籍,美国确实是一个非常重视编程技能培养的国家,从比尔盖茨13岁时学习编程,Facebook创始人扎克伯格11岁开始学习编程这些事例中也可见一斑。

可能很多人都会有疑问,小学生学习编程能懂吗?

其实年龄在7岁左右的孩子,学过一点Scratch或者机器人编程的都可学习Python语言。这个年龄段的孩子思维模式和认知能力已经可以接受Python语言课程。

然而,在小学时开设Python编程课,更多是培养兴趣和编程思维,培养孩子发现问题、思考问题和解决问题的能力,学校少量初级的Python课程远远无法满足升学需要。

未来是人工智能的时代到来,Python语言将引领绝大多数工作岗位的情况下,学习Python应该用一种更加专业的学习的心态,同时及早让孩子掌握Python技能已是大势所趋。

分类
成长之路

帮助你工作提质增效的数据爬虫网站

在这个数据说话的时代,能打动人的往往是用数据说话的理性分析,无论对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能找到合适的数据源都是非常重要的。特别是想对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义。在这里给大家推荐一些能够用上数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多的思维方式。

国家数据

数据来源于中国国家统计局,包含我国经济民生等多个方面的数据,且在月度、季度、年度都有覆盖,较为全面权威,对于社会科学研究大有帮助。最关键的,网站简洁美观,还有专门的可视化读物。

CEIC网

最完整的一套超过128国家的经济数据,能精确查找GDP/CPI、进口、出口、外资直接投资、零售、销售,及国际利率等深度数据。其中的中国经济数据库收编了300000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据以及地区经济数据。

万得

万得被誉为中国Bloomberg,在金融业有全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人亲睐。

搜数

已经加载到搜数网站的统计资料达到7874本,涵盖1761009张统计表格以及364580479个统计数据,汇集中国资讯行自92年以来收集的所有统计和调查数据,并且提供多样化的搜索功能。

中国统计信息

国家统计局的官方网站,汇集海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等等。

亚马逊aws

来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域数据集。

figshare网

研究成果共享平台,在这里你会发现来自世界的大牛们的研究成果分享,同时get其中的研究数据,内容都很有启发性,且网站颇具设计感。

github网

如果觉得前面数据源还不够,github上的大神已经为大家整理好一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,简直是做研究和数据分析的利器。

钱塘大数据交易中心网

钱塘大数据交易中心是为工业制造行业提供数据交易以及预处理交易,算法交易及大数据分析,平台开发,技术服务,数据定价,数据金融,交易监督等综合服务的机构,中心并基于数据金融资产化方向提供撮合,买卖,典当,融资,抵押,贷款等多种的合作模式,为工业制造行业各经济主体盘活数据存量资源提供全面解决方案。

优易数据

国家信息中心发起,拥有国家级信息资源的数据平台,国内领先数据交易平台。平台有B2B、B2C两种交易的模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

数据堂网

专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

百度指数

大家都熟悉的指数查询平台,可根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好参考意义。

阿里指数

国内权威商品交易分析工具,可以按地域和按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

艾瑞咨询

艾瑞作为老牌的互联网研究机构,在数据沉淀和数据分析上都有得天独厚的优势,在互联网的趋势和行业发展数据分析上面比较权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。

友盟指数

友盟在移动互联网应用数据统计和分析具有较为全面的统计、分析,对于研究移动端的产品、市场调研、用户行为分析很有帮助。除了友盟指数,友盟互联网报告同样是了解互联网趋势的优秀读物。

爱奇艺指数网

爱奇艺指数是专门针对视频播放行为、趋势分析平台,对于互联网视频的播放有着全面的统计和分析,涉及播放趋势、播放设备、用户画像、地域分布等等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际的情况。

猫眼专业版网

电影票房统计分析平台,猫眼专业版有实时票房统计,影片排盘情况、上座率和影院数据,对于当前电影的分析必不可少的。

火车采集器网

一款专业的互联网数据抓取、处理、分析,挖掘软件,可灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列分析处理,准确挖掘出所需的数据,最常用的就是采集某些网站文字、图片、数据等等在线资源。接口比较齐全,支持扩展比较好用,如懂代码的话,可以使用PHP或C#开发任意功能的扩展。

八爪鱼网

简单实用的采集器,功能齐全,操作简单,不需要写规则。特有的云采集,关机也可以在云服务器运行采集任务。

集搜客网

一款简单易用网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素,提供很好用的网页抓取软件、数据挖掘攻略、行业资讯和前沿科技等。