一、什么是BitTorrent
一般来说,我们认为BitTorrent是一个P2P下载软件(点对点下载软件),你在下载的同时,也在为其他用户提供该文件的上传,因为大家是“互相帮助”,所以不会随着用户数的增加产生服务器拥塞而降低下载速度。
但是严格的来说,BitTorrent是一种用来在 络上传输文件的协议(Protocol),它本质上是分布式系统的P2P(点对点)传输文件协议,用户直接相连,然后互相发送和接收文件的各部分,BitTorrent仍然有一个中心服务器(Tracker)(此处的服务器不是指实体的服务器,只是表示提供服务的服务者)来协调各个用户之间的协作。Tracker服务器只是管理连接,对发布的文件内容并不关心,也不传输文件内容,因此Tracker可以用很少的带宽就可以支持大量的用户。BitTorrent的关键思想是用户在下载(入埠传输)时也应该上传(出埠传输),因此 络带宽就能被充分的利用,因此参与下载的用户数量越多,下载速度也越高。
现在 BitTorrent的DHT 络(分布式哈希表Distributed Hash Table)技术,对一个用户来说,它获得一个使用DHT 路的种子后,运行 BitTorrent客户端进行下载后,BitTorrent客户端就会在DHT 路中搜索。连入DHT 络的用户叫做节点(node),节点之间互相有路由记录,因此只要和任何一个已经在DHT 络中的节点连接上,客户端就可以寻找到更多的节点,从而连入 络。一般种子上都有默认节点,那么可以帮助没有连入 络的用户通过那些节点连入 络,如果下载者已经连入DHT 络了,种子里填写的节点就不需要了。因为DHT 络是分布式存储系统,所以连Tracker中心服务器都不需要了(虽然没有连入DHT 络的用户需要找到第一个节点,之后才能连入DHT 络,不过之后用户就可以进行分布式查询了,而不需要向Tracker服务器不断的查询)。
二、BitTorrent与其它文件传输协议的比较
最一般的文件传输协议是客户端/服务器(C/S)模式,比如:HTTP和FTP等下载方式,它们一般都是首先将文件放到服务器上,然后再由服务器传送到每位用户的机器上,即用户机只与服务器相连,客户机之间并不通信。因此如果同一时刻下载的用户数量太多,势必影响到所有用户的下载速度,如果某些用户使用了多线程下载,那对带宽的影响就更严重了,因此几乎所有的下载服务器都有用户数量和最高下载速度等方面的限制,且用户越多,服务器上需要的带宽就越大。很明显,由于上述的原因,即使你使用的是宽带 ,通常也很难达到运营商许诺的最高下载速度,这里面固然有 络的原因,但与服务器的限制也不无关系。
另外一种比较流行的文件传输协议是基于点对点(P2P) 络,比如Kazaa、eDonkey、 Gnutella和Direct Connect等,使用这些软件 络用户可以直接连接到其他 络用户,而不需要连接到特定服务器,但由于用户操作系统的限制,发布者可能不能响应很多的用户请求,发布的内容也完全由用户自己决定,可能会涉及到法律和道德问题。
BitTorrent服务是通过一种类似于传销的方式来实现文件共享的,用户帮助服务器分发档案,从而减小服务器的负担。举个例子来说,例如BT服务器将一个文件分成了N个部分,有甲、乙、丙、丁四位用户同时下载,那么BT客户端并不会完全从服务器下载这个文件的所有部分,而是根据实际情况有选择地从其他用户的机器中下载已下载完成的部分。例如甲已经下载了第1部分,乙已经下载了第2部分,那么丙就会从甲的机器中下载第1部分,从乙的机器中下载第2部分,当然甲、乙、丁三位用户也在同时从丙的机器中下载相应的部分,这就大大减轻了BT服务器的负荷,也同时加快了丙的下载速度,也就是说每台参加下载的计算机既从其他用户的计算机上下载文件,同时自身也向其他用户提供下载,因此参与下载的用户数量越多,下载速度也越高。
当然,为了实现上述原理的快速分发,用户需要使用BT客户端进行下载,此外还需要有辅助服务器帮助用户互相连接,也就是Tracker。
三、BitTorrent的系统结构
四、BitTorrent的基本工作原理与流程
1、首先三中的1—5的功能必须具备,实际当中说源文件发布软件与最终用户下载软件就是一个软件(以下简称BT客户端),发布Torrent种子文件也是通过WWW方式,因为WWW方式最为普及,也便于查询,下面的介绍也是以WWW为标准。
2、现在想发布资料件的用户(上传者)需要用BT客户端制作Torrent种子文件,制作种子文件需要指定要发布的文件或者文件夹、Tracker服务器地址(Announce URL)、是否启用DHT 络(什么是DHT 络将在后面说明)、发布者信息等,Torrent种子文件制作软件将要发布的内容分成若干块(每块大小相同,一般为256KB或者1MB),然后计算每块的哈希值(BitTorrent是使用的SHA1哈希软法),该哈希值是用来区分不同的分块的,Torrent种子文件主要包括announce 记录、文件信息、文件名、目录名长度、最后是片段长度、片段的 Sha1 校验码等信息(见Torrent种子文件格式)。
3、现在上传者就可以把Torrent种子文件上传到到WWW服务器,实际上Tracker一般都是内嵌WWW服务器的,也就是上传Torrent种子文件到Tracker服务器,现在BT客户端就可以上传资料了。
4、当其它下载用户(BT客户端)下载到Torrent种子文件后,BT客户端就根据 Torrent种子文件中的Announce 记录找到Tracker服务器地址,BT客户端连接到Tracker服务器(Tracker服务器提供服务的方式大部分都是HTTP兼容的,但也有使用 UDP的),发送Torrent种子文件的哈希信息和其它一些信息(见BT客户端请求格式),Tracker服务器查找该哈希信息,如果找不到就作出相应的处理,如返回错误信息或者断开连接。
5、如果在步骤4找到该哈希信息,Tracker服务器就会反连(NatCheck)客户的IP地址和端口这样就可以区分内 用户还是公 用户(如果是内 用户,它是连不通的,因为它会连到Nat服务器或者路由器上,结果就是连不通),然后服务器返回现在正在下载这个文件的所有公 用户的IP地址和端口列表,返回给BT客户端(也可能是部分客户列表),最后如果该用户是公 用户 Tracker服务器会把用户提交的IP地址和端口保存下来,这样其它人就可以找到该用户。
6、上面说到Tracker服务器只会返回公 的IP地址,现在来解释一下内 用户如何上传数据,因为BT是一个主动连接的软件(即使已经下载完了,也不也会主动连接他人)下面是一个仿真流程:
1)内 用户开始做Seed
2)服务器收到请求,由于是第一个所以也没有Peer(对端,只一个TCP连接的一方)返回
3)公 用户提交请求,由于Seed是内 用户所以也没有Peer返回,等待下载,但服务器会把它的IP放到列表中
4)内 经过设定的时间间隔后,再向服务器放出请求,得到上面得公 IP
5)得到公 IP后,内 马上进行连接
6)公 用户建立连接,数据开始传输 (实际上现在是公 用户做服务器,内 用户做客户端)
7)其它内 用户去上面公 用户下载数据
7、BT客户端得到这些其他用户IP后,就可以直接连接到这些IP和端口下载资料了。BT客户端会到所有的用户去寻找自己要下载的东西。BT客户端每找到一个用户就建立一个Socket来下载,所以下载的人越多,速度就越快。
BT 客户端下载一个文件并不是从一个服务器下载,而是通过中心Tracker服务器找到其他用户,然后从不同用户下载文件的不同部分,也就是实现分布式下载,不过有中心服务器(Tracker服务器)协调的分布式下载使系统更有效率,可能Tracker服务器会成为瓶颈,但是由于BT客户端的查询内容简单并且不是连续的查询Tracker服务器,这就相当于增加Tracker服务器的负载能力。
五、Torrent文件(****info file)格式
Torrent文件格式使用了bencoding的数据表达方法,支持四种数据格式:字符串、整数、列表、字典。一个Torrent文件就是一个经过编码的bencoding字典。
Bencoding格式如下:
对于字符串,首先是一个字符串的长度,然后是冒 ,后面跟着实际的字符串,例如:4:spam,就是“spam”。
整数编码如下,以 ‘i’开始,然后10进制的整数值,最后以’e’结尾。例如,i3e表示3,I-3e表示-3。整数没有大小限制。I-0e是无效的。除了 i0e外,所有以0起始的整数都无效。I0e当然表示0。
列表编码如下,以’l’开始,接下来是列表值的编码(也采用bencoded编码),最后以’e’结束。例如:l4:spam4:eggse 表示 [‘spam’,‘eggs’]。
字典编码如下,以’d’开始,接下来是可选的keys和它对应的值,最户以’e’结束。例如:d3:cow3:moo4:spam4:eggse,表示{‘cow’:’moo’,’spam’:’eggs’},而 d4:spaml1:al:bee 表示 {‘spam’:[‘a’,’b’]}。键值必须是字符串,而且已经排序(并非是按照字母顺序排序,而是根据原始的字符串进行排序)。
1、Torrent文件基本格式
l info
包含文件信息的一个字典。info有单文件和多文件两种,详细说明见下。
l announce
tracker服务器地址。
l announce-list
可选,包含其他可用tracker服务器地址的列表。
l creation date
可选,torrent文件创建时间,UNIX标准格式,表示自UTC1970年1月1日0时以来的秒数。
l comment
可选,torrent创建者写的备注。
l created by
可选,创建torrent文件的程序名和版本。
除以上外,Torrent文件可能还包含encoding、nodes等内容,大概是由后续版本的BT协议规定的。nodes有可能跟DHT有关。
2、Info字典格式
1)Info字典有两种格式,以下为两种共有的部分:
l piece length
每块数据的长度。
l pieces
字符串格式,长度除以20即为总块数,每20字节又表示1块数据的SHA1值。
l private
值为1或0的整数,可选。看不太懂什么意思,似乎是说如该值为1,则只能从torrent文件中指定的tracker服务器找别的peer,不设或为0则不限制。
2)只包含一个文件的Info字典:
l name
文件名。
l length
文件长度。
l md5sum
可选,32字节长的文件MD5值。
3)包含多个文件的Info字典:
l name
存放文件的目录名。
l files
包含多个字典的列表,每个字典表示一个文件的信息。
files列表中的每个字典包含的内容:
l length
文件长度。
l path
包含一个或多个字符串的列表。0到-2个表示文件目录,最后一个表示文件名。例如[“dir1”, “dir2”, “file.ext”]表示文件保存在dir1/dir2子目录下,文件名为file.ext。
六、BT客户端请求格式
Trakcer 通过HTTP的GET命令的参数来接收信息,而响应给对方(也就是下载者)的是经过bencoded 编码的消息。注意,尽管当前的tracker的实现需要一个web服务器,它实际上可以运行的更轻便一些,例如,作为apache的一个模块;而且现在还有使用UDP协议的Tracker服务器。
发送给Tracker的GET请求,包含以下关键字:
Info_hash:
元文件中info部分的sha hash,20字节长。这个字符创几乎肯定需要被转义(译注:在URL中,有些字符不能出现,必须通过unicode进行编码)
Peer_id:
下载者的id,一个20字节长的字符串。每个下载者在开始一次新的下载之前,需要随机创建这个id。这个字符串通常也需要被转义。
IP:
一个可选的参数,给出了peer的ip地址(或者dns名称。通常用在origin身上,如果它和tracker在同一个机器上。
Port:
peer所监听的端口。下载者通常在在 6881 端口上监听,如果该端口被占用,那么会一直尝试到 6889,如果都被占用,那么就放弃监听。
Uploaded:
已经上载的数据大小,十进制表示。
Downloaded:
已经下载的数据大小,十进制表示
Left:
该peer还有多少数据没有下载完,十进制表示。注意,这个值不能根据文件长度和已下载数据大小计算出来,因为很可能是断点续传,如果因为检查文件完整性失败而必须重新下载的时候,这也提供了一个机会。
Event:
一个可选的关键字,值是started、compted或者stopped之一(也可以为空,不做处理)。如果不出现该关键字,。在一次下载刚开始的时候,该值被设置为started,在下载完成之后,设置为completed。如果下载者停止了下载,那么该值设置为 stopped。
Tracker的响应是用bencoded编码的字典。如果tracker的响应中有一个关键字failure reason,那么它对应的是一个字符串,用来解释查询失败的原因,其它关键字都不再需要了。否则,它必须有两个关键字:Interval:下载者在两次发送请求之间的时间间隔。Peers:一个字典的列表,每个字典包括以下关键字:Peer id,IP,Port,分别对应peer所选择的id、IP地址或者dns名称、端口 。
七、BitTorrent其它应用分布式系统的相关技术
文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8747 人正在系统学习中 相关资源:截取软件够累的-其它工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!