修宪 - 2018

2018年修宪

全名:《中华人民共和国宪法修正案》(2018年))

  • 2017年9月29日 - 成立宪法修改小组
  • 2018年1月30日 - 由人大常委会提请申报成功,全票通过《中华人民共和国宪法修正案(草案)》
  • 2018年2月25日 - 由新华社和新闻联播于公布 《中国共产党中央委员会关于修改宪法部分内容的建议》

划重点

1
2
3
4
5
6
7
8
9
10
第七十九条
- 中华人民共和国主席、副主席每届任期同全国人民代表大会每届任期相同,连续任职不得超过两届。
+ 中华人民共和国主席、副主席每届任期同全国人民代表大会每届任期相同。

- 在马克思列宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想指引下
+ 在马克思列宁主义、毛泽东思想、邓小平理论、“三个代表”重要思想、科学发展观、习近平新时代中国特色社会主义思想指引下

第六十三条 全国人民代表大会有权罢免下列人员:
主席、副主席、国务院总理、副总理、军事委员会主席、最高人民法院院长、最高人民检察院检察长
+ (四)国家监察委员会主任;
  • 宪法第七十九条第三款,删除“国家主席、副主席连续任职不得超过两届”,而引起国际关注。外界普遍将之视为邓小平时代提出的“废除干部领导职务终身制”的结束。
  • 宪法序言增写“科学发展观”“习近平新时代中国特色社会主义思想”“富强民主文明和谐美丽的社会主义现代化强国”字样

关于 监察机关 国家监察委员会

1
2
3
4
5
6
+ 第一百二十三条 中华人民共和国各级监察委员会是国家的监察机关。
+ 第一百二十四条 中华人民共和国设立国家监察委员会和地方各级监察委员会。监察委员会由下列人员组成
+ 主任,
+ 副主任若干人,
+ 委员若干人。
+ 监察委员会主任每届任期同本级人民代表大会每届任期相同。国家监察委员会主任连续任职不得超过两届。

关于修宪历史

中国现行宪法制定于1982年。当时,为废除实际存在的领导职务终身制,吸取文革个人崇拜的教训,宪法规定了国家主席连续任职不得超过两届,在客观上限定了中国国家元首任职不能超过十年。

中共于1988年、1993年、1999年、2004年对现行宪法进行了四次修改

1988年修宪:为“私营经济”正名

1993年修宪

1993年,中共总书记、中央军委主席江泽民接替杨尚昆出任国家主席,定下了总书记、国家主席、中央军委主席“三位一体”的最高领导模式。

国家的奋斗目标,则由建设“高度文明、高度民主的社会主义国家”变为建设“富强、民主、文明的社会主义国家”。两个字的增加、两个词顺序的变化,看似微小,却深意可见。

“市场经济”一词的入宪、“计划经济”一词的淡出。

1999年修宪:为“法治”鼓与呼

“依法治国”。

2004- 第四次修改,

关于连任

  • 根据邓小平在1980年提倡的“废除干部领导职务终身制”,重新设立的国家主席和副主席任期为五年一届,连任不能超过两届。

  • 党总书记、军委主席是中国政治体系中拥有最大权力的两个职务,没有连任次数的限制。

扩展阅读

如何解决百度爬虫无法爬取搭建在Github上的个人博客的问题

现状 & 原因

github做了什么。

  • robots.txt 中屏蔽了baidu
  • 即使百度爬虫无视robots协议强抓github,github也会通过检查UA,返回403 forbidden,即拒绝访问。(当然如果要想强抓是拦不住的,伪装一下UA即可)

造成的现状

  • robots.txt 失效
  • sitemap 失效

原因:github在robots.txt中屏蔽了百度,百度默认不抓取github的内容。

  • 主动提交失效
  • 自动提交失效
  • 手动提交失效

Github是通过 UA 来判定百度爬虫并返回 403 Forbidden 的

而百度爬虫的UA一般固定为 Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

即使向百度提交了页面,github服务器一看UA是百度爬虫,就直接拒绝访问

如何解决

  1. 换其他host服务器,比如coding.net
  2. CDN

https://www.zhihu.com/question/30898326

禁止搜索引擎收录的方法

什么是robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。搜索引擎抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。

需要注意的是robots协议并非是规范,只是行业内一个约定俗成的协议。什么意思呢?Robots协议不是什么技术壁垒,而只是一种互相尊重的协议,好比私家花园的门口挂着“闲人免进”,尊重者绕道而行,不尊重者依然可以推门而入,比如说360。

如果网站有数据需要保密,必需采取技术措施,比如说:用户验证,加密,ip拦截,访问频率控制等。

为什么要禁止搜索引擎收录

  1. 某些路径下是个人隐私或者网站管理使用,不想被搜索引擎抓取
  2. 不喜欢某个搜索引擎,不愿意被他抓取,最有名的就是之前淘宝不希望被百度抓取
  3. 流量有限或者需要付费,希望搜索引擎抓的温柔点。
  4. 阻止竞争抓取自己的网站内容,比如搜索引擎之间相互屏蔽,360

robots的屏蔽恩怨历史

汇总

百度 google bing 备注
淘宝 × 不屏蔽google,因为google不做淘宝的竞价排名。另外还能作为淘宝流量入口
京东
微信公众平台
社交网络–开放空间
weibo
facebook
twitter
社交网络–隐私空间
qq空间
微信朋友圈
baidu、google × × × 搜索引擎,屏蔽一切搜索引擎爬虫

github - 屏蔽百度、搜狗、360等

为什么屏蔽百度

We are currently blocking the Baidu user agent from crawling GitHub Pages sites in response to this user agent being responsible for an excessive amount of requests, which was causing availability issues for other GitHub customers.

This is unlikely to change any time soon, so if you need the Baidu user agent to be able to crawl your site you will need to host it elsewhere.

– by Github Support Jerry’s blog

即百度爬虫爬得太猛烈,已经对很多 Github 用户造成了可用性的问题了,而禁用百度爬虫这一举措可能会一直持续下去。

白名单中竟然有 EtaoSpider。why?
为什么百度中搜索site:github.io有结果?

www.github.com中的robots.txt

1
2
3
4
5
6
7
User-agent: Googlebot   # google yandex等都在白名单。
Allow: /*/*/tree/master
Allow: /*/*/blob/master

User-agent: *
Allow: /humans.txt
Disallow: / # 百度不在白名单,即整个站点屏蔽百度

除设置了robots.txt之外,github后台服务器还会检查HTTP请求的UA,如果是百度就返回403 forbidden。

电商

淘宝 - 屏蔽百度

  • 争夺流量入口
    -
  • .

2008年淘宝屏蔽了百度搜索引擎,自此用户再也无法从百度直接搜索到关于淘宝的信息。

淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

首先,在08年9月淘宝先屏蔽了百度搜索,使得当我们在百度搜索淘宝产品名时,百度返回不到有效信息。导致普通网民在进行网上购物行为时,会直接选择登陆淘宝网,用站内搜索进行,从上网入口上讲,淘宝这样就让网民一步到位了,而不是单单记住百度这个工具,淘宝的流量肯定会水涨船高,带来的好处也不言而明。

如果当初淘宝没有屏蔽百度,不多说:最起码30%的购物搜索会来自百度。淘宝屏蔽百度以后,淘宝真正的成为了购物的第一入口。

淘宝主页www.taobao.comrobots.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Disallow: /product/ # 禁止百度抓取www.taobao.com/product/
Disallow: / # 屏蔽网站其他路径

User-Agent: Googlebot
Allow: /article
Allow: /oshtml
Allow: /product # 对google很宽松,即开放google入口,
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Disallow: /

淘宝商品页面item.taobao.comrobot.txt

1
2
3
4
5
6
7
8
User-agent: Baiduspider   # 百度,你被完全屏蔽了
Disallow: /

User-Agent: Googlebot # 对google和bing开放
Allow: /item.htm

User-agent: Bingbot
Allow: /item.htm

搜索示例:

  1. 关键词搜索 - 百度
    • 洗面奶 淘宝 搜不到淘宝的商品。
    • 洗面奶 京东 能搜到京东的商品。
  2. 站点搜索 - 百度
    • site:www.taobao.com 洗面奶 竟然能搜索www.taobao.com/product/中的页面,点进去是无效商品链接
    • site:www.jd.com 洗面奶 能搜到京东的商品

京东 - 屏蔽一淘(阿里) 惠惠(网易)

京东和阿里向来水火不容,京东不准用户使用支付宝支付,也因为新浪和阿里的关系不准用户用新浪微博登录。2011年10月,京东和当年淘宝屏蔽百度一样,毅然屏蔽了一淘搜索。失去京东这么大的一个电商平台,一淘可谓流年不顺。

1
2
3
4
5
6
7
8
9
10
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*

User-agent: EtaoSpider # 屏蔽一淘
Disallow: /

User-agent: HuihuiSpider # 屏蔽惠惠购物助手
Disallow: /

阿里旗下自家的比价产品一淘网曾因抓取京东的商品数据而被京东通过代码进行干扰,刘强东亦亲自出来抨击一淘网,但是嘴仗一时痛快,最终的结果却是一淘至今仍然可以索引京东,而京东的抗争只能是停止与支付宝的合作。

为什么taobao不屏蔽惠惠购物助手?

这是阿里抛出的交易筹码,即如果比价软件想要全年抓取天猫淘宝等站的数据,作为与我这边发放通行证的交换,比价软件需要遵从的是在“双十一”期间主动阉割,否则就会尝到终身制的闭门羹。

参考–如何看待惠惠购物助手被迫在双十一期间停止比价功能?

amazon

社交网络/媒体

QQ空间

QQ空间自05年诞生时就没有开放给百度与谷歌,和Facebook一样封闭。QQ的逻辑是要将QQ空间打造成一个巨大的闭环,唯一的搜索只能是旗下的搜搜。

2012年的时候,QQ空间也终于向百度与谷歌开放。

现在网友多数将自己的空间设置的为加密空间、非好友不能访问,所以里面的日志是没办法搜索;

新浪微博

微信公众平台 - 屏蔽所有

微信做了公众账号后,积累了大量高质量的作者和文章。为了对这种优质数据进行独家保护,微信利用robot协议,不允许所有搜索引擎进行内容抓取。

1
2
3
4
5
6
7
User-Agent: *
Allow: /$
Allow: /debug/ # 微信公众平台接口调试工具
Allow: /qa/
Allow: /wiki/
Allow: /cgi-bin/loginpage
Disallow: / # 公众号文章

后来,腾讯投资搜狗,开放微信数据供搜狗搜索独家使用,搜狗 微信搜素,将微信的公众号文章嵌入了搜狗搜索中。

Facebook - 屏蔽谷歌搜索

Facebook屏蔽谷歌的原因也很简单,用户在Facebook上产生的内容势必会有能够带来商业价值的数据并且同时也涉及到用户隐私,所以Facebook也同样不会将这些数据轻易交付给第三方的。facebook至今仍然屏蔽谷歌搜索。

新闻站点

默多克旗下新闻 - 屏蔽谷歌搜索,后来又开放

从传统媒体起家的默多克,对于搜索引擎的态度相当不友善,默多克曾说搜索引擎是“网络寄生虫”

默多克原话“他们是Google,他们是微软,他们是Ask.com,他们不应该免费获得内容,我想我们一直睡着了.”而默多克在09年开始展开计划,对谷歌等搜索引擎展开行动,对旗下多家新闻网站屏蔽搜索爬虫。

谷歌的回应也很简单明了”如果贵站不想在谷歌上出现,请修改贵站的robots文件即可“。不过到了2012年,默多克就投降了,默多克向谷歌认输,重新允许搜索抓取报纸网站。其实默多克的想法还是停留在传统的付费阅读的思维上,缺少对网络的深刻洞察。

搜索引擎 - 互相屏蔽 - 偷抓

sogou、baidu、360、google

百度诉360违反Robots协议 一审判360赔偿70万
360方面认为,Robots协议并不具有任何法律效力,而是百度利用了Robots协议自设白名单,谷歌、微软必应、雅虎、搜狗、SOSO等搜索引擎均可以抓取这些内容,唯独禁止360搜索抓取,属于打压竞争对手,涉嫌违反《反垄断法》。

网曝百度不顾robots协议擅自抓取微信内容 baidu通过大量抓取搜狗中的微信数据,将其放入搜索结果中,用于提升自己的搜索体验。

百度违反 Robots 协议抓搜狗数据,有图有真相有撕逼 - 知乎

搜狗与360曾互诉对方不正当竞争,并提出千万级别的索赔。

sogou偷爬baidu,baidu偷爬搜狗

http://weixin.sogou.com

2013年,百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案,索赔金额高达一亿元

参考

虎嗅-盘点那些robots的屏蔽恩怨历史

如果搜索引擎不遵守robot协议呢?

搜索引擎不遵守robot协议,对网站都抓,会违法吗?

robot协议是规定还是法律,不遵守robot协议是道德问题还是法律问题?
robots.txt 协议不是法律法规,也不是行业规范。但是一个搜索引擎声称自己遵守 robots.txt 协议那就有道德责任遵守。

ss

如何在技术上反爬虫

检查UA

s

网络分层

Overview

基本概念

 数据单元/格式TCP/IP层OSI层功能TCP/IP协议族典型设备
主机层Dagta(数据)应用层7. 应用层网络进程到应用程序。针对特定应用规定各层协议、时序、表示等,进行封装。在端系统中用软件来实现,如HTTP等DHCP、Telnet、FTP、HTTP、SNMP、DNS网关
6. 表示层数据表示形式,加密和解密,把机器相关的数据转换成独立于机器的数据。规定数据的格式化表示,数据格式的转换等  
5. 会话层主机间通讯,管理应用程序之间的会话。规定通信时序;数据交换的定界、同步,创建检查点等  
Segments(数据段)传输层4. 传输层在网络的各个节点之间可靠的分发数据包。所有传输遗留问题;复用;流量控制;可靠TCP UDP TLS/SSL 
媒介层 网络层 Internet3. 网络层负责IP地址。在网络的各个节点之间进行地址分配、路由和(不一定可靠的)分发报文。路由(IP寻址);拥塞控制分割和重新组合数据包IP ICMP BGP RIP路由器
Bit/Frame数据帧链路层2. 数据链路层负责MAC地址。一个可靠的点对点数据直链。检错与纠错(CRC码);多路访问;寻址WiFi ARP交换机、网桥、网卡
Bit 比特流1.物理层一个(不一定可靠的)点对点数据直链。定义机械特性;电气特性;功能特性;过程特性 调制解调器、中继器、集线器、同轴电缆、双绞线

https://en.wikipedia.org/wiki/Internet_protocol_suite

Overview of TCP/IP Protocol

Architectural Overview of the TCP/IP Protocol Suite

Overview of TCP/IP protocols,摘自《Unix网络编程 chapter2》

七层 应用层

应用层(Application Layer)提供为应用软件而设的界面,以设置与另一应用软件之间的通信。
针对某个特定的用户应用程序(FTP、Telnet等)
比如

  • HTTP Client与HTTP Server通信。
  • DNS client与DNS Server通信。

六层 表示层

表示层(Presentation Layer)把数据转换为能与接收者的系统格式兼容并适合传输的格式。

五层 会话层

会话层(Session Layer)负责在数据传输中设置和维护电脑网络中两台电脑之间的通信连接。

四层 传输层

传输层(Transport Layer)把传输表头(TH)加至数据以形成数据包。传输表头包含了所使用的协议等发送信息。例如:传输控制协议(TCP)等。

TCP使用不可靠的IP服务,但是它提供一种可靠的运输层服务;UDP为应用程序接收和发送数据报。但是UDP是不可靠的,它不保证数据报能安全无误的到达目的地。

三层 网络层

在计算机网络中进行通信的两个计算机之间可能会经过很多个数据链路,也可能还要经过很多通信子网。网络层的任务就是选择合适的网间路由和交换结点,确保数据及时传送。网络层将解封数据链路层收到的帧,提取数据包,包中封装有网络层包头,其中含有逻辑地址信息- -源站点和目的站点地址的网络地址。

IP是网际层的主要协议,同时被TCP和UDP使用;ICMP是IP的附属协议。IP层用它来与其他主机或路由器交换错误报文和其他重要的信息;IGMP是Internet组管理协议。它用来把一个UDP数据报多播到多个主机。

数据的路径选择(分组的选路)、转发,将网络表头(NH)加至数据包,以形成分组。网络表头包含了网络数据。例如:互联网协议(IP)等。

寻址

路由器根据IP地址进行寻址,通过路由表路由协议产生

对网络层而言使用IP地址来唯一标识互联网上的设备,网络层依靠IP地址进行相互通信。

路由/转发

在同一个网络中的内部通信并不需要网络层设备,仅仅靠数据链路层就可以完成相互通信,对于不同的网络之间相互通信则必须借助路由器等三层设备。

数据包的转发,不在同一个局域网,他们彼此之间是不认识的,那么就不得不通过其他媒介,寻找到适当的方式才可以传输数据。

二层 链路层

二层交换,只能解决同一个局域网(彼此认识,mac地址)内的数据交换。

物理地址寻址、数据的成帧、流量控制、数据的检错、重发等

网络层(Network Layer)决定数据的路径选择和转寄,将网络表头(NH)加至数据包,以形成分组。网络表头包含了网络数据。例如:互联网协议(IP)等。

设备驱动程序及接口卡

ARP(地址解析协议)和RARP(逆地址解析协议)是某些网络接口使用的特殊协议,用来转换IP层和网络接口层使用的地址。

交换机根据MAC地址寻址,通过站表选择路由,站表的建立和维护由交换机自动进行

一层 物理层

物理层(Physical Layer)在局部局域网上传送帧,它负责管理电脑通信设备和网络媒体之间的互通。包括了针脚、电压、线缆规范、集线器、中继器、网卡、主机适配器等

疑问

为什么要平行层通信?
因为其它层看不懂该协议。(其他协议看不懂)

我觉得,也可以理解成相邻层之间的协议。比如

web中的后台与前台协定的数据格式,是不同层之间的协议。因为后台数据是给前台用的,前台http。

网络协议中,相邻层之间的

VPN算在哪个层?算网路协议吗?
按道理应该算协议,客户端和服务端都要遵守的约定。应该算在应用层吧。–by xs

vpn在IP层工作,而ss在TCP层工作

proxy算在哪个层?
应用层吧,至少socket之上

html5提出的websocket协议
属于应用层

待看/其他参考

路由器

路由器是怎样做到连接不同网络的?用到的关键技术有什么?

路由器的好处是为不同类型的物理网络提供连接:以太网、令牌环网、点对点的链接和FDDI(光纤分布式数据接口)等等。

现在网关这个术语只用来表示应用层网关:一个连接两种不同协议族的进程(例如,TCP/IP和IBM的SNA),它为某个特定的应用程序服务(常常是电子邮件或文件传输)。

不在同一

=

应用层和运输层使用端到端(End-to-end)协议。在
图中,只有端系统需要这两层协议。但是,网络层提供的却是逐跳( Hop-by-hop)协议,两个端系统和每个中间系统都要使用它。

经典的web编辑器--CKEditor

快速搭建CKEditor

CKEditor CDN

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>CKEditor</title>
<script src="https://cdn.ckeditor.com/4.8.0/standard/ckeditor.js"></script>
</head>
<body>
<textarea name="editor1"></textarea>
<script>
CKEDITOR.replace( 'editor1' );
</script>
</body>
</html>

保存为html,双击打开即可。
Online Demo

源码

https://github.com/ckeditor/ckeditor-dev

CKFinder

没有CKFinder,CKEditor作为一个编辑器,也是可以正常使用的,但是无法在编辑器里浏览服务器上的用户上传文件。所以要整合CKFinder。

需要后台服务器。(用于文件上传、存储)。支持java php .net等语言

其他编辑器

  • Tinymce
  • 为知笔记也不错,但不开源

参考

https://www.ibm.com/developerworks/cn/web/1012_moying_ckeditor/index.html