未加星标

从Google开源自然语言学习想到的一个阅读英文的方法

字体大小 | |
[商业智能 所属分类 商业智能 | 发布者 店小二04 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

我没有留过学,从来没有接受过任何英文教育,但我之前一直觉得自己的英文处在一个“还行”的状态:我觉得自己不是很怕听和说,尤其是四五年前去了两次美国后,自己的英文会话能力有了一定程度的加深。也有人评价过我“和老外真能说”。但是自己感觉始终卡在一个不上不下的地步,只能说是“还行”,不能说“很好”,可具体到底问题出在哪里,自己也说不上。


而且我对于听说读写四个方面,更喜欢听和说,对于读和写反倒比较吃力:写的时候总觉得自己写的不是那么地道;阅读英文书也比较累,一旦遇到一些复杂句子或是几个不认识的生词,就很容易卡住。好在后来Kindle升级之后,提供了一个生词标注的功能,特别赞,也就不太担心这方面的问题了。


从Google开源自然语言学习想到的一个阅读英文的方法

Kindle的生词标注确实非常牛。


后来升级“英语流利说”这个App,里面多了一个水平定级测试的功能,自己测了一下,终于发现了自己在英文理解上比较大的一个问题。


这个测试是这样的:前面都很简单,说个字,让你选择图片答案之类的,到了后面,开始念句子,机器念一遍,然后让你复述。


我卡到了最后一部分。那种带复合从句的复杂句子,尤其介词多,带which这种,一句话说好几个意思,还有转折,我发现自己完全复述不下来。经常是说了前半句忘了后半句,说了后半句忘了前半句,所以测试到最后有点破罐子破摔的感觉。


但这次测试让我发现了自己一直没意识到的英文水平问题,就是在读到稍复杂句子的时候,脑子里是没有真正理解的。正是所谓那种“每个字都认识,句子意思不知道”的状态。自己习惯的听和说,又都是比较简单的内容,尤其是你在和英语母语的人对话的时候,对方会尽量让你听懂,即便有你自己不懂的,你也会用英文去问问是什么意思,而这一切的过程,双方都不会特别感觉到累,都是自然发生的状态,因为毕竟语言的目的是传递信息而不是把对方难倒。


这也解释了为什么我从来不喜欢读英文新闻。因为通常英文新闻都是由复杂句子组成,即便逐字通读一遍新闻,我也没办法很清楚地说出这个新闻说的是什么。自己最习惯也是最熟悉的英文,只是跟技术类相关的内容,这又解释了为什么我读起Medium里的文章来会觉得非常轻松:因为里面大部分文章都使用简单的句子,描述的技术内容我又非常的熟悉。


所以我开始考虑是否可以通过大量的练习来解决这个问题,找到了一个听写软件,Aboboo。这个软件真的很不错,因为我觉得英文水平的提升是需要通过长期练习达到的,毕竟是在学习一种非母语语言。


从Google开源自然语言学习想到的一个阅读英文的方法

我相信这会是有效的,但这毕竟需要大量时间。前几天的一篇新闻给了我另一个启发,Google开源了Tensorflow的自然语言库:SyntaxNet。


从Google开源自然语言学习想到的一个阅读英文的方法

Google开源的自然语言处理工具都是比较有意思的,比如从前一个非常有用的工具叫做Word2vec,是用来把语言中词与词之间的关系转化为向量,可以用语料库进行训练,并可以自动去除噪音。举个例子,很容易懂:比如经过训练的word2vec,你提供这样三个词:北京 中国 伦敦 它能告诉你第四个词应该是英国。这个工具也会被用于商品推荐等方面。


这次开源的SyntaxNet可以帮助机器来分析语法结构,从而理解语义。比如这张图:


从Google开源自然语言学习想到的一个阅读英文的方法

可以自动分析出词性,主谓宾定状补,可以自动识别介词修饰的是哪个(比如上面是一句可能有歧义的话,他们是就着鱼吃披萨呢,还是披萨上面有鱼呢?这个工具具备识别能力)


我自己突然意识到,计算机学习英语是这样学的,但是我自己在阅读的时候,却很少考虑词性和这类语法问题,只是一个字一个字的看,遇到不认识的就卡壳, 整句读完了也没有太理解意思。


所以我突然想试试,如果我把一句话按上面类似的思路,根据语法做出一定的简化,是不是能够提高阅读和理解能力了速度呢?我做了个简单的尝试。


随便找了华盛顿邮报网站的一篇新闻,今天的头条。


从Google开源自然语言学习想到的一个阅读英文的方法

好吧,第一个词儿我就不认识:controversial


点进去看看:


从Google开源自然语言学习想到的一个阅读英文的方法

这篇文章挺长的,看题图,能知道是总统候选人川普的事儿,但具体说的什么还不知道,而且美国的政治议题也不是国内的童鞋很熟悉的。


第一句话看着就挺累,我把介词标出来:


从Google开源自然语言学习想到的一个阅读英文的方法

这是第一句话,in for to from as of,介词快用全了,而且这只是文章的第一句。


至少按我的语言理解能力,第一遍读这句话,就算每个词都认识,也硬是没看明白到底说的什么意思。而且devising是什么意思来着,好像背过……那vetting是啥?sworn这词儿也不熟,哦想起来了,是swear的过去式?基本上我看这句话,脑子里真的就是这么转的。


这句话别说念一遍让我复述下来,念10遍好像也未必行。


用计算机学英语的方法试试?假设这句话,我只摘出来“谁”,“在做”,“什么”主谓宾这三部分,会怎样呢?


从Google开源自然语言学习想到的一个阅读英文的方法

Donald Trump involved in lawsuit.


哦,原来是这个意思。


按照这个思路,再读几句,我不截图了。我发现好像每句话都有一个办法能让你来摘出这句话要表达的最重要的部分。


这种方法的好处是,在每句话中寻找谁,做什么,事情这三个部分的过程中,眼睛的余光是能够读到余下的信息的,但是因为你关注的是最重点的部分,所以你会发现,当整篇文章阅读完之后,你是可以复述下来这篇文章到底说的是什么的。这和我之前的逐字阅读的方式,读完了脑子里也留不下什么东西真的是天壤之别。


最后通读下来,发现这整篇文章说的其实就是


Donald Trump involved in lawsuit.


通过这种方式,阅读自己不熟悉的新闻类,或是其他文章书籍,我个人觉得轻松了不少。不过由于这个方法我只是刚刚开始测试,所以我不确定英语母语的人是不是也这样读文章,还是另有其他方法。也不确定这种方法是不是确实对所有人有效,还是真的属于“断章取义”而不应该推荐使用。


欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:418451831

tags: 英文,句子,文章,介词,开源,工具,生词,Google,新闻,阅读,复述,半句
分页:12
转载请注明
本文标题:从Google开源自然语言学习想到的一个阅读英文的方法
本站链接:http://www.codesec.net/view/428769.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 商业智能 | 评论(0) | 阅读(288)