【乾,我講英文有夠乾】: 看完「魷魚遊戲」只講得出 It’s great. 嗎?
大家也看了魷魚遊戲了嗎?很多紐約的 #美國朋友 跟我說
・It’s way better than the Hunger Games.
・I binged the whole 9 episodes (一次追了九集).
・It’s graphically brutal. (超級血腥殘忍)
・Totes worth a watch. (Totes 是 totally 的口語寫法)
但當我問問身邊的人會怎樣用英文聊這部劇時,台灣人的對這部影集的描述常常是:
・It’s really good.
・I liked it!
・You should watch it.
・I highly recommend it.
當然,這 4 句話在語意上、用法上沒有問題。但如果你想要用得更 #道地、#到位,請繼續讀下去。
1️⃣ 傳統無啥用的 solution:
面臨這樣的問題,傳統上不少英文老師會建議你去查閱同義字字典,去 #升級自己會的形容詞。但,其實不斷用 It’s adj. 的方式
或去升級 “like” 這個動詞,調成 I enjoyed watching it. 只是繼續圍繞在相似的想法裡頭,英文還是 #沒有質的變化。�
2️⃣ 從「#思維模板」、母語人士的「#說話習慣」下手:
其實不管是魷魚遊戲、還是 The Hunger Games、還是其他相似種類 (genre) 的電影,英美國人會講述的方式「大同小異」,並 #不會因人而異。這樣的好處就是我們有個範圍可以學習這些「思維模板」。不只是一兩個字的片語、搭配詞,而是整體「表達的方向」。
例如:
✔︎ 在表達從第一集就ㄉㄧㄠˊ住時,你可以說:�
I was hooked from the first episode.
It had me hooked from the start.
✔︎ 在表達很棒時,他們不會只說 It’s great. 他們會說
It's hands down one of the best series I’ve seen on Netflix.
One of the best shows I’ve seen in a long time.
✔︎ 其他正向表述、讚揚的講法還包含:
It’s worth a watch for sure! (值得一看)
It has set a high bar for other movies of this genre. (把標準提得很高)
It has definitely lived up to the hype! (真的如大家所說般地好 )
之所以為思維模板,就是母語人士ㄧ要描述電影觀後感時,
#幾乎都會馬上想到這些用法。我們不應該再走「中文想這樣講 — > 翻成英文」這樣的路。
記得,英文要學好不是要變成「逐字翻譯大師」。要從慣用思維、表達習慣下手。
🔥 如果你 / 妳喜歡這樣從思維下手,學習語塊不學單字的學習方式,歡迎你加入我在好學校 (Hahow) 上開設的線上課程 #3D英文筆記術。 站上大折扣剩下最後 3 天,不要錯過囉!
https://bit.ly/3mYj83s
(輸入折扣碼 GR2183,單堂 88 折、兩堂以上 83 折。)
Photo credit: Netflix
同時也有1部Youtube影片,追蹤數超過1萬的網紅Henry 羅寶鴻老師,也在其Youtube影片中提到,……….. 「這位爸爸或許不知道,其實他現在的表現與感受,正是小時候自己的投射。或許在他成長過程裡,也曾被大人如是怒目相視地責備過,而在當下他感受到害怕與委屈。 當年的他不知道如何應對大人,只能壓抑自己,咬緊牙關地度過生命成長的傷痛。但他一定不會想到,現在他的兒子,原來正重演著的他當年的故事,扮...
兩個字的 形容詞 在 Abby Chen Facebook 的最讚貼文
熱騰騰的GODHANDS「次元未來」官方秀場原圖🔥
請用________兩個字的形容詞來描述🐂👊
兩個字的 形容詞 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
兩個字的 形容詞 在 Henry 羅寶鴻老師 Youtube 的最讚貼文
………..
「這位爸爸或許不知道,其實他現在的表現與感受,正是小時候自己的投射。或許在他成長過程裡,也曾被大人如是怒目相視地責備過,而在當下他感受到害怕與委屈。
當年的他不知道如何應對大人,只能壓抑自己,咬緊牙關地度過生命成長的傷痛。但他一定不會想到,現在他的兒子,原來正重演著的他當年的故事,扮演著他當年的角色。
」- 羅寶鴻
………..
講座結束時,我如常地邀請在座朋友發問。
最後一位提問者,是一位爸爸。他拿著麥克風時,帶著靦腆的語氣說,他是五個孩子的父親。在場觀眾聽到他這麼講,都給予掌聲鼓勵他的勇敢與堅強。
他說,家裡其中一位哥哥寫作業特別地慢;每次他晚上下班都快十一、二點,但回到家裡卻還是看到這孩子還沒睡覺、拖拖拉拉地在寫作業。他發現,自己這時候都會用不好的方式來跟兒子互動。
他想問,要怎麼改善。
於是,我慢慢走到這位父親的面前,詢問這位爸爸,當他這麼晚回到家裡,看到孩子還沒睡、還在寫作業,心裡面的感受是什麼?
爸爸想了一下,慢慢地說:「我覺得...他應該要把作業寫好才對。」
但他回答我的是他的期待,而不是他的感受。我更相信我的判斷了,這位爸爸是一位很愛孩子的父親,卻也是一位不太善於表達自己、感受自己的成人。
但懂得「感受」,在人與人互動上非常重要;試問一個不善於感受自己、表達自己的人,又如何能感受別人,同理別人,改善自己與別人的互動呢?
所以,我就再重複當時的事件,並詢問爸爸當他很晚回家,看到兒子還在寫作業時,心裡有什麼感受,請他用兩個字的形容詞來描述。
他又想了一想,勉強地說出:「...會生氣吧。」
當下我感到,要一個已經不習慣感受自己的人說出自己的感受有多難,但很欣喜這位爸爸在語言引導下,慢慢進入自己冰山了。
我問他除了生氣還有其他感受嗎?他想一想,回答我「沒有」。
我好奇地問他,會有「不捨」嗎?他想一想,說有。
這是我刻意想要他覺察的;就是因為對孩子有著關愛,所以看到他這麼晚還沒寫完作業,才會感到不捨,但這點爸爸似乎沒有感受到。
於是我問他,當他感到不捨與生氣時,會對孩子怎麼表達?他又想了一下,慢慢地說:「...會把眼睛睜很大地看著他吧。」
於此,我確認了他在當下對孩子的應對姿態,我就跟他說讓我們來做個角色扮演,讓我演他,他演自己的孩子。
會這麼做的原因,是因為他已經辨識到自己感受了,現在也讓他瞭解孩子的感受。唯有體驗到孩子,我們才有可能幫助到孩子。
於是在現場,扮演開始。我演著這位爸爸開門回到家裡,看到孩子這麼晚還沒寫完作業,我把眼睛睜大,生氣地瞪著他...
在我瞪著這位爸爸的當下,我覺察到他身上散發的氣質突然「縮小」了;我觀察到他眼神的細微變化,從平靜到現在帶著點恐懼。我感到他內心的不知所措。
於是我繼續瞪著他,問他現在的感受是如何。他有點勉強地說:「...緊張吧。」
緊張是比較粗糙、未被辨識的情緒,我再問他在緊張裡還有什麼,他慢慢感受著自己,說出「害怕」與「委屈」。
他或許不知道,其實他現在的表現與感受,正是小時候自己的投射。或許在他成長過程裡,也曾被大人如是怒目相視地責備過,而在當下他感受到害怕與委屈。
當年的他不知道如何應對大人,只能壓抑自己,咬緊牙關地度過生命成長的傷痛。但他一定不會想到,現在他的兒子,原來正重演的他當年的故事,扮演著他當年的角色。
我問他,在當下害怕且委屈的他,希望爸爸可以怎麼對待他?(這正是他問我的問題)
他說:「希望...爸爸可以溫柔一點吧...」
我又問他希望爸爸溫柔地跟他說什麼呢?
他想一下,說不知道。同時,我感受到他當下內在的一點混亂。
我嘗試以語言給予他一些引導。我說如果你希望爸爸是溫柔的,希望他說一些關愛你的話語,你會希望他說什麼呢?
他又想了一下,說「... 不知道。」
於是我好奇地問他,現在家裡五個孩子,一家人有沒有常說些關愛對方的言語?
他搖搖頭、小聲地對著麥克風說:「...沒有。」
我再問,那在他從小到大的過程裡,家裡的大人習慣跟他講一些關愛的言語嗎?
我感到他內心變得更往下沉,更小聲地說:「..很少... 幾乎沒有。」
我瞭解了。
我們不能給予孩子我們沒有的。
這就是為什麼,這位爸爸一直無法改變自己的原因。
心裡悸動著,我心裡做了一個決定。
我看著這位當下感到無助的爸爸,用我的內心與他連結,對他說:
「...沒關係的,我以前也不會說關愛別人的話,也是這幾年才慢慢學會的。如果是我的話,我可能會跟我兒子說:
「孩子啊,你還在寫作業啊?」
「你怎麼這麼晚,還在寫作業呢?」
「是不會寫嗎? 有遇到困難嗎?」
「如果是遇到困難,你想要跟爸爸說嗎?」
「還是,不是不會寫,是因為心情不好?」
「最近,在學校發生什麼事了嗎?」
「如果是,你想跟爸爸說嗎?」
「如果現在不說,也是沒有關係的,你可以等到想跟我說的時候再跟我說。」
「我只是想跟你說,我這麼晚下班回到家,還看到你在寫作業,其實我心裡面,是很心疼你的。」
「我不知道你發生了什麼事,所以很擔心你。」
「我會擔心你,是因為,爸爸很愛你啊。」
我看著這位爸爸的眼睛,跟他講著這些話。
這位父親,眼眶紅了。彷彿這些話語進入了他的內心,療癒了他當年小時候的自己。
在當下,整個會場也充滿著感動的氛圍。(昨天與大樹老師分享這故事,他說這是「心流」)
而我想要給這位父親的答案,其實並不是答案,而是一份「被關愛」、「被接納」的體驗。當他體驗到,就慢慢知道要怎麼跟孩子應對了。
最後,我邀請在場的朋友,給這位勇敢、堅強的爸爸掌聲鼓勵。
在講座結束簽名時間,我突然想到我可以請這位爸爸把這些話寫下來,讓他可以自己多練習,再跟孩子使用。無奈,他已經離開了。
所以,我決定把這故事寫下來,也把這故事在youtube用影片記錄下來,希望這位有緣的爸爸能看見。
回程在高鐵,想著與這位爸爸美好的對話,心中充滿感動與感謝。
………….
以下是我敘述這故事的youtube影片連結,歡迎收看。也希望這有關父親角色的文章影片,能多分享給愛孩子的爸爸看:
https://youtu.be/HTui3BeRyR8
..........
【寶鴻的安定教養學】購書連結:
●博客來:https://cplink.co/yab6nz9d