本質淵源
因素空間是研究事物質根的數學理論,從哲學的角度看,因素是事物本體構成和認知描述中的元詞。在語言中,‘的’是使用得最廣泛的字眼,有些語句例如“張三很好”看起來沒有用到‘的’字,但其明確含意應該是“張三的人品很好”或者是“張三的身體很好”或者其它。‘的’字如此常見,那它的受詞是什麼?這是一個根本的哲學問題。有人說,的字的受詞是屬性,不對,在“張三的人品很好”這句話中,受詞是‘人品’而不是‘很好’。‘好’與‘不好’是屬性,‘很好’也是屬性,它們是一組可以相互比較的質態,人品不是屬性,而是這一組屬性在質態變化中保持不變的根。叫做質根。本文將特彆強調質根。中國人把紅, 橙,黃,綠,藍,靛,紫視為一組屬性,它們的質根是顏色,為將質根與屬性相區別,就不把顏色再叫屬性而叫因素。後面將會看到這樣叫的理由。在本文中,因素就是事物的質根。因素是屬性之名而非屬性之值。
‘的’字的作用是分析(注*),因素就是分析的根位和維度,它直接涉及事物的構造而成為本體構成的元詞。為了徹底揭示生物的奧秘,孟德爾提出了基因的概念,基因是生命體的質根。是打開生命之門的鑰匙,基因導致了DNA的出現。孟德爾最早把基因叫做因素,英文就是Factor,後來才改稱Gene, 我們所指的因素就是基因的推廣,就是廣義的基因,它是一切事物的構成之因。因素空間是以因素為軸的坐標架,任何事物都可被抽象成因素空間的一個點。它是事物描述的普適性框架。
語言是思維的工具,‘的字語言’是思維的分析工具。因素是的字語言的第一詞,也就成為思維描述的元詞。人腦的思考是分析與綜合反覆交叉的過程,就是因素與因素不斷分解與合成的過程,因素空間建立了因素之間這兩種基本運算和其它多種運算。一個因素統領著一串屬性,這一串屬性的集合叫做它的相空間。例如,顏色的相空間記為X(顏色)={紅,橙,黃,綠,藍,靛,紫}。因素是一個映射,它把對象映射成它所統領的一個屬性(或稱相值)。概念是一組因素的屬性組合。多個因素的聯合相空間是它們相空間的
笛卡爾乘積X。假定每個因素都有3個屬性,n個因素就有3的n次方那么多個屬性組合。因素空間理論所要的,不是所有這些構想出來的屬性組合,而是要從實際數據中考察樣本在X中所形成的分布,叫做(諸因素的)背景分布。背景分布支撐集中的每一個實際存在的屬性組合都是一個內涵描述,它以所對應著的一類對象為外延而確定一個概念,叫做原子概念。任意一組原子概念用‘或’字連線起來就可以生成複合概念,形成一個布爾代數。因素空間提供算法可以自動生成出所有的概念。問題不是怕生不出概念來,而是怕太多。那些能寫成合取範式,也就是在相空間中能用超矩形表示的概念,叫做基本概念。因素空間有簡單算法求取基本概念,並用儘量少的因素使基本概念半格的結構儘量簡單, 使專家能從中選擇少數合用的概念,進行命名並存入知識庫里。這樣,因素便成為概念生成之因。
因素不僅是事物構成之因,也是事物的發展之因。因素與因素之間的關聯造就了因果律,因果律產生邏輯,語言是邏輯的展現。的字語言中所展現出來的一種特有邏輯叫做因素邏輯。因素邏輯研究諸因素在一定對象上所呈現的因果律,“若張三的血壓很高則他的健康不佳”這個推理句中涉及的是同一個人在不同因素之間的因果聯繫。“若北冰洋的冰山加快融化,則馬爾地夫的面積就會加快縮小”這個推理句中所涉及的看似兩個不同的對象,但實際上這兩個對象必須聯合視為一體,或者擴大到地球這一體上來,才能談論因果。在因素邏輯中,一個因素是一個邏輯變元,其變化域就是它的相空間,對多個變元而言,如果背景分布充滿乘積相空間X,則這些因素是相互獨立的,獨立因素之間無因果聯繫,不會增添任何具有信息價值的推理。因果律只出現於背景分布的支撐集小於X的時候。例如,氣溫與降雨量是兩個密切關聯的因素,在它們的背景分布中要排除(低溫,豪雨)和(微熱,無雨)這樣的屬性組合。此時就會出現氣溫與降雨量呈正變的趨勢。給定諸因素的分布數據,因素空間提供算法,可以求出從條件因素到結果因素的推理規則樹,叫做因果樹。問題不在於是否能提出規則,而是怕提得太多。因果樹算法有辦法約簡因素而使因果樹的枝葉儘可能地少,使專家能從中選擇少數合用的規則,變成人們理解的語言並存入知識庫里。因素空間是因果推理的平台。背景分布的變化可以改變推理句的真值。隨著背景分布的收縮,因果規則就會增加。當背景分布集中在一條曲線上時,推理規則演變成函式關係,當二元背景分布集中在(a,b)這一點上時,因果律就最多。只要A包含a且B包含b,則A®B就是一條因果律。因素邏輯能反映背景分布的變化,在實際套用中就能反映場景的變化。
理性思維的過程是建立在概念與推理這兩個基本環節之上的,因素空間既能打通這兩個基本環節,也就可以從數學上描寫全部的理性思維。人類知識的大廈建立在無數知識單元上,每個知識單元都是按問題的需求而選擇一組因素來對一個上位概念做出更細的劃分,然後再運用這些新概念進行判斷推理和其它高級理性思維。一個知識單元所要做的事情恰好就是一個因素空間所能做的事情。
例如,有一個農村,得心血管疾病的人較多,於是,以這一地區的居民為論域, 以心血管防治為問題導向,考慮象徵、引起、和防止心血管疾病的因素,如血壓、血脂,血糖、菸酒歷史、嗜好情緒、家庭環境、生活習慣等等。按人按時按因素收集數據,這樣就形成了一個數據包。由於這個數據包是按因素設定的,叫做因素庫或因素數據包。前述因素空間的幾個算法是人工智慧的萬用工具,利用這些工具就能對這個數據包建立一個問答系統(Answer),它可以自動回答這一知識單元中所包含的三類理性問題:
(1)直接概念判斷,例如,“張三的血壓是否正常?”“收縮血壓正常,舒張血壓偏高的人群是那些?’“甲類人群的共同特徵是什麼?”,這些問題都與新生成的概念有關,要回答這些問題,只需從內涵找外延或從外延找內涵,便可得到答案。
(2)基於推理的概念判斷。 例如,“基於某些特徵,他的病該屬於哪一類型“?“基於某些狀況,究竟該作什麼決策”?“基於某些指標,究竟該作什麼評價”?“基於某些徵兆,究竟該作什麼預測”?“基於某些險情,究竟該如何控制”?…,這些問題都可運用因果樹算法而得到答案。若把分類當做結果因素,則因果樹就自動分類,若把決策當做結果因素;則因果樹就對專家設定的各種備擇方案作出選擇;若把評價當做結果因素,則因果樹就自動地給出評價等級;若把預測當做結果因素,則因果樹就自動預測;若把控制當做結果因素,則因果樹就自動進行控制;如此等等。
(3)回答前因後果的問題,如“這是因為什麼”?“這將會引起什麼”?“為了實現甲,我該如何改變乙”? 所有這三類問題的回答,都離不開專家的審核和整理,實現良好的人機結合。
於是,因素空間為人工智慧建立了萬用工具箱,可以引導各行各業的人士在他們自己的專業知識單元中建立起一個個將信息轉化為知識的智慧型演算器或知識產生器。然後再用因素藤和因素
神經網路理論把這些知識包連結起來,由局部到整體,從系統到行業,形成整個社會的巨型知識網路。這樣的智慧型神經網路就是因素空間理論所要推動的偉大智慧型工程!
數據是信息的載體,信息的價值在於它所含有的意義。數據一旦放進因素的相空間,便顯示了它所攜帶信息的意義。因素空間強調背景分布是智慧型演算的核心,背景分布決定一切知識,背景分布是每個知識產生器的培植目標,而這個目標是靠同表頭的樣本分布疊加出來的,因此,因素空間把數據的地位從奴僕提升為培植的對象和塑造的主體。同表頭樣本的疊加可以在不同地方進行並行計算。樣本是對母體的單調逼近,越用越穩定,可以經得住大數據的衝擊,樣本點在相空間中不留對象姓名,不涉及隱私,這些都是因素空間理論面對大數據所具有的優勢。這樣,因素空間既是人工智慧的理論基礎,也是信息和數據科學的理論基礎。
人腦是信息的最佳化處理器。沒有因素,屬性就像斷線的珍珠撒滿遍地。因素是對屬性的最佳化,人腦的
感覺神經元就是按因素分區分層分片地組織起來的。一個因素所轄的神經元分別對該因素所屬的不同屬性值負責。每個神經元對所負責的屬性值興奮而對其它屬性值抑制。一個對象在不同因素下有不同的興奮元,同時興奮的神經元之間的突觸要加粗。多次重複加粗就要形成突觸瘤。每個突觸瘤對應於一個原子概念。從這個意義上說,人腦具有因素特質。 人腦從信息中提取知識,同時又被知識所塑造,知識在頭腦中不是虛空,而是被記憶所固化的由突觸瘤所聯成的神經網路,因素空間理論在信息生態系統,知識生態系統和人腦記憶神經網路之間建立了三位一體的同構觀念,在因素空間指導下所要構建的超大智慧型神經網路就是這種同構觀念的物質實現。
因素空間從戰略高處俯視當今世界,其內容、意義與方法都契合時代發展的需要,可以引領以網路為翅膀、以智慧型為核心的大數據傳播浪潮。
套用範圍
因素空間不是空洞的理論,它已經具備實用的條件,問題在於用與不用。最直接的套用就是在各行各業建立起能在網上吞吐數據的知識產生器(或智慧型演算器,智慧型答問器,智慧型檢測器)及其網聯體。已經開始試用在煤礦監測、故障分析、信息安全、收益率曲線調節、銀行商業軟體開發、智慧網答問、倒逼機制評價系統,心血管疾病防治,顧客愛好分析,網路建模,社區和諧系統,智慧城市等等方面。隨著因素空間理論的普及,類似的套用將如雨後春筍般地湧現。套用深度將從一般模式轉向人性化的特殊模式。
因素空間的運用需要發展因素思維。
幼稚園就在培養兒童的因素思維。四件物品中有三件具有同質根的屬性,要孩子把第四 個看不順眼的物件刪掉,這就把因素意識潛移默化地放進了孩子們幼小的心靈。國小也在培養因素思維,讓學生學會畫因素圖,例如,先畫一個圓圈,裡面寫愛因斯坦的名字,從這個圓圈向四周畫出一些箭頭,一個箭頭註明是相貌特徵,在這個箭頭後面連著一個方框,裡面寫著‘俏皮的大鬍子’,一個箭頭註明的是學術成就,連著的方框中寫的是‘提出相對論’,其它箭頭涉及性格,警句,如此等等。因素圖畫多了,因素思維也就發展起來了。
發展因素思維需要突出因素的八個特性:
1、主動性。因素是對思維的主動牽引,聰明的人會出點子,就是會抓因素。會抓因素的人永遠主動;
2、變化性。因素只有在變化中才能顯示其對結果的影響。雨量充沛之所以是糧食豐收的原因是因為降雨量的變化可以使糧食豐收,也可以使糧食顆粒無收;
3、分辨性。因素的意義在於區分事物。有特點的因素才珍貴。卓別林走的是橫一字步,要鑑別一個對象,只需注意他與眾不同的特徵;
4、層次性。每個因素都要作用在具體的對象上,對象都有層次結構,因素要隨著對象的層次而層次化。例如人體的形態是一個因素,它有描寫人體形態的一串描述指標。但是人有頭、身軀和四肢等部位,於是人的形態就細分成頭部形態、身軀形態和四肢形態等更細因素,它們各有自己不同的描述指標。人頭又分為眼、眉、鼻、口等部分,於是,頭部形態又可進一步地細分。如此下去,形成因素的層次結構。人靠眼、耳、鼻、舌、身來主管視覺、聽覺、嗅覺、味覺和觸覺,就是這幾種因素細分下去,形成無數的因素,物質世界如此,精神世界仍然如此。因素再多,能實際搭配的總是某幾項基本因素在不同層次中的組合。
5、權衡性。因素有主次之分,要權衡輕重。權重運算可承載神醫名廚和能工巧匠的秘笈。神經網路要學習的是權重分配,深度學習的精髓在於對因素權重如何進行最佳化。
6、可分性。因素的分解隱藏著精細化的奧妙。工藝的精細在於因素的精細,兩個因素只要有相依的關係,就應該可以分解出一個更細的因素。但是,如何進行分解?這一點還是因素空間理論中尚待解決的疑難問題。
7、約簡性。因素要約簡,拋棄那些次要因素,事情再複雜,只抓少量的因素就足以應付事態;因素不約簡,大數據便無法應對。
8、隱密性。從本源上說,因素的狀態不可能完全裸露,能被描述和掌控的因素不可能總是完全的。不確定性永遠存在。
歷史沿革
汪培莊教授在上世紀六十年代,為了探索隨機性而啟動了因素思維。在機率論課堂上畫出了投擲硬幣的因素空間,指出隨機性是由於試驗的條件因素不充分而引起的事件發生的不確定性。機率論所研究的是在不充分條件下廣義的因果律。(廣義因果律生出廣義的邏輯,就是後來學者們提出的機率邏輯)。把機率論的基本空間看作是因素空間,可以更好地促成隨機性向確定性的轉化。1982年,汪培莊教授在研究模糊數學的時候,為了弄清楚模糊性的根源以及它與隨機性之間的聯繫與區別,再次啟動了因素思維,並正式發表了因素空間的論文。模糊性是由人腦識別因素的不充分而引起的概念外延的不確定性。把模糊集合的定義域看成是因素空間,汪培莊教授提出了模糊落影理論,把論域U上的模糊分布轉化為冪P(U)上的隨機分布,奠定了集值統計(包括區間統計)的數學思想,證明了四種非可加的主觀性測度與冪上隨機分布對應的存在性和唯一性定理。在錢學森教授的指導下,憑藉著理論優勢,於1988年5月在北師大研製出當時國際上第二台模糊推理機,從日本首台每秒一千萬次提高到每秒一千五百萬次推理運算。這是因素空間在模糊數學研究中所取得的成就。因素空間是模糊數學的深入發展。自此以後,因素空間一直用於知識表示和模糊計算機的研製,出版了相應的著作。
在1982年出現因素空間的同時,德國的Wille提出了形式概念分析,波蘭的Pawlak 提出了粗糙集。Wille 用內涵與外延的對合性,首次在數學中定義了概念,並提出了生成基本概念半格的算法,開闢了智慧型數學的先河,計算機也開始自動生成概念。Wille看重屬性,在他的形式背景表中按屬性設列,造成列數膨脹的困難。Pawlak 用屬性名取代屬性值,克服了這一困難。他是數據知識發現的領頭人之一,研究目標十分明確,他的信息系統表格是關係資料庫的標準形式,粗糙集成為資料庫的理論基礎。他所選取的屬性名就是因素,但遺憾的是,他只知其然而不知其所以然,沒有足夠的因素思維,有些理論問題說不清楚,存在漏洞,以粗糙集為基礎的資料庫理論難以應對大數據的挑戰。
汪培莊教授在2012年開始把因素空間的理論轉移到資料庫上來,建立了因素庫的理論和方法,使因素空間獲得了新的發展。用因素空間來描述智慧型與數據科學,在理論上能把問題敘述得更清楚,處理得更嚴密,在方法上能使算法更簡捷,在目標上把視野提得更深遠。能夠引領大數據的潮流。
值得指出的是,早在1931年,美國心理測量學家Thurstone就提出了因子分析(Factor Analysis), 其中心理測量的因子就是因素空間的因素,儘管他並沒有把心理測量提到認知數學的高度,所用的數學方法也是四則運算,後來才用了數理統計方法,但他卻早就舉起了因素的大旗而成為先驅. 如今,因素空間要繼承他所舉起的這面旗幟,與因子分析、粗糙集、形式概念分析等兄弟學科相輔相成地向前發展. 從長遠發展來看,因素空間要得到發展,還必須運用更深刻的數學理論,如張量Topos、代數拓撲、Domain 理論和辛幾何等。
注* ‘的’字的用途主要有5類:
1. 用‘的’表示目的,是名詞,如‘有的放矢’;2. 用‘的’字作語氣詞,例如‘好樣的’、‘他媽的’;3. 用‘的’字連線形容詞和名詞,例如‘藍的天’、‘美好的回憶’等等,這樣的‘的’叫做‘修飾的’;4. 用‘的’字連線一個總體和它的局部,例如‘中國的北京’,‘老虎的前額’等等, 這樣的‘的’叫做‘屬於的’; 5. 用‘的’字連線一個對象和它的屬性,例如‘汽車的顏色’、‘文章的結構’等等,這樣的‘的’叫做‘分析的’。第一、二兩類用得極少,第三類雖然在文學中用得很多,但在自然和
人文社會科學中卻較少。作為科學研究,‘的’字的用途屬於第四、五兩類。在這兩類運用中,‘的’字的作用等價於英文中的of(但次序相反), 可以合稱為‘of的’。‘屬於的’是把考察對象縮小範圍,可以被‘分析的’所概括,因而在科學領域所使用的‘的’字本質上是‘分析的’。