WO2005036441A1 - 生体関連事象間の相関データの可視化方法、解析法及びデータベース - Google Patents

生体関連事象間の相関データの可視化方法、解析法及びデータベース Download PDF

Info

Publication number
WO2005036441A1
WO2005036441A1 PCT/JP2004/010250 JP2004010250W WO2005036441A1 WO 2005036441 A1 WO2005036441 A1 WO 2005036441A1 JP 2004010250 W JP2004010250 W JP 2004010250W WO 2005036441 A1 WO2005036441 A1 WO 2005036441A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
correlation
display
protein
Prior art date
Application number
PCT/JP2004/010250
Other languages
English (en)
French (fr)
Inventor
Motoi Tobita
Tetsuo Nishikawa
Ken Horiuchi
Masashi Nemoto
Kenji Araki
Original Assignee
Reverse Proteomics Research Institute Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reverse Proteomics Research Institute Co., Ltd. filed Critical Reverse Proteomics Research Institute Co., Ltd.
Priority to US10/569,494 priority Critical patent/US20060287831A1/en
Priority to JP2005514528A priority patent/JP4690199B2/ja
Publication of WO2005036441A1 publication Critical patent/WO2005036441A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to correlation data between bio-related events, in particular, proteins, small molecule compounds,
  • the present invention relates to a method for visualizing interaction information between biological substances such as DNA and gene expression profiles. Further, the present invention relates to a graphical user interface and a visualization system incorporating the above method. Further, the present invention relates to an analysis method and a database incorporating the above method. Background art
  • this interaction data shows what kind of proteins a small molecule affects, and conversely, what small molecules a protein has.
  • the information is combined with the information on the interaction between a protein and a small molecule compound to produce protein. Understand the functions in the body and determine which functions Change can be predicted. In other words, it is possible to predict whether a low-molecular-weight compound can become a drug.
  • large-scale data collection has recently begun between two different bio-related events. The problem was that the larger the amount of data, the more difficult it was to look at the entire data and extract features from it. In addition, if the data volume increases, many detailed references of individual data are required, and the observation of individual sites becomes frequent. Therefore, the importance of information visualization methods is increasing in order to effectively extract information embedded in large amounts of correlation data.
  • a display method that describes a matrix in which one event is arranged in rows and the other event is arranged in columns, and the correlation data between two events is described in the cell where this matrix intersects is there.
  • a method of displaying colors according to the expression intensity in the cells of the matrix is generally used.
  • a method of displaying colors or shades according to the interaction in a matrix cell has been used.
  • a method of displaying qualitative information such as “ten” or “ten” in a matrix cell according to the interaction has been used (Patent ( PCT: W02 / 23199 A2)).
  • the method of displaying the correlation information between two events in a matrix it is common to perform clustering based on the pattern of the correlation data on the matrix. By analyzing what kind of events in the obtained cluster, the relationship between the correlation information and the characteristics of each event can be found. Similarly, by sorting the events according to the characteristics of each event and comparing the obtained correlation information pattern with the characteristics of the event, the relationship between the correlation information and the characteristics of each event can be determined. As described above, in the method of visualizing correlation data using a matrix, it is important to be able to observe both the pattern of the correlation information and the characteristics of each event.
  • a matrix display is performed for correlation data with a large number of data, and clustering based on the correlation data pattern ⁇ sorting of events based on the characteristics of each event is performed. Identify. Then, by accessing the detailed information of the feature and interaction information of the components of the identified pattern, it is possible to consider the meaning of the obtained pattern. Furthermore, clustering and sorting are performed again using a method different from the above-described clustering and sorting, and the entire correlation data pattern obtained is observed. Examining whether they belong to a cluster has the potential to lead to new discoveries. In this way, by alternately switching between displaying a large amount of correlation data matrix and displaying individual correlation data, it is considered possible to discover new knowledge about correlation data.
  • the conventional method of visualizing correlation data using a matrix has a problem that, when the scale of the number of data fluctuates greatly, appropriate information according to the scale cannot be obtained. For example, let's say that the number of pixels on the screen is about 1 000 pixels by 1 000 pixels X 1 000 pixels (30 cm X 30 cm in size). If the data size is several tens ⁇ hundreds of order, the number of pixels per one cell in the 10 to several tens of pixels X 10 to several tens of pixels, is several min 2 to l cin about 2 in the size The color or shading pattern and each data point can be observed simultaneously.
  • the number of pixels per cell is several pixels X several pixels or less, and the size of one cell is about 1 mm 2 or less.
  • the cell size is too small to complicate the pattern information, and at the same time, it becomes difficult to recognize each cell.
  • Another problem is that drawing time is long.
  • the data size increases to several hundreds or more, coarse-graining of a pattern in which a certain number of cells or a plurality of cells corresponding to clusters are collectively recorded as one correlation data is selected.
  • the size of one cell is about several mm to lcm X several mm to lcm, and the correlation data pattern and each data point can be observed simultaneously.
  • T / JP2004 / 010250 Conversely, if the size of a row or column is reduced to several tens or less, the number of pixels per cell is several tens of pixels X several tens of pixels or more, and the size of one cell is reduced. Despite being as large as several cm 2 or more, the amount of information per cell remains at a level that can be expressed in color, so the amount of information obtained from the entire screen decreases. To increase the amount of information that can be obtained from the entire screen, if one wants to refer to information about individual cells, it becomes necessary to access different information sources for each individual cell. In this case, it was difficult to simultaneously refer to the correlation data pattern and information on a plurality of cells constituting the pattern, and it was troublesome. Disclosure of the invention
  • the problem to be solved by the present invention is to provide a visualization method for displaying correlation data between two events in a matrix format, by using a correlation data pattern and information on a plurality of cells constituting the pattern in response to a change in the scale of the number of data. It is to provide a means to observe at the same time, in an appropriate format.
  • a screen display system for displaying correlation data between two events in a matrix format
  • One of the data display formats with different degrees of data integration per unit correlation data prepared in advance is automatically selected, and information on individual cells (correlation and information on each event) It is characterized by automatically selecting one of a plurality of display methods with different summarization levels prepared in advance, and displaying the correlation data and information on each cell.
  • a typical example of correlation data between two events is that one event is a protein, the other event is a small molecule, and the correlation data between events is the strength of the interaction between a protein and a small molecule. .
  • both events are proteins, and the correlation data between the events may be the strength of the interaction between proteins or proteins, or the sequence similarity between proteins.
  • one event may be a gene, the other event may be a cDNA library from which the gene is derived, and the correlation data between the events may be the expression intensity of the gene for each cDNA library.
  • both events are low-molecular-weight compounds, and the correlation data between the events may be structural similarity between low-molecular-weight compounds or interactions on drug efficacy or side effects.
  • the first step is to sort the data.
  • the data can be sorted in ascending or descending order for one of the protein's physical properties. It can also be sorted and sorted for each single class of protein. Similarly, data can be sorted in ascending or descending order for one of the compound's physical properties. You can also sort by a certain class of compounds.
  • proteins and small molecules may be rearranged so that proteins and small molecules having similar interactions are next to each other. it can.
  • clustering The calculation of similarity between proteins and small molecules based on interaction strength is called clustering, and is particularly useful for extracting data from information on the interaction between two events. This is a sorting method.
  • clustering the table showing the interaction strength is displayed with the strong and weak parts separated from each other. If a strong part is displayed in dark color, it can be regarded as an island floating on the sea. Each “island” is called a cluster. Clusters with higher intensities have a higher degree of attention, so clustering results can be observed in detail from important clusters by arranging each cluster diagonally in descending order of intensity.
  • the second step is to use these clusters obtained as a result of clustering.
  • clusters are classified into the following three types according to their shapes.
  • Long clusters is a cluster formed when two or more proteins interact strongly with one small molecule or when two or more small molecules interact strongly with one protein.
  • a large cluster is a cluster formed when all or a part of a combination of a plurality of low molecular compounds and a plurality of proteins strongly bind to each other.
  • singletons are clusters formed when a specific strong interaction is observed in a combination of one small molecule and one protein.
  • the common part of multiple low-molecular compounds (or proteins) is extracted.
  • the common part may be a range in which physical properties represented by numerical values can be taken, or may have similar structural features. Further, the case may be such that the attribute of a compound or a protein is represented by a profile composed of a plurality of elements.
  • These common parts are considered to be indispensable factors to generate binding with the target protein (or target low molecular weight compound).
  • the structural features of low-molecular-weight compounds involved in binding to the target protein lead to a concept called pharmacophore, which is information that plays an important role in drug discovery.
  • the structural features of proteins involved in binding to the target low-molecular compound are active sites expressed in terms of proteins such as “binding pocket” and “dent”.
  • the structural modification of the low molecular weight compound maintains the interaction with one protein in the cluster or loses the interaction with another protein in the cluster Such molecular design is also possible.
  • the next step is to search for low molecular weight compounds (or proteins) that do not belong to the cluster and have the same common partial structure.
  • the low-molecular compound (or protein) obtained as a result of the search is one for which no strong interaction with the target protein (or target low-molecular compound) was found by the definition of the cluster.
  • This pair is a doctor There may be a relationship between the drug and its target protein, a small molecule compound that causes side effects and its target protein, and binding may cause a biologically meaningful change. May not be. If this pair is a relationship between a drug and its target protein, chemical modification may be able to design low-molecular compounds that bind more specifically to the target protein.
  • a database of the cluster analysis results in the second step is created.
  • Analysis results of attributes common to the interaction clusters shown above, and known information related to each time extracted from the literature and patents are collected and compiled into a database.
  • This database is equipped with a function to search for known related information from cluster analysis results and a search for cluster analysis results from known information. By utilizing this search function, users will be able to make molecular or pharmacological interpretations of the interaction cluster.
  • the screen display method uses a display format in which (A) the correlation data element itself, for example, the binding constant between a low-molecular compound and a protein, is used as a data display format (referred to as an individual data display format). (B) A display format in which a group of multiple pieces of interaction data is used as a screen display data unit (a class obtained from clustering based on the pattern of correlation data and the characteristics of events). JP2004 / 010250 is a set of multiple interaction data. Therefore, it is characterized in that it has three display formats (called a cluster display format) and (C) a display format (called a statistical display format) in which the statistic of a plurality of correlation data is used as a screen display data unit.
  • the statistics of correlated data refer to the number of clusters themselves and the number of relevant information obtained from different data sources for each element of the cluster.
  • the screen display method according to the present invention is characterized in that it has a display method according to a plurality of summary levels set depending on the amount of information as a display method of information on individual cells (correlation and information on each event). And
  • the summarization degree is defined as a higher value as the amount of information in expressing one event is smaller.
  • the plurality of summarization levels defined by the present invention are as follows. When all the semantically non-overlapping information stored in the data field is output to the screen, the data is not summarized, so the degree of data summarization is assumed to be zero. For different types of data fields, data formats corresponding to multiple summarization levels are defined. For example, when displaying real data containing an exponent,
  • Summarization level 0 displays the field value itself
  • the value of the index part is classified into five clusters, and information is displayed in colors corresponding to the clusters.
  • each definition of the hierarchical structure is displayed in a staircase
  • a value corresponding to the value of the top layer of the hierarchical structure is displayed with a color.
  • the screen display method according to the present invention provides the above-described method according to a change in the number of data. Automatically or manually selecting one of the multiple data display formats, and multiple display methods that differ in the degree of summarization of information on individual cells (correlation and information on each event) described above. Automatically or manually selecting one of them, and displaying the correlation data and information on each event using the selected data display format and the degree of summarization. . '
  • the data display format and the summarization level When automatically selecting the data display format and the summarization level according to the present invention, it is necessary to select such that the amount of information displayed on the screen is kept close to a certain value near the maximum information amount that can be recognized by the user.
  • the data display format and summarization level are automatically selected based on the fact that all information related to one screen is displayed. However, you may allow a little scrolling of the screen.
  • Figure 1 is a flow chart of data visualization.
  • Figure 2 is an example of a screen display of interaction data between a small molecule and a protein.
  • Fig. 3 is an example of a screen display of data sorted based on the clustering result using the interaction data profile.
  • Figure 4 is an example of a screen display of data sorted based on the results of clustering using row and column features.
  • Fig. 5 shows an example of information display in cluster display format.
  • Fig. 6 is a screen display example of information for each of the four summarization levels in the individual data display format.
  • Fig. 7 shows the rules for determining the data display format and the degree of data summarization.
  • Figure 8 is a summary rule decision table for the low molecular compound physical property table.
  • Figure 9 is an overview of the related information extraction method.
  • FIG. 1 is a flow chart of data visualization.
  • Figure 2 is an example of a screen display of interaction data between a small molecule and a protein.
  • Fig. 3 is an
  • FIG. 10 shows the result of extracting relevant information.
  • FIG. 11 is an example of a user interface in which the present invention is implemented.
  • Fig. 12 shows the results before and after the PLD data was divided into clusters that divide the low-molecular-weight compounds into 25 groups and the proteins into 15 groups.
  • Fig. 13 shows two types of display examples of clustering results of PLD data.
  • FIG. 14 shows a matrix of the interaction between the low molecular weight compounds and the protein, an expression profile matrix in the cell tissue of the protein displayed adjacently, and an adverse event matrix of the low molecular weight compound.
  • Fig. 15 shows an example in which information on the interaction between low-molecular-weight compounds obtained by experiments and the information on the interaction between proteins of known low-molecular-weight compounds obtained from the literature etc.
  • Fig. 16 is a matrix in which information on chemical structure similarity of low-molecular-weight drugs and classification information based on an adverse event matrix are simultaneously displayed in one matrix as an interaction between two events.
  • Figure 17 shows an example of displaying complex information of a protein and a low-molecular compound using a two-dimensional table.
  • 101 User operation
  • 102 Internal calculation
  • 103 Data processing
  • 104 Protein-low molecular compound interaction database
  • 105 Various correlation tables
  • 106 Display data
  • 107 Data display format and summarization level determination rule.
  • 201 low molecular compound label
  • 202 protein label
  • 203 matrix portion
  • 204 molecular weight
  • 205 number of alpha helix and beta strands
  • 206 homology Clustering information based on gender.
  • Protein cluster B Protein cluster B
  • Protein cluster 307 Cluster consisting of a specific low-molecular compound and protein pair
  • 308 One A cluster consisting of a set of compounds that interact specifically with one another.
  • Cluster A with relatively large molecular weight A 402: Cluster B with medium molecular weight
  • 403 Cluster with relatively small molecular weight
  • 404: Cluster 1, 40 5 based on homology of amino acid sequence Based on amino acid sequence homology
  • cluster 2 406: Region with relatively high interaction.
  • 503 label
  • 502 number of elements belonging to the cluster
  • 503 list of elements belonging to the cluster
  • 504 matrix part.
  • 6 0 1 Screen display at summarization level 0
  • 6 02 Screen display at summarization level 1
  • 6 0 3 Screen display at summarization level 2
  • 6 04 Screen display at summarization level 3.
  • 7 0 1 Summarization level
  • 7 0 2 Data item
  • 7 0 3 Location
  • 7 0 4 Summarization rule
  • 7 0 5 Rule “as is”
  • 7 0 6 Rule “color (2 0, 3 0 0, 400, 500).
  • 801 Condition
  • 802 Display format
  • 803 Summarization level.
  • 90 1 Protein-low molecular weight compound interaction table
  • 90 2 Protein-protein interaction table
  • 903 Protein-expression table
  • 904 Low-molecular compound-low-molecular compound interaction table
  • 1 03 Related information acquisition button
  • 1104 Function group related to action
  • 1105 Function group related to selection
  • 1106 Related information display screen.
  • 1 203 An area where meaning can be found in the results of class lettering
  • 1 204 An area in which dissimilar interaction data is mixed in with the results of clustering
  • 1 3 0 1 Example of a part of matrix data in units of clusters displayed on the screen with summarization level 2 1 3 0 2: Number of low molecular compounds belonging to cluster 1 3 0 3: Number of proteins belonging to cluster Number, 1304: Number of interactions belonging to the cluster, 1305: Matrix display of individual proteins and low molecular weight compounds, 1306: 12x12 matrix Cluster, 1 3 0 7: Physical property value of a compound group that is an element of the cluster, 130 8: Cluster in which the physical property of the compound corresponds to the interaction strength, 130 0 9: Physical property of the compound that is an element of the cluster 130 8, 1310: A table in which the interaction strength of the cluster 13 08 and the physical properties of the compound 13 9 are projected into three levels.
  • 1 40 1 Matrix of small molecule protein-protein interaction
  • 1402 Matrix of expression profile in cell tissue
  • 1403 Adverse event matrix
  • 1 404 Small molecule protein-protein interaction cluster
  • 1 405 Small molecule Compound Protein-protein interaction cluster
  • 1406- Small molecule protein-protein interaction cluster region
  • 1407 Small molecule compound-protein interaction cluster region
  • 14008 Small molecule compound-protein interaction cluster region
  • 1 409 Interaction cluster region between small molecules and proteins
  • 1410 Expression profile in cell tissue
  • 1411 Expression profile in cell tissue
  • 1412 Adverse event matrix profile
  • 1413 Adverse event matrix profile
  • 1501 Interaction matrix between small molecule proteins
  • 1502 Cluster obtained by clustering based on known interaction information
  • 1601 A matrix displaying the chemical structure similarity information of low-molecular-weight compounds and classification information based on the adverse event matrix at the same time.1662: Clustering based on the chemical structure similarity information is obtained. Cluster, 1603: low molecular compound C5, pair between C4, 1604: compound pair without chemical structural similarity
  • 1 7 0 1 Column displaying the distance information between the centers of gravity of the complex of protein and low molecular weight compound, 1 7 0 2: Cluster containing low molecular weight compound, 1 7 0 3: Model of protein-low molecular weight compound complex BEST MODE FOR CARRYING OUT THE INVENTION
  • Example 1 As a correlation between two events, we consider the interaction between biological substances such as proteins, low molecular weight compounds, and DNA.
  • An example in which the interaction data between “small molecule compound” and “protein” is handled as two events of interest will be described below.
  • the interaction data refers to information as to whether or not complex data of small molecules and proteins are available in the Protein Data Bank (PDB, ht tp: ⁇ www. Pdb.org). It is data obtained by experimentally measuring the degree of binding between a low-molecular compound and a protein.
  • Protein characteristic data includes information from various external databases and calculated clustering results.
  • SWI SSPROT (ht tp: www.expacy.ch/sprot) ID
  • clustering results based on amino acid sequence homology
  • Gene Ontology http: // ww Geneontology.org
  • annotation information solubility in solvents, etc.
  • Characteristic data of low molecular compounds include various molecular characteristics such as molecular name, molecular weight, drug classification, charge distribution, hydrophilicity / hydrophobicity, steric structure, number of donors / acceptors for hydrogen bonds, type and number of functional groups, etc. Has a value.
  • User operation 101 is a part for selecting data and an action to be executed.
  • the functions include data acquisition 102 and data processing 103.
  • data acquisition 102 In order to obtain data, a database of protein-low molecular compound interactions under various search conditions 1
  • Data processing includes processing such as clustering for the entry specified on the display screen, and processing such as changing the display scale.
  • the acquired or processed data is treated as display data 106.
  • the data display format and the degree of summarization are determined for the displayed data.
  • the data display format and the summarization level are determined based on the data display format and the summarization level determination rule 107 prepared in advance according to the number of pieces of display data. According to the determined display format and the degree of summarization of the data, a data screen display 108 is performed.
  • correlation tables include a protein-protein interaction table, A protein expression profile table, a structural similarity between a low molecular compound and a low molecular compound, an interaction table on drug efficacy or toxicity, and the like can be considered.
  • the key point of the present invention is that "the data display format and the degree of summarization are determined based on the data display format and the summarization degree determination rule prepared in advance according to the number of data of the display data.” Will be described in detail below.
  • Figure 2 shows an example of a screen display of the interaction data between a low-molecular compound and a protein.
  • the small molecule label 201 and the protein label 202 are arranged vertically in the matrix, and the matrix part 203 contains the experimentally measured protein and small molecule compounds.
  • the color intensity is displayed according to the strength of the binding.
  • molecular weight 204 is displayed as the characteristic amount of the compound, and on the upper side of the protein label, the number of alpha helix and beta strand 205 and the protein interaction amount are expressed as the characteristic amount of the protein.
  • the clustering information 206 based on the similarity of the two is displayed.
  • the interaction data displayed on the screen in a tabular format is clustered based on the interaction data input file, or clustered based on the characteristic amounts of proteins and low molecular weight compounds, and the resulting clustering is obtained.
  • the data can be rearranged and displayed based on the information.
  • Clustering using the interaction data is performed, for example, by the following method.
  • One focusing on the low molecular compound Ci, interacting therewith intensity profile 1 of each protein Pj (j l,.. ., N p, N p is the number of protein) we consider the.
  • the distance between the brute force interaction intensity profiles between all the low molecular weight compounds is calculated.
  • the distance D ik between the interaction strength profiles between the low-molecular compound and the low-molecular compound C k is calculated by the following formula, for example.
  • the sum in the above equation j l,..., Take the N p.
  • Figure 3 shows the results of the actual clustering described above. Small molecule compounds are classified into three clusters, and proteins are also classified into three clusters. The results are shown on the label of the small molecule compound in the small molecule cluster A301, the small molecule cluster B302, and the small molecule cluster C It is identified as protein cluster A 304, protein cluster B 305, and protein cluster C 306 on the label of the protein by its color intensity.
  • the average of the binding constants which is the interaction data, is calculated internally for each cluster, and the clusters are sorted from top to bottom and from left to right in descending order by the average of the binding constants.
  • a cluster 307 consisting of a pair of a specific low-molecular compound and a protein, or a cluster containing many compounds that specifically interact with one protein 308 etc. will be visually evident.
  • the molecular weight can be divided into several categories for clustering, tanno,. It is possible to classify the number of quality anorefa helittas and beta strands according to a certain level. And clusters based on molecular weight, 0 Display data can be sorted for clusters based on the number of alpha-heriters and beta-strands, or clusters based on previously calculated homology of amino acid sequences. In particular, if the data for a certain feature is rearranged and a characteristic coupling constant color pattern appears, it is possible to know that the feature and the coupling constant are closely related.
  • Figure 4 shows the results of clustering the data based on the molecular weight for the low molecular weight compound and the amino acid homology for the protein side, and rearranging the table according to the clustering results.
  • the low molecular weight compounds are classified into clusters A401 with relatively large molecular weight, clusters B402 with medium molecular weight, and clusters C403 with relatively small molecular weight according to the molecular weight.
  • the whole is sorted in descending order by molecular weight.
  • the clusters 1,404 and clusters 2,405 are shown on the screen based on the amino acid sequence homology.
  • the low-molecular compounds belonging to cluster B overlap with the relatively high-interaction region 406 in the interaction matrix.
  • each cell in the table corresponds to an interaction between one protein and a small molecule.
  • This is called the "individual data display format” here.
  • individual data display format As the number of proteins and the number of low-molecular compounds increase, the size of the table increases, making it difficult to grasp the entire data. That is, unless the size of each cell in the table is changed according to the increase in the number of data, the entire table cannot be displayed on the screen, and the state of the entire data cannot be overlooked. Conversely, if the size of each cell in the table is reduced so that the entire table fits on the screen, the pattern of the interaction data displayed in the cell becomes finer, making it difficult to recognize its features. Become. Therefore, in order to make it possible to recognize the interaction pattern of the entire table in a glance even when the number of data is increased, each cluster in Fig. 3 or 4 is displayed as one cell on the table. Enabled. This is called “cluster display format" here.
  • Fig. 5 shows an example of information display in cluster display format.
  • the label 501 contains the number of the cluster, and the number of features belonging to the cluster 502 and the list 503 of elements belonging to the cluster are shown as features.
  • the average value of the measured data for each cluster is indicated by the color density, and the number of elements constituting the cluster is indicated by numerical values. It is possible to switch between information display in individual data display format and information display in cluster display format. Operations such as sorting and deleting rows and columns in one display format are reflected in another display format.
  • the cluster display format similar proteins and similar low-molecular compounds form clusters, so it is possible to visualize representative data without dropping it.
  • the number of rows and columns in the displayed table can be controlled even when the number of interaction data is large.
  • “Statistics display format” is an information display format complementary to the individual data display format and the cluster display format. This format is used to display statistical data such as average and standard deviation for all or part of the data, and to display the number of data extracted from different data sources. In the statistics display format, you can get an overview of the data regardless of the number of interaction data can do. In particular, when the number of data increases, it becomes difficult to recognize the interaction pattern of the entire table at a glance, even in the cluster display format. In such cases, the statistics display format is very effective from the viewpoint of grasping the whole picture of the data.
  • a plurality of display formats are prepared, and at the same time, as information to be displayed in each cell of the matrix, a plurality of data with different degrees of summarization are prepared, and information corresponding to the number of data is selected from among them It is characterized by being used.
  • summarization levels When displaying the interaction data of proteins and small molecules, four summarization levels (0-4) are prepared. At a summarization level of 0, all the information stored in the database and the statistics calculated from it are displayed. At a summarization level of 1, up to 64 characters of character data, symbols, and colors can be displayed per cell. Text fields in the database can be displayed as long as they are 64 characters or less, and even if they are long, the information can be reduced to 64 characters or less. Summarization level 2 can display up to eight characters of character data, symbols, and colors per cell. At summarization level 3, character data is not displayed. Express all information in color.
  • the information display at summarization level 0 is free format, and at summarization level 1, the size of one cell is 60 pixels vertically ⁇ 120 pixels horizontally, with 16 characters x 4 lines in it. Allocate an area to display the text.
  • the size of one cell is 20 pixels vertically and 60 pixels horizontally, and an area for displaying text of 8 characters x 1 line is secured in it.
  • the size of one cell is 5 pixels vertically by 5 pixels horizontally. In principle, it is possible to reduce the size of one cell to at least 1 pixel x 1 pixel, but we use a mouse to select a cell size that allows us to manipulate individual data.
  • Figure 6 shows an example of a screen display of information for each of the four summarization levels in the individual data display format.
  • Screen display at summarization level 0 6 1 shows interaction data, low molecular compound Product data and protein data are displayed in detail.
  • the display format is free, and it is possible to display and manipulate the structure of proteins and low molecular weight compounds.
  • the screen display at the summarization level of 1 displays the key for accessing various external databases related to protein, the name and efficacy of low molecular weight compounds, and detailed numerical values of the measurement data of the interaction. .
  • the displayed character data is limited to 8 characters, so labels such as labels for identifying rows and columns and main values of interaction measurement data are limited. Displaying information.
  • the value taken by each cell is converted into color information and displayed. Thus, similar data can be visually recognized from the color pattern.
  • rules need to be created on how the information is summarized according to the degree of summarization.
  • the basic rules are that at summarization level 0, all information is displayed, at summarization levels 1 and 2, information is displayed according to the character length, and at summarization level 3, color is displayed. Following these basic rules, detailed summarization rules need to be defined for each data item in the database.
  • Fig. 7 shows an example of a summary rule determination table for the low molecular compound feature table. Information on which data item 702 of the fields in the table is processed into which location 7303 and what summary rules 7004 are displayed on the screen according to the summarization level 7 01 Is given.
  • the display format of three data and the degree of summarization of the four data have been described above. By combining these, it is possible to visualize data from various angles.
  • the present invention is characterized in that when a user selects information to be viewed, a function of automatically determining an optimum data display format and data summarization degree according to the number of data.
  • Figure 8 shows the rules for determining the data display format and data summarization level in a table format.
  • the condition 8001 is viewed in order from the top, and when the condition is satisfied, the display format 8002 described in the line and the summarization degree 803 are adopted. If not, look at the next line.
  • G, R, Gc, and Rc are the numerical values defined in FIG. Hereinafter, this table will be described.
  • the number of proteins P and the number of low-molecular compounds C when both the number of column-wise features and the number of row-wise features are 1 Both are 2 or more and 9 or less.
  • the size of one cell is 60 pixels vertically by 120 pixels horizontally, and in the information display area of 450 pixels vertically by 900 pixels horizontally, all the data are displayed.
  • the display size of the data is from 240 pixels vertically x 480 pixels horizontally to 660 pixels vertically x 132 pixels horizontally. This is within 1.5 ⁇ 1.5 times the entire information display area.
  • the summarization level is gradually increased to 2, 3 according to Fig. 8. If the number of P and C increases further, Switch to the cluster display, and increase the summarization level to 1, 2, and 3 as the number of protein clusters Pc and the number of low-molecular compound clusters Cc increase.
  • the conditions for G, R, Gc, and Rc for switching the display format and summarization level described above are as follows:
  • the display size of all data is within 1.5 x XI.5 times the entire information display area.
  • the conditions are set so that To meet the generalized criterion of displaying information for all data within n x m times the data display area,
  • the generalized condition can be used to determine the data display format and the degree of summarization.
  • Acquisition of related information is performed as follows. Select the cell area of interest in the displayed data table, and extract the low molecular compound ID and protein ID belonging to this cell area. These IDs are searched in the related data table, and information accompanying the searched ID is extracted from the related data table.
  • Figure 9 shows a specific method for extracting relevant information.
  • the binding strength between proteins is specified as 100, the maximum value.
  • the protein-protein interaction table 922 and the protein-expression table 933 which shows the qualitative protein expression level in the expression library 1, have data for proteins with a protein ID of P12. Extract the Similarly, from the low-molecular compound-low-molecular compound interaction table 904 that stores data on the effect of using multiple drugs between low-molecular compounds and no data, data exists for those with IDs of C5 and C9. Extract things.
  • the related information extraction results are arranged and displayed for each source table.
  • the information display format and summarization level are automatically set according to the number of hits, and the information is displayed on the screen in the set display format and summarization level.
  • the related information can be obtained from a part of the information displayed in such a manner. Therefore, according to the present invention, multidimensional interaction data can be visualized by efficiently following the link between the one-to-one interaction data.
  • a part of the information displayed on the screen is selected, an action selected from a plurality of actions is performed on the selected data, and an action of the action is performed.
  • the resulting information is displayed on the screen.
  • Fig. 11 shows an example of the user interface.
  • Display mode change button 1 1 0 1 Summarization level change button 1 1 0 2
  • Related information Acquisition button 1 1 0 3 In addition to row and column replacement, sorting, clustering, deletion, etc. It has a related function group 1104 and a function group 1105 related to selection of characteristic rows and columns, and rows and columns as a representative subset.
  • mouse actions are assigned to each of the cells displayed in a table on the screen, so that rows and columns can be selected, and the related information display screen 1 1 0 6 can not be displayed in the cell It can also display long character string data.
  • Fig. 12 shows the results before and after clustering the PLD data into clusters that divide the low molecular weight compounds into 25 groups and the proteins into 15 groups.
  • the matrix before clustering 1221 is rearranged like the matrix after clustering 1222.
  • dots indicating combinations of interacting proteins and low molecular weight compounds are scattered on the matrix, but by clustering, rows and columns with similar interaction intensity patterns are adjacent. Is displayed. In the region where the meaning can be found in the clustering results, the region with strong interaction appears as an “island” in the matrix.
  • Fig. 13 shows two examples of display of clustering results of PLD data.
  • the data belonging to each cluster should have similar interaction intensities if the clustering results are significant. Therefore, the number of rows and columns in the table can be reduced by expressing all the elements included in the cluster with one representative value. The average value was used here as the representative value.
  • the number of low-molecular compounds belonging to the cluster is 1
  • the number of proteins that interact with each other and the number of interactions that belong to the cluster defined by their product are shown.
  • the low molecular weight compound is divided into 25 clusters, and the protein is divided into 15 clusters, so that the size of the entire table is 25 X 15.
  • the position of the element containing the maximum value is specified from the matrix of 25 x 15. If the position force of the element is s (P, q), the first element of the matrix is replaced by the P-th row, and the first and q-columns are exchanged. 1) That is, it can move to the upper left.
  • the results of clustering are arranged diagonally, but the only difference is that in the operation on the second lap, the element with the largest value is assigned to the first row and the first row of the matrix. It is to find out from the matrix of 2 5 X 14 excluding the column, and to move the element to the position of (2, 2).
  • the matrix displayed in units of clusters can be returned to the display 135 by the matrix in units of individual proteins and low molecular weight compounds.
  • the number of interactions belonging to the above cluster 1 3 4 4 has 1 2 elements, so if it is expressed in units of proteins and low molecular weight compounds, it will be expressed by a matrix of 1 2 vertical x 1 horizontal Cluster 13 06
  • the structure of the compound can be actually displayed and compared by clicking on the label of the compound. By comparing such structures, it is possible to infer the common structure and active site of the compound. Here, such detailed analysis is omitted because it is outside the scope of the present invention.
  • Molar refractivity is between 8.3 and 11.5, and the log P value is between 2.4 and 4.5.
  • Most compounds belonging to this cluster also belong to the 3 AND MORE RING SYSTEMS (compounds with three or more ring structures) in terms of structural classification.
  • a more detailed relationship between physical properties and bond strength can be seen from the observations in Table 1310, in which the interaction strength of cluster 13 08 and the physical property value of the compound 13 09 are projected to three levels. .
  • the condition of the physical property value to have a strong bond is that the partition coefficient between water and octanol is small, and the molecular reflectance is medium or large. If either one is satisfied, the binding strength is moderate, and if neither is satisfied, the binding strength is the weakest among the compounds in the cluster.
  • Example 3 As a method of extracting a common attribute of a compound or a protein from a cluster obtained based on the interaction, the attribute of the compound or the protein is expressed by a profile including a plurality of elements.
  • FIG. Fig. 14 shows the expression profile matrix 1442 in the cell tissue as the attribute of the protein, and the adverse event matrix 1443 as the attribute of the low molecular weight compound. This is displayed adjacent to the matrix 1401 of the interaction between compound and protein. Proteins are indicated as P1 to P7, cell tissues are indicated as T1 to T7, low molecular compounds are indicated as C1 to C6, and adverse events are indicated as S1 to S5.
  • the protein-protein interaction matrix may be one obtained by experiment or one obtained from literature.
  • the adverse event matrix can be found, for example, in the Japan Pharmaceutical Collection DB (http://www.japic.or.jp/publications/inaex3.ntml). Obtained by examining the occurrence of each term in the glossary (MedDRA).
  • the small molecule protein-protein interaction cluster 1444 can be classified into two regions 1406 and 1407. These two regions correspond to two protein groups (P4, P5) and (P6, P7) with different profiles of 14010 and 1411, respectively, in the expression profile matrix in cellular tissues. Yes, it is. This shows that the proteins in cluster 144 interact with the common low-molecular compound C2, but interact with two different groups of proteins in the expression profile in cell tissues. . This means that when the low molecular weight compound is a drug, it interacts with two types of target proteins having different physiological functions. Furthermore, by examining the function of the interacting partner protein, it would be possible to speculate about the relevance of this drug to the efficacy.
  • the small molecule protein-protein interaction cluster 1405 can be classified into two regions 14008 and 1409. This These two areas correspond to two groups of low molecular compounds (C2, C3) and (C4, C5) with different profiles 1412 and 1413, respectively, for adverse events. I have. Of these two low molecular weight compounds, one interacts with one protein P 1, while the other interacts with two proteins plus another protein P 2. This makes it possible to infer that the two proteins are each associated with a different adverse event profile.
  • the low molecular weight compound and the profile composed of multiple elements as an attribute of the protein may be a protein-protein interaction, a protein phylogenetic tree profile, a compound structural profile (MACCS key descriptor, etc.), and the like. No. In all these cases, determine where and how the low-molecular compounds and proteins that make up the cluster obtained based on the interaction are different when viewed in terms of attributes as a profile consisting of multiple other elements It becomes possible.
  • a method of simultaneously identifying and displaying a plurality of types of correlation data between the bio-related events in a matrix cell will be described.
  • Fig. 15 shows an example in which the interaction information obtained by the experiment and the known interaction information obtained from the literature are displayed simultaneously.
  • FIG. 15 shows the interaction matrix 1501 between low-molecular-weight compound proteins. The low-molecular compounds are indicated by C1 to C6, and the proteins are indicated by P1 to P7.
  • the cells of the low-molecular-weight protein-protein interaction matrix are compared with the upper and lower cells corresponding to the interactions obtained from experiments and literature It is divided into two regions, and the presence or absence of interaction is indicated by whether or not a symbol (experiment; image, literature; ⁇ ) is written in the divided region.
  • cluster 1502 obtained by clustering based on known interaction information obtained from literature and the like is shown.
  • cluster 1502 by focusing on the interactions obtained by experiments, it is possible to evaluate how much of the known interaction information could be reproduced by experiments.
  • the cell of (C3, P4) there is an interaction obtained in the literature between the low-molecular compound C3 and the protein P4, but it was found that no interaction was obtained in the experiment. Understand.
  • experimental interactions 1503 that do not belong to the cluster of known interaction information it is possible to identify interactions that are not found in the literature but are newly obtained by experiments. it can.
  • FIG. 16 shows a matrix 1601 in which the chemical structural similarity information of the low-molecular-weight drug and the classification information based on the adverse event matrix are simultaneously displayed.
  • Information on the chemical structural similarity of low-molecular-weight pharmaceutical compounds can be found in, for example, the MACCS key item ⁇ ⁇ child ⁇ Reop timiza tion of MDL Keys for Use in Drug Discovery, j.L. Durant, BA Le land, DR Henry, JG Nourse , JCICS, 2002, 42 (6), 1273-1280.).
  • the classification information based on the adverse event matrix can be obtained by comparing the adverse event profiles in the adverse event matrix described in Example 2.
  • the cells of the matrix are divided into two areas corresponding to the chemical structure similarity information and the classification information based on the adverse event matrix, respectively.
  • the classification information by matrix is displayed.
  • the chemical structure similarity strength is represented by the color intensity (K; high similarity ⁇ ; medium similarity ⁇ ; low similarity). Is displayed.
  • Figure 16 shows the results of clustering based on chemical structure similarity information and collecting the clusters near the diagonal of the matrix. Based on the chemical structure similarity information and the adverse event matrix in the cluster based on the chemical structure similarity information 4 010250 By comparing and observing the classification information, it is possible to determine the degree of similarity in chemical structure and the degree of the same classification according to the adverse event matrix. For example, cluster
  • the low molecular weight compounds C 2, C 3, C 4, and C 5 have similar chemical structural similarities to each other.
  • the low molecular weight compounds C5 and C4 there is a weak chemical structural similarity between the groups, but it can be seen that they do not belong to the same cluster depending on the adverse event matrix.
  • the same cluster is formed by the adverse event matrix, the presence of an adverse event independent of the chemical structural similarity can be confirmed.
  • Simultaneously displayed correlation data includes sequence similarity and structural similarity between proteins, sequence similarity and functional similarity between proteins, sequence similarity and expression profile similarity between proteins, and structure between low molecular weight compounds Similarity and efficacy classification, and structural classification by two different methods between low molecular weight compounds may be used. Also, interaction information obtained by different experimental methods may be used. In all of these cases, it is possible to obtain concrete and intuitive information on how a cluster obtained by one criterion is different from a cluster obtained by another criterion.
  • a method of displaying complex information of a protein and a low-molecular compound using a two-dimensional table will be described.
  • Both biological events are the atoms of protein residues and the center of gravity of small molecules.
  • a plurality of proteins and low molecular weight compounds may both be present in the complex.
  • the correlation data between them the interatomic distance, the distance between the centers of gravity of the distance between centers of gravity, and C a atoms one low molecular compound having a low molecular compound is used.
  • the case of one protein and one low molecular compound will be described with reference to FIG.
  • the distance between atoms of the protein is arranged vertically and horizontally in the order of residue number.
  • Fig. 17 shows the result of writing " ⁇ " in the cell when the distance is less than a certain distance as the distance information, and then rearranging the data after clustering. In the upper left corner on the diagonal line of the distance matrix, there is a cluster 1702 containing low-molecular compounds.
  • a visualization method that displays correlation data between two biological events in a matrix format By using the visualization method according to the present invention and an interface that implements the visualization method, coarse-grained correlation data patterns and access to other sources of information for each cell can be made depending on the size of the correlation data. Without having to perform the work manually, information on the correlated data pattern and the cells that make up the pattern can be simultaneously obtained in an appropriate display format and summarization level automatically selected according to the variation in the number of data. It becomes possible to observe. This makes it possible to observe the whole image of the data while automatically maximizing the amount of information obtained from the individual cells, regardless of the number of data to be displayed.
  • the present invention When the present invention is applied to interaction data between bio-related events, for example, protein-small molecule compound interaction data, the user can see at a glance all of the strengths of these interactions. In addition, when the number of data is large, proteins and low molecular weight compounds with similar interaction intensities are presented on the screen in a compact form with the amount of data. Conversely, when a user focuses on a portion of the interaction data, they can make decisions in drug discovery research while viewing detailed information. Similarly, by analyzing and analyzing protein-protein interaction and other important interaction data using the present invention while visualizing the data, the data processing in the drug discovery process can be accelerated, and the drug discovery process can be accelerated. It leads to speedup.
  • bio-related events for example, protein-small molecule compound interaction data

Abstract

データ数の規模の変動に応じて、相関データの単位が異なる予め用意された複数のデータ表示形式の中から一つを自動的に選択し、また、個々のセルに関する情報(相関データや各事象に関する情報)について要約度の異なる予め用意された複数の表示方法の中から一つを自動的に選択して、相関データと個々のセルに関する情報を表示する。これにより、二つの事象間の相関データを行列形式で表示する可視化方法において、相関データの全体としての観察と少数データの詳細な観察を交互に繰り返す作業の手間を軽減する。

Description

明 細 書 生体関連事象間の相関データの可視化方法、 解析法及びデータベース
技術分野
本発明は、 生体関連事象間の相関データ、 特に蛋白質、 低分子化合物、
D N A等の生体内物質間の相互作用情報や遺伝子の発現プロファイル等の 視覚化方法に関する。 また、 本発明は、 上記方法を取り入れたグラフィカ ルユーザーインターフェース、 及び可視化システムに関する。 更に、 本発 明は、 上記方法を取り入れた解析法及びデータベースに関する。 背景技術
ヒ トゲノム計画の完了に伴い、 遺伝子配列、 さらにはそこにコードされ たタンパク質配列情報が網羅的に集積されてきている。 現在、 新しい診断 方法や新薬の創出を目指して、 これらの配列情報やタンパク質を用いた機 能解析が、 盛んに行われている。 タンパク質の機能を調べる上で、 タンパ ク質一タンパク質相互作用を知ることには、 非常に重要な意味がある。 そ れは、 他の生体内物質との相互作用が、 タンパク質の機能そのものである からである。 タンパク質一タンパク質相互作用以外にも、 遺伝子のライブ ラリ一毎の発現プロファイルやタンパク質一低分子化合物相互作用などの ように、 二つの物質、 一般化していえば二つの事象間の相関関係情報は'、 生体内物質のシステムと しての機能の解明に寄与すると考えられる。 タン パク質一低分子化合物相互作用に関して言えば、 この相互作用データは、 低分子化合物がどのようなタンパク質群に影響を与えるのか、 また逆にタ ンパク質はどのような低分子化合物によって影響を与えられるかについて の知見を提供する。タンパク質の発現量や発現タイミングに関する情報や、 タンパク質と他のタンパク質との相互作用情報があつたとき、 これらの情 報とタンパク質一低分子化合物相互作用情報とを組み合わせることで、 タ ンパク質の生体内の機能がわかり、 その機能が低分子化合物によってどの ように変化するかを予測することができる。 言い換えれば、 低分子化合物 が医薬品になり うるかどうか予測することができるということである。 こ のような背景に基づき、 近年、 さまざまな二つの生体関連事象間で大規模 なデータ収集が行われ始めている。 そこでは、 データ量が増大すればする ほど、 データ全体を概観しそこから特徴を抽出することが困難になるとい う問題があった。 また、 データ量が増大すれば、 個別データの詳細な参照 が多数必要となって、個別サイ トの観察が頻繁になるという問題もあった。 そこで、 大量の相関データから、 その中に埋もれている情報を有効に抽出 するために、 情報可視化方法の重要性が増大している。
大量の相関データの可視化方法として、 一方の事象を行、 もう一方の事 象を列にとつた行列を考え、 この行列の交差するセル内に二つの事象間の 相関データを記述する表示方法がある。 発現プロファイルでは、 行列のセ ル内に発現強度に応じた色彩を表示する方法が、 一般に用いられている。 タンパク質ータンパク質相互作用の可視化においても、 行列のセル内に相 互作用に応じた色彩あるいは濃淡を表示する方法が行われている。 タンパ ク質—低分子化合物相互作用の可視化においても、 行列のセル内に相互作 用に応じた 「十十」、 「十」 などの定性的情報を表示する方法が行われてい る (特許 (PCT : W0 02/23199 A2) )。
二つの事象間の相関関係情報を行列で表示する方法においては、 行列上 の相関データのパターンをもとにクラスタリ ングを行うことが一般的に行 われている。 得られたクラスター内の事象がどういう事象かを解析するこ とによって、 相関情報と各事象の特徴間の関連がわかる。 また同様に、 各 事象の特徴によって事象のソートを行い、 得られた相関情報パターンと事 象の特徴を比較することによって、 相関情報と各事象の特徴間の関連がわ かる。 このように、 行列による相関データの可視化方法においては、 相関 情報のパターンと各事象の特徴を両方観察できることが重要である。
従って、 情報閲覧の有効な方法として、 まず、 データ数の規模が大きい 相関データに対する行列表示を行い、 相関データパターンによるクラスタ リ ングゃ各事象の特徴による事象のソート等によって特徴的なパターンを 同定する。 その後、 同定したパターンの構成要素に関する特徴量や相互作 用情報の詳細情報にアクセスしていく ことによって、 得られたパターンの 持つ意味について考察していくことが可能になる。 さらに、 上述したクラ スタリ ングやソートと異なる方式でクラスタリ ングやソートを再度行い、 得られた相関データパターンの全体を観察し、 その中で先に注目した個別 の相互作用と事象がどのようなクラスターに属しているかを調べることに よって、 新たな発見に繋がる可能性が生じる。 このように、 大量の相関デ 一タ行列表示と個別の相関データ表示との間で交互に行き来を繰り返すこ とによって、 相関データに関する新しい知識の発見が可能になると考えら れる。
しかしながら、 従来の行列による相関データの可視化方法においては、 データ数の規模が大きく変動した際に、 規模に応じた適切な情報が得られ ないという問題があった。 例えば、 画面の画素数が縦横 1 , 000 ピクセル X 1 , 000 ピクセル程度 (大きさで言えば 30cm X 30cm) 程度であるとしょう。 データ規模が数十個〜百個のオーダーの場合は、 一つのセルあたりの画素 数は 10〜数十ピクセル X 10〜数十ピクセルで、 大きさにして数 min2〜l cin2 程度になり、 色彩あるいは濃淡のパターンと各データボイントーつ一つが 同時に観察可能である。
しかし、 データ規模が数百個以上に増大した場合は、 一つのセルあたり の画素数は数ピクセル X数ピクセル以下で、 一つのセルの大きさは 1mm2以 下程度になる。 この場合は、 セルが小さすぎてパターン情報が複雑になる と同時に、 セル一個一個の認識が困難になってくる。 また、 描画時間がか かるという問題も生じてくる。 このように、 データ規模が数百個以上に増 大した場合には、 一定数のセルあるいはクラスターに対応した複数のセル をまとめて一つの相関データを記载するパターンの粗視化を選択すること で、 一つのセルのサイズが数 mm〜lcm X数 mm〜lcm程度になり、 相関デー タパターンと各データボイントーつ一つが同時に観察可能になる。従来は、 この操作をユーザーがマニュアルによって実施する必要があり、 手間がか かっていた。 T/JP2004/010250 逆に、 行ないし列の規模が数十個以下に減少した場合は、 一つのセルあ たりの画素数が数十ピクセル X数十ピクセル以上で、 一つのセルの大きさ にして数 cm2以上と大きいにも関わらず、 セル当りの情報量が色彩で表現 される程度の情報量のままであるため、 画面全体から得られる情報量が減 少してくる。 画面全体から得られる情報量を増加させるために、 個々のセ ルに関する情報を参照しょう とすれば、 個々のセル毎に別の情報ソースに アクセスする必要が生じてく る。 この場合、 相関データパターンと、 パタ ーンを構成する複数のセルに関する情報を同時に参照することが困難であ り、 また手間も大きかった。 発明の開示
本発明が解決しよう とする課題は、 二つの事象間の相関データを行列形 式で表示する可視化方法において、 相関データパターンとパターンを構成 する複数のセルに関する情報を、 データ数の規模の変動に応じて適切な形 式で、 同時に観察する手段を提供することである。
背景技術で述べてきたように、 二つの事象間の相関データを行列形式で 表示する可視化方法において、 相関データパターンとパターンを構成する 複数のセルに関する情報を同時に観察するためには、 相関データ規模の大 小によって、 相関データパターンの粗視化 (クラスタリ ング等によって複 数のセルをまとめて要約する作業) や、 セル毎の情報の他ソースへのァク セス等の作業を実施する必要があった。 しかも、 従来の方法では、 これら の作業はマニュアルによって行わなければならなかった。 従来の技術で述 ベたように、 大量の相関データから有効な知識を発見するためには、 相関 データの全体としての観察と少数データの詳細な観察を交互に繰り返す作 業が必要である。 従来のマニュアルによる方法は、 この繰り返し作業を行 う際の効率が非常に低かった。 したがって、 多量のデータから創薬に有用 な知識を抽出する効率も低かった。
前記課題を解決するため、 本発明による二つの事象間の相関データを行 列形式で表示する画面表示システムは、 データ数の規模の変動に応じて、 予め用意された複数の単位相関データあたりのデータの集積度が異なるデ ータ表示形式の中から一つを自動的に選択し、 また、 個々のセルに関する 情報 (相関や各事象に関する情報) について予め用意された複数の要約度 が異なる表示方法の中から一つを自動的に選択して、 相関データと個々の セルに関する情報を表示することを特徴とする。
二つの事象間の相関データの典型例としては、 一方の事象は蛋白質、 も う一方の事象は低分子化合物、 事象間の相関データは蛋白質一低分子化合 物間の相互作用の強さである。 また、 両方の事象共に蛋白質で、 事象間の 相関データは蛋白質一蛋白質間の相互作用の強さ、 あるいは蛋白質間の配 列類似性であってもよい。 さらに、 一方の事象は遺伝子、 もう一方の事象 は遺伝子が由来する c D N Aライブラリ一であって事象間の相関データは 遺伝子の c D N Aライプラリー毎の発現強度であってもよい。 また、 両方 の事象共に低分子化合物で、 事象間の相関データは低分子化合物間の構造 類似性や薬効上又は副作用上の相互作用であってもよい。
多量の相関データ、 例えば蛋白質一低分子化合物相互作用データ、 から 有用な知見を取り出すに当たっての解析は二つのステツプによって行われ る。 第一のステップは、 データの並べ替えである。 並べ替えの方法は複数 ある。 データは蛋白質の物性のうちの 1つに対して昇順、 または降順に並 ベ替えることができる。 また、 蛋白質のある 1つの分類ごとにまとめて並 ベ替えることもできる。 同様に、 データは化合物の物性のうちの 1つに対 して昇順、 または降順に並べ替えることができる。 また、 化合物のある 1 つの分類ごとにまとめて並べ替えることもできる。 さらに、 蛋白質一低分 子化合物の相互作用強度に類似性に基づいて、 類似した相互作用を持つ蛋 白質や低分子化合物が互いに隣にくるように、 蛋白質や低分子化合物を並 ベ替えることもできる。 相互作用強度に基づく、 蛋白質間および低分子化 合物間の類似度の計算はクラスタリ ングと呼ばれるものであり、 特に 2つ の事象間の相互作用情報から知識を抽出するにあたり有用なデータ分類、 並べ替えの手法である。 クラスタリングにより、 相互作用強度を表示する 表は、強度が強い部分と、弱い部分が分離した形で表示されるようになり、 強度が強い部分を濃く色づけして表示すれば、 その部分は海に浮かんだ島 に見立てることができる。 一つ一つの 「島」 をクラスターと呼ぶ。 クラス ターは強度の強い部分ものほど、 着目度が高いので、 クラスタリング結果 は、一つ一つのクラスターを強度における降順に対角線上に並べることで、 重要なクラスターから順番に詳細な観察ができる。
さて、 第二ステップは、 クラスタリ ングの結果得られたこれらクラスタ
——つ一つの詳細な解析である。 まず、 クラスターを形によって以下の 3 つに分類する。 長いク ラスター、 大きいクラスター、 シングノレト ンの 3つ である。 長いクラスタ一は、 一つの低分子化合物に対して複数の蛋白質が 強く相互作用するときや、 一つの蛋白質に対して複数の低分子化合物が強 く相互作用するときに形成されるクラスターである。大きいクラスタ一は、 複数の低分子化合物と複数の蛋白質の組み合わせの中の全部または一部が 互いに強く結合するときに形成されるクラスターである。 最後にシングル トンは、 一つの低分子化合物と一つの蛋白質の組み合わせにおいて、 特異 的に強い相互作用が見られた場合に形成されるクラスターである。
上記の 3種類のクラスターごとに異なる解析を行う。 まず、 長いクラス ターの解析では、 複数ある低分子化合物 (又は蛋白質) の共通部分を抽出 する。共通部分とは数値で表される物性の取り うる範囲であってもよいし、 構造上の類似した特徴であってもよい。 また、 化合物、 あるいはタンパク 質の属性が複数の要素からなるプロファイルで表現される場合であっても よい。 これら共通部分は対象蛋白質 (又は対象低分子化合物) との結合を 生み出すために必須のファクターであると考えられる。 特に、 対象蛋白質 との結合に関与する低分子化合物の構造上の特徴部分はファーマコフォア と呼ばれる概念に通じ、 ファーマコフォアは創薬の上で重要な役割を持つ 情報である。 逆に、 対象低分子化合物との結合に関与する蛋白質の構造上 の特徴部分は蛋白質の 「結合ポケッ ト」、 「へこみ」 などの言葉で表現され る活性部位であり、 これらの活性部位の形状を詳細に観察することで、 低 分子化合物の構造修飾により、 クラスター内のある蛋白質に対する相互作 用は保持するか、 クラスター内の別の蛋白質に対する相互作用が失われる ような分子のデザィンも可能となる。 共通部分構造の抽出ができたとした ら、 次にクラスターに属さない低分子化合物 (又は蛋白質) のうち、 同様 の共通部分構造を持つものを検索する。 検索の結果得られた低分子化合物 (又は蛋白質) はクラスターの定義により対象蛋白質 (または対象低分子 化合物) との強い相互作用が認められなかったものである。 したがって、 クラスターに属する低分子化合物 (又は蛋白質) とクラスターに属さない が同様の共通構造をもつ低分子化合物 (又は蛋白質) を明快に区別するよ うな物性や構造上の特徴の抽出も重要である。長いクラスターがあるとき、 それらひとつひとつの要素における相互作用強度は異なると考えられるが、 要素をクラスター内で相互作用強度の順序に並べ替えたときに、 相互作用 強度の変化を説明できるような物性や構造上の特徴の抽出は、 低分子化合 物であれば、 それらを最適化してより対象蛋白質に特異的に結合する低分 子化合物のデザィンにつながる有用な知見となる。
大きなクラスターの解析では、 基本的には長いクラスターの解析を蛋白 質方向と低分子化合物方向に複数回繰り返す。 大きなクラスタ一の解析で は、 長いクラスターの解析の結果得られるような知見の複数倍の知見が得 られるので、 それらを統合することで、 より確実な低分子化合物や蛋白質 の物性上、 構造上の特徴を明らかにすることができる。
化合物、 あるいはタンパク質の属性が複数の要素からなるプロファイル で表現される場合として、 タンパク質との相互作用プロファイル、 タンパ ク質の発現プロファイル、 低分子化合物の薬効や副作用プロファイル等が 考えられる。 これらのプロファイルを用いれば、 蛋白質一低分子化合物相 互作用から得られたクラスター中のタンパク質や低分子化合物を、 これら のプロファイルでみた場合の共通性によって、分類することが可能である。 最後に、 シングルトンの解析であるが、 ここでは、 長いクラスターゃ大 きなクラスターの解析に用いたような共通部分構造の抽出というアイディ ァを用いることはできない。 しかしながら、 シングルトンの構成要素であ る低分子化合物と蛋白質は特異的に結合するペアであることから、 このべ ァの生物学的重要性を考察することがもっとも重要である。 このペアは医 薬品とそのターゲッ ト蛋白質の関係にあるかもしれないし、 副作用を引き 起こす低分子化合物とそのターゲッ ト蛋白質の関係にあるかもしれないし、 結合しても生物学的にはあまり意味のある変化を引き起こさないかもしれ ない。 もし、 このペアが医薬品とそのターゲッ ト蛋白質の関係であれば、 化学修飾によってより特異的に対象蛋白質に結合する低分子化合物がデザ ィンできる可能性がある。
最後に第ニステツプでの、 クラスターの解析結果をデータベース化する。 上記で示した相互作用クラスターに共通の属性の解析結果、 及文献や特許 から抽出されたび関連する既知情報 (蛋白質一蛋白質相互作用の情報、 低 分子化合物と蛋白質の複合体情報、 低分子化合物の毒性情報、 蛋白質の発 現情報など) を収集し、 データベース化を行う。 このデータベースには、 クラスター解析結果からの既知関連情報の検索や、 既知情報からのクラス ター解析結果の検索機能を搭載する。 この検索機能を活用することにより、 ユーザーは、 相互作用クラスターの分子生物学的あるいは薬学的な解釈を 行うことが可能になる。
以上の二ステップの解析によって、 多量のデータから、 創薬に有用な知 見を抽出することを目指しているが、 第一ステツプではデータがあまりに 多量であり、 表の形ですベてのデータを表示し、 そこからデータの意味を 理解するのは困難であるという問題がある。 逆に第二ステップでは、 クラ スターごとにデータを詳細に観察するため、 より詳しいデータが画面上で 見られなくはいけない。 実際の解析においては、 これらのステップの繰り 返しによってデータ解析を進めていくため、多量のデータの簡潔な表示と、 比較的少量のデータの詳細な観察が容易に繰り返されるようなシステムが 求められている。
本発明による画面表示方法は、 データ表示形式として、 (A ) 相関データ の要素そのもの、 例えば低分子化合物とタンパク質の結合定数、 を画面表 示データ単位とする表示形式 (個別データ表示形式と呼ぶ)、 ( B ) 複数の 相互作用データのまとまりを画面表示データ単位とする表示形式 (相関デ ータのパターンや事象の特徴に基づくクラスタリ ングから得られたクラス JP2004/010250 ターを、 複数の相互作用データのまとまり とする。 そこで、 クラスター表 示形式と呼ぶ)、 ( C ) 複数の相関データの統計値を画面表示データ単位と する表示形式 (統計表示形式と呼ぶ) の三つを有することを特徴とする。 相関データの統計値とは、 クラスターの数そのものや、 クラスターの各要 素について別のデータソースから得られる関連情報の数などをいう。
本発明による画面表示方法は、 個々のセルに関する情報 (相関や各事象 に関する情報) の表示方法として、 情報量に依存して設定された複数の要 約度に従った表示方法を有することを特徴とする。 要約度は、 一つの事象 を表現する際の情報量が小さいほど高い値として定義される。
本発明によって定義される複数の要約度は、 以下のとおりである。 デー タフィールドに格納されている意味的に重複しない全ての情報を画面に出 力するとき、 データは要約されていないので、 データの要約度は 0である とする。 異なる種類のデータフィールドに対して、 それぞれ複数の要約度 に対応するデータのフォーマッ トを定義しておく。 例えば、 指数部分を含 む実数データの表示において、
要約度 0ではフィールド値そのものを表示、
要約度 1では指数部分のみを表示、
要約度 2では指数部分の値を五つのクラスターに分類し、 クラスターに対 応する色で情報を表示、
要約度 3ではある閾値以上のもののみ色をつけて表示、
とすることができる。 また、 階層構造を表している文字列データの表示に おいて、
要約度 0では階層構造のそれぞれの定義を階段状に表示、
要約度 1では階層構造の最上層または最下層の定義のみを表示、 要約度 2では階層構造の最上層または最下層に対応する情報をシンボルや 色彩に射影して表示、
要約度 3では階層構造の最上層の値に対応する色をつけて表示、 とすることができる。
本発明による画面表示方法は、 データ数の規模の変動に応じて、 上述し た複数のデータ表示形式の中から一つを自動的に又は手動で選択するステ ップ、 また上述した個々のセルに関する情報 (相関や各事象に関する情報) の要約度の異なる複数の表示方法の中から一つを自動的に、 あるいは手動 で選択するステップ、 及び選択したデータ表示形式と要約度を用いて、 相 関データと各事象に関する情報を表示するステップ、 とを含むことを特徴 とする。 '
本発明によるデータ表示形式と要約度を自動的に選択する場合、 画面に 表示される情報量をユーザーが認識可能な最大の情報量付近の一定の値の 近傍に留めるような選択を行うことを特徴とする。 別の言い方をすれば、 一つの画面に関連するすべての情報が表示されることを基準としてデータ 表示形式と要約度を自動的に選択する。 ただし、 画面の少々のスクロール を許してよい。
以上のことを行うことによって、 二つの事象間の相関データを行列形式 で表示する可視化方法において、 相関データ規模の大小によって、 相関デ 一タパターンの粗視化や、 セル毎の情報の他ソースへのアクセス等の作業 をマニュアルで実施することなく、 相関データパターンとパターンを構成 する複数のセルに関する情報を、 データ数の規模の変動に応じて自動的に 選択された適切な形式で、 同時に観察することが可能になる。 これによつ て、 相関データの全体としての観察と少数データの詳細な観察を交互に繰 り返す作業を、 従来のマニュアル操作に比べ大幅に効率的に実施すること が可能になり、 大量の相関データからの有効な知識の発見を効率的に行う ことが可能になる。 図面の簡単な説明
第 1図は、 データ可視化のフローチャー トである。 第 2図は、 低分子化 合物とタンパク質の相互作用データの画面表示例である。 第 3図は、 相互 作用データプロファイルを用いたクラスタリ ング結果に基づいてソートさ れたデータの画面表示例である。 第 4図は、 行および列の特徴量を用いた クラスタリ ング結果に基づいてソートされたデータの画面表示例である。 第 5図は、 クラスター表示形式での情報表示例である。 第 6図は、 個々デ ータ表示形式での 4つの要約度別の情報の画面表示例である。 第 7図は、 データの表示形式とデータの要約度を決定するためのルールである。 第 8 図は、 低分子化合物物性テーブルについての要約ルール決定表である。 第 9図は、 関連情報抽出方法の概要である。 第 1 0図は、 関連情報の抽出結 果である。 第 1 1図は、 本発明を実装したユーザーインターフェースの面 面例である。 第 1 2図は、 PLDデータを低分子化合物を 2 5、 タンパク質 を 1 5のグループに分割するようなクラスターにした前後の結果である。 第 1 3図は、 PLDデータのクラスタリ ング結果の 2種類の表示例である。 第 1 4図は、 低分子化合物タンパク質間相互作用の行列、 及び隣接して表 示されたタンパク質の細胞組織における発現プロフアイル行列と低分子化 合物の有害事象行列である。 第 1 5図は、 実験によって得られた低分子化 合物タンパク質間相互作用情報と文献等から得られた既知低分子化合物タ ンパク質間相互作用情報を、 一つの行列内に同時に表示した例である。 第 1 6図は、 2つの事象間の相互作用として、 医薬品低分子化合物の化学構 造類似度情報と有害事象行列による分類情報を、 一つの行列内に同時に表 示した行列である。 第 1 7図は、 蛋白質と低分子化合物の複合体情報を二 次元の表を使って表示した例である。
以下、 各図で用いられている符号を説明する。
1 0 1 :ユーザー操作、 1 0 2 : 内部計算、 1 0 3 :データ処理、 1 0 4 : 蛋白質一低分子化合物相互作用データベース、 1 0 5 : 各種相関関係テー ブル、 1 0 6 :表示データ、 1 0 7 :データ表示形式と要約度決定ルール。
20 1 :低分子化合物のラベル、 2 0 2 : タンパク質のラベル、 2 0 3 : マ ト リ クス部分、 2 0 4 : 分子量、 20 5 : アルファヘリ ックスとベータ ストランドの数、 2 0 6 : 相同性に基づくクラスタリ ング情報。
3 0 1 :低分子化合物クラスター A、 3 0 2 :低分子化合物クラスター] 3、
303 :低分子化合物クラスター 3 04 : タンパク質クラスター A、 3
0 5 : タンパク質クラスター B、 3 0 6 : タンパク質クラスター 3 0 7 : 特定の低分子化合物とタンパク質の組からなるクラスター、 3 0 8 : —つ のタンパク質について特異的に相互作用をもつ化合物の組からなるクラス ター。
40 1 :分子量の比較的大きなクラスター A、 402 : 中程度の分子量を持 つクラスター B、 40 3 : 分子量の比較的小さなクラスター 40 4 : ァ ミノ酸配列の相同性に基づいてクラスター 1、 40 5 : アミノ酸配列の相 同性に基づいてクラスター 2、 40 6 : 比較的相互作用が高い領域。
5 0 1 : ラベル、 5 0 2 : クラスターに属する要素の数、 5 0 3 : クラス ターに属する要素のリス ト、 5 0 4 : マトリクス部分。
6 0 1 :要約度 0における画面表示、 6 0 2 :要約度 1における画面表示、
6 0 3 :要約度 2における画面表示、 6 0 4 :要約度 3における画面表示。
7 0 1 : 要約度、 7 0 2 : データ項目、 7 0 3 :場所、 7 0 4 : 要約ルー ル、 7 0 5 :ルール 「そのまま」、 7 0 6 :ルール 「色彩 ( 2 0 0 , 3 0 0, 40 0, 5 0 0 )」。
8 0 1 : 条件、 8 0 2 :表示形式、 8 0 3 : 要約度。
90 1 : タンパク質—低分子化合物相互作用テーブル、 9 0 2 : タンパク 質一タンパク質相互作用テーブル、
90 3 : タンパク質一発現テーブル、 9 04 :低分子化合物一低分子化合 物相互作用テーブル。
1 1 0 1 : 表示モー ドの変更ボタン、 1 1 0 2 : 要約度の変更ポタン、 1
1 0 3 : 関連情報取得ボタン、 1 1 04 : ァクションに関連する機能群、 1 1 0 5 : 選択に関連する機能群、 1 1 0 6 : 関連情報表示画面。
1 2 0 1 : クラスタリ ング前の行列、 1 2 0 2 :クラスタリ ング後の行列、
1 2 0 3 : クラス.タリングの結果に意味を見出せる領域、 1 2 04 : クラ スタリ ングの結果に非類似な相互作用データが入り混じった領域
1 3 0 1 : クラスターを単位とした行列データの一部を要約度 2で画面表 示した例、 1 3 0 2 : クラスターに属する低分子化合物の数、 1 3 0 3 : クラスターに属するタンパク質の数、 1 3 0 4 : クラスターに属する相互 作用の数、 1 3 0 5 :個々のタンパク質と低分子化合物を単位にした行列 による表示、 1 3 0 6 :縦 1 2 X横 1の行列で表されるクラスター、 1 3 0 7 : クラスターの要素である化合物群の物性値、 1 3 0 8 :化合物の物 性と相互作用強度が対応するクラスター、 1 3 0 9 : クラスター 1 3 0 8 の要素である化合物の物性、 1 3 1 0 : クラスター 1 3 0 8の相互作用強 度と化合物の物性値 1 3 0 9の値を 3段階の値に射影した表
1 40 1 :低分子化合物タンパク質間相互作用の行列、 1 402 :細胞組 織における発現プロファイル行列、 1 40 3 : 有害事象行列、 1 404 : 低分子化合物タンパク質間相互作用クラスター、 1 405 :低分子化合物 タンパク質間相互作用クラスター、 1 40 6 : 低分子化合物タンパク質間 相互作用クラスター領域、 1 40 7 :低分子化合物タンパク質間相互作用 クラスター領域、 1 40 8 :低分子化合物タンパク質間相互作用クラスタ 一領域、 1 40 9 :低分子化合物タンパク質間相互作用ク ラスター領域、
1 4 1 0 :細胞組織における発現プロファイル、 1 4 1 1 :細胞組織にお ける発現プロファイル、 1 4 1 2 :有害事象行列のプロファイル、 1 4 1 3 :有害事象行列のプロファイル
1 5 0 1 :低分子化合物タンパク質間相互作用行列、 1 5 02 :既知相互 作用情報に基づく クラスタリングによって得られたクラスター、 1 5 0
3 :既知相互作用情報のクラスターに属さない、 実験によって得られた相 互作用
1 6 0 1 : 医薬品低分子化合物の化学構造類似度情報と有害事象行列によ る分類情報を同時に表示した行列、 1 6 0 2 : 化学構造類似度情報に基づ くクラスタリングを行い、 得られたクラスター、 1 6 03 :低分子化合物 C5、 C4間ペア、 1 6 0 4 :化学構造類似度がない化合物ペア
1 7 0 1 : 蛋白質と低分子化合物の複合体の重心間距離情報を表示した行 列、 1 7 0 2 :低分子化合物を含むクラスター、 1 7 0 3 : タンパク質一 低分子化合物複合体のモデル 発明を実施するための最良の形態
以下、 図面を参照して本発明の実施の形態を説明する。
[実施例 1 ] 二つの事象間の相関関係として、 蛋白質、 低分子化合物、 D N A等の生 体内物質間相互作用を考える。 着目する二つの事象として 「低分子化合物」 と 「タンパク質」 間の相互作用データを扱う場合の実施例を、 以下に説明 する 。 こ こ で、 相互作用 デー タ と は、 Prot e in Data Bank (PDB, ht tp:〃 www. pdb. org)中に低分子化合物とタンパク質の複合体データがあ るか、 ないかという情報や、 実験的に低分子化合物とタンパク質との間の 結合の度合いを測定したデータである。タンパク質の特徴データとしては、 各種外部データベースの情報や計算されたクラスタリ ング結果を持つ。 例 えば、 SWI SSPROT (ht tp:〃 www. expacy. ch/sprot )の IDや、 アミノ酸配列相 同 性 に 基 づ レヽ た ク ラ ス タ リ ン グ 結 果 、 Gene Ontology(http : // ww. geneontology. org) に基づ、ァノテ一ショ ン情報、 溶媒への溶解度などである。低分子化合物の特徴データとしては、分子名、 分子量、 薬効分類、 その他、 電荷分布や親水,疎水性、 立体構造、 水素結 合のドナー · ァクセプター数、 官能基の種類や数など様々な分子特性値を 持つ。
まず、 第 1図を用いてデータ可視化のフローチャートを説明する。 ユー ザ一操作 1 0 1はデータと実行するァクションを選択する部分である。 ァ クシヨンには、 データ取得 1 0 2とデータ処理 1 0 3がある。 データ取得 には、 各種検索条件による蛋白質一低分子化合物相互作用データベース 1
0 4からの検索によるデータ取得、 表示画面上で指定された蛋白、 あるい は低分子化合物に関連した各種相関関係テーブル 1 0 5からのデータ取得 がある。 データ処理には、 表示画面上で指定されたエントリーに対するク ラスタリ ング等の処理や表示スケールの変更等の処理がある。 取得、 ある いは処理されたデータは表示データ 1 0 6として扱われる。 次に、 表示デ ータに対して、 データの表示形式と要約度が決定される。 データの表示形 式と要約度は、 表示データのデータ数に応じて、 予め用意されたデータの 表示形式と要約度決定ルール 1 0 7に基づいて決定される。 決定されたデ ータの'表示形式と要約度に従い、 データの画面表示 1 0 8が行われる。 各 種相関関係テーブルとしては、タンパク質一タンパク質相互作用テ一ブル、 タンパク質の発現プロファイルテーブル、 低分子化合物一低分子化合物間 の構造類似性や、薬効上または毒性上の相互作用テーブル等が考えられる。 本発明の要点である、 「データの表示形式と要約度が、 表示データのデー タ数に応じて、 予め用意されたデータの表示形式と要約度決定ルールに基 づいて決定される」 という点について、 以下詳細に説明する。
まず、 データの表示形式について説明する。 第 2図に低分子化合物とタ ンパク質の相互作用データの画面表示例を示す。 行列の縦方向に低分子化 合物のラベル 2 0 1、 横方向にタンパク質のラベル 2 0 2を並べ、 行列部 分 2 0 3には実験的に測定されたタンパク質と低分子化合物の間の結合定 数のうちある閾値より上のものに関して結合の強さ別に色の濃さを変えて 表示している。 また、 化合物ラベルの左側には化合物の特徴量として分子 量 2 0 4を表示し、 タンパク質ラベルの上側にはタンパク質の特徴量とし て、 アルファへリ ックスとベータス トランドの数 2 0 5 と蛋白質相互の相 同性に基づくクラスタリ ング情報 2 0 6を表示している。
表形式で画面表示された相互作用データについては、 相互作用データプ 口ファイルに基づくクラスタリ ング、 あるいは、 タンパク質の特徴量や、 低分子化合物の特徴量に基づくクラスタリ ングを行い、 得られたクラスタ リ ング情報に基づいてデータを並べ替えて表示することが可能である。 相互作用データを用いたクラスタリ ングは、 例えば以下の方法によって 行う。 ひとつの低分子化合物 Ciに着目して、 それと各タンパク質 Pjの相互 作用強度プロファイル 1 (j =l , . . . , Np, Npはタンパク質数) を考え る。 次に、 全ての低分子化合物間で総当りの相互作用強度プロファイル間 距離を計算する。低分子化合物 と低分子化合物 Ck間の相互作用強度プロ ファイル間距離 Dikは、 低分子化合物 とタンパク質 Pj間の相互作用強度 が I とすれば、 例えば以下の式によって計算される。
Figure imgf000017_0001
上式中の和は j =l, . . . , Npについてとる。
この式によって得られた総当りの Dikに対して閾値を設けることによつ て、 低分子化合物をクラスタリ ングすることが可能である。 次に、 ひとつ のタンパク質 Piに着目して、それと各低分子化合物 の相互作用強度プロ ファイル Iij (j =l, … , Nc, Ncは低分子化合物数) を考える。 低分子化合 物の場合と同様にして、 全てのタンパク質間で総当りの相互作用強度プロ ファイル間距離を計算することによって、 タンパク質をクラスタリ ングす ることが可能である.。
上記のクラスタリ ングを実際に行った結果が、 第 3図に示されている。 低分子化合物は 3つ、 タンパク質も 3つのクラスターに分類され、 その 結果は低分子化合物のラベル上に低分子化合物クラスター A 3 0 1、 低分 子化合物クラスター B 3 0 2、 低分子化合物クラスター C 3 0 3として、 ま たタンパク質のラベル上にタンパク質クラスター A 3 0 4、 タンパク質ク ラスター B 3 0 5、 タンパク質クラスター C 3 0 6 として色の濃さで識別表 示されている。 クラスター毎に相互作用データである結合定数の平均値が 内部で計算され、 クラスタ一は結合定数の平均によって上から下、 左から 右へ降順にソートされている。 したがって、 全体的な傾向として、 マトリ クス部分の左上のほうに結合定数の高い (色の濃い) セルが集まり、 右下 のほうには結合定数が低い又は閾値以下の結合しかないセルが集まってい る。 このような相互作用プロファイルに基づいたクラスタリングを行うこ とによって、 特定の低分子化合物とタンパク質の組からなるクラスター 3 0 7や、 一つのタンパク質について特異的に相互作用をもつ多くの化合物 を含むクラスター 3 0 8などが視覚的に明らかになる。 創薬研究への応用 として、 相互作用プロファイルに基づいて作成された低分子化合物のクラ スターに共通する母核構造を抽出して、 それを薬物の機能を担うファーマ コフォアとして構造展開の種とするアプローチが可能である。
同様に、 分子量をいくつかの区分に分けてクラスタリ ングしたり、 タン ノ、。ク質のァノレファヘリ ッタスとベータス トランドの数をあるノレ一ノレに従つ て分類したりすることが可能である。そして、分子量に基づくクラスター、 0 アルファヘリ ッタスとベータス トランドの数に基づくクラスター、 或いは あらかじめ計算されているアミノ酸配列の相同性に基づくクラスターのそ れぞれについて表示データを並べ替えることができる。 特に、 ある特徴量 についてデータを並べ替えた結果、 特徴的な結合定数の色彩パターンが表 れた場合には、 その特徴量と結合定数が密接に関連していることを知るこ とができる。
第 4図に、 データを低分子化合物側については分子量、 タンパク質側に ついてはアミノ酸の相同性にもとづいてクラスタリ ングをし、 クラスタリ ング結果によって表を並べ替えた結果を示す。 低分子化合物は分子量によ つて分子量の比較的大きなクラスター A 4 0 1、中程度の分子量を持つクラ スター B 4 0 2、 分子量の比較的小さなクラスター C 4 0 3に分類されてお り、データ全体は分子量について降順にソートされている。タンパク質は、 ァミノ酸配列の相同性に基づいてクラスター 1、 4 0 4とクラスター 2 , 4 0 5が画面上に示されている。 ここでは、 クラスター B に属する低分子 化合物が相互作用マト リタスの中では比較的相互作用が高い領域 4 0 6 と 重なっているように見える。 一方、 アミノ酸の相同性に基づくクラスタリ ング結果と相互作用強度の間には明白に視認できるような相関は見当たら ないようである。 このように特徴量に関してクラスタリ ングを行い、 その 結果によってデータを並べ替えることによって、 相互作用データをよく説 明するような特徴量を発見できる可能性がある。 低分子医薬品がもつ特徴 量 (分子特性) としてよく知られているものに Chr istopher A. Lipinski 博士の" Rul e of five" (Advanc ed Drug De l ivery Revi ews , 23 ( 1997 ) 3 - 25 ) があるが、 特徴量によるクラスタリ ング結果と相互作用データを同時に可 視化することで、 特定の実験データを説明する特徴量や、 特定のタンパク 質の標的となり うる低分子化合物が持つべき特徴量をルール化することも 可能であると考えられる。
第 3図あるいは第 4図の表形式のデータ表示においては、 表の個々のセ ルがーつのタンパク質と低分子化合物の相互作用に対応している。 これを ここでは 「個々データ表示形式」 と呼ぶ。 しかし、 個々データ表示形式に おいてはタンパク質の数や低分子化合物の数が増えるにしたがって、 表の サイズが大きくなり、 データ全体の把握が難しくなってくるという欠点が ある。 すなわち、 データ数の増大に応じて表の個々のセルのサイズを変え なければ、 表全体が画面に入りなくなり、 データ全体の様子を一望するこ とができなくなる。 逆に、 表の個々のセルのサイズを小さくすることによ つて、 表全体を画面内に収めるようにすると、 セルに表示された相互作用 データのパターンが細かくなり、 その特徴の認識が困難になる。 そこで、 データ数が増大した場合も一望して表全体の相互作用パターンを認識可能 にするために、 第 3図あるいは第 4図における個々のクラスターを表上の 一つのセルとして情報を表示することを可能にした。 これをここでは 「ク ラスター表示形式」 と呼ぶ。
第 5図において、 クラスター表示形式での情報表示例を示す。 ラベル 5 0 1にはクラスターの番号が入り、 特徴量としてはクラスターに属する要 素の数 5 0 2と、 クラスターに属する要素のリス ト 5 0 3が示されている。 マト リクス部分 5 0 4にはクラスターごとの測定データの平均値が色の濃 さによって表示され、 クラスターを構成する要素の数が数値によって示さ れている。 個々データ表示形式による情報表示とクラスター表示形式によ る情報表示の切り替えが可能である。 また、 一つの表示形式における行や 列の並べ替え、 削除などの操作はもう一つの表示形式に反映される。 クラ スター表示形式においては、 似たタンパク質同士、 似た低分子化合物同士 がクラスターを形成することから、 代表的なデータを取りこぼすことなく 可視化することができる。 それと同時にクラスターの数を調節することに よって、 相互作用データの数が多いときも表示される表の行数、 列数をコ ントローノレできる。
個々データ表示形式とクラスター表示形式に相補的な情報表示形式とし て、 「統計量表示形式」 がある。 これはデータの全部または一部に対して平 均値、 標準偏差などの統計計算を行い表示したり、 異なるデータソースか ら抽出されたデータの件数を表示したりする形式である。 統計量表示形式 においては、 相互作用データの数にかかわりなく、 データの全体像を把握 することができる。 特に、 データ数が増大した場合には、 クラスター表示 形式においても、 一望して表全体の相互作用パターンを認識することが困 難になってくる。 このような場合に、 統計量表示形式は、 データの全体像 を把握するという観点で非常に有効である。
本発明においては、 表示形式を複数用意すると同時に、 行列の各セル中 に表示する情報として、 要約の程度を変えたものを複数用意しておき、 そ の中からデータ数に応じたものを選択して用いることを特徴としている。
タンパク質と低分子化合物の相互作用データの表示においては、 4つの 要約度 (0— 4 ) を用意する。 要約度 0では、 データベースに格納されて いる情報や、 そこから計算された統計量などをもれなく表示する。 要約度 1では、 一つのセル当たり 6 4文字までの文字データ、 記号、 色彩を表示 できる。 データベース中のテキス トフィールドで 6 4文字以下のものや、 たとえ長いものであっても 6 4文字以下に情報を削減できるものであれば 表示可能である。 要約度 2では、 一^ ^のセル当たり 8文字までの文字デー タ、 記号、 色彩を表示できる。 要約度 3では、 文字データは表示しない。 全ての情報を色彩で表現する。
実装においては、要約度 0における情報表示はフリーフォーマッ トとし、 要約度 1では一つのセルのサイズを縦 6 0ピクセル X横 1 2 0ピクセルと して、 その中に 1 6文字 X 4行分のテキス トを表示する領域を確保する。 要約度 2では一つのセルのサイズを縦 2 0 ピクセル X横 6 0 ピクセルとし て、 その中に 8文字 X 1行分のテキス トを表示する領域を確保する。 要約 度 3では一つのセルのサイズを縦 5ピクセル X横 5ピクセルとした。 原理 的には一つのセルのサイズを最低 1 ピクセル X 1 ピクセルにまで縮小する ことは可能であるが、 マウスを使って個々のデータを操作可能なセルサイ ズを選択している。
これら 4つの要約度における画面表示は、 切り替え表示が可能である。 第 6図に個々データ表示形式での 4つの要約度別の情報の画面表示例を示 す。
要約度 0における画面表示 6 0 1では、 相互作用のデータ、 低分子化合 物のデータ、 タンパク質のデータが詳細に表示されている。 表示フォーマ ッ トは自由であり、 タンパク質や低分子化合物の構造なども表示し操作す ることが可能である。
要約度 1における画面表示 6 0 2では、 タンパク質関連の各種外部デー タベースへアクセスするためのキー、 低分子化合物の名前や薬効、 また相 互作用の測定データの詳細な数値などを表示している。
要約度 2における画面表示 6 0 3では、 表示される文字データは 8文字 までに限られるので、 行や列を識別するためのラベルや、 相互作用の測定 データの主要な値などの限られた情報を表示している。
要約度 3における画面表示 6 0 4では、 各セルがとる値を色彩情報に変 換して表示している。 これによつて類似したデータを色彩のパターンから 視認することができる。
選択されたデータ項目について、 要約度によってどのように情報を要約 するのかに関してルールを作る必要がある。 基本的なルールは、 要約度 0 においては、 すべての情報の表示、 要約度 1 と 2においては文字の長さに 応じた情報表示、 要約度 3においては色彩表示となっている。 この基本的 なルールにのっと り、 詳細な要約のルールを、 データベースに存在するそ れぞれのデータ項目について定義する必要がある。
第 7図に、 一例として、 低分子化合物特徴テーブルについての要約ルー ル決定表を示す。 要約度 7 0 1に応じて、 テーブル中のフィールドのうち どのデータ項目 7 0 2を、 どの場所 7 0 3に、 どのような要約ルール 7 0 4で加工して画面表示をするかについての情報が与えられている。
フィールド名が要約ルール決定表に現れない場合は、 そのフィールドは 表示されないことを意味する。 要約ルールが 「そのまま」 7 0 5の場合、 データベースに格納されているデータをそのまま表示する。 別の例として
「色彩 ( 2 0 0, 3 0 0 , 4 0 0, 5 0 0 )」 7 0 6の場合、 値が 2 0 0未 満、 2 0 0以上 3 0 0未満、 3 0 0以上 4 0 0未満、 4 0 0以上 5 0 0未 満、 5 0 0以上の五つのケースについて色分け表示をする。 このような要 約ルール決定表をデータベース中のそれぞれのテーブルについて持つ必要 P T/JP2004/010250 力 Sある。
以上、 3つのデータの表示形式と、 4つのデータの要約度を説明した。 これらを組み合わせることによって多種多様な角度からデータを可視化す ることが可能である。 本発明は、 ユーザーが見たい情報を選択すると、 そ のデータ数に応じて最適なデータの表示形式とデータの要約度を自動的に 決定する機能に特徴がある。
データの表示形式とデータの要約度を自動決定するための入力データと して、 タンパク質と低分子化合物の相互作用データの可視化の例において は、 タンパク質の数 P、 低分子化合物の数 C、 タンパク質クラスターの数 Pc、 低分子化合物クラスターの数 Cc、 及び、 画面上における情報表示領域 のパラメタ一 X (高さ)、 y (幅) が必要である。 クラスターの種類が複数 ある場合は初期設定として登録されているクラスターの数を使用する。 第 8図にデータの表示形式とデータの要約度を決定するためのルールを 表形式で示す。 条件 8 0 1を上から順番に見ていき、 条件を満たしたとこ ろで、 その行に記述されている表示形式 8 0 2と、 要約度 8 0 3を採用す る。 条件を満たさない場合は、 次の行の条件を見る。 ここで、 G、 R、 Gc、 Rcは第 8図中で定義された数値である。 以下この表を説明する。
P X C (表示画面內のセル数に該当) が一定値 (この場合は 3 ) より小さ い場合、 個々データ表示で要約度 0を用いる。
P X C〉 3で、 かつ G≤ 1 1 & R≤ 1 1の場合は、 列方向特徴量表示数 と行方向特徴量表示数がともに 1である場合、 タンパク質の数 P、 低分子 化合物の数 C共に 2以上で、 9以下となる。 この場合は、 要約度 1を用い るので、一つのセルのサイズが縦 6 0 ピクセル X横 1 2 0 ピクセルとなり、 縦 4 5 0 ピクセル X横 9 0 0 ピクセルの情報表示領域においては、 全デー タの表示サイズは、 縦 2 4 0 ピクセル X横 4 8 0 ピクセル〜縦 6 6 0ピク セル X横 1 3 2 0 ピクセルとなる。 これは、 情報表示領域全体の 1 . 5 X 1 . 5倍以内のサイズである。
タンパク質の数 P、 低分子化合物の数 C が増大するに従って、 図 8に従 い順次、要約度を 2、 3 と大きく していく。 さらに P, C数が増大した場合、 クラスター表示に切り替え、タンパク質クラスターの数 Pc と低分子化合物 クラスターの数 Ccが増大するに従って、 要約度を 1、 2、 3 と増加させて いく。
以上示した表示形式と要約度の切り替えを行うための G、 R、 Gc、 Rcに対 する条件としては、 全データの表示サイズが、 情報表示領域全体の 1 . 5 X I . 5倍以内のサイズになるような条件を設定している。 データ表示領 域の n X m 倍以内に全データの情報を表示するという一般化された基準を 満たすようにするには、
x X n≤P (又は Pc) and y X m≤C (又は Cc)
という一般化された条件を、 データの表示形式と要約度の決定に用いれば よい。
このようにすることによって、 データの全体、 あるいはその一定の倍数 のデータ量を、 情報表示領域内で表示することが可能になり、 かつ、 デー タ数の増減に応じて要約度を上下させることによって、 セル内に、 一望し て認識可能でかつ最大限の情報量を表示可能になる。 これにより、 表示す べきデータ数にかかわらず、 個別セル内から得られる情報量を最大に保ち つつ、 データの全体像の観察が可能になる。
新規創薬ターゲッ トの発見のプロセスにおいては、 タンパク質と低分子 化合物の相互作用を可視化すると同時に、 他の関連する生体関連の相互作 用についても同時に情報を得て、 包括的に情報を整理し、 理解することが 極めて重要である。 関連する生体関連の相互作用の例として、 低分子化合 物同士の薬効や毒性に関する相互作用、 タンパク質同士の相互作用、 タン パク質と発現に関する情報などが挙げられる。 本発明においては、 これら 関連情報を取得し、 取得したデータ数に応じて、 上述した表示形式と要約 度の決定ルールに従い、 表示することが可能である。
関連情報の取得は、 以下のように行う。 表示されているデータテーブル 内の着目するセル領域を選択し、 このセル領域に属する低分子化合物 I D とタンパク質 I Dを抽出する。 これらの I Dを、 関連データテーブル中で 検索し、 検索された I Dに付随する情報を関連データテーブルから抽出す る。
第 9図に、 関連情報抽出の具体的な方法を示す。 タンパク質一低分子化 合物相互作用テーブル 9 0 1のうち (C5,P12) と (C9 , P12) の二つに着目 しているとき、 タンパク質間の結合強度を 1 0 0を最大値として規格化し たタンパク質一タンパク質相互作用テーブル 9 0 2と、 発現ライブラリ一 における定性的なタンパク質の発現量を示すタンパク質一発現テーブル 9 0 3からはタンパク質の IDが P12であるもののうち、データが存在するも のを抽出する。 同様に低分子化合物間の多剤併用による効果のある · なし のデータを格納した低分子化合物一低分子化合物相互作用テーブル 9 0 4 からは IDとして C5,C9を持つもののうち、データが存在するものを抽出す る。
関連情報の抽出結果は第 1 0図のように、 抽出元の表ごとに整理されて 表示される。 ユーザーが見たい表を選択すると、 そのヒッ ト件数に応じて 自動的に情報の表示形式と要約度が設定され、 設定された表示形式と要約 度で情報が画面表示される。 そのようにして表示された情報の一部から、 また関連情報を取得することができる。 したがって、 本発明によって多次 元の相互作用データを 1対 1相互作用データ間のリ ンクを効率的にたどる ことで可視化することができる。
本発明の可視化方法を実装したィンターフェースにおいては、 画面表示 された情報のうち一部を選択し、 選択されたデータに対して、 複数のァク ションから選択したァクションを実施し、 ァクションの結果得られた情報 が画面表示される。 第 1 1図にユーザーインターフェースの例を示す。 表 示モードの変更ポタン 1 1 0 1、 要約度の変更ポタン 1 1 0 2、 関連情報 取得ボタン 1 1 0 3に加え、 行や列の入れ替え、 並べ替え、 クラスタリ ン グ、削除などのァクションに関連する機能群 1 1 0 4と、特徴的な行や列、 代表的なサブセッ トとしての行や列などの選択に関連する機能群 1 1 0 5 を備える。 また、 画面上に表形式で表されているセルの一つ一つに対して マウス操作によるアクションが割り当てられていて、 それによつて、 行や 列を選択したり、 関連情報表示画面 1 1 0 6にセルの中には表示できない 長い文字列データなども表示したりできる。
[実施例 2 ]
本実施例では、 相互作用データの並べ換えとその結果形成されるクラス ターの解析結果の可視化によって、 どのように創薬にとつて有用な知識を 抽出するかを説明する。 2つの事象間の相互作用として、 タンパク質と低 分子化合物の間の結合強度を考える。 こ こ で、 結合強度の値は Prot e in-Ligand Database ( ht tp: / / www. mi tchel l'. ch. cam. ac. uk/p丄 d/) か ら取得した乖離定数で、それぞれの値は論文に収録されているものである。 結合強度として、 乖離定数が 1 0— 5より小さなもののみを抽出すると、 相 互作用情報は低分子化合物 9 5種類、 タンパク質 6 7種類からなる行列の 形で書ける。
この行列の類似性に基づいて、 PLDデータを低分子化合物を 2 5、 タン パク質を 1 5のグループに分割するようなクラスタ一にした前後の結果を 第 1 2図に示す。 クラスタリ ング前の行列 1 2 0 1がクラスタリ ング後の 行列 1 2 0 2のように並べ替えられる。 クラスタリ ングを行う前は行列上 に相互作用のあるタンパク質と低分子化合物の組み合わせを示す点が散在 しているが、 クラスタリングを行うことで、 相互作用の強度のパターンが 類似した行や列が隣接して表示される。 クラスタリ ング結果に意味を見出 せる領域 1 2 0 3では相互作用の強い領域が行列上で 「島」 のように浮き 立って見える。 しかし、 クラスタリ ングの結果に非類似な相互作用データ が入り混じった領域 1 2 0 4もあり、この領域では一つ一つの行列上の点、 すなわち相互作用強度のデータは他と類似性を持たないと解釈できる。 第 1 3図に PLDデータのクラスタリング結果の 2種類の表示例を示す。 まず、 それぞれのクラスターに属するデータは、 クラスタリ ング結果に意 味があれば、 相互作用強度が類似であるはずである。 そこで、 クラスター に含まれる要素のすべてを 1つの代表値で表すことにより、 表の行や列の 数を削減できる。 代表値としては、 ここでは平均値を用いた。 クラスター を単位とした行列データの一部を要約度 2で画面表示した例 1 3 0 1にお いてはクラスターに属する低分子化合物の数 1 3 0 2と、 クラスターに属 するタンパク質の数 1 3 0 3 と、 それらの積で定義されるクラスターに属 する相互作用の数 1 3 0 4が表示されている。 ここでは、 低分子化合物を 2 5のクラスタ一にし、 タンパク質を 1 5のクラスターにしたため、 表全 体のサイズは 2 5 X 1 5 となる。 タンパク質と低分子化合物の間の相互作 用マトリタスの解析においては、 クラスターのうち特に相互作用の強度が 高い要素に着目する。 したがって、 1 3 0 1に示すように、 相互作用の強 度順にクラスタリング結果の表を対角方向に並べ替えることはデータを着 目の優先度の順序に並べ替えることに相当する。 まず、 2 5 X 1 5の行列 の中から、 最大の値が入っている要素の位置を特定する。 その要素の位置 力 s ( P、 q ) であったとしたら、 行列の 1行目と P行目、 1列目と q列目 を入れ替えることで、 最大の値をもつ要素を行列の ( 1, 1 ) すなわち左 上に移動できる。 この操作を繰り返すことで、 クラスタリ ングの結果を対 角方向に並べるわけであるが、 唯一の違いは、 2 周目の操作においては、 最大の値が入った要素を行列の 1行目と 1列目を除いた 2 5 X 1 4の行列 から探しだし、 その要素を (2 , 2 ) の位置に移動することである。 また、 クラスターを単位として表示された行列を、 個々のタンパク質と低分子化 合物を単位にした行列による表示 1 3 0 5に戻すことができる。 ここで前 記のクラスターに属する相互作用の数 1 3 0 4は 1 2の要素を持つので、 それをタンパク質と低分子化合物を単位として表示すると、 縦 1 2 X横 1 の行列で表されるクラスター 1 3 0 6 となる。
以下では、 相互作用に基づいて得られたクラスターから、 低分子化合物 が持つ共通の属性を抽出する方法について説明する。 上記で得られたクラ スターの要素である化合物群の物性値 1 3 0 7 として、構造分類、分子量、
Molar Refract ivity , 水 · ォクタノール間の分配係数を同時にみることが できる。 相互作用強度におけるクラスタリング結果と物性値の同時観察か ら、 このクラスターの要素である化合物はすぺて同一の構造分類に属する ことがわかり、 HETERO CYCLIC AROMATIC COMPOUNDS (ヘテロ環を持つ芳香 族化合物) である。 しかしながら、 分子量、 Molar Refract ivity , 水 ' ォ クタノール間の分配係数といった数値情報から相互作用強度との間の関係 を説明するのは容易ではない。 分子量だけを見ても 2 0 0を下回るものか ら、 9 0 0を超えるものまである。 これら多様な物性値を持つ化合物が同 一のタンパク質に強く結合するということは、 これら化合物の間に、 タン パク質との結合のために不可欠な部分構造があることが想像される。 物性 値そのものは、 その不可欠な部分構造に不可された残りの構造が大きく違 えば当然違った値になる。 本発明では、 化合物のラベル上をクリ ックする ことで実際に化合物の構造を表示して見比べることができる。 そのような 構造の比較により化合物の共通構造や活性部位を推測することが可能であ る。 ここでは、 そのような詳細な解析は本発明の範囲外であるため割愛す る。 一方で、 化合物の物性と相互作用強度が対応するクラスター 1 3 0 8 も存在する。 クラスター 1 3 0 8の要素である化合物の物性 1 3 0 9を観 察すると、 分子量、 Molar Refract ivity , 水 ' ォクタノール間の分配係数 のすぺてにおいて、 と り うる値の範囲は比較的限定されていることがわか る。 Mo lar refract ivi tyでいえば、 8. 3から 11. 5の間であり、 log P値は 2. 4 から 4. 5 の間である。 構造分類の面からもこのクラスターに属する化 合物のほとんどは 3 AND MORE RING SYSTEMS ( 3つ以上の環構造をもつ化 合物) の分類に属する。 クラスター 1 3 0 8の相互作用強度と化合物の物 性値 1 3 0 9の値を 3段階の値に射影した表 1 3 1 0の観察から物性と結 合強度の間のより詳しい関係が見える。 強い結合を持っための物性値の条 件は、 水 'ォクタノール間の分配係数が小であり、 Mo lar Refrac t ivi tyが 中または大であることの 2つを同時に満たすことである。 どちらか一方を 満たした場合には結合強度は中程度になり、 どちらも満たさない場合には 結合強度はクラスター中の化合物の中では最も弱くなる。 このような例は、 化合物の構造と物性を加味しながら、 対応するタンパク質に対してより特 異的に結合する化合物をデザィンすることが可能であることを示している c 本例では、 Molar refract ivi tyでいえば、 9から 11. 5の間であり、 log P 値は 2. 4から 3. 3の間であるような化合物は、 当該タンパク質に対してよ り特異的に結合する可能性があると予測される。
[実施例 3 ] 本実施例では、 相互作用に基づいて得られたクラスターから、 化合物、 あるいはタンパク質が持つ共通の属性を抽出する方法として、 化合物、 あ るいはタンパク質の属性が複数の要素からなるプロファイルで表現される 場合について、 第 1 4図を用いて説明する。 第 1 4図は、 タンパク質の属 性として細胞組織における発現プロファイル行列 1 4 0 2を、 低分子化合 物の属性として有害事象行列 1 4 0 3を取得し、 それらを図のように低分 子化合物タンパク質間相互作用の行列 1 4 0 1に隣接して表示したもので ある。 タンパク質を P 1〜P 7、 細胞組織を T 1〜T 7、 低分子化合物を C 1〜C 6、 有害事象を S 1〜 S 5と表示している。 ここで、 タンパク質 間相互作用行列は、 実験によって得られたものを使用してもよいし、 文献 より取得したものでもよい。 また、 有害事象行列は、 例えば、 日本医薬品 集 DB (http://www.japic.or.jp/publications/inaex3.ntml) におり o 害事象に関する項目中に、 国際医学用語集である 医薬規制用語集 ( MedDRA) 中の各用語が出現するか否かを調べる こ と によ って、 得られる。
低分子化合物タンパク質間相互作用クラスター 1 4 0 4は、 二つの領域 1 4 0 6、 1 4 0 7に分類可能である。 これら二つの領域は、 細胞組織に おける発現プロファイル行列においては、 それぞれ異なるプロフアイノレ 1 4 1 0、 1 4 1 1を持つ二つのタンパク質群 (P 4、 P 5)、 (P 6、 P 7 ) に対応している。 これにより、 クラスター 1 4 0 4中のタンパク質は、 全 て共通の低分子化合物 C 2 と相互作用するが、 細胞組織における発現プロ ファイルにおいては、 異なる二つのタンパク質群と相互作用することがわ かる。 このことは、 この低分子化合物が医薬品の場合には、 異なる生理学 的機能を有する二種類のターゲッ トタンパク質と相互作用することを意味 する。 さらに相互作用する相手のタンパク質の機能を調べることにより、 この医薬品の薬効との関連性について推測することが可能になると考えら れる。
有害事象行列の表示からは、 低分子化合物タンパク質間相互作用クラス ター 1 4 0 5は、 二つの領域 1 4 0 8、 1 4 0 9に分類可能である。 これ ら二つの領域は、 有害事象においては、 それぞれ異なるプロファイル 1 4 1 2、 1 4 1 3を持つ二つの低分子化合物群 (C 2、 C 3 )、 (C 4、 C 5 ) に対応している。 これらの二つの低分子化合物群のうち、 ひとつは一つの タンパク質 P 1 と相互作用するが、 もう一つはもう一つのタンパク質 P 2 を加えた二つのタンパク質と相互作用することがわかる。 これにより、 二 つのタンパク質がそれぞれ異なる有害事象プロファイルに関連しているこ とが推測可能である。
低分子化合物、 及びタンパク質の属性としての複数の要素からなるプロ ファイルとしては、 タンパク質間相互作用、 タンパク質の系統樹プロファ ィル、 化合物の構造プロファイル (MACCS key 記述子等) 等であってもよ い。 これら全ての場合に、 相互作用に基づいて得られたクラスターを構成 する低分子化合物やタンパク質が、 他の複数の要素からなるプロファイル としての属性でみた場合に、 どこがどのように異なるかを判定することが 可能になる。
上述したクラスターの解析結果を、 文献や特許から抽出された関連既知 情報と共に格納したデータベースを構築することができる。 クラスター解 析結果からの既知関連情報の検索や、 既知情報からのクラスタ一解析結果 の検索機能を、 本データベースに付加することによって、 この検索機能を 活用することによ り、 ユーザーは、 相互作用クラスターの分子生物学的あ るいは薬学的な解釈を行うことが容易に可能になる。
[実施例 4 ]
本実施例では、 前記生体関連事象間の複数種類の相関データを、 行列の セル中に同時に識別表示する方法について説明する。 2つの事象間の相互 作用として、 タンパク質と低分子化合物の間の相互作用を考える。 実験に よって得られた相互作用情報と文献等から得られた既知相互作用情報を同 時に表示した例を、 第 1 5図に示す。 第 1 5図では、 低分子化合物タンパ ク質間相互作用行列 1 5 0 1を示す。 低分子化合物を、 C 1〜C 6、 タン パク質を P 1〜P 7で表示する。 低分子化合物タンパク質間相互作用行列 の各セルを、 実験と文献から得られた相互作用のそれぞれに対応した上下 二つの領域に分割し、 相互作用の有無を、 分割された領域に記号 (実験; 像、 文献; 〇) を記载するかどうかによつて表示している。 図中には、 文 献等から得られた既知相互作用情報に基づく クラスタリ ングによって得ら れたクラスター 1 5 0 2を示している。 クラスター 1 5 0 2において、 実 験によって得られた相互作用に着目することによって、 既知相互作用情報 のうち、実験によってどれだけ再現できたかを評価することが可能である。 この場合、 (C 3、 P 4 ) のセルから、 低分子化合物 C 3、 タンパク質 P 4 間では、 文献で得られた相互作用は存在するが、 実験によっては相互作用 が得られなかったことがわかる。 また、 既知相互作用情報のクラスターに 属さない、 実験によって得られた相互作用 1 5 0 3に着目することによつ て、 文献にはないが実験によって新しく得られた相互作用を同定すること ができる。
2つの事象間の相互作用として、 医薬品低分子化合物の化学構造類似度 情報と有害事象行列による分類情報を同時に表示した行列 1 6 0 1を、 第 1 6図に示す。 医薬品低分子化合物の化学構造類似度情報は、例えば MACCS Key目 ΰ α ^子 \Reop timiza tion of MDL Keys for Use in Drug Di scovery, j . L. Durant , B. A. Le land , D. R. Henry , J. G. Nours e , JC I CS , 2002 , 42 ( 6), 1273-1280. ) 間の類似度によって得ることができる。 また、 有害事象 行列による分類情報は、 実施例 2で説明した有害事象行列における、 有害 事象プロファイル間の比較によって取得可能である。 行列のセルを、 化学 構造類似度情報と有害事象行列による分類情報のそれぞれに対応した二つ の領域に分割し、 分割された領域への記号の記载によって、 化学構造類似 度情報と有害事象行列による分類情報を表示している。 化学構造類似性強 度を色の濃さ (き ; 高い類似性◎ ; 中位の類似性 Δ ;低い類似性) によつ て、 有害事象行列による同一クラスターへの所属の有無を〇の有無によつ て表示している。
第 1 6図には、 化学構造類似度情報に基づくクラスタリングを行い、 得 られたクラスターを行列の対角線近傍に集めた結果を示している。 化学構 造類似度情報に基づくクラスター中の化学構造類似度と有害事象行列によ 4 010250 る分類情報を比較観察することによって、 化学構造類似度がどの程度あれ ば有害事象行列によって同一分類になるかがわかる。 例えば、 クラスター
1 6 0 2において、 低分子化合物 C 2 、 C 3 、 C 4 、 C 5は相互に化学構造類 似性が存在する。 低分子化合物 C5、 C4間 1 6 0 3では、 弱い化学構造類似 度が存在するが、 有害事象行列によっては同一クラスターへ帰属しないこ とがわかる。 1 6 0 4に示すように化学構造類似度がない化合物ペアにお いて、 有害事象行列によって同一クラスターになる場合は、 化学構造類似 度に依存しない有害事象の存在を確認することができる。
同時に表示する相関データとしては、 タンパク質間の配列類似性と構造 類似性、 タンパク質間の配列類似性と機能の類似性、 タンパク質間の配列 類似性と発現プロファイルの類似性、 低分子化合物間の構造類似性と薬効 分類や、 低分子化合物間の異なる二つの方法による構造分類、 であっても よい。 また、 異なる実験方法によって得られた相互作用情報であってもよ い。 これら全ての場合に、 一つの基準によって得られたクラスターが、 他 の基準によって得られたクラスターとどこが異なるかという情報を具体的 にかつ直感的に得ることができる。
[実施例 5 ]
本実施例では、 蛋白質と低分子化合物の複合体情報を二次元の表を使つ て表示する方法を説明する。 二つの生体関連事象はともに蛋白質残基の 原子および低分子化合物の重心である。ここで、蛋白質と低分子化合物は、 ともに複数が複合体中に存在してもよい。 これらの間の相関データとして、 原子間距離、 低分子化合物の重心間距離、 および Ca原子一低分子化合物 の重心間の距離を用いる。 蛋白質と低分子化合物がそれぞれ一つずつの場 合を、第 1 7図を用いて説明する。蛋白質構造の二次元表示方法としては、 蛋白質の 原子間距離を縦、 横共に残基番号順に並べた Distance Matr ix
Plotが長い間利用されており、 本実施例における方法は、 Dis tance Matr ix
Plot と類似している。 しかしながら、 本発明の方法では、 Distance Matr ix
Plotのようにプロッ トを単に残基番号順に並べるだけでなく、 原子間距 離、 低分子化合物の重心間距離、 および 原子一低分子化合物の重心間の 距離を基に、 c a原子と低分子化合物の重心のクラスタリングを行い、 クラ スターのメンバーが集まるようにデータを並べ替えることが可能である。 第 1 7図には、 距離情報として、 一定の距離以下の場合にセル中に ·を記 載し、 さらにクラスタリング後のデータ並べ替えを行った結果を示してい る。 距離行列の対角線上の左上に、 低分子化合物を含むクラスター 1 7 0 2が存在する。 このクラスターの観察から、 低分子化合物は、 タンパク質 の残基番号 1、 5、 6のアミノ酸に近接していることがわかる。 タンパク 質一低分子化合物複合体のモデル 1 7 0 3に示すように、 低分子化合物が 残基番号の離れたタンパク質残基と隣接することは非常に多い。 従来の Distance Matr ix Plotでは、 ポリぺプチド鎖に沿ったクラスターの観察は 容易だが、 ポリぺプチド鎖に沿わないが空間的に近いクラスターの同定は 容易ではない。 本実施例における方法では、 上記で示したようにポリぺプ チド鎖に沿わないが空間的に近いクラスターの同定が、非常に容易になる。
さらに、 蛋白質と低分子化合物の複合体における一部分を拡大表示した いときは、 データ表示形式を変更して、 各蛋白質残基の 原子および低分 子化合物の重心を原子間距離計算に使うかわりに、 各蛋白質および低分子 化合物を構成する全原子間の距離を用いることができる。 もちろん、 全原 子間距離の計算から水素原子を省略してもよい。 全原子表示においては、 低分子化合物のどの原子と、 蛋白質のどの残基内のどの原子が水素結合し ているかを容易に見ることができる。
また、 この方法を用いると、 ある一^ 5のタンパク質と一部異なる複数の 低分子化合物との間のドッキング結果を表示するような場合、 低分子化合 物中の原子とタンパク質中の原子のどれが近接しているかを、 複数のドッ キング構造の間で比較することが、 一つの行列の中で可能である。 従来法 の三次元的な構造図によって比較した場合は、 慣れた研究者が時間をかけ て図を観察する必要があるが、 本実施例によれば、 多くのドッキング構造 間の比較を一瞥のもとに容易に、 かつ定量的に行うことが可能になる。 産業上の利用可能性
二つの生体関連事象間の相関データを行列形式で表示する可視化方法に おいて、 本発明による可視化方法と、 該可視化方法を実装したインターフ エースを用いれば、 相関データ規模の大小によって、 相関データパターン の粗視化や、 セル毎の情報の他ソースへのアクセス等の作業をマニュアル で実施することなく、 相関データパターンとパターンを構成するセルに関 する情報を、 データ数の規模の変動に応じて自動的に選択された適切な表 示形式と要約度で、 同時に観察することが可能になる。 これによつて、 表 示すべきデータ数にかかわらず、 個別セル内から得られる情報量を自動的 に最大に保ちつつ、 データの全体像の観察が可能になる。 その結果、 相関 データの全体としての観察と少数データの詳細な観察を交互に繰り返す作 業を、従来のマニュアルに比べ大幅に効率的に実施することが可能になり、 大量の相関データからの有効な知識の発見を効率的に行うことが可能にな る。
本発明を生体関連事象間の相互作用データ、 例えばタンパク質一低分子 化合物間相互作用データ、 に適用したとき、 利用者はこれらの相互作用の 強度のすべてを一望に見ることができる。 また、 相互作用強度が類似した タンパク質や低分子化合物はデータの数が多いときには、 データ量がコン パク トにまとめられた形で画面上に提示される。 逆に、 利用者が相互作用 データのある一部に着目するときは、 詳細な情報を閲覧しながら創薬研究 における決定を下すことができる。 タンパク質一タンパク質相互作用や、 他の重要な相互作用データについても同様に本発明を用いて可視化しなが ら解析することで、 創薬のプロセスにおけるデータ処理を加速し、 ひいて は創薬のスピードアップにつながる。

Claims

請 求 の 範 囲
1 . 二つの生体関連事象間の相関データあるいは該相関データとそれぞ れの事象の特徴データを行列形式で表示する可視化方法において、 同一種 類または異なる種類の生体関連事象間の相関データあるいは該相関データ と各生体関連事象の特徴データを、 所望する表示データのデータ数に応じ て、 予め用意された ( a ) 複数のデータ表示形式から手動または自動的に 選択された一つの形式と、 (b ) 複数のデータ要約度から手動または自動的 に選択された一つの要約度に基づいて画面表示することを特徴とする生体 関連事象間相関データの可視化方法。
2 . 前記 ( a ) 複数のデータ表示形式として、 (A ) —対の事象間の相関 データを一つの表示データ単位とする表形式のデータ表示形式、 (B ) 事象 をクラスタリ ングした結果得られたクラスター間の相関データを一つの表 示データ単位とする表形式のデータ表示形式、 及び (C ) 相関データの集 合を統計処理した結果を一つの表示データ単位とするデータの表示形式か ら選択される表示形式を用いることを特徴とする請求の範囲第 1項に記載 の可視化方法。
3 . 前記 (B ) のクラスタリ ング方法として、 二つの生体関連事象に関 する属性情報、 又は二つの生体関連事象間の相関情報に基づくクラスタリ ングを用いることを特徴とする請求の範囲第 2項に記載の生体関連事象間 相関データの可視化方法。
4 . 前記 (B ) のクラスタ一間の相関データを一つの表示データ単位と する表形式のデータ表示形式において、 相関強度が強いクラスターから順 番に表の左上から順番に対角線上に結果を並べ替える機能を持つことを特 徴とする請求の範囲第 2項に記載の可視化方法。
5 . 前記 (b ) 複数のデータ要約度として、 データフィールドの表示ま たは非表示、 文字型のデータフィールド中のデータの短縮、 及び数値型デ 一タフィールド中のデータの短縮から選択される要約方法を用いることを 特徴とする請求の範囲第 1項に記載の可視化方法。
6 . 前記文字型のデータフィールド中のデータの短縮が、 階層構造を有 する文字情報から該階層の一部分を抽出する操作、 文字データ中からあら かじめ登録されているキーヮードを抽出する操作、 及び文字データを一つ の記号や文字または色彩で対応させる操作からなることを特徴とする請求 の範囲第 3項に記載の可視化方法。
7 . 前記数値型のデータ フ ィ ール ド中のデータの短縮が、 数値 を任意の有効数字で丸める操作、 数値の指数部分のみを取 り 出す 操作、 及び一定範囲の数値を色彩で対応させる操作からなる こ と を特徴とする請求の範囲第 3項に記載の可視化方法。
8 . 画面表示形式とデータの要約度の自動的な選択方法として、 画面表 示すべき相関データのェントリ一数及びあらかじめ指定された情報表示領 域と情報表示単位のサイズに応じて、 最大の情報量を与えるデータ表示形 式とデータ要約度の組を選択することを特徴とする請求の範囲第 1項に記 載の可視化方法。
9 . 前記生体関連事象間の複数種類の相関データを、 行列のセル中に同 時に識別表示することを特徴とする請求の範囲第 1項に記載の可視化方法,
1 0 . 前記生体関連事象間の相関データが、 低分子化合物とタンパク質 の相互作用であることを特徴とする請求の範囲第 1項に記載の可視化方法,
1 1 . 前記生体関連事象として、 一つ以上の分子の複合体において、 各 分子毎に分子内原子、 または分子内原子の集合から構造単位を定義し、 該 構造単位を構成する原子の座標から該構造単位の代表位置を定義し、 該構 造単位の各々を行及び列の要素として持ち、 該構造単位の代表位置間の距 離情報を行列のセル中に表示することを特徴とする請求の範囲第 1項に記 载の生体関連事象間相関データの可視化方法。
1 2 . 請求の範囲第 2項におけるクラスター内の、 メンバー間に共通の 生体関連事象の特徴量を抽出することを特徴とする二つの生体関連事象間 相関情報の解析方法。
1 3 . 前記生体関連事象の特徴量が、 数値又はテキス トから成る一つの 要素、 又は複数の要素、 あるいは分子の三次元構造を表す特徴量で表現さ れることを特徴とする請求の範囲第 1 2項に記載の二つの生体関連事象間 相関情報の解析方法。
1 4 . 請求の範囲第 1 2項又は第 1 3項に記載の解析方法によって得ら れたクラスターの解析結果を、 非特許文献や特許文献から抽出された関連 既知情報と共に格納し、 クラスター解析結果からの既知関連情報の検索や、 既知情報からのクラスター解析結果の検索機能を有したデータベース。
1 5 . 請求の範囲第 1項〜第 1 4項に記載の可視化方法、 解析方法、 デ ータベースをコンピューターに実行させるためのプログラムを記録したコ ンピューター読み取り可能な記録媒体。
PCT/JP2004/010250 2003-10-07 2004-07-12 生体関連事象間の相関データの可視化方法、解析法及びデータベース WO2005036441A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/569,494 US20060287831A1 (en) 2003-10-07 2004-07-12 Method for visualizing data on correlation between biological events, analysis method, and database
JP2005514528A JP4690199B2 (ja) 2003-10-07 2004-07-12 生体関連事象間相関データの可視化方法及びコンピューター読み取り可能な記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003348438 2003-10-07
JP2003-348438 2003-10-07

Publications (1)

Publication Number Publication Date
WO2005036441A1 true WO2005036441A1 (ja) 2005-04-21

Family

ID=34430961

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/010250 WO2005036441A1 (ja) 2003-10-07 2004-07-12 生体関連事象間の相関データの可視化方法、解析法及びデータベース

Country Status (3)

Country Link
US (1) US20060287831A1 (ja)
JP (1) JP4690199B2 (ja)
WO (1) WO2005036441A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information
JP2016514321A (ja) * 2013-03-13 2016-05-19 セールスフォース ドット コム インコーポレイティッド データアップロード、処理及び予測クエリapi公開を実施するシステム、方法及び装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214133A1 (en) * 2004-06-23 2007-09-13 Edo Liberty Methods for filtering data and filling in missing data using nonlinear inference
US8655800B2 (en) * 2008-10-07 2014-02-18 Hewlett-Packard Development Company, L.P. Distance based visualization of event sequences
WO2010126407A1 (en) * 2009-04-27 2010-11-04 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic tag control and fingerprinting event localization
US9165112B2 (en) * 2012-02-03 2015-10-20 Fresenius Medical Care Holdings, Inc. Systems and methods for displaying objects at a medical treatment apparatus display screen
US9280612B2 (en) 2012-12-14 2016-03-08 Hewlett Packard Enterprise Development Lp Visualizing a relationship of attributes using a relevance determination process to select from candidate attribute values
US9779524B2 (en) 2013-01-21 2017-10-03 Hewlett Packard Enterprise Development Lp Visualization that indicates event significance represented by a discriminative metric computed using a contingency calculation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269050A (ja) * 1997-03-24 1998-10-09 Canon Inc 情報処理装置及びその方法
JPH1185448A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 情報表示装置
JP2002149300A (ja) * 2000-11-15 2002-05-24 Isao Higashihara 表の表示および扱いに関する方法および装置
JP2003505749A (ja) * 1999-02-23 2003-02-12 ワーナー−ランバート カンパニー 遺伝子発現プロファイリングに由来する情報の管理と提示のためのシステムと方法
JP2003242154A (ja) * 2002-02-18 2003-08-29 Celestar Lexico-Sciences Inc 遺伝子発現情報管理装置、遺伝子発現情報管理方法、プログラム、および、記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091681A1 (en) * 2000-04-03 2002-07-11 Jean-Yves Cras Report then query capability for a multidimensional database model
WO2003081471A1 (fr) * 2002-02-18 2003-10-02 Celestar Lexico-Sciences, Inc. Dispositif de gestion de donnees d'expression genetique
CA2429909A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269050A (ja) * 1997-03-24 1998-10-09 Canon Inc 情報処理装置及びその方法
JPH1185448A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 情報表示装置
JP2003505749A (ja) * 1999-02-23 2003-02-12 ワーナー−ランバート カンパニー 遺伝子発現プロファイリングに由来する情報の管理と提示のためのシステムと方法
JP2002149300A (ja) * 2000-11-15 2002-05-24 Isao Higashihara 表の表示および扱いに関する方法および装置
JP2003242154A (ja) * 2002-02-18 2003-08-29 Celestar Lexico-Sciences Inc 遺伝子発現情報管理装置、遺伝子発現情報管理方法、プログラム、および、記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAWASHIMA H.: "Shinseiki iryo o mezashite-SNP to DNA chip DNA chip to bioinformatics", GENE & MEDICINE, KABUSHIKI KAISHA MEDICAL DO, vol. 4, no. 1, 10 February 2000 (2000-02-10), pages 129 - 133, XP002987075 *
KITANO H.: "System biology seimei o system toshite rikai suru", SHUJUNSHA CO., LTD., 1 July 2001 (2001-07-01), pages 72 - 90, XP002987074 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information
JP2016514321A (ja) * 2013-03-13 2016-05-19 セールスフォース ドット コム インコーポレイティッド データアップロード、処理及び予測クエリapi公開を実施するシステム、方法及び装置

Also Published As

Publication number Publication date
JP4690199B2 (ja) 2011-06-01
JPWO2005036441A1 (ja) 2006-12-21
US20060287831A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
Lex et al. Comparative analysis of multidimensional, quantitative data
Gratzl et al. Domino: Extracting, comparing, and manipulating subsets across multiple tabular datasets
Brazma et al. Gene expression data analysis
Kincaid et al. Line graph explorer: scalable display of line graphs using focus+ context
JP2004133903A (ja) 複数のデータタイプを同時に視覚表示及び操作するための方法及び装置
US20160232224A1 (en) Categorization and filtering of scientific data
US20020165674A1 (en) Method and system for analyzing biological response signal data
Simillion et al. Building genomic profiles for uncovering segmental homology in the twilight zone
Torkkola et al. Self-organizing maps in mining gene expression data
Partl et al. ConTour: data-driven exploration of multi-relational datasets for drug discovery
Furmanova et al. Taggle: Scalable visualization of tabular data through aggregation
WO2016118771A1 (en) System and method for drug target and biomarker discovery and diagnosis using a multidimensional multiscale module map
Kim et al. Visualizing set concordance with permutation matrices and fan diagrams
Wiltgen et al. DNA microarray analysis: principles and clinical impact
Klein et al. Visual analysis of biological activity data with Scaffold Hunter
WO2005036441A1 (ja) 生体関連事象間の相関データの可視化方法、解析法及びデータベース
Gonzalez et al. SitePainter: a tool for exploring biogeographical patterns
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
Ta et al. A novel method for assigning functional linkages to proteins using enhanced phylogenetic trees
Saffer et al. Visual analytics in the pharmaceutical industry
EP1221126A2 (en) Graphical user interface for display and analysis of biological sequence data
JP2004535612A (ja) 遺伝子発現データの管理システムおよび方法
Kincaid VistaClara: an interactive visualization for exploratory analysis of DNA microarrays
Lee et al. The next frontier for bio-and cheminformatics visualization
Havre et al. Bioinformatic insights from metagenomics through visualization

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005514528

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006287831

Country of ref document: US

Ref document number: 10569494

Country of ref document: US

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10569494

Country of ref document: US